Gradient Boosting iteracyjnie tworzy silny model predykcyjny, poprzez łączenie wyników wielu słabszych modeli (zazwyczaj drzew decyzyjnych), które poprawiają błędy poprzednich modeli. Każdy kolejny model jest trenowany na resztkowych błędach (residuals) poprzedniego modelu. Kluczowa jest optymalizacja funkcji straty za pomocą algorytmu gradientowego, który ma na celu minimalizację błędu między predykcją modelu a rzeczywistymi wartościami.
Rysunek: Przykład funkcji z globalnym minimum.
Na obrazku powyżej, minimalizacja funkcji będzie polegała na znalezieniu takich wartości x
i y
, dla których wartość funkcji na osi z
będzie najmniejsza (w tym kierunku zmniejsza się gradient).
Wzmocnienie gradientowe można stosować w szerokim zakresie problemów związanych z uczeniem maszynowym:
W porównaniu do regresji liniowej, Gradient Boosting umożliwia modelowanie bardzo złożonych danych, których zależności mogą być nieliniowe, dzięki czemu jest bardziej elastyczny. Pojedyncze drzewa decyzyjne mają skłonności do przeuczania i mogą być niedokładne, a wzmocnienie gradientowe trenuje drzewa w sekwencji, w której każde drzewo poprawia błędy poprzednika. Jest to też różnica z lasem losowym, w którym agregowane jest wiele losowo wygenerowanych drzew, ale te drzewa nie uwzględniają błędów poprzedników, więc Gradient Boosting umożliwia lepszą optymalizację.
Przejdź do kolejnego zagadnienia (Kluczowe pojęcia w Gradient Boosting]) lub kliknij tutaj, aby wrócić do strony głównej tematu.