Przygotowanie danych i inżynieria cech

Preprocessing danych to kluczowy krok w uczeniu maszynowym, który ma na celu poprawienie jakości i użyteczności danych. Dane rzeczywiste często są niekompletne, zawierają brakujące wartości, szumy, błędy lub nieprawidłowości, co negatywnie wpływa na działanie modeli (dane z tutoriali są zwykle idealnie przygotowane, a rzeczywiste zbiory danych są znacznie bardziej skomplikowane i wymagają starannej obróbki przed użyciem w modelach). Dlatego konieczne jest sprawdzenie i uzupełnienie braków, usunięcie błędów oraz ewentualne stworzenie nowych cech (feature engineering), które lepiej reprezentują ukryte zależności w danych.

Sam proces przygotowywania danych jest czasochłonny i wymaga kreatywności, więc w tej części naszego kursu postaramy się zobaczyć jakie są pomysły i główne działania, ale na każdym datasecie trzeba zastosować indywidualne podejście.

cleaning_data_meme.jpg

Link do Jupyter Notebook

Ćwiczenia dla tego tematu zostały zebrane tutaj.

Co dalej?

Kliknij tutaj, aby wrócić do strony głównej kursu.

* Podczas przygotowania opisów dla tego tematu, przy części zagadnień wykorzystane zostały narzędzia generatywnej sztucznej inteligencji.