Overfitting

Co to jest overfitting?

Overfitting ma miejsce wtedy, gdy model uczenia maszynowego zbytnio przyzwyczaił się do danych, na których był trenowany i traci możliwość zastosowania do innych zbiorów danych. Model jest przepasowany, gdy jest tak specyficzny dla oryginalnych danych, że próba zastosowania go do danych zebranych w przyszłości spowodowałaby problematyczne lub błędne wyniki, a zatem mniej niż optymalne decyzje.

Oto różnica między modelem prawidłowo dopasowanym a przepasowanym:

Overfitting

Źródło: Quora

Przekombinowany model nie będzie użyteczny, chyba że zastosujemy go do dokładnie tego samego zbioru danych, ponieważ żadne inne dane nie będą wypadać dokładnie wzdłuż linii przekombinowania.

Dlaczego przekombinowanie jest ważne?

Przekombinowanie powoduje, że model błędnie reprezentuje dane, na podstawie których się uczył. Nadmiernie dopasowany model będzie mniej dokładny na nowych, podobnych danych niż model, który jest bardziej ogólnie dopasowany, ale nadmiernie dopasowany będzie wydawał się mieć większą dokładność, gdy zastosujesz go do danych szkoleniowych. Bez ochrony przed nadmiernym dopasowaniem, twórcy modeli mogą trenować i wdrażać model, który ich zdaniem jest bardzo dokładny, podczas gdy w rzeczywistości będzie on osiągał gorsze wyniki na produkcji, gdy otrzymają nowe dane.

Wdrażanie nadmiernie dopasowanego modelu może powodować różnego rodzaju problemy. Na przykład, jeśli uważasz, że Twój model jest w 95% dokładny w przewidywaniu prawdopodobieństwa niespłacenia kredytu, podczas gdy w rzeczywistości jest on przepasowany i ma dokładność gdzieś bliżej 60%, zastosowanie go do przyszłych decyzji kredytowych spowoduje utratę biznesu, który w przeciwnym razie byłby opłacalny i spowoduje więcej niezadowolonych klientów.

Przekombinowanie + DataRobot

Platforma DataRobot chroni przed przekombinowaniem na każdym etapie cyklu uczenia maszynowego, wykorzystując techniki takie jak training-validation-holdout (TVH), partycjonowanie danych, N-krotną walidację krzyżową, oraz predykcję stosu dla predykcji modelu w próbie z danych treningowych. DataRobot korzysta z wiedzy najlepszych naukowców i automatyzuje proces dopasowania, dzięki czemu użytkownik może skupić się na wyborze modelu najbardziej odpowiedniego dla danego problemu biznesowego, nie kwestionując jego praktycznej dokładności.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.