Ce este Overfitting?
Overfitting are loc atunci când un model de învățare automată a devenit prea adaptat la datele pe care a fost antrenat și, prin urmare, își pierde aplicabilitatea la orice alt set de date. Un model este supraadaptat atunci când este atât de specific datelor inițiale încât încercarea de a-l aplica la datele colectate în viitor ar duce la rezultate problematice sau eronate și, prin urmare, la decizii nu tocmai optime.
Iată care este diferența dintre un model adaptat corespunzător și un model supraadaptat:
Sursa: Quora
Modelul supraadaptat nu va fi util decât dacă îl aplicăm exact aceluiași set de date, deoarece nicio altă dată nu va cădea exact de-a lungul liniei supraadaptate.
De ce este importantă supraadaptarea?
Supraadaptarea face ca modelul să reprezinte greșit datele din care a învățat. Un model supraadaptat va fi mai puțin precis pe date noi, similare, decât un model care este mai general ajustat, dar cel supraadaptat va părea să aibă o precizie mai mare atunci când îl aplicați la datele de învățare. Fără nicio protecție împotriva supraadaptării, dezvoltatorii de modele ar putea să formeze și să implementeze un model pe care îl consideră foarte precis, când, de fapt, acesta va fi mai puțin performant în producție atunci când i se oferă date noi.
Desfășurarea unui model supraadaptat poate cauza tot felul de probleme. De exemplu, dacă credeți că modelul dvs. este precis în proporție de 95% în ceea ce privește prezicerea probabilității de neplată a unui împrumut, când în realitate este supraadaptat și are o precizie undeva mai aproape de 60%, aplicarea acestuia la viitoarele decizii de împrumut va duce la pierderea unor afaceri care altfel ar fi fost profitabile și va duce la mai mulți clienți nemulțumiți.
Supraajustarea + DataRobot
Platforma automatizată de învățare automată DataRobot protejează împotriva supraajustării în fiecare etapă a ciclului de viață al învățării automate, utilizând tehnici precum training-validation-holdout (TVH), partiționarea datelor, validarea încrucișată N-fold și predicțiile suprapuse pentru predicțiile modelului în eșantion din datele de instruire. DataRobot încorporează expertiza unor cercetători de date de top și automatizează procesul de potrivire, astfel încât să vă puteți concentra pe alegerea celui mai relevant model pentru problema dvs. de afaceri, fără a pune la îndoială acuratețea sa practică.