Overfitting

Vad är överanpassning?

Overfitting inträffar när en maskininlärningsmodell har blivit alltför anpassad till de data som den tränades på och därför förlorar sin tillämpbarhet på andra dataset. En modell är överanpassad när den är så specifik för de ursprungliga uppgifterna att ett försök att tillämpa den på uppgifter som samlas in i framtiden skulle resultera i problematiska eller felaktiga resultat och därmed mindre än optimala beslut.

Här är skillnaden mellan en korrekt anpassad och en överanpassad modell:

Overfitting

Källa: Quora

Den överanpassade modellen kommer inte att vara användbar om vi inte tillämpar den på exakt samma dataset eftersom inga andra data kommer att falla exakt längs den överanpassade linjen.

Varför är det viktigt med överanpassning?

Överanpassning leder till att modellen missvisar de data som den lärt sig från. En överanpassad modell kommer att vara mindre exakt på nya, liknande data än en modell som är mer allmänt anpassad, men den överanpassade modellen kommer att verka ha en högre noggrannhet när du tillämpar den på träningsdata. Utan skydd mot överanpassning kan modellutvecklare träna och distribuera en modell som de tror är mycket exakt, när den i själva verket kommer att prestera sämre i produktionen när den får nya data.

Distribution av en överanpassad modell kan orsaka alla möjliga problem. Om du till exempel tror att din modell har 95 procents noggrannhet när det gäller att förutsäga sannolikheten för att ett lån inte betalas ut, när den i själva verket är överanpassad och har en noggrannhet som ligger närmare 60 procent, kommer tillämpningen av modellen vid framtida lånebeslut att leda till att du förlorar affärer som annars skulle ha varit lönsamma, och att fler kunder blir missnöjda.

Overfitting + DataRobot

DataRobots plattform för automatiserad maskininlärning skyddar mot överanpassning i varje steg i maskininlärningens livscykel med hjälp av tekniker som utbildning-validering-hållning (TVH), datapartitionering, N-faldig korsvalidering och staplade förutsägelser för modellförutsägelser i provet från utbildningsdata. DataRobot inkorporerar expertisen från topprankade datavetare och automatiserar anpassningsprocessen så att du kan fokusera på att välja den mest relevanta modellen för ditt affärsproblem utan att ifrågasätta dess praktiska noggrannhet.

Lämna ett svar

Din e-postadress kommer inte publiceras.