Wat is Overfitting?
Overfitting treedt op wanneer een machine learning model te zeer is afgestemd op de data waarop het is getraind en daardoor zijn toepasbaarheid verliest op elke andere dataset. Een model is overgefitted wanneer het zo specifiek is voor de oorspronkelijke gegevens dat de toepassing ervan op in de toekomst verzamelde gegevens zou resulteren in problematische of foutieve uitkomsten en dus in minder-dan-optimale beslissingen.
Hier volgt het verschil tussen een goed passend en overgefitted model:
Bron: Quora
Het overgefitte model is alleen bruikbaar als we het toepassen op exact dezelfde dataset, omdat geen enkele andere data precies langs de overgefitte lijn zal vallen.
Waarom is overfitting belangrijk?
Overfitting zorgt ervoor dat het model een verkeerde voorstelling geeft van de data waarvan het heeft geleerd. Een overgefitted model zal minder nauwkeurig zijn op nieuwe, vergelijkbare gegevens dan een model dat meer algemeen is gefit, maar het overgefitte model zal een hogere nauwkeurigheid lijken te hebben wanneer je het toepast op de trainingsgegevens. Zonder bescherming tegen overfitting kunnen modelontwikkelaars een model trainen en inzetten waarvan ze denken dat het zeer accuraat is, terwijl het in feite ondermaats zal presteren in productie wanneer ze nieuwe gegevens krijgen.
Het inzetten van een overgefitted model kan allerlei problemen veroorzaken. Als je bijvoorbeeld denkt dat je model 95% accuraat is in het voorspellen van de kans dat een lening niet wordt afgelost, terwijl het in werkelijkheid overgefitted is en een nauwkeurigheid heeft die dichter bij de 60% ligt, zal het toepassen ervan op toekomstige leningsbeslissingen resulteren in het verlies van zaken die anders winstgevend zouden zijn geweest en zal het resulteren in meer ontevreden klanten.
Overfitting + DataRobot
Het DataRobot geautomatiseerde machine learning platform beschermt tegen overfitting bij elke stap in de machine learning levenscyclus met behulp van technieken zoals training-validation-holdout (TVH), data partitioning, N-fold cross validation, en gestapelde voorspellingen voor in-sample model voorspellingen van training data. DataRobot maakt gebruik van de expertise van vooraanstaande datawetenschappers en automatiseert het aanpassingsproces, zodat u zich kunt richten op het kiezen van het meest relevante model voor uw bedrijfsprobleem zonder de praktische nauwkeurigheid ervan in twijfel te trekken.