Was ist Overfitting?
Overfitting liegt vor, wenn ein maschinelles Lernmodell zu sehr auf die Daten abgestimmt ist, auf denen es trainiert wurde, und daher seine Anwendbarkeit auf andere Datensätze verliert. Ein Modell ist überangepasst, wenn es so spezifisch für die ursprünglichen Daten ist, dass der Versuch, es auf in der Zukunft gesammelte Daten anzuwenden, zu problematischen oder fehlerhaften Ergebnissen und damit zu suboptimalen Entscheidungen führen würde.
Hier ist der Unterschied zwischen einem richtig angepassten und einem überangepassten Modell:
Quelle: Quora
Das überangepasste Modell wird nur dann nützlich sein, wenn wir es auf genau denselben Datensatz anwenden, da keine anderen Daten genau auf die überangepasste Linie fallen.
Warum ist Überanpassung wichtig?
Die Überanpassung führt dazu, dass das Modell die Daten, aus denen es gelernt hat, falsch wiedergibt. Ein überangepasstes Modell wird bei neuen, ähnlichen Daten weniger genau sein als ein Modell, das allgemeiner angepasst ist, aber das überangepasste Modell scheint eine höhere Genauigkeit zu haben, wenn man es auf die Trainingsdaten anwendet. Ohne Schutz vor Überanpassung können Modellentwickler ein Modell trainieren und einsetzen, von dem sie glauben, dass es hochpräzise ist, während es in Wirklichkeit in der Produktion unterdurchschnittlich abschneidet, wenn es neue Daten erhält.
Der Einsatz eines überangepassten Modells kann alle möglichen Probleme verursachen. Wenn Sie z. B. glauben, dass Ihr Modell die Wahrscheinlichkeit eines Kreditausfalls zu 95 % vorhersagen kann, es aber in Wirklichkeit übererfüllt ist und eine Genauigkeit von etwa 60 % aufweist, wird die Anwendung dieses Modells auf künftige Kreditentscheidungen zum Verlust von Geschäften führen, die ansonsten rentabel gewesen wären, und zu mehr unzufriedenen Kunden führen.
Overfitting + DataRobot
Die DataRobot-Plattform für automatisiertes maschinelles Lernen schützt vor Overfitting bei jedem Schritt im Lebenszyklus des maschinellen Lernens, indem sie Techniken wie Training-Validation-Holdout (TVH), Datenpartitionierung, N-fache Kreuzvalidierung und gestapelte Vorhersagen für stichprobeninterne Modellvorhersagen aus Trainingsdaten verwendet. DataRobot nutzt das Fachwissen hochrangiger Datenwissenschaftler und automatisiert den Anpassungsprozess, sodass Sie sich auf die Auswahl des relevantesten Modells für Ihr Geschäftsproblem konzentrieren können, ohne dessen praktische Genauigkeit in Frage zu stellen.