Mi az a túlillesztés?
Túlillesztés akkor történik, amikor egy gépi tanulási modell túlságosan alkalmazkodik ahhoz az adathoz, amelyen betanították, és ezért elveszíti alkalmazhatóságát bármely más adathalmazra. Egy modell akkor túlillesztett, ha annyira specifikus az eredeti adatokra, hogy ha a jövőben gyűjtött adatokra próbáljuk alkalmazni, az problémás vagy hibás eredményekhez, és így kevésbé optimális döntésekhez vezetne.
Itt a különbség a megfelelően illesztett és a túlillesztett modell között:
Forrás: Quora
A túlillesztett modell csak akkor lesz hasznos, ha pontosan ugyanarra az adathalmazra alkalmazzuk, mert egyetlen más adat sem esik pontosan a túlillesztett vonalra.
Miért fontos a túlillesztés?
A túlillesztés miatt a modell félreértelmezi az adatokat, amelyekből tanult. Egy túlillesztett modell kevésbé lesz pontos az új, hasonló adatokon, mint egy általánosabban illesztett modell, de a túlillesztett modell nagyobb pontosságúnak fog tűnni, amikor a képzési adatokra alkalmazzuk. Ha nincs védelem a túlillesztés ellen, a modellfejlesztők kiképezhetnek és bevethetnek egy olyan modellt, amelyről azt gondolják, hogy nagyon pontos, holott az új adatok esetén a termelésben alulteljesít.
A túlillesztett modell bevetése mindenféle problémát okozhat. Ha például úgy gondolja, hogy a modellje 95%-os pontossággal jelzi előre a hitel nemteljesítés valószínűségét, miközben a valóságban túlillesztett, és a pontossága valahol 60%-hoz közelebb van, akkor a modell alkalmazása a jövőbeli hitelezési döntésekben olyan üzlet elvesztését fogja eredményezni, amely egyébként nyereséges lett volna, és több elégedetlen ügyfelet fog eredményezni.
Túlillesztés + DataRobot
A DataRobot automatizált gépi tanulási platform a gépi tanulás életciklusának minden egyes lépésénél véd a túlillesztéstől olyan technikák segítségével, mint a képzés-érvényesítés-holdout (TVH), az adatok particionálása, az N-szeres keresztérvényesítés és az egymásra helyezett előrejelzések a mintán belüli modell előrejelzésekhez a képzési adatokból. A DataRobot magába foglalja a legkiválóbb adattudósok szakértelmét, és automatizálja az illesztési folyamatot, így Ön az üzleti problémájához legmegfelelőbb modell kiválasztására összpontosíthat anélkül, hogy megkérdőjelezné annak gyakorlati pontosságát.