Overfitting

Qu’est-ce que l’overfitting?

L’overfitting se produit lorsqu’un modèle d’apprentissage automatique est devenu trop en phase avec les données sur lesquelles il a été formé et perd donc son applicabilité à tout autre ensemble de données. Un modèle est surajusté lorsqu’il est si spécifique aux données d’origine qu’essayer de l’appliquer à des données collectées à l’avenir donnerait lieu à des résultats problématiques ou erronés et donc à des décisions moins qu’optimales.

Voici la différence entre un modèle correctement ajusté et surajusté :

Surajustement

Source : Quora

Le modèle surajusté ne sera utile que si nous l’appliquons exactement au même ensemble de données, car aucune autre donnée ne tombera exactement le long de la ligne de surajustement.

Pourquoi le surajustement est-il important ?

Le surajustement amène le modèle à mal représenter les données à partir desquelles il a appris. Un modèle surajusté sera moins précis sur de nouvelles données similaires qu’un modèle plus généralement ajusté, mais celui qui est surajusté semblera avoir une plus grande précision lorsque vous l’appliquerez aux données d’apprentissage. Sans protection contre l’overfitting, les développeurs de modèles pourraient former et déployer un modèle qu’ils pensent être très précis, alors qu’en fait, il sera moins performant en production lorsqu’il recevra de nouvelles données.

Déployer un modèle surajusté peut causer toutes sortes de problèmes. Par exemple, si vous pensez que votre modèle est précis à 95 % pour prédire la probabilité de défaut de paiement d’un prêt alors qu’en réalité il est surajusté et a une précision quelque part plus proche de 60 %, l’appliquer aux futures décisions de prêt entraînera la perte d’affaires qui auraient autrement été rentables et se traduira par davantage de clients insatisfaits.

Surajustement + DataRobot

La plateforme d’apprentissage automatique DataRobot protège du surajustement à chaque étape du cycle de vie de l’apprentissage automatique en utilisant des techniques telles que la formation-validation-holdout (TVH), le partitionnement des données, la validation croisée N-fold et les prédictions empilées pour les prédictions de modèles en échantillon à partir des données de formation. DataRobot intègre l’expertise de data scientists de premier plan et automatise le processus d’ajustement afin que vous puissiez vous concentrer sur le choix du modèle le plus pertinent pour votre problème commercial sans remettre en question sa précision pratique.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.