Overfitting

Che cos’è l’Overfitting?

Overfitting avviene quando un modello di apprendimento automatico è diventato troppo in sintonia con i dati su cui è stato addestrato e quindi perde la sua applicabilità a qualsiasi altro set di dati. Un modello è overfitted quando è così specifico per i dati originali che cercare di applicarlo ai dati raccolti in futuro porterebbe a risultati problematici o errati e quindi a decisioni non ottimali.

Ecco la differenza tra un modello correttamente adattato e un modello overfitted:

Overfitting

Fonte: Quora

Il modello overfitted non sarà utile a meno che non lo applichiamo allo stesso identico set di dati perché nessun altro dato cadrà esattamente lungo la linea di overfitted.

Perché l’overfitting è importante?

L’overfitting fa sì che il modello rappresenti in modo sbagliato i dati da cui ha imparato. Un modello sovrafittato sarà meno accurato su dati nuovi e simili rispetto a un modello più generalmente adattato, ma quello sovrafittato sembrerà avere una maggiore accuratezza quando lo si applica ai dati di allenamento. Senza alcuna protezione contro l’overfitting, gli sviluppatori di modelli potrebbero addestrare e distribuire un modello che pensano sia molto accurato, quando in realtà sarà meno accurato in produzione quando gli verranno dati nuovi dati.

La distribuzione di un modello overfitted può causare tutti i tipi di problemi. Per esempio, se pensate che il vostro modello sia accurato al 95% nel prevedere la probabilità di insolvenza di un prestito, quando in realtà è sovraccaricato e ha un’accuratezza più vicina al 60%, applicarlo alle future decisioni di prestito comporterà la perdita di affari che altrimenti sarebbero stati redditizi e si tradurrà in più clienti insoddisfatti.

Overfitting + DataRobot

La piattaforma di apprendimento automatico DataRobot protegge dall’overfitting in ogni fase del ciclo di vita dell’apprendimento automatico utilizzando tecniche come training-validation-holdout (TVH), partizionamento dei dati, N-fold cross validation, e previsioni impilate per previsioni di modelli in-sample dai dati di training. DataRobot incorpora l’esperienza dei migliori scienziati di dati e automatizza il processo di adattamento in modo che possiate concentrarvi sulla scelta del modello più rilevante per il vostro problema di business senza mettere in dubbio la sua accuratezza pratica.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.