Sobreajuste

¿Qué es el sobreajuste?

El sobreajuste se produce cuando un modelo de aprendizaje automático se ha adaptado demasiado a los datos en los que fue entrenado y, por tanto, pierde su aplicabilidad a cualquier otro conjunto de datos. Un modelo está sobreajustado cuando es tan específico para los datos originales que intentar aplicarlo a los datos recogidos en el futuro daría lugar a resultados problemáticos o erróneos y, por lo tanto, a decisiones menos que óptimas.

Ésta es la diferencia entre un modelo correctamente ajustado y uno sobreajustado:

Sobreajuste

Fuente: Quora

El modelo sobreajustado no va a ser útil a menos que lo apliquemos exactamente al mismo conjunto de datos porque ningún otro dato caerá exactamente a lo largo de la línea sobreajustada.

¿Por qué es importante el sobreajuste?

El sobreajuste hace que el modelo represente mal los datos de los que aprendió. Un modelo sobreajustado será menos preciso en datos nuevos y similares que un modelo ajustado de forma más general, pero el sobreajustado parecerá tener una mayor precisión cuando lo aplique a los datos de entrenamiento. Sin ninguna protección contra el sobreajuste, los desarrolladores de modelos podrían entrenar y desplegar un modelo que creen que es muy preciso, cuando en realidad tendrá un rendimiento inferior en producción cuando se le den nuevos datos.

Desplegar un modelo sobreajustado puede causar todo tipo de problemas. Por ejemplo, si cree que su modelo tiene una precisión del 95% en la predicción de la probabilidad de impago de un préstamo, cuando en realidad está sobreajustado y tiene una precisión más cercana al 60%, aplicarlo a futuras decisiones de préstamo provocará la pérdida de negocios que de otro modo habrían sido rentables y dará lugar a más clientes insatisfechos.

Sobreajuste + DataRobot

La plataforma automatizada de aprendizaje automático DataRobot protege del sobreajuste en cada paso del ciclo de vida del aprendizaje automático utilizando técnicas como el entrenamiento-validación-retención (TVH), la partición de datos, la validación cruzada N-fold y las predicciones apiladas para las predicciones del modelo en la muestra a partir de los datos de entrenamiento. DataRobot incorpora la experiencia de los mejores científicos de datos y automatiza el proceso de ajuste para que usted pueda centrarse en la elección del modelo más relevante para su problema de negocio sin cuestionar su precisión práctica.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.