O que é Overfitting?
Overfitting acontece quando um modelo de aprendizagem da máquina se tornou demasiado sintonizado com os dados sobre os quais foi treinado e por isso perde a sua aplicabilidade a qualquer outro conjunto de dados. Um modelo é sobreajustado quando é tão específico aos dados originais que tentar aplicá-lo aos dados coletados no futuro resultaria em resultados problemáticos ou errôneos e, portanto, em decisões menos otimizadas.
Aqui está a diferença entre um modelo bem ajustado e sobreajustado:
Source: Quora
O modelo sobreajustado não será útil a menos que o apliquemos exactamente ao mesmo conjunto de dados porque nenhum outro dado cairá exactamente ao longo da linha sobreajustada.
Por que é que o sobreajustamento é importante?
O sobreajustamento faz com que o modelo deturpe os dados com os quais aprendeu. Um modelo sobreajustado será menos preciso em dados novos e similares do que um modelo que é mais geralmente ajustado, mas o sobreajustado parecerá ter uma maior precisão quando você o aplica aos dados de treinamento. Sem proteção contra sobreajustes, os desenvolvedores de modelos podem treinar e implantar um modelo que eles acham que é altamente preciso, quando na verdade ele terá um desempenho abaixo do esperado na produção quando receberem novos dados.
O emprego de um modelo sobreajustado pode causar todos os tipos de problemas. Por exemplo, se você acha que seu modelo é 95% preciso na previsão da probabilidade de inadimplência do empréstimo quando na realidade ele está super ajustado e tem uma precisão em algum lugar mais próxima a 60%, aplicá-lo em futuras decisões de empréstimo resultará na perda de negócios que de outra forma seriam lucrativos e resultará em clientes mais insatisfeitos.
Overfitting + DataRobot
A plataforma de aprendizagem automática DataRobot protege contra overfitting em cada etapa do ciclo de vida da aprendizagem da máquina, usando técnicas como treinamento-validação-holdout (TVH), particionamento de dados, validação cruzada N-fold e previsões empilhadas para previsões de modelos in-sample a partir de dados de treinamento. DataRobot incorpora a experiência dos melhores cientistas de dados e automatiza o processo de ajuste para que você possa se concentrar na escolha do modelo mais relevante para o seu problema de negócios sem questionar sua precisão prática.