過剰適合

過剰適合とは

過剰適合は、機械学習モデルが学習されたデータに同調しすぎて、他のデータセットへの適用性が失われたときに起こります。

以下は、適切に適合したモデルと過剰適合したモデルの違いです:

過剰適合

Source: Quora

オーバーフィッティングしたモデルは、まったく同じデータセットに適用しない限り、役に立ちません。 オーバーフィットしたモデルは、より一般的にフィットしたモデルよりも、新しい類似のデータでは精度が落ちますが、学習データに適用すると、オーバーフィットしたモデルの方が高い精度を持つように見えます。 オーバーフィットに対する保護がないため、モデル開発者は、非常に正確だと思っているモデルをトレーニングして展開するかもしれませんが、実際には、新しいデータが与えられると、実稼働環境ではパフォーマンスが低下します。

過剰適合したモデルを展開すると、さまざまな問題が発生します。たとえば、ローンの不履行の可能性を予測するうえで、モデルが 95% 正確だと思っていても、実際には過剰適合しており、60% 近い精度だった場合、将来のローンの意思決定にそれを適用すると、本来なら利益をもたらすはずのビジネスを失い、より不満な顧客を抱える結果となります。

オーバーフィット + DataRobot

自動機械学習プラットフォーム DataRobot は、トレーニング バリデーション ホールドアウト (TVH)、データ分割、N フォールド クロス バリデーション、トレーニング データからサンプル内のモデル予測を行うスタック予測などの技術を使用して、機械学習のライフサイクルの各ステップでオーバーフィッティングを防止しています。 DataRobotは、トップクラスのデータサイエンティストの専門知識を取り入れ、フィッティングプロセスを自動化することで、実用的な精度に疑問を持たずに、ビジネス問題に最も適したモデルを選ぶことに集中できるようにします。

コメントを残す

メールアドレスが公開されることはありません。