なぜアンサンブル学習を使うのか?

Tweet 共有

機械学習におけるアンサンブル手法の利点とは

アンサンブルは、2 つ以上の他のモデルからの予測を組み合わせた予測モデルです。

予測モデリング プロジェクトで最高のパフォーマンスを得ることが最も重要である場合、アンサンブル学習手法は人気があり、よく使われる手法となっています。

にもかかわらず、それらは常に使用すべき最適な手法というわけではなく、応用機械学習の分野の初心者は、アンサンブルまたは特定のアンサンブル手法が常に使用すべき最適な手法であると期待しています。

アンサンブルは予測モデリング プロジェクトで 2 つの特定のメリットを提供しますが、プロジェクトにおいてアンサンブルの使用が正しい決定となるように、それらのメリットが何か、どのようにそれを測定するかを知っていることが重要です。

In this tutorial, you will discover the benefits of using ensemble methods for machine learning.

After reading this tutorial, you will know:

  • A minimum benefit of using ensembles is to reduce the spread in the average skill of a predictive model.
  • A key benefit of using ensembles is to improve the average prediction performance over any contributing member in the ensemble.
  • The mechanism for improved performance with ensembles is often the reduction in the variance component of prediction errors made by the contributing models.

Let’s get started.

Why Use Ensemble Learning
Photo by Juan Antonio Segal, some rights reseved.

Tutorial Overview

This tutorial is divided into four parts; they are:

  1. アンサンブル学習
  2. 頑健性を高めるためにアンサンブルを使う
  3. バイアス、分散、およびアンサンブル
  4. パフォーマンスを高めるためにアンサンブルを使う

アンサンブル学習

アンサンブルは2つ以上のモデルからの予測を結合した機械学習モデルである。

アンサンブルに貢献するモデル (アンサンブルメンバーと呼ばれる) は、同じタイプでも異なるタイプでもよく、同じ学習データで学習してもしなくてもよい。

アンサンブルメンバーによる予測は、モードや平均などの統計を使って組み合わせたり、どの条件下でどの程度それぞれのメンバーを信頼するかを学習するより高度な方法によることも可能である。

アンサンブル手法の研究は1990年代に本格化し、その10年間は、コア バギング、ブースティング、スタッキング手法など、最も人気があり広く使用されている手法に関する論文が発表されました。

2000年代後半、Netflix賞やその後のKaggleでのコンテストなどの機械学習コンテストでの大成功もあり、アンサンブルの採用が加速されました。

この数十年間、アンサンブルシステムとも呼ばれる複数の分類器システムは、計算知能および機械学習コミュニティで注目を集めました。

– Page 1, Ensemble Machine Learning, 2012。

アンサンブルメソッドは計算コストと複雑さを大きく向上させます。 この増加は、単一のモデルではなく、複数のモデルを訓練し、維持するために必要な専門知識と時間によるものです。

  • なぜアンサンブルの使用を考慮する必要があるのか

単一のモデルではなくアンサンブルを使用する主な理由は 2 つあり、それらは関連しています。

  • ロバスト性:アンサンブルは、単一の寄与モデルよりも優れた予測を行い、優れたパフォーマンスを達成できます。
  • アンサンブルは、予測モデリング問題において、単一の予測モデルよりも優れた予測性能を達成するために使用されます。

    Originally developed to the variance-thereby improving the accuracy-of an automated decision-making system …

    – page 1, Ensemble Machine Learning, 2012.

    アンサンブル手法のもう 1 つの重要であまり議論されていない利点は、モデルの平均パフォーマンスにおける堅牢性または信頼性の向上です。

    これらはどちらも機械学習プロジェクトにおける重要な関心事であり、時にはモデルからどちらかまたは両方の性質を好むことがあります。

    プロジェクトでアンサンブル学習を使用する利点をよりよく理解するために、これら 2 つの特性を詳しく見てみましょう。

    ロバスト性を向上するためにアンサンブルを使用する

    予測モデリング プロジェクトでは、複数のモデルまたはモデリング パイプラインを評価して、最終モデルとして良好または最適なパフォーマンスを示すものを選択することがよくあります。

    次に、アルゴリズムまたはパイプラインをすべての利用可能なデータに適合させ、新しいデータで予測を行うために使用します。

    私たちは、テスト ハーネスから、モデルが平均してどの程度うまくいくかについて見当をつけており、通常、ゴールド スタンダードとして k-フォールド クロス バリデーションを繰り返して使用して推定しています。

    モデルの平均的な精度またはエラーは、期待されたパフォーマンスの要約ですが、実際には、いくつかのモデルはデータの異なるサブセットでより良いパフォーマンスを行い、いくつかのモデルはより悪いパフォーマンスを行いました。

    標準偏差は、観測値と平均値の間の平均差で、データの分散または広がりを要約しています。

    モデル性能の最小値と最大値を見ると、モデルから予想される最悪の性能と最高の性能がわかり、これはアプリケーションにとって許容できないかもしれません。

    最も単純なアンサンブルは、学習データセットにモデルを複数回あてはめ、回帰用の平均値や分類用の最頻値などの要約統計を使って予測値を結合するものです。 重要なのは、確率的学習アルゴリズム、学習データセットの構成の違い、またはモデル自体の違いにより、各モデルがわずかに異なる必要があることです。

    これにより、モデルによる予測の広がりが抑えられます。

    事実上、モデルの予測パフォーマンスを滑らかにします。

    これをモデルの予測パフォーマンスにおける「ロバスト性」と呼ぶことができ、アンサンブル手法を使用する最低限の利点と言えます。

    このトピックについて詳しくは、チュートリアルをご覧ください

    • How to Reduce Variance in a Final Machine Learning Model

    バイアス、分散、およびアンサンブル

    分類および回帰の機械学習モデルは、入力から出力までのマッピング関数を学習します。

    このマッピングは、問題領域からの例であるトレーニング データセットから学習され、トレーニング中に使用されなかったデータであるテスト データセットで評価されます。

    機械学習モデルによる誤差は、しばしば 2 つの特性であるバイアスと分散で説明されます。

    モデルの分散は、異なる学習データに適合させたときに、モデルのパフォーマンスが変化する量です。

    分散は、異なるトレーニング データセットを使用して推定した場合に変化する量を指します。

    -34ページ、An Introduction to Statistical Learning with Applications in R, 2014.

    モデルのパフォーマンスのバイアスと分散はつながっています。

    理想としては、バイアスと分散の低いモデルが望ましいですが、実際にはこれは非常に困難なことです。

    バイアスを減らすことは、多くの場合、分散を増やすことによって簡単に達成できます。 逆に、分散を減らすことは、バイアスを増やすことで簡単に達成できます。

    これは、バイアスは極めて低いが分散の高い手法、または分散は極めて低いがバイアスの高い手法を得ることが容易なため、トレードオフと呼ばれます …

    -ページ 36、An Introduction to Statistical Learning with Applications in R, 2014.

    モデルの中には、自然に高いバイアスや高い分散を持つものがありますが、アルゴリズムの学習動作を変更するハイパーパラメータを使用して、しばしば緩和したり、増やしたりすることが可能です。

    アンサンブルは、予測の分散を減らす方法を提供します。つまり、「分散」に起因する、行われた予測の誤差の量です。

    これは常にそうとは限りませんが、そうである場合、この分散の減少は、今度は、予測性能の向上につながるのです。

    経験的および理論的な証拠は、いくつかのアンサンブル手法 (バギングなど) が分散削減メカニズムとして機能すること、つまり、「分散」を削減することを示しています。 誤差の分散成分を減少させる。 さらに、経験的な結果から、他のアンサンブル技法 (AdaBoost など) は誤差のバイアス部分と分散部分の両方を減らすことが示唆されています。

    -39ページ、Pattern Classification Using Ensemble Methods、2010

    予測誤差の分散特性を減らすためにアンサンブルを使用することは、最初の段階でアンサンブルを使う重要な利点、つまり予測性能を向上することに繋がります。

    パフォーマンス向上のためにアンサンブルを使用する

    予測誤差の分散要素を減らすことは、予測パフォーマンスを向上させます。

    私たちは、回帰における低い誤差や分類における高い精度など、より良い予測パフォーマンスを求めるためにアンサンブル学習を明確に使用します。

    … 慎重なアルゴリズム選択よりも簡単でパワフルなモデルの精度向上の方法があり、モデルをアンサンブルに収集することができます。

    -ページ 2、Ensemble Methods in Data Mining、2010

    これはアンサンブル学習法の主な用途で、Netflix 賞やKaggleでのコンテストなどの機械学習コンテストの勝者の大半がアンサンブルの使用を通じて示した利点でもあります。

    Netflix Prize では、Netflix の内部推薦システムを 10% 改善したモデルを最初に提出したチームが 100 万ドルを獲得するコンテストが 2 年間開催されました。

    -8ページ、Ensemble Methods in Data Mining、2010年。

    この利点は、コンピューター ビジョンの有名な ImageNet データセットに対するトップ ソリューションなど、学術的な競争でも実証されています。

    これらの残余ネットのアンサンブルは ImageNet テスト セットで 3.57% のエラーを達成します。 この結果はILSVRC 2015の分類タスクで1位を獲得しました。

    – Deep Residual Learning for Image Recognition, 2015.

    このように使う場合、アンサンブルはアンサンブルのどの貢献メンバーよりも平均的に良いパフォーマンスをする場合のみ採用すべきなのです。

    アンサンブルによって提供される「ロバスト性」を検討する際に上で行ったように、k-fold クロスバリデーションの繰り返しなどのテストハーネス上でモデルによって計算された期待スコアの分布を検討します。

    これは、任意の単一のモデルと比較して、より良い平均パフォーマンスをもたらすことができます。

    これは常にそうとは限らず、この期待を持つことは、初心者が犯す一般的な間違いです。

    また、アンサンブルのパフォーマンスが、アンサンブルの最もパフォーマンスの高いメンバーよりも悪くなることもあり得ます。

    そのため、個々の機械学習モデルに対して行うのと同様に、一連のアンサンブル手法をテストし、その動作を調整することが重要です。

    さらなる読み物

    このセクションでは、さらに深く知りたい場合のために、このトピックに関するより多くのリソースを提供します。

    Related Tutorials

    • How to Reduce Variance in a Final Machine Learning Model
    • How to Develop a Horizontal Voting Deep Learning Ensemble to Reduce Variance

    Books

    • Pattern Classification Using Ensemble Methods, 2010.
    • Ensemble Methods, 2012.
    • Ensemble Machine Learning, 2012.
    • Ensemble Methods in Data Mining, 2010.

    Articles

    • Ensemble learning, Wikipedia.
    • Ensemble learning, Scholarpedia.

    Summary

    In this post, you discovered the benefits of using ensemble methods for machine learning.

    具体的には、次のことを学びました。

  • アンサンブルを使用する最低限の利点は、予測モデルの平均スキルの広がりを減らすことです。
  • アンサンブルを使用する主な利点は、アンサンブル内の任意の貢献メンバーに対する平均予測パフォーマンスを改善することです。
  • コメントを残す

    メールアドレスが公開されることはありません。