Warum Ensemble Learning verwenden?

Tweet Share Share

Was sind die Vorteile von Ensemble-Methoden für maschinelles Lernen?

Ensembles sind Vorhersagemodelle, die Vorhersagen von zwei oder mehr anderen Modellen kombinieren.

Ensemble-Lernmethoden sind beliebt und die bevorzugte Technik, wenn die beste Leistung bei einem Vorhersagemodellierungsprojekt das wichtigste Ergebnis ist.

Allerdings sind sie nicht immer die am besten geeignete Technik, und Anfänger im Bereich des angewandten maschinellen Lernens haben die Erwartung, dass Ensembles oder eine bestimmte Ensemble-Methode immer die beste Methode sind.

Ensembles bieten zwei spezifische Vorteile für ein prädiktives Modellierungsprojekt, und es ist wichtig zu wissen, was diese Vorteile sind und wie man sie misst, um sicherzustellen, dass die Verwendung eines Ensembles die richtige Entscheidung für Ihr Projekt ist.

In this tutorial, you will discover the benefits of using ensemble methods for machine learning.

After reading this tutorial, you will know:

  • A minimum benefit of using ensembles is to reduce the spread in the average skill of a predictive model.
  • A key benefit of using ensembles is to improve the average prediction performance over any contributing member in the ensemble.
  • The mechanism for improved performance with ensembles is often the reduction in the variance component of prediction errors made by the contributing models.

Let’s get started.

Why Use Ensemble Learning
Photo by Juan Antonio Segal, some rights reseved.

Tutorial Overview

This tutorial is divided into four parts; they are:

  1. Ensemble Learning
  2. Use Ensembles to Improve Robustness
  3. Bias, Variance, and Ensembles
  4. Use Ensembles to Improve Performance

Ensemble Learning

Ein Ensemble ist ein maschinelles Lernmodell, das die Vorhersagen von zwei oder mehr Modellen kombiniert.

Die Modelle, die zum Ensemble beitragen (Ensemble-Mitglieder), können vom gleichen Typ oder von verschiedenen Typen sein und können auf den gleichen Trainingsdaten trainiert werden oder auch nicht.

Die von den Ensemble-Mitgliedern gemachten Vorhersagen können mit Hilfe von Statistiken, wie dem Modus oder dem Mittelwert, oder durch ausgefeiltere Methoden kombiniert werden, die lernen, wie sehr man jedem Mitglied vertrauen kann und unter welchen Bedingungen.

Die Erforschung von Ensemble-Methoden nahm in den 1990er Jahren richtig Fahrt auf, und in diesem Jahrzehnt wurden Arbeiten über die populärsten und am weitesten verbreiteten Methoden veröffentlicht, wie z. B. die Kern-Bagging-, Boosting- und Stacking-Methoden.

In den späten 2000er Jahren nahm die Akzeptanz von Ensembles zu, was zum Teil auf ihren großen Erfolg bei Wettbewerben für maschinelles Lernen zurückzuführen ist, wie z. B. den Netflix-Preis und spätere Wettbewerbe auf Kaggle.

In den letzten Jahrzehnten haben Systeme mit mehreren Klassifikatoren, die auch als Ensemblesysteme bezeichnet werden, in der Gemeinschaft der Computerintelligenz und des maschinellen Lernens zunehmende Aufmerksamkeit erfahren.

– Seite 1, Ensemble Machine Learning, 2012.

Ensemble-Methoden erhöhen die Rechenkosten und die Komplexität erheblich. Dieser Anstieg ergibt sich aus dem Fachwissen und der Zeit, die erforderlich sind, um mehrere Modelle anstelle eines einzigen Modells zu trainieren und zu pflegen. Daraus ergibt sich die Frage:

  • Warum sollten wir ein Ensemble verwenden?

Es gibt zwei Hauptgründe für die Verwendung eines Ensembles anstelle eines einzelnen Modells, die miteinander zusammenhängen:

  1. Leistung: Ein Ensemble kann bessere Vorhersagen machen und eine bessere Leistung erzielen als ein einzelnes Modell, das dazu beiträgt.
  2. Robustheit: Ein Ensemble reduziert die Streuung oder Dispersion der Vorhersagen und der Modellleistung.

Ensembles werden verwendet, um eine bessere Vorhersageleistung bei einem Vorhersagemodellierungsproblem zu erreichen als ein einzelnes Vorhersagemodell. Die Art und Weise, wie dies erreicht wird, kann so verstanden werden, dass das Modell die Varianzkomponente des Vorhersagefehlers durch Hinzufügen von Verzerrungen (d. h. im Rahmen des Verzerrungs-Varianz-Kompromisses) reduziert.

Ursprünglich entwickelt, um die Varianz zu reduzieren und damit die Genauigkeit eines automatisierten Entscheidungssystems zu verbessern …

– Seite 1, Ensemble Machine Learning, 2012.

Ein weiterer wichtiger und weniger diskutierter Vorteil von Ensemble-Methoden ist die verbesserte Robustheit oder Verlässlichkeit der durchschnittlichen Leistung eines Modells.

Beides sind wichtige Anliegen bei einem maschinellen Lernprojekt, und manchmal bevorzugen wir vielleicht eine oder beide Eigenschaften eines Modells.

Werfen wir einen genaueren Blick auf diese beiden Eigenschaften, um die Vorteile der Verwendung von Ensemble-Lernen in einem Projekt besser zu verstehen.

Verwendung von Ensembles zur Verbesserung der Robustheit

Bei einem Projekt zur prädiktiven Modellierung evaluieren wir oft mehrere Modelle oder Modellierungspipelines und wählen eines, das gut oder am besten abschneidet, als unser endgültiges Modell.

Der Algorithmus oder die Pipeline wird dann an alle verfügbaren Daten angepasst und verwendet, um Vorhersagen für neue Daten zu treffen.

Wir haben eine Vorstellung davon, wie gut das Modell im Durchschnitt mit unserem Test-Kabelbaum abschneidet, der in der Regel durch wiederholte k-fache Kreuzvalidierung als Goldstandard geschätzt wird. Das Problem ist, dass die durchschnittliche Leistung möglicherweise nicht ausreicht.

Eine durchschnittliche Genauigkeit oder ein durchschnittlicher Fehler eines Modells ist eine Zusammenfassung der erwarteten Leistung, wenn in Wirklichkeit einige Modelle auf verschiedenen Teilmengen der Daten besser und einige Modelle schlechter abschneiden.

Die Standardabweichung ist die durchschnittliche Differenz zwischen einer Beobachtung und dem Mittelwert und fasst die Streuung oder Verbreitung der Daten zusammen. Bei einer Genauigkeits- oder Fehlermessung für ein Modell kann sie Ihnen einen Eindruck von der Streuung des Modellverhaltens vermitteln.

Die Betrachtung der minimalen und maximalen Modellleistungswerte vermittelt Ihnen einen Eindruck von der schlechtesten und besten Leistung, die Sie von dem Modell erwarten können, was für Ihre Anwendung möglicherweise nicht akzeptabel ist.

Das einfachste Ensemble besteht darin, das Modell mehrfach an die Trainingsdatensätze anzupassen und die Vorhersagen unter Verwendung einer zusammenfassenden Statistik zu kombinieren, z. B. dem Mittelwert für Regression oder dem Modus für Klassifizierung. Wichtig ist, dass sich jedes Modell aufgrund des stochastischen Lernalgorithmus, der unterschiedlichen Zusammensetzung des Trainingsdatensatzes oder der Unterschiede im Modell selbst leicht unterscheidet.

Dadurch wird die Streuung der Vorhersagen des Modells verringert. Die mittlere Leistung wird wahrscheinlich ungefähr gleich bleiben, obwohl die schlechteste und die beste Leistung näher an die mittlere Leistung herangeführt werden.

Im Endeffekt wird die erwartete Leistung des Modells geglättet.

Dies kann als „Robustheit“ der erwarteten Leistung des Modells bezeichnet werden und ist ein minimaler Vorteil der Verwendung einer Ensemble-Methode.

Ein Ensemble kann die Modellierungsleistung gegenüber einem einzelnen beitragenden Mitglied verbessern oder auch nicht, was weiter unten erörtert wird, aber zumindest sollte es die Streuung der durchschnittlichen Leistung des Modells verringern.

Weitere Informationen zu diesem Thema finden Sie im Tutorial:

  • Wie man die Varianz in einem endgültigen maschinellen Lernmodell reduziert

Vorspannung, Varianz und Ensembles

Maschinelle Lernmodelle für Klassifizierung und Regression lernen eine Abbildungsfunktion von Eingaben zu Ausgaben.

Diese Abbildung wird anhand von Beispielen aus dem Problembereich, dem Trainingsdatensatz, erlernt und anhand von Daten, die nicht während des Trainings verwendet wurden, dem Testdatensatz, bewertet.

Die Fehler eines maschinellen Lernmodells werden häufig durch zwei Eigenschaften beschrieben: den Bias und die Varianz.

Der Bias ist ein Maß dafür, wie gut das Modell die Abbildungsfunktion zwischen Eingaben und Ausgaben erfassen kann. Sie erfasst die Starrheit des Modells: die Stärke der Annahme, die das Modell über die funktionale Form der Abbildung zwischen Eingaben und Ausgaben hat.

Die Varianz des Modells ist das Ausmaß, in dem sich die Leistung des Modells ändert, wenn es auf verschiedene Trainingsdaten angepasst wird. Sie erfasst die Auswirkungen der Besonderheiten der Daten auf das Modell.

Die Varianz bezieht sich auf den Betrag, um den sich die Leistung des Modells ändern würde, wenn wir es mit einem anderen Trainingsdatensatz schätzen würden.

– Seite 34, An Introduction to Statistical Learning with Applications in R, 2014.

Die Verzerrung und die Varianz der Leistung eines Modells sind miteinander verbunden.

Im Idealfall würden wir ein Modell mit geringer Verzerrung und geringer Varianz bevorzugen, obwohl dies in der Praxis sehr schwierig ist. In der Tat könnte man dies als das Ziel des angewandten maschinellen Lernens für ein bestimmtes Vorhersagemodellierungsproblem bezeichnen.

Die Verringerung der Verzerrung kann oft leicht durch die Erhöhung der Varianz erreicht werden. Umgekehrt kann eine Verringerung der Varianz leicht durch eine Erhöhung der Verzerrung erreicht werden.

Dies wird als Kompromiss bezeichnet, weil es leicht ist, eine Methode mit extrem niedriger Verzerrung, aber hoher Varianz oder eine Methode mit sehr niedriger Varianz, aber hoher Verzerrung zu erhalten …

– Seite 36, An Introduction to Statistical Learning with Applications in R, 2014.

Einige Modelle haben von Natur aus eine hohe Verzerrung oder eine hohe Varianz, die oft mit Hyperparametern, die das Lernverhalten des Algorithmus verändern, gelockert oder erhöht werden können.

Ensembles bieten eine Möglichkeit, die Varianz der Vorhersagen zu reduzieren, d.h. den Anteil des Fehlers in den Vorhersagen, der der „Varianz“ zugeschrieben werden kann.

Dies ist nicht immer der Fall, aber wenn dies der Fall ist, führt diese Reduzierung der Varianz wiederum zu einer verbesserten Vorhersageleistung.

Empirische und theoretische Belege zeigen, dass einige Ensemble-Techniken (wie Bagging) als Mechanismus zur Varianzreduzierung wirken, d.h., sie reduzieren die Varianzkomponente des Fehlers. Darüber hinaus deuten empirische Ergebnisse darauf hin, dass andere Ensemble-Techniken (wie AdaBoost) sowohl den Bias- als auch den Varianzanteil des Fehlers verringern.

– Seite 39, Pattern Classification Using Ensemble Methods, 2010.

Die Verwendung von Ensembles zur Verringerung der Varianzeigenschaften von Vorhersagefehlern führt zu dem Hauptnutzen der Verwendung von Ensembles überhaupt: zur Verbesserung der Vorhersageleistung.

Einsatz von Ensembles zur Verbesserung der Leistung

Die Verringerung der Varianz des Vorhersagefehlers verbessert die Vorhersageleistung.

Wir setzen das Ensemble-Lernen explizit ein, um eine bessere Vorhersageleistung zu erreichen, z. B. einen geringeren Fehler bei der Regression oder eine hohe Genauigkeit bei der Klassifizierung.

… es gibt eine Möglichkeit, die Modellgenauigkeit zu verbessern, die einfacher und leistungsfähiger ist als die sorgfältige Auswahl von Algorithmen: Man kann Modelle zu Ensembles zusammenfassen.

– Seite 2, Ensemble Methods in Data Mining, 2010.

Dies ist der primäre Einsatz von Ensemble-Lernmethoden und der Nutzen, der durch die Verwendung von Ensembles durch die Mehrheit der Gewinner von Wettbewerben für maschinelles Lernen, wie dem Netflix-Preis und Wettbewerben auf Kaggle, demonstriert wird.

Im Rahmen des Netflix-Preises lief zwei Jahre lang ein Wettbewerb, bei dem das erste Team, das ein Modell einreichte, das das interne Empfehlungssystem von Netflix um 10 % verbesserte, 1.000.000 $ gewann. Der endgültige Vorsprung wurde durch Gewichtung der Beiträge der Modelle von bis zu 30 Wettbewerbern ermittelt.

– Seite 8, Ensemble Methods in Data Mining, 2010.

Dieser Vorteil hat sich auch bei akademischen Wettbewerben gezeigt, wie z.B. bei den Spitzenlösungen für den berühmten ImageNet-Datensatz in der Computer Vision.

Ein Ensemble dieser Residualnetze erreicht einen Fehler von 3,57% auf dem ImageNet-Testsatz. Dieses Ergebnis gewann den 1. Platz bei der ILSVRC 2015 Klassifizierungsaufgabe.

– Deep Residual Learning for Image Recognition, 2015.

Wenn ein Ensemble auf diese Weise verwendet wird, sollte es nur dann übernommen werden, wenn es im Durchschnitt besser abschneidet als jedes beitragende Mitglied des Ensembles. Ist dies nicht der Fall, sollte stattdessen das beitragende Mitglied verwendet werden, das besser abschneidet.

Betrachten Sie die Verteilung der erwarteten Ergebnisse, die von einem Modell auf einem Testgeschirr berechnet werden, wie z. B. eine wiederholte k-fache Kreuzvalidierung, wie wir es oben bei der Betrachtung der „Robustheit“ eines Ensembles getan haben. Ein Ensemble, das die Fehlervarianz reduziert, verschiebt die Verteilung, anstatt einfach die Streuung der Verteilung zu verringern.

Das kann zu einer besseren durchschnittlichen Leistung im Vergleich zu einem einzelnen Modell führen.

Dies ist nicht immer der Fall, und diese Erwartung ist ein häufiger Fehler, der von Anfängern gemacht wird.

Es ist möglich und sogar üblich, dass die Leistung eines Ensembles nicht besser ist als die des besten Mitglieds des Ensembles. Dies kann passieren, wenn das Ensemble ein Spitzenmodell hat und die anderen Mitglieder keinen Nutzen bieten oder das Ensemble nicht in der Lage ist, ihren Beitrag effektiv zu nutzen.

Es ist auch möglich, dass ein Ensemble schlechter abschneidet als das beste Mitglied des Ensembles. Auch dies ist häufig der Fall, wenn ein Modell mit der besten Leistung die Vorhersagen durch ein oder mehrere andere Modelle mit schlechter Leistung verschlechtert und das Ensemble nicht in der Lage ist, deren Beiträge effektiv zu nutzen.

Daher ist es wichtig, eine Reihe von Ensemble-Methoden zu testen und ihr Verhalten abzustimmen, genau wie bei jedem einzelnen maschinellen Lernmodell.

Weitere Lektüre

In diesem Abschnitt finden Sie weitere Ressourcen zu diesem Thema, wenn Sie tiefer einsteigen möchten.

Related Tutorials

  • How to Reduce Variance in a Final Machine Learning Model
  • How to Develop a Horizontal Voting Deep Learning Ensemble to Reduce Variance

Books

  • Pattern Classification Using Ensemble Methods, 2010.
  • Ensemble Methods, 2012.
  • Ensemble Machine Learning, 2012.
  • Ensemble Methods in Data Mining, 2010.

Articles

  • Ensemble learning, Wikipedia.
  • Ensemble learning, Scholarpedia.

Summary

In this post, you discovered the benefits of using ensemble methods for machine learning.

Insbesondere haben Sie gelernt:

  • Ein minimaler Vorteil der Verwendung von Ensembles ist die Verringerung der Streuung der durchschnittlichen Fähigkeit eines Vorhersagemodells.
  • Ein wesentlicher Vorteil der Verwendung von Ensembles ist die Verbesserung der durchschnittlichen Vorhersageleistung über jedes beitragende Mitglied im Ensemble.
  • Der Mechanismus für die verbesserte Leistung mit Ensembles ist oft die Verringerung der Varianzkomponente der Vorhersagefehler, die von den beitragenden Modellen gemacht werden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.