Pourquoi utiliser l’apprentissage d’ensemble ?

Tweeter Partager

Quels sont les avantages des méthodes d’ensemble pour l’apprentissage automatique ?

Les ensembles sont des modèles prédictifs qui combinent les prédictions de deux autres modèles ou plus.

Les méthodes d’apprentissage d’ensemble sont populaires et la technique à privilégier lorsque la meilleure performance sur un projet de modélisation prédictive est le résultat le plus important.

Néanmoins, elles ne sont pas toujours la technique la plus appropriée à utiliser et les débutants du domaine de l’apprentissage automatique appliqué ont l’attente que les ensembles ou une méthode d’ensemble spécifique soient toujours la meilleure méthode à utiliser.

Les ensembles offrent deux avantages spécifiques sur un projet de modélisation prédictive, et il est important de savoir quels sont ces avantages et comment les mesurer pour s’assurer que l’utilisation d’un ensemble est la bonne décision sur votre projet.

In this tutorial, you will discover the benefits of using ensemble methods for machine learning.

After reading this tutorial, you will know:

  • A minimum benefit of using ensembles is to reduce the spread in the average skill of a predictive model.
  • A key benefit of using ensembles is to improve the average prediction performance over any contributing member in the ensemble.
  • The mechanism for improved performance with ensembles is often the reduction in the variance component of prediction errors made by the contributing models.

Let’s get started.

Why Use Ensemble Learning
Photo by Juan Antonio Segal, some rights reseved.

Tutorial Overview

This tutorial is divided into four parts; they are:

  1. Apprentissage par ensembles
  2. Utiliser des ensembles pour améliorer la robustesse
  3. Bias, variance et ensembles
  4. Utiliser des ensembles pour améliorer les performances

Apprentissage par ensembles

Un ensemble est un modèle d’apprentissage automatique qui combine les prédictions de deux modèles ou plus.

Les modèles qui contribuent à l’ensemble, appelés membres de l’ensemble, peuvent être du même type ou de types différents et peuvent ou non être formés sur les mêmes données d’apprentissage.

Les prédictions faites par les membres de l’ensemble peuvent être combinées à l’aide de statistiques, telles que le mode ou la moyenne, ou par des méthodes plus sophistiquées qui apprennent dans quelle mesure il faut faire confiance à chaque membre et dans quelles conditions.

L’étude des méthodes d’ensemble a vraiment pris son essor dans les années 1990, et c’est au cours de cette décennie que des articles sur les méthodes les plus populaires et les plus utilisées ont été publiés, comme les méthodes de core bagging, boosting et stacking.

À la fin des années 2000, l’adoption des ensembles s’est accélérée en raison notamment de leur énorme succès dans les compétitions d’apprentissage automatique, comme le prix Netflix et les compétitions ultérieures sur Kaggle.

Au cours des deux dernières décennies, les systèmes à classificateurs multiples, également appelés systèmes d’ensemble, ont bénéficié d’une attention croissante au sein de la communauté de l’intelligence informatique et de l’apprentissage automatique.

– Page 1, Ensemble Machine Learning, 2012.

Les méthodes d’ensemble augmentent considérablement le coût et la complexité des calculs. Cette augmentation provient de l’expertise et du temps nécessaires pour former et maintenir plusieurs modèles plutôt qu’un seul. Cela force la question :

  • Pourquoi devrions-nous envisager d’utiliser un ensemble ?

Il y a deux raisons principales d’utiliser un ensemble plutôt qu’un modèle unique, et elles sont liées ; ce sont :

  1. Les performances : Un ensemble peut faire de meilleures prédictions et atteindre de meilleures performances que n’importe quel modèle contributif unique.
  2. Robustesse : Un ensemble réduit la propagation ou la dispersion des prédictions et des performances du modèle.

Les ensembles sont utilisés pour obtenir de meilleures performances prédictives sur un problème de modélisation prédictive qu’un modèle prédictif unique. La façon dont cela est réalisé peut être comprise comme le modèle réduisant la composante de variance de l’erreur de prédiction en ajoutant un biais (c’est-à-dire dans le contexte du compromis biais-variance).

Développé à l’origine pour réduire la variance – et donc améliorer la précision – d’un système de prise de décision automatisé…

– Page 1, Ensemble Machine Learning, 2012.

Il y a un autre avantage important et moins discuté des méthodes d’ensemble est l’amélioration de la robustesse ou de la fiabilité dans la performance moyenne d’un modèle.

Ce sont deux préoccupations importantes sur un projet d’apprentissage automatique et parfois nous pouvons préférer une ou les deux propriétés d’un modèle.

Regardons de plus près ces deux propriétés afin de mieux comprendre les avantages de l’utilisation de l’apprentissage d’ensemble sur un projet.

Utiliser les ensembles pour améliorer la robustesse

Sur un projet de modélisation prédictive, nous évaluons souvent plusieurs modèles ou pipelines de modélisation et choisissons celui qui est performant ou le meilleur comme notre modèle final.

L’algorithme ou le pipeline est ensuite adapté sur toutes les données disponibles et utilisé pour faire des prédictions sur de nouvelles données.

Nous avons une idée de la performance moyenne du modèle à partir de notre harnais de test, généralement estimée à l’aide de la validation croisée k-fold répétée comme étalon-or. Le problème est que la performance moyenne pourrait ne pas être suffisante.

Une précision ou une erreur moyenne d’un modèle est un résumé de la performance attendue, alors qu’en fait, certains modèles ont mieux performé et d’autres moins bien sur différents sous-ensembles de données.

L’écart-type est la différence moyenne entre une observation et la moyenne et résume la dispersion ou la propagation des données. Pour une mesure de précision ou d’erreur pour un modèle, il peut vous donner une idée de la dispersion du comportement du modèle.

L’examen des scores de performance minimum et maximum du modèle vous donnera une idée de la pire et de la meilleure performance que vous pourriez attendre du modèle, ce qui pourrait ne pas être acceptable pour votre application.

L’ensemble le plus simple consiste à ajuster le modèle plusieurs fois sur les ensembles de données d’apprentissage et à combiner les prédictions à l’aide d’une statistique récapitulative, telle que la moyenne pour la régression ou le mode pour la classification. Il est important de noter que chaque modèle doit être légèrement différent en raison de l’algorithme d’apprentissage stochastique, de la différence dans la composition de l’ensemble de données d’entraînement ou des différences dans le modèle lui-même.

Cela réduira la dispersion des prédictions faites par le modèle. La performance moyenne sera probablement à peu près la même, même si les pires et les meilleures performances seront rapprochées de la performance moyenne.

En effet, cela lisse la performance attendue du modèle.

Nous pouvons nous référer à cela comme à la « robustesse » dans la performance attendue du modèle et c’est un avantage minimum de l’utilisation d’une méthode d’ensemble.

Un ensemble peut ou non améliorer la performance de modélisation par rapport à un seul membre contributeur, discuté plus loin, mais au minimum, il devrait réduire la dispersion dans la performance moyenne du modèle.

Pour en savoir plus sur ce sujet, consultez le tutoriel :

  • Comment réduire la variance dans un modèle d’apprentissage automatique final

Bias, variance et ensembles

Les modèles d’apprentissage automatique pour la classification et la régression apprennent une fonction de mappage des entrées aux sorties.

Cette mise en correspondance est apprise à partir d’exemples du domaine du problème, l’ensemble de données de formation, et est évaluée sur des données non utilisées pendant la formation, l’ensemble de données de test.

Les erreurs commises par un modèle d’apprentissage automatique sont souvent décrites en termes de deux propriétés : le biais et la variance.

Le biais est une mesure de la proximité avec laquelle le modèle peut capturer la fonction de mise en correspondance entre les entrées et les sorties. Il capture la rigidité du modèle : la force de l’hypothèse que le modèle a sur la forme fonctionnelle du mappage entre les entrées et les sorties.

La variance du modèle est la quantité de changement de la performance du modèle lorsqu’il est ajusté sur différentes données d’entraînement. Elle capture l’impact des spécificités des données a sur le modèle.

La variance fait référence à la quantité par laquelle changerait si nous l’estimions en utilisant un ensemble de données d’entraînement différent.

– Page 34, An Introduction to Statistical Learning with Applications in R, 2014.

Le biais et la variance des performances d’un modèle sont liés.

Idéalement, nous préférerions un modèle avec un faible biais et une faible variance, bien qu’en pratique, cela soit très difficile. En fait, cela pourrait être décrit comme l’objectif de l’apprentissage automatique appliqué pour un problème de modélisation prédictive donné.

La réduction du biais peut souvent être facilement obtenue en augmentant la variance. Inversement, la réduction de la variance peut facilement être obtenue en augmentant le biais.

On parle de compromis car il est facile d’obtenir une méthode avec un biais extrêmement faible mais une variance élevée ou une méthode avec une variance très faible mais un biais élevé…

– Page 36, Une introduction à l’apprentissage statistique avec des applications dans R, 2014.

Certains modèles ont naturellement un biais élevé ou une variance élevée, qui peuvent souvent être relaxés ou augmentés à l’aide d’hyperparamètres qui modifient le comportement d’apprentissage de l’algorithme.

Les ensembles fournissent un moyen de réduire la variance des prédictions, c’est-à-dire la quantité d’erreur dans les prédictions effectuées qui peut être attribuée à la « variance ».

Ce n’est pas toujours le cas, mais lorsque c’est le cas, cette réduction de la variance, à son tour, conduit à une amélioration des performances prédictives.

Les données empiriques et théoriques montrent que certaines techniques d’ensemble (comme le bagging) agissent comme un mécanisme de réduction de la variance, c’est-à-dire, elles réduisent la composante de variance de l’erreur. En outre, les résultats empiriques suggèrent que d’autres techniques d’ensemble (telles que AdaBoost) réduisent à la fois le biais et les parties de variance de l’erreur.

– Page 39, Pattern Classification Using Ensemble Methods, 2010.

L’utilisation d’ensembles pour réduire les propriétés de variance des erreurs de prédiction conduit au principal avantage de l’utilisation des ensembles en premier lieu : améliorer les performances de prédiction.

Utiliser les ensembles pour améliorer les performances

Réduire l’élément de variance de l’erreur de prédiction améliore les performances prédictives.

Nous utilisons explicitement l’apprentissage d’ensemble pour rechercher de meilleures performances prédictives, comme une erreur plus faible sur la régression ou une précision élevée pour la classification.

… il existe un moyen d’améliorer la précision des modèles qui est plus facile et plus puissant que la sélection judicieuse d’algorithmes : on peut rassembler les modèles en ensembles.

– Page 2, Ensemble Methods in Data Mining, 2010.

C’est l’utilisation principale des méthodes d’apprentissage d’ensemble et le bénéfice démontré par l’utilisation d’ensembles par la majorité des gagnants des compétitions d’apprentissage automatique, comme le prix Netflix et les compétitions sur Kaggle.

Dans le prix Netflix, un concours s’est déroulé pendant deux ans dans lequel la première équipe à soumettre un modèle améliorant de 10 % le système de recommandation interne de Netflix gagnait 1 000 000 $. l’avantage final était obtenu en pesant les contributions des modèles de 30 concurrents au maximum.

– Page 8, Ensemble Methods in Data Mining, 2010.

Cet avantage a également été démontré avec des compétitions académiques, comme les meilleures solutions pour le célèbre jeu de données ImageNet en vision par ordinateur.

Un ensemble de ces réseaux résiduels atteint 3,57% d’erreur sur le jeu de test ImageNet. Ce résultat a remporté la 1ère place sur la tâche de classification ILSVRC 2015.

– Deep Residual Learning for Image Recognition, 2015.

Lorsqu’il est utilisé de cette manière, un ensemble ne doit être adopté que s’il obtient de meilleures performances en moyenne que n’importe quel membre contributeur de l’ensemble. Si ce n’est pas le cas, il convient d’utiliser à la place le membre contributeur le plus performant.

Considérez la distribution des scores attendus calculés par un modèle sur un harnais de tests, comme la validation croisée k-fold répétée, comme nous l’avons fait ci-dessus lorsque nous avons considéré la  » robustesse  » offerte par un ensemble. Un ensemble qui réduit la variance de l’erreur, en effet, va déplacer la distribution plutôt que de simplement rétrécir l’étendue de la distribution.

Cela peut se traduire par une meilleure performance moyenne par rapport à n’importe quel modèle unique.

Ce n’est pas toujours le cas, et avoir cette attente est une erreur fréquente commise par les débutants.

Il est possible, et même courant, que la performance d’un ensemble ne soit pas meilleure que celle du membre le plus performant de l’ensemble. Cela peut se produire si l’ensemble possède un modèle très performant et que les autres membres n’offrent aucun avantage ou que l’ensemble n’est pas en mesure d’exploiter leur contribution de manière efficace.

Il est également possible qu’un ensemble soit moins performant que le membre le plus performant de l’ensemble. Cela aussi est commun tout implique généralement un modèle le plus performant dont les prédictions sont rendues pires par un ou plusieurs autres modèles peu performants et l’ensemble n’est pas en mesure d’exploiter leurs contributions efficacement.

Comme tel, il est important de tester une suite de méthodes d’ensemble et d’ajuster leur comportement, tout comme nous le faisons pour tout modèle d’apprentissage automatique individuel.

Lectures complémentaires

Cette section fournit plus de ressources sur le sujet si vous cherchez à approfondir.

Related Tutorials

  • How to Reduce Variance in a Final Machine Learning Model
  • How to Develop a Horizontal Voting Deep Learning Ensemble to Reduce Variance

Books

  • Pattern Classification Using Ensemble Methods, 2010.
  • Ensemble Methods, 2012.
  • Ensemble Machine Learning, 2012.
  • Ensemble Methods in Data Mining, 2010.

Articles

  • Ensemble learning, Wikipedia.
  • Ensemble learning, Scholarpedia.

Summary

In this post, you discovered the benefits of using ensemble methods for machine learning.

Spécifiquement, vous avez appris :

  • Un avantage minimal de l’utilisation d’ensembles est de réduire la dispersion de la compétence moyenne d’un modèle prédictif.
  • Un avantage clé de l’utilisation d’ensembles est d’améliorer la performance moyenne de prédiction sur tout membre contribuant à l’ensemble.
  • Le mécanisme d’amélioration de la performance avec les ensembles est souvent la réduction de la composante de variance des erreurs de prédiction faites par les modèles contributeurs.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.