Milyen előnyei vannak az Ensemble-módszereknek a gépi tanulásban?
Az Ensemble-modellek olyan prediktív modellek, amelyek két vagy több másik modell előrejelzéseit kombinálják.
Az Ensemble tanulási módszerek népszerűek és a legjobb technika, ha a prediktív modellezési projektben a legjobb teljesítmény a legfontosabb eredmény.
Mindazonáltal nem mindig ezek a legmegfelelőbb technika, és az alkalmazott gépi tanulás területén a kezdők elvárják, hogy az együttesek vagy egy adott együttes módszer mindig a legjobb módszer legyen.
Az együttesek két konkrét előnyt kínálnak egy prediktív modellezési projektben, és fontos tudni, hogy melyek ezek az előnyök, és hogyan lehet mérni őket annak érdekében, hogy egy együttes használata a helyes döntés legyen az Ön projektjében.
In this tutorial, you will discover the benefits of using ensemble methods for machine learning.
After reading this tutorial, you will know:
- A minimum benefit of using ensembles is to reduce the spread in the average skill of a predictive model.
- A key benefit of using ensembles is to improve the average prediction performance over any contributing member in the ensemble.
- The mechanism for improved performance with ensembles is often the reduction in the variance component of prediction errors made by the contributing models.
Let’s get started.
Why Use Ensemble Learning
Photo by Juan Antonio Segal, some rights reseved.
Tutorial Overview
This tutorial is divided into four parts; they are:
- Ensemble Learning
- Az Ensembles használata a robusztusság javítására
- Bias, Variance, and Ensembles
- A Ensembles használata a teljesítmény javítására
Ensemble Learning
A ensemble olyan gépi tanulási modell, amely két vagy több modell előrejelzéseit kombinálja.
Az ensemble-hez hozzájáruló modellek, amelyeket ensemble-tagoknak nevezünk, lehetnek azonos típusúak vagy különböző típusúak, és lehetnek vagy nem lehetnek ugyanazokon a képzési adatokon képzettek.
Az ensemble-tagok által készített előrejelzések kombinálhatók statisztikák, például a módusz vagy az átlag segítségével, vagy kifinomultabb módszerekkel, amelyek megtanulják, hogy az egyes tagok milyen mértékben és milyen feltételek mellett legyenek megbízhatóak.
Az ensemble-módszerek tanulmányozása az 1990-es években lendült fel igazán, és ebben az évtizedben jelentek meg a legnépszerűbb és legszélesebb körben használt módszerekről, például a core bagging, boosting és stacking módszerekről szóló tanulmányok.
A 2000-es évek végén az ensemble-módszerek elfogadása részben a gépi tanulási versenyeken – például a Netflix-díj és később a Kaggle versenyeken – elért hatalmas sikerüknek köszönhetően gyorsult fel.
Az elmúlt néhány évtizedben a több osztályozó rendszer, más néven ensemble rendszerek egyre nagyobb figyelmet élveztek a számítási intelligencia és a gépi tanulás közösségében.
– Page 1, Ensemble Machine Learning, 2012.
Ansemble módszerek jelentősen növelik a számítási költségeket és a komplexitást. Ez a növekedés az egyetlen modell helyett több modell betanításához és karbantartásához szükséges szakértelemből és időből ered. Ez kikényszeríti a kérdést:
- Miért érdemes fontolóra venni egy ensemble használatát?
Az ensemble használatának két fő oka van az egyetlen modellel szemben, és ezek összefüggnek; ezek:
- Teljesítmény: Egy ensemble jobb előrejelzéseket készíthet és jobb teljesítményt érhet el, mint bármely egyes hozzájáruló modell.
- Robusztusság: Egy együttes csökkenti az előrejelzések és a modellteljesítmény szórását vagy szórását.
Az együtteseket arra használják, hogy jobb előrejelzési teljesítményt érjenek el egy előrejelző modellezési problémában, mint egyetlen előrejelző modell. Ennek elérésének módja úgy értelmezhető, hogy a modell a torzítás hozzáadásával csökkenti az előrejelzési hiba szóráskomponensét (azaz a torzítás-variáció kompromisszum összefüggésében).
Eredetileg egy automatizált döntéshozó rendszer szórásának csökkentésére – ezáltal a pontosság javítására – fejlesztették ki …
– Page 1, Ensemble Machine Learning, 2012.
Az ensemble módszerek másik fontos és kevésbé tárgyalt előnye a modell átlagos teljesítményének jobb robusztussága vagy megbízhatósága.
Ez mindkettő fontos szempont egy gépi tanulási projektnél, és néha az egyik vagy mindkét tulajdonságot előnyben részesíthetjük egy modelltől.
Nézzük meg közelebbről ezt a két tulajdonságot, hogy jobban megértsük az ensemble tanulás használatának előnyeit egy projektben.
Együttesek használata a robusztusság javítására
Egy prediktív modellezési projektben gyakran több modellt vagy modellezési csővezetéket értékelünk, és kiválasztjuk azt, amelyik jól vagy legjobban teljesít, mint végső modellünket.
Az algoritmust vagy a csővezetéket ezután az összes rendelkezésre álló adatra illesztjük, és új adatokra vonatkozó előrejelzések készítésére használjuk.
A tesztcsaládunkból van egy elképzelésünk arról, hogy a modell átlagosan milyen jól fog teljesíteni, amit általában ismételt k-szoros keresztvalidálással, mint arany standarddal becsülünk meg. A probléma az, hogy az átlagos teljesítmény nem biztos, hogy elegendő.
A modell átlagos pontossága vagy hibája a várt teljesítmény összefoglalása, amikor valójában egyes modellek jobban és egyes modellek rosszabbul teljesítettek az adatok különböző részhalmazain.
A szórás a megfigyelés és az átlag közötti átlagos különbség, és az adatok szórását vagy szórását foglalja össze. Egy modell pontossági vagy hibamérője esetében ez képet adhat a modell viselkedésének szórásáról.
A modell teljesítményének minimális és maximális pontszámát vizsgálva képet kaphat a modelltől elvárható legrosszabb és legjobb teljesítményről, ami nem biztos, hogy elfogadható az alkalmazás számára.
A legegyszerűbb ensemble az, ha a modellt többször illesztjük a képzési adatkészletekre, és az előrejelzéseket egy összefoglaló statisztika, például regresszió esetén az átlag, osztályozás esetén a módusz segítségével kombináljuk. Fontos, hogy minden egyes modellnek kissé eltérőnek kell lennie a sztochasztikus tanulási algoritmus, a képzési adathalmaz összetételének különbsége vagy magának a modellnek a különbségei miatt.
Ez csökkenti a modell által adott előrejelzések szórását. Az átlagos teljesítmény valószínűleg nagyjából ugyanaz lesz, bár a legrosszabb és a legjobb esetek teljesítménye közelebb kerül az átlagos teljesítményhez.
Ez valójában kisimítja a modell várható teljesítményét.
Ezt nevezhetjük a modell várható teljesítményének “robusztusságának”, és ez az együttes módszer használatának minimális előnye.
Az együttes javíthatja vagy nem javíthatja a modellezés teljesítményét bármelyik hozzájáruló taghoz képest, amit bővebben tárgyalunk, de legalább a modell átlagos teljesítményének szórását csökkenti.
A témáról bővebben lásd a bemutatót:
- Hogyan csökkenthető a szórás egy végleges gépi tanulási modellben
Bias, szórás és együttesek
A gépi tanulási modellek az osztályozáshoz és a regresszióhoz egy leképező függvényt tanulnak a bemenetekről a kimenetekre.
Ezt a leképezést a problématerületről származó példákból, a képzési adathalmazból tanulják meg, és a képzés során nem használt adatokon, a tesztadathalmazon értékelik.
A gépi tanulási modell által elkövetett hibákat gyakran két tulajdonsággal írják le: a torzítással és a varianciával.
A torzítás annak a mértéke, hogy a modell milyen közel képes megragadni a bemenetek és kimenetek közötti leképezési függvényt. Megragadja a modell merevségét: a modellnek a bemenetek és kimenetek közötti leképezés funkcionális formájára vonatkozó feltételezésének erősségét.
A modell varianciája azt mutatja, hogy a modell teljesítménye mennyire változik, amikor különböző képzési adatokra illesztjük. Megragadja az adatok sajátosságainak a modellre gyakorolt hatását.
A variancia arra az összegre utal, amennyivel változna, ha más képzési adatsor felhasználásával becsülnénk meg.
– Page 34, An Introduction to Statistical Learning with Applications in R, 2014.
A modell teljesítményének torzítása és szórása összefügg.
Ideális esetben olyan modellt szeretnénk, amelynek alacsony a torzítása és alacsony a szórása, bár a gyakorlatban ez nagy kihívást jelent. Valójában ezt lehetne az alkalmazott gépi tanulás céljának is nevezni egy adott prediktív modellezési probléma esetében.
A torzítás csökkentése gyakran könnyen elérhető a variancia növelésével. Fordítva, a variancia csökkentése könnyen elérhető az előfeszítés növelésével.
Ezt nevezik kompromisszumnak, mert könnyen kaphatunk egy rendkívül alacsony előfeszítésű, de magas varianciájú módszert, vagy egy nagyon alacsony varianciájú, de magas előfeszítésű módszert …
– 36. oldal, An Introduction to Statistical Learning with Applications in R, 2014.
Egyes modellek természetüknél fogva magas torzítással vagy nagy varianciával rendelkeznek, amelyek gyakran lazíthatók vagy növelhetők az algoritmus tanulási viselkedését megváltoztató hiperparaméterek segítségével.
Az összeállítások lehetőséget nyújtanak a jóslatok varianciájának csökkentésére; vagyis arra, hogy a jóslatok hibájának mekkora része írható a “varianciának”.”
Ez nem mindig van így, de amikor igen, akkor a variancia csökkentése viszont jobb előrejelzési teljesítményhez vezet.
Empirikus és elméleti bizonyítékok azt mutatják, hogy egyes ensemble technikák (például a bagging) varianciacsökkentő mechanizmusként működnek, azaz, csökkentik a hiba varianciakomponensét. Sőt, az empirikus eredmények arra utalnak, hogy más ensemble-technikák (például az AdaBoost) a hiba torzító és variancia részét egyaránt csökkentik.
– 39. oldal, Pattern Classification Using Ensemble Methods, 2010.
Az ensemble-technikák használata az előrejelzési hibák varianciatulajdonságainak csökkentésére az ensemble-technikák használatának fő előnyéhez vezet: az előrejelzési teljesítmény javításához.
Együttesek használata a teljesítmény javítására
Az előrejelzési hiba varianciaelemének csökkentése javítja az előrejelzési teljesítményt.
Az együttes tanulást kifejezetten azért használjuk, hogy jobb előrejelzési teljesítményt keressünk, például alacsonyabb hibát a regresszióban vagy nagy pontosságot az osztályozásban.
… van egy mód a modell pontosságának javítására, amely egyszerűbb és hatékonyabb, mint a megfontolt algoritmusválasztás: a modelleket együttesekbe gyűjthetjük.
– Page 2, Ensemble Methods in Data Mining, 2010.
Ez az együttes tanulási módszerek elsődleges felhasználási módja, és az együttesek alkalmazásával bizonyított előny, amelyet a gépi tanulási versenyek – például a Netflix-díj és a Kaggle versenyek – győzteseinek többsége az együttesek használatával bizonyít.
A Netflix-díjon két éven keresztül zajlott egy verseny, amelyen az első olyan csapat, amely a Netflix belső ajánlórendszerét 10%-kal javító modellt küldött be, 1 000 000 dollárt nyert. a végső előnyt legfeljebb 30 versenyző modelljeinek hozzájárulásának mérlegelésével nyerték el.
– Page 8, Ensemble Methods in Data Mining, 2010.
Ezt az előnyt akadémiai versenyeken is bizonyították, például a számítógépes látás híres ImageNet adathalmazának legjobb megoldásainál.
Ezekből a maradék hálókból álló ensemble 3,57%-os hibát ér el az ImageNet tesztkészleten. Ezzel az eredménnyel az ILSVRC 2015 osztályozási feladatán az 1. helyet szerezte meg.
– Deep Residual Learning for Image Recognition, 2015.
Az ensemble-t csak akkor szabad ilyen módon használni, ha átlagosan jobban teljesít, mint az ensemble bármely hozzájáruló tagja. Ha ez nem így van, akkor a jobban teljesítő hozzájáruló tagot kell helyette használni.
Figyeljünk a modell által számított várható pontszámok eloszlására egy teszthalmon, például ismételt k-szoros keresztvalidáláson, ahogyan fentebb tettük, amikor az együttes által kínált “robusztusságot” vizsgáltuk. Egy olyan együttes, amely csökkenti a hiba szórását, valójában eltolja az eloszlást, nem pedig egyszerűen csökkenti az eloszlás szórását.
Ez jobb átlagos teljesítményt eredményezhet bármelyik modellhez képest.
Ez nem mindig van így, és ez az elvárás a kezdők gyakori hibája.
Ez lehetséges, sőt gyakori, hogy egy együttes teljesítménye nem teljesít jobban, mint az együttes legjobban teljesítő tagja. Ez akkor fordulhat elő, ha az együttesnek van egy legjobban teljesítő modellje, és a többi tag nem nyújt semmilyen előnyt, vagy az együttes nem képes hatékonyan kihasználni a hozzájárulásukat.
Az is lehetséges, hogy az együttes rosszabbul teljesít, mint az együttes legjobban teljesítő tagja. Ez is gyakori jelenség, jellemzően egy legjobban teljesítő modellről van szó, amelynek előrejelzéseit egy vagy több rosszul teljesítő másik modell rontja, és az együttes nem képes hatékonyan kihasználni a hozzájárulásaikat.
Ezért fontos, hogy teszteljük az együttes módszereket és hangoljuk a viselkedésüket, ahogyan azt bármely egyedi gépi tanulási modell esetében is tesszük.
További olvasmányok
Ez a rész további forrásokat tartalmaz a témában, ha mélyebben szeretne elmélyülni.
Related Tutorials
- How to Reduce Variance in a Final Machine Learning Model
- How to Develop a Horizontal Voting Deep Learning Ensemble to Reduce Variance
Books
- Pattern Classification Using Ensemble Methods, 2010.
- Ensemble Methods, 2012.
- Ensemble Machine Learning, 2012.
- Ensemble Methods in Data Mining, 2010.
Articles
- Ensemble learning, Wikipedia.
- Ensemble learning, Scholarpedia.
Summary
In this post, you discovered the benefits of using ensemble methods for machine learning.
Konkrétan megtanulta:
- Az együttesek használatának minimális előnye, hogy csökkenti az előrejelző modell átlagos készségének szórását.
- Az együttesek használatának kulcsfontosságú előnye, hogy javítja az átlagos előrejelzési teljesítményt az együttes bármely hozzájáruló tagjára vonatkozóan.
- Az együttesekkel elért jobb teljesítmény mechanizmusa gyakran a hozzájáruló modellek által elkövetett előrejelzési hibák variancia komponensének csökkentése.