A hisztogramok olyan grafikonok, amelyek a folytonos adatok eloszlását mutatják. Fantasztikus feltáró eszközök, mert olyan módon tárnak fel tulajdonságokat a mintaadatokról, ahogyan az összefoglaló statisztikák nem képesek. Míg például az átlag és a szórás számszerűen összefoglalhatja az adatokat, a hisztogramok életre keltik a mintaadatokat.
Ebben a blogbejegyzésben megmutatom, hogyan tárják fel a hisztogramok az eloszlás alakját, a központi tendenciát és az értékek szórását a mintaadatokban. Azt is megtudhatja, hogyan azonosíthatja a kiugró értékeket, hogyan kapcsolódnak a hisztogramok a valószínűségi eloszlásfüggvényekhez, és miért lehet szükség hipotézistesztek használatára velük.
- Hisztogramok, központi tendencia és változékonyság
- Hisztogramok és a központi tendencia
- Hisztogramok és a változékonyság
- Hisztogramok és ferde eloszlások
- Hisztogramok használata a kiugró értékek azonosítására
- Multimodális eloszlások azonosítása hisztogramokkal
- Hisztogramok használata alpopulációk azonosítására
- Hisztogramok használata egy valószínűségi eloszlásfüggvény illeszkedésének értékelésére
- Using Histograms to Compare Distributions between Groups
- Hisztogramok és a mintavétel mérete
- Hipotézistesztek használata a hisztogramokkal együtt
Hisztogramok, központi tendencia és változékonyság
A hisztogramokat akkor használja, ha folytonos mérésekkel rendelkezik, és szeretné megérteni az értékek eloszlását, valamint megkeresni a kiugró értékeket. Ezek a grafikonok a folytonos méréseket értéktartományokba, úgynevezett rekeszekbe sorolják. Minden egyes tárolóhoz tartozik egy sáv, amely az adott tárolóba eső megfigyelések számát vagy százalékos arányát jelzi.
Töltse le a CSV-adatfájlt, hogy elkészíthesse a legtöbb hisztogramot ebben a blogbejegyzésben: Hisztogramok.
A statisztika területén gyakran használunk összefoglaló statisztikákat egy teljes adathalmaz leírására. Ezek a statisztikák egyetlen számot használnak a minta valamely jellemzőjének számszerűsítésére. Például a központi tendencia mértéke egyetlen érték, amely egy adathalmaz középpontját vagy tipikus értékét, például az átlagot jelöli. A változékonysági mérőszám egy másik típusú összefoglaló statisztika, amely azt írja le, hogy az értékek mennyire szóródnak szét az adathalmazban. A szórás hagyományos mérőszáma a szóródás.
Ezek az összefoglaló statisztikák kulcsfontosságúak. Hányszor hallotta már, hogy egy csoport átlaga egy adott érték? Jelentőségteljes információt nyújt. Ezek a mértékek azonban az adathalmaz egyszerűsítései. Az adatok grafikus ábrázolása életre kelti azokat. Általában úgy találom, hogy a grafikonok és a statisztikák együttes használata mindkét világból a legjobbat nyújtja!
Lássuk ezt a gyakorlatban.
: A központi tendencia és a változékonyság mérései
Hisztogramok és a központi tendencia
A hisztogramok segítségével megérthetjük az adatok középpontját. Az alábbi hisztogramon látható, hogy a középpont 50 közelében van. Az adathalmazban a legtöbb érték 50 közelében lesz, a távolabbi értékek pedig ritkábbak. Az eloszlás nagyjából szimmetrikus, és az értékek körülbelül 40 és 64 közé esnek.
Az átlagok közötti különbség vízszintesen eltolja az eloszlásokat az X tengely mentén (kivéve, ha a hisztogramot elforgatjuk). Az alábbi hisztogramokban az egyik csoport átlaga 50, míg a másiké 65.
A hisztogramok segítségével ráadásul a csoportok közötti átfedés mértékét is meg lehet ragadni. A fenti hisztogramokban viszonylag kis átfedés van.
Hisztogramok és a változékonyság
ételezzük fel, hogy két csoportnak ugyanaz az 50-es átlaga. Ez úgy hangzik, mintha gyakorlatilag egyenértékűek lennének. Az adatok grafikus ábrázolása után azonban nyilvánvalóvá válnak a különbségek, ahogy az alábbiakban látható.
A hisztogramok középpontja ugyanaz az 50-es érték, de az értékek szórása jelentősen eltér. Az A csoport értékei többnyire 40-60 közé esnek, míg a B csoport esetében ez a tartomány 20-90 között van. Az átlag nem mondja el a teljes történetet! A hisztogramokon ránézésre is jól látható a különbség.
A hisztogramok röviden azt mutatják meg, hogy mely értékek fordulnak elő gyakrabban és ritkábban, valamint azok szórását. Ezt a megértést az értékek nyers listájából nem nyerheti meg. Az összefoglaló statisztikák, mint például az átlag és a szórás, csak részben segítenek ebben. A hisztogramok azonban feldobják az adatokat!
Hisztogramok és ferde eloszlások
A hisztogramok kiváló eszközök az eloszlás alakjának azonosítására. Eddig szimmetrikus eloszlásokat, például a normális eloszlást vizsgáltuk. Azonban nem minden eloszlás szimmetrikus. Előfordulhat, hogy nem normális adatokkal rendelkezik, amelyek ferdék.
Az eloszlás alakja a minta alapvető jellemzője, amely meghatározhatja, hogy a központi tendencia melyik mérőszáma tükrözi legjobban az adatok középpontját. Ehhez kapcsolódóan az alak hatással van arra is, hogy a parametrikus vagy a nem parametrikus hipotézisvizsgálat alkalmazása között válasszon. Ily módon a hisztogramok informatívak az adataihoz megfelelő összefoglaló statisztikák és hipotézistesztek tekintetében.
A ferde eloszlások esetében a ferdeség iránya jelzi, hogy a hosszabb farok merre húzódik.
Jobbra ferde eloszlások esetében a hosszú farok jobbra húzódik, míg a legtöbb érték balra csoportosul, ahogy az alábbiakban látható. Ezek valós adatok egy általam végzett vizsgálatból.
Ezzel szemben balra ferde eloszlások esetén a hosszú farok balra húzódik, míg a legtöbb érték jobbra csoportosul.
: A normális eloszlás a statisztikában és a parametrikus vs. nemparametrikus hipotézisvizsgálatok
Hisztogramok használata a kiugró értékek azonosítására
A hisztogramok hasznosak a kiugró értékek azonosítására. Egy pillanat alatt láthatja, hogy vannak-e szokatlan értékek. Ha potenciális kiugró értékeket azonosít, vizsgálja meg őket. Vajon adatbeviteli hibákról van szó, vagy szokatlan körülmények között történt megfigyeléseket jelentenek? Vagy esetleg törvényes megfigyelésekről van szó, amelyek pontosan leírják a vizsgált terület változékonyságát.
A hisztogramban a kiugró értékek elszigetelt sávként jelennek meg.
Multimodális eloszlások azonosítása hisztogramokkal
A multimodális eloszlásnak egynél több csúcsa van. A multimodális eloszlásokat könnyű nem észrevenni, ha az összefoglaló statisztikákra, például az átlagra és a szórásértékekre összpontosítunk. Következésképpen a hisztogramok a legjobb módszer a multimodális eloszlások felismerésére.
Képzelje el, hogy az adatállománya az alábbiakban látható tulajdonságokkal rendelkezik.
Ez viszonylag egyszerűnek tűnik, de ha grafikusan ábrázolod, az alábbi hisztogramot látod.
Ez a bimodális eloszlás nem egészen az, amire számítottál! Ez a hisztogram jól szemlélteti, hogy miért kell mindig grafikonon ábrázolnod az adataidat ahelyett, hogy csak összefoglaló statisztikákat számolnál ki!
Hisztogramok használata alpopulációk azonosítására
Néha ezek a multimodális eloszlások tükrözik a vizsgált jelenség tényleges eloszlását. Más szóval, egy populáció eloszlásában valóban különböző csúcsértékek vannak. Más esetekben azonban a multimodális eloszlások azt jelzik, hogy különböző jellemzőkkel rendelkező alpopulációkat kombinál. A hisztogramok segíthetnek megerősíteni ezeknek az alpopulációknak a jelenlétét, és szemléltethetik, hogy miben különböznek egymástól.
Tegyük fel, hogy az amerikai állampolgárok magasságát vizsgáljuk. Az átlagos magasságuk 168 centiméter, a szórásuk 9,8 CM. A hisztogram az alábbiakban látható. Úgy tűnik, hogy van egy szokatlanul széles csúcs a közepén – nem egészen bimodális.
Ha a mintát nemek szerint osztjuk, világossá válik az ok.
Észrevettük, hogy az egyetlen széles eloszlást két szűkebb eloszlás váltotta fel? A hisztogramok segítségével megtudhatjuk, hogy a nem egy lényeges kategorikus változó a magasságot érintő vizsgálatokban. A grafikonok azt mutatják, hogy az átlag pontosabb becsléseket ad, amikor a magasságokat nemek szerint értékeljük. Valójában a teljes populációra vonatkozó átlag nem egyezik meg egyik alpopuláció átlagával sem. Ez félrevezető!
Hisztogramok használata egy valószínűségi eloszlásfüggvény illeszkedésének értékelésére
Az elemzők egy valószínűségi eloszlásfüggvény illesztett vonalát a hisztogramjukra helyezhetik. Íme egy gyors különbségtétel a kettő között:
- Hisztogram: Megjeleníti a mintában lévő értékek eloszlását.
- illesztett eloszlási egyenes: Megjeleníti egy adott eloszlás (pl. normál, Weibull stb.) valószínűségi eloszlásfüggvényét, amely a legjobban illeszkedik az adatokhoz.
A hisztogram a minta adatait ábrázolja. Ezzel szemben egy illesztett eloszlásvonal megpróbálja megtalálni azt a valószínűségi eloszlásfüggvényt egy olyan populációhoz, amely a legnagyobb valószínűséggel hozza létre a mintájában létező eloszlást.
Míg a hisztogramokat használhatja annak értékelésére, hogy az eloszlási görbe mennyire illeszkedik a mintájához, NEM ajánlom! Ha ragaszkodik a hisztogram használatához, értékelje, hogy a sávok mennyire követik az illesztett egyenes alakját. Az alábbi grafikonon úgy tűnik, hogy a normális eloszlás illesztett egyenese megfelelően követi a hisztogram sávjait. A legenda az illesztett eloszlás becsült paraméterértékeit mutatja.
Hisztogram használata helyett annak meghatározására, hogy egy eloszlás mennyire illeszkedik az adatokhoz, az eloszlási tesztek és valószínűségi ábrák kombinációját javaslom. A valószínűségi ábrák olyan speciális grafikonok, amelyeket kifejezetten arra terveztek, hogy megjelenítsék, mennyire jól illeszkednek a valószínűségi eloszlásfüggvények a mintákhoz. Ha többet szeretne megtudni ezekről a más megközelítésekről, olvassa el az Adatai eloszlásának azonosítása és a Hisztogramok vs. valószínűségi ábrák című bejegyzéseimet.
Kapcsolódó bejegyzés: Understanding Probability Distributions
Using Histograms to Compare Distributions between Groups
A csoportok közötti eloszlások összehasonlításához hisztogramok segítségével egy folytonos változóra és egy kategorikus csoportosító változóra is szüksége lesz. A csoportok hisztogramokban való megjelenítésének két gyakori módja van. Vagy egymásra helyezheti a csoportokat, vagy különböző panelekben ábrázolhatja őket, ahogy az alábbiakban látható.
Az eloszlások összehasonlítása könnyebb lehet, ha egymásra vannak fektetve, de néha rendetlenséget okoz. A különálló panelekben lévő hisztogramok az egyes eloszlásokat világosabban jelenítik meg, de az összehasonlítások és az átfedés mértéke nem olyan egyértelmű. A fenti példákban a paneles eloszlások egyértelműen olvashatóbbak. Az egymásra helyezett hisztogramok azonban más esetekben is szépen működhetnek, ahogyan azt ebben a blogbejegyzésben is láthatta. Kísérletezzen, hogy megtalálja a legjobb megközelítést az adataihoz!
Míg szerintem a hisztogramok a legjobb grafikonok az értékek eloszlásának megértéséhez egyetlen csoport esetében, több csoport esetén zavarosak lehetnek. A hisztogramok általában elég jók két csoport, és akár négy csoport megjelenítésére is, ha külön panelen jeleníti meg őket. Ha elsődleges célja az eloszlások összehasonlítása, és a hisztogramok értelmezése kihívást jelent, fontolja meg boxplotok vagy egyedi ábrák használatát. Véleményem szerint ezek a más ábrák jobbak az eloszlások összehasonlítására, ha több csoportja van. De nem nyújtanak annyi részletet az egyes eloszlásokhoz, mint a hisztogramok.
Még egyszer, kísérletezzen, és határozza meg, melyik grafikon működik a legjobban az adataihoz és céljaihoz!
Kapcsolódó bejegyzés: Boxplots vs. egyéni értékdiagramok: Folyamatos adatok csoportonkénti ábrázolása
Hisztogramok és a mintavétel mérete
Amilyen fantasztikusak is a hisztogramok az adatok feltárására, legyen tisztában azzal, hogy a mintavétel mérete jelentős szempont, amikor a hisztogram alakjának hasonlítania kell a populációs eloszláshoz. Általában azt javaslom, hogy a hisztogramokhoz csoportonként legalább 20 fős mintaméretet használjon. Ha 20-nál kevesebb megfigyeléssel rendelkezik, túl kevés adat áll rendelkezésére ahhoz, hogy pontosan ábrázolja a populáció eloszlását.
Az alábbi két hisztogram olyan populációból vett mintákat használ, amelynek átlaga 100, szórása pedig 15. Az alábbi két hisztogramhoz olyan mintákat használunk, amelyek 100-as átlaggal és 15-ös szórással rendelkeznek. Ezek a jellemzők az IQ-pontszámok eloszlását írják le. Az egyik hisztogram azonban 20-as, míg a másik 100-as mintát használ. Vegye észre, hogy az Y-tengelyen százalékot használok a különböző mintaméretek közötti hisztogram sávok összehasonlításához.
Ez elég nagy különbség! Meglepően nagy mintaméretre van szükség ahhoz, hogy egy teljes eloszlás jó ábrázolást kapjunk. Ha a mintaméret kevesebb, mint 20, fontolja meg az egyedi értékek ábrázolását.
Hipotézistesztek használata a hisztogramokkal együtt
Mint ebben a bejegyzésben láthatta, a hisztogramokkal a csoportok eloszlását és a csoportok közötti különbségeket is szemléltetheti. Ha azonban a mintaadatokat arra szeretné használni, hogy következtetéseket vonjon le a populációkra vonatkozóan, hipotézisteszteket kell használnia. Emellett ügyeljen arra, hogy olyan mintavételi módszert, például véletlenszerű mintavételt alkalmazzon, amellyel a populációt tükröző mintát kap.