Použití histogramů k pochopení dat

Histogramy jsou grafy, které zobrazují rozložení spojitých dat. Jsou fantastickými průzkumnými nástroji, protože odhalují vlastnosti vašich výběrových dat způsobem, který souhrnné statistiky nedokážou. Zatímco například průměr a směrodatná odchylka mohou číselně shrnout vaše data, histogramy vaše výběrová data oživí.

V tomto příspěvku na blogu vám ukážu, jak histogramy odhalují tvar rozdělení, jeho centrální tendenci a rozptyl hodnot ve vašich výběrových datech. Dozvíte se také, jak identifikovat odlehlé hodnoty, jak histogramy souvisejí s funkcemi rozdělení pravděpodobnosti a proč s nimi možná budete muset použít testy hypotéz.

Histogramy, centrální tendence a variabilita

Histogramy využijete, pokud máte k dispozici spojitá měření a chcete porozumět rozdělení hodnot a hledat odlehlé hodnoty. Tyto grafy berou vaše spojitá měření a umisťují je do rozsahů hodnot známých jako bin. Každý bin má sloupec, který představuje počet nebo procento pozorování, která spadají do tohoto bin.

Stáhněte si datový soubor CSV, abyste mohli vytvořit většinu histogramů v tomto příspěvku:

V oblasti statistiky často používáme souhrnné statistiky k popisu celého souboru dat. Tyto statistiky používají jedno číslo ke kvantifikaci charakteristiky vzorku. Například míra centrální tendence je jediná hodnota, která představuje středový bod nebo typickou hodnotu souboru dat, například průměr. Míra variability je dalším typem souhrnné statistiky, která popisuje, jak jsou hodnoty v souboru dat rozptýlené. Směrodatná odchylka je běžnou mírou rozptylu.

Tyto souhrnné statistiky jsou klíčové. Jak často jste slyšeli, že průměr skupiny je určitá hodnota? Poskytuje smysluplnou informaci. Tyto míry však představují zjednodušení souboru dat. Grafické znázornění dat je oživí. Obecně se domnívám, že používání grafů ve spojení se statistikami poskytuje to nejlepší z obou světů!

Podívejme se na to v praxi.

:

Míry centrální tendence a míry variability

Histogramy a centrální tendence

K pochopení středu dat použijte histogramy. Na níže uvedeném histogramu vidíte, že střed je blízko hodnoty 50. Většina hodnot v souboru dat se bude nacházet v blízkosti hodnoty 50 a hodnoty vzdálenější jsou vzácnější. Rozdělení je zhruba symetrické a hodnoty se pohybují přibližně mezi 40 a 64.

Ukázkový histogram, který zobrazuje rozdělení jedné skupiny.

Ukázkový histogram, který zobrazuje rozdělení jedné skupiny.

Rozdíl středních hodnot posouvá rozdělení vodorovně podél osy X (pokud není histogram otočen). V níže uvedených histogramech má jedna skupina průměr 50, zatímco druhá 65.

Histogram, který zobrazuje dvě překryté skupiny, které mají různé průměry.

Histogram, který zobrazuje dvě překryté skupiny, které mají různé průměry.

Histogramy navíc pomáhají pochopit míru překrývání skupin. Ve výše uvedených histogramech je překrývání relativně malé.

Histogramy a variabilita

Předpokládejme, že se dozvíte, že dvě skupiny mají stejný průměr 50 bodů. Zní to, jako by byly prakticky rovnocenné. Po vykreslení dat do grafu však začnou být patrné rozdíly, jak je uvedeno níže.

Histogramy v samostatných panelech, které zobrazují dvě skupiny se stejným průměrem, ale rozdílnou variabilitou.

Histogramy v samostatných panelech, které zobrazují dvě skupiny se stejným průměrem, ale různou variabilitou.

Histogramy mají střed na stejné hodnotě 50, ale rozptyl hodnot je výrazně odlišný. Hodnoty pro skupinu A se většinou pohybují v rozmezí 40-60, zatímco pro skupinu B je toto rozmezí 20-90. Průměrná hodnota nevypovídá o všem! Na první pohled je rozdíl patrný z histogramů.

Zkrátka histogramy ukazují, které hodnoty jsou častější a které méně časté spolu s jejich rozptylem. Toto pochopení nemůžete získat z nezpracovaného seznamu hodnot. Souhrnné statistiky, jako je průměr a směrodatná odchylka, vás k tomu částečně dovedou. Díky histogramům však data vyniknou!

Histogramy a zkosená rozdělení

Histogramy jsou vynikajícím nástrojem pro určení tvaru rozdělení. Dosud jsme se zabývali symetrickými rozděleními, například normálním rozdělením. Ne všechna rozdělení jsou však symetrická. Můžete mít nenormální data, která jsou zkreslená.

Tvar rozdělení je základní charakteristikou vašeho vzorku, která může určit, která míra centrální tendence nejlépe odráží střed vašich dat. S tím souvisí i to, že tvar ovlivňuje vaši volbu mezi použitím parametrického nebo neparametrického testu hypotéz. Histogramy tak poskytují informace o souhrnných statistikách a testech hypotéz, které jsou pro vaše data vhodné.

U šikmých rozdělení směr šikmosti udává, kterým směrem se táhne delší chvost.

U pravostranně šikmých rozdělení se dlouhý chvost táhne doprava, zatímco většina hodnot se shlukuje vlevo, jak je znázorněno níže. Jedná se o skutečná data ze studie, kterou jsem provedl.

Proti tomu u levostranně šikmých rozdělení se delší chvost táhne doleva, zatímco většina hodnot se shlukuje napravo.

Histogram, který zobrazuje levostranné rozdělení.

Histogram, který zobrazuje levostranné rozdělení.

: Normální rozdělení ve statistice a parametrické vs. neparametrické testy hypotéz

Použití histogramů k identifikaci odlehlých hodnot

Histogramy jsou praktickým způsobem identifikace odlehlých hodnot. Během okamžiku zjistíte, zda se v nich vyskytují neobvyklé hodnoty. Pokud identifikujete potenciální odlehlé hodnoty, prozkoumejte je. Jedná se o chyby při zadávání dat, nebo představují pozorování, ke kterým došlo za neobvyklých podmínek? Nebo se možná jedná o legitimní pozorování, která přesně popisují variabilitu ve studované oblasti.

Histogram, který zobrazuje odlehlou hodnotu.

Histogram, který zobrazuje odlehlou hodnotu.

V histogramu se odlehlé hodnoty zobrazí jako izolovaný sloupec.

Identifikace multimodálních rozdělení pomocí histogramů

Multimodální rozdělení má více než jeden vrchol. Multimodální rozdělení snadno přehlédnete, když se zaměříte na souhrnné statistiky, jako je průměr a směrodatná odchylka. V důsledku toho jsou histogramy nejlepší metodou pro odhalení multimodálních rozdělení.

Představte si, že váš soubor dat má vlastnosti uvedené níže.

Tabulka popisné statistiky.

Tabulka popisné statistiky.

To vypadá poměrně jednoduše, ale když to vykreslíte do grafu, uvidíte níže uvedený histogram.

Histogram, který zobrazuje multimodální rozdělení.

Histogram, který zobrazuje multimodální rozdělení.

Toto bimodální rozdělení není úplně to, co jste čekali! Tento histogram ilustruje, proč byste měli svá data vždy zobrazovat v grafech, a ne pouze počítat souhrnné statistiky!

Použití histogramů k identifikaci subpopulací

Někdy tato multimodální rozdělení odrážejí skutečné rozdělení studovaného jevu. Jinými slovy, v rozdělení jedné populace skutečně existují různé vrcholové hodnoty. V jiných případech však multimodální rozdělení naznačují, že kombinujete subpopulace, které mají různé charakteristiky. Histogramy mohou pomoci potvrdit přítomnost těchto subpopulací a znázornit, jak se od sebe liší.

Předpokládejme, že studujeme výšku amerických občanů. Jejich průměrná výška je 168 cm se směrodatnou odchylkou 9,8 cm. Níže je uveden histogram. Zdá se, že uprostřed je neobvykle široký vrchol – není zcela bimodální.

Histogram výšek

Histogram výšek

Pokud vzorek rozdělíme podle pohlaví, bude nám jasný důvod.

Histogram, který zobrazuje výšky podle pohlaví

Histogram, který zobrazuje výšky podle pohlaví

Všimli jste si, jak dvě užší rozdělení nahradila jediné široké rozdělení? Histogramy nám pomáhají zjistit, že pohlaví je zásadní kategoriální proměnnou ve studiích, které se týkají výšky. Grafy ukazují, že průměr poskytuje přesnější odhady, když posuzujeme výšky podle pohlaví. Ve skutečnosti se průměr pro celou populaci nerovná průměru pro obě subpopulace. Je to zavádějící!

Použití histogramů k posouzení shody funkce rozdělení pravděpodobnosti

Analytici mohou na histogram překrýt fitovanou přímku pro funkci rozdělení pravděpodobnosti. Zde je stručný rozdíl mezi nimi:

  • Histogram:
  • Přizpůsobená distribuční přímka: Zobrazuje rozdělení hodnot ve vzorku.
  • Přizpůsobená distribuční přímka: Zobrazuje rozdělení hodnot ve vzorku: Zobrazuje distribuční funkci pravděpodobnosti pro určité rozdělení (např. normální, Weibullovo atd.), které nejlépe odpovídá vašim datům.

Histogram vykresluje data vašeho vzorku. Naproti tomu fitovaná distribuční přímka se pokouší najít pravděpodobnostní distribuční funkci pro populaci, která s maximální pravděpodobností vytváří rozdělení, které existuje ve vašem vzorku.

Přestože můžete histogramy použít k vyhodnocení toho, jak dobře distribuční křivka odpovídá vašemu vzorku, NEdoporučuji to! Pokud trváte na použití histogramu, posuďte, jak přesně sloupce kopírují tvar přizpůsobené přímky. V níže uvedeném grafu se zdá, že přizpůsobená přímka pro normální rozdělení přiměřeně sleduje sloupce histogramu. V legendě jsou zobrazeny odhadované hodnoty parametrů fitovaného rozdělení.

Histogram, který obsahuje fitovanou distribuční přímku pro normální rozdělení.

Histogram, který obsahuje fitovanou distribuční přímku pro normální rozdělení.

Místo použití histogramů k určení, jak dobře rozdělení odpovídá vašim datům, doporučuji použít kombinaci testů rozdělení a pravděpodobnostních grafů. Pravděpodobnostní grafy jsou speciální grafy, které jsou speciálně navrženy pro zobrazení toho, jak dobře funkce pravděpodobnostního rozdělení odpovídají vzorkům. Chcete-li se o těchto dalších přístupech dozvědět více, přečtěte si mé příspěvky Identifikace rozdělení vašich dat a Histogramy vs. pravděpodobnostní grafy.

Související příspěvek:

Použití histogramů k porovnání rozdělení mezi skupinami

Chcete-li porovnat rozdělení mezi skupinami pomocí histogramů, budete potřebovat jak spojitou proměnnou, tak kategoriální skupinovou proměnnou. Existují dva běžné způsoby zobrazení skupin v histogramech. Skupiny můžete buď překrýt, nebo je vykreslit v různých panelech, jak je znázorněno níže.

Histogram, který zobrazuje čtyři překrytá rozdělení.

Histogram, který zobrazuje čtyři překrytá rozdělení.

Histogram, který zobrazuje čtyři rozdělení v samostatných panelech.

Histogram, který zobrazuje čtyři rozdělení v samostatných panelech.

Překrytá rozdělení lze snadněji porovnávat, ale někdy jsou nepřehledná. Histogramy v samostatných panelech zobrazují jednotlivá rozdělení přehledněji, ale porovnání a míra překrývání nejsou tak jasné. Ve výše uvedených příkladech jsou rozložení v panelech jasně čitelnější. Překryté histogramy však mohou pěkně fungovat i v jiných případech, jak jste viděli v tomto příspěvku na blogu. Experimentujte a najděte nejlepší přístup pro svá data!

Přestože si myslím, že histogramy jsou nejlepším grafem pro pochopení rozložení hodnot pro jednu skupinu, u více skupin mohou být nepřehledné. Histogramy jsou obvykle docela dobré pro zobrazení dvou skupin a až čtyř skupin, pokud je zobrazíte v samostatných panelech. Pokud je vaším hlavním cílem porovnání rozdělení a histogramy jsou náročné na interpretaci, zvažte použití krabicových grafů nebo jednotlivých grafů. Podle mého názoru jsou tyto jiné grafy lepší pro porovnávání rozdělení, když máte více skupin. Neposkytují však tolik detailů pro jednotlivá rozdělení jako histogramy.

Znovu experimentujte a určete, který graf nejlépe vyhovuje vašim datům a cílům!

Související příspěvek: Krabicové grafy vs. grafy jednotlivých hodnot:

Histogramy a velikost vzorku

Jakkoli jsou histogramy fantastické pro zkoumání vašich dat, uvědomte si, že velikost vzorku je významným faktorem, pokud potřebujete, aby se tvar histogramu podobal rozdělení populace. Obvykle doporučuji, abyste pro histogramy měli vzorek o velikosti nejméně 20 osob na skupinu. Při méně než 20 pozorováních máte příliš málo dat na to, abyste mohli přesně znázornit rozdělení populace.

Oba níže uvedené histogramy využívají vzorky vybrané z populace, která má průměr 100 a směrodatnou odchylku 15. V obou případech se jedná o vzorky z populace, která má průměr 100 a směrodatnou odchylku 15. Tyto charakteristiky popisují rozložení skóre IQ. Jeden histogram však používá vzorek o velikosti 20, zatímco druhý vzorek o velikosti 100. Všimněte si, že na ose Y používám procenta, abych mohl porovnat sloupce histogramu mezi různými velikostmi vzorků.

Histogramy, které používají různé velikosti vzorků pro zobrazení rozložení skóre IQ.

Histogramy, které používají různé velikosti vzorků pro zobrazení rozložení skóre IQ.

To je docela velký rozdíl! K dobrému zobrazení celého rozdělení je potřeba překvapivě velký vzorek. Pokud je velikost vzorku menší než 20, zvažte použití grafu jednotlivých hodnot.

Použití testů hypotéz ve spojení s histogramy

Jak jste viděli v tomto příspěvku, histogramy mohou znázornit rozložení skupin i rozdíly mezi skupinami. Pokud však chcete data z výběrového souboru použít k vyvození závěrů o populacích, budete muset použít testy hypotéz. Kromě toho se ujistěte, že používáte metodu výběru vzorků, například náhodný výběr, abyste získali vzorek, který odráží populaci.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.