Använda histogram för att förstå dina data

Histogram är grafer som visar fördelningen av kontinuerliga data. De är fantastiska utforskningsverktyg eftersom de avslöjar egenskaper hos dina provdata på ett sätt som sammanfattande statistik inte kan göra. Medan t.ex. medelvärde och standardavvikelse kan sammanfatta dina data numeriskt ger histogrammen liv åt dina provdata.

I det här blogginlägget visar jag dig hur histogrammen avslöjar fördelningens form, dess centrala tendens och spridningen av värden i dina provdata. Du lär dig också hur du identifierar outliers, hur histogram relaterar till sannolikhetsfördelningsfunktioner och varför du kan behöva använda hypotesprövningar med dem.

Histogram, central tendens och variabilitet

Använd histogram när du har kontinuerliga mätningar och vill förstå fördelningen av värden och leta efter outliers. Dessa diagram tar dina kontinuerliga mätningar och placerar dem i intervall av värden som kallas bins. Varje bin har en stapel som representerar antalet eller procentandelen observationer som faller inom den bin.

Ladda ner CSV-datafilen för att göra de flesta histogrammen i det här blogginlägget: Inom statistikområdet använder vi ofta sammanfattande statistik för att beskriva en hel datamängd. I denna statistik används ett enda tal för att kvantifiera en egenskap hos urvalet. Ett mått på central tendens är till exempel ett enda värde som representerar mittpunkten eller det typiska värdet i en datamängd, till exempel medelvärdet. Ett mått på variabilitet är en annan typ av sammanfattande statistik som beskriver hur spridda värdena är i datasetet. Standardavvikelsen är ett konventionellt mått på spridning.

Dessa sammanfattande statistiska uppgifter är avgörande. Hur ofta har du inte hört att medelvärdet för en grupp är ett visst värde? Det ger meningsfull information. Dessa mått är dock förenklingar av datasetet. Genom att grafera uppgifterna får de liv i dem. Generellt sett anser jag att användningen av grafer tillsammans med statistik ger det bästa av två världar!

Låt oss se detta i praktiken.

: Mått på central tendens och mått på variabilitet

Histogram och central tendens

Använd histogram för att förstå datamaterialets centrum. I histogrammet nedan kan du se att centrum ligger nära 50. De flesta värden i datasetet kommer att ligga nära 50, och värden längre bort är mer sällsynta. Fördelningen är ungefär symmetrisk och värdena faller mellan ungefär 40 och 64.

Exempel på histogram som visar fördelningen för en enskild grupp.

Exempel på histogram som visar fördelningen för en enskild grupp.

En skillnad i medelvärdena flyttar fördelningarna horisontellt längs X-axeln (såvida inte histogrammet är roterat). I histogrammen nedan har den ena gruppen ett medelvärde på 50 medan den andra har ett medelvärde på 65.

Histogram som visar två överlagrade grupper som har olika medelvärden.

Histogram som visar två överlagrade grupper som har olika medelvärden.

Också hjälper histogrammen dig att förstå graden av överlappning mellan grupper. I histogrammen ovan finns det en relativt liten överlappning.

Histogram och variabilitet

Antag att du hör att två grupper har samma medelvärde på 50. Det låter som om de är praktiskt taget likvärdiga. Men efter att du har graferat uppgifterna blir skillnaderna uppenbara, vilket visas nedan.

Histogram i separata paneler som visar två grupper med samma medelvärde men olika variabilitet.

Histogram i separata paneler som visar två grupper med samma medelvärde men olika variabilitet.

Histogrammen är centrerade kring samma värde 50, men spridningen av värdena skiljer sig markant. Värdena för grupp A ligger mestadels mellan 40 – 60 medan det för grupp B är 20 – 90. Medelvärdet berättar inte hela historien! Vid en snabb blick syns skillnaden tydligt i histogrammen.

Samt sett visar histogrammen vilka värden som är mer och mindre vanliga tillsammans med deras spridning. Du kan inte få denna förståelse från den råa listan över värden. Sammanfattande statistik, t.ex. medelvärde och standardavvikelse, hjälper dig en bit på vägen. Men histogram får datan att synas!

Histogram och skeva fördelningar

Histogram är ett utmärkt verktyg för att identifiera formen på din fördelning. Hittills har vi tittat på symmetriska fördelningar, till exempel normalfördelningen. Alla fördelningar är dock inte symmetriska. Du kan ha icke-normala data som är skeva.

Fördelningens form är en grundläggande egenskap hos ditt urval som kan avgöra vilket mått på central tendens som bäst återspeglar centrum för dina data. På samma sätt påverkar formen också ditt val mellan att använda ett parametriskt eller icke-parametriskt hypotesprov. På detta sätt ger histogrammen information om vilken sammanfattande statistik och vilka hypotesprövningar som är lämpliga för dina data.

För snedfördelningar anger snedvridningens riktning åt vilket håll den längre svansen sträcker sig.

För högerskevade fördelningar sträcker sig den långa svansen till höger medan de flesta värdena samlas till vänster, vilket visas nedan. Detta är riktiga data från en studie som jag genomförde.

Omvänt, för vänsterskeviga fördelningar sträcker sig den långa svansen åt vänster medan de flesta värdena klustrar sig till höger.

Histogram som visar en vänsterskevig fördelning.

Histogram som visar en vänsterskevad fördelning.

: Normalfördelningen i statistiken och parametriska vs. icke-parametriska hypotesprövningar

Användning av histogram för att identifiera avvikelser

Histogram är ett praktiskt sätt att identifiera avvikelser. På ett ögonblick ser du om det finns några ovanliga värden. Om du identifierar potentiella outliers ska du undersöka dem. Är det fråga om datainmatningsfel eller representerar de observationer som inträffade under ovanliga förhållanden? Eller så är de kanske legitima observationer som korrekt beskriver variabiliteten i undersökningsområdet.

Ett histogram som visar en outlier.

Ett histogram som visar en outlier.

I ett histogram visas outliers som en isolerad stapel.

Identifiera multimodala fördelningar med histogram

En multimodal fördelning har mer än en topp. Det är lätt att missa multimodala fördelningar när man fokuserar på sammanfattande statistik, till exempel medelvärde och standardavvikelser. Följaktligen är histogram den bästa metoden för att upptäcka multimodala fördelningar.

Föreställ dig att ditt dataset har de egenskaper som visas nedan.

Tabell med beskrivande statistik.

Tabell med beskrivande statistik.

Det ser relativt okomplicerat ut, men när du visar diagrammet ser du histogrammet nedan.

Histogram som visar en multimodal fördelning.

Histogram som visar en multimodal fördelning.

Den där bimodala fördelningen är inte riktigt det som du hade förväntat dig! Det här histogrammet illustrerar varför du alltid bör grafera dina data i stället för att bara beräkna sammanfattande statistik!

Användning av histogram för att identifiera subpopulationer

Ibland återspeglar dessa multimodala fördelningar den faktiska fördelningen av det fenomen som du studerar. Med andra ord finns det genuint olika toppvärden i fördelningen av en population. I andra fall indikerar dock multimodala fördelningar att du kombinerar subpopulationer som har olika egenskaper. Histogram kan hjälpa till att bekräfta förekomsten av dessa subpopulationer och illustrera hur de skiljer sig från varandra.

Antag att vi studerar amerikanska medborgares längd. De har en medelhöjd på 168 centimeter med en standardavvikelse på 9,8 CM. Histogrammet finns nedan. Det verkar finnas en ovanligt bred topp i mitten – den är inte riktigt bimodal.

Histogram över höjder

Histogram över höjder

När vi delar upp urvalet efter kön blir orsaken till detta tydlig.

Histogram som visar höjder efter kön.

Histogram som visar höjder efter kön.

Märker du hur två smalare fördelningar har ersatt den enda breda fördelningen? Histogrammen hjälper oss att lära oss att kön är en viktig kategorisk variabel i studier som rör längd. Diagrammen visar att medelvärdet ger mer exakta uppskattningar när vi bedömer höjder efter kön. I själva verket är medelvärdet för hela populationen inte lika med medelvärdet för någon av delpopulationerna. Det är vilseledande!

Användning av histogram för att bedöma anpassningen av en sannolikhetsfördelningsfunktion

Analytiker kan överlagra en anpassad linje för en sannolikhetsfördelningsfunktion på sitt histogram. Här är en snabb distinktion mellan de två:

  • Histogram: Visar fördelningen av värden i urvalet.
  • Anpassad fördelningslinje: Visar sannolikhetsfördelningsfunktionen för en viss fördelning (t.ex. normal, Weibull osv.) som bäst passar dina data.

Ett histogram visar dina provdata. Med en anpassad fördelningslinje försöker man däremot hitta den sannolikhetsfördelningsfunktion för en population som har den största sannolikheten att ge upphov till den fördelning som finns i ditt prov.

Men även om du kan använda histogram för att utvärdera hur väl fördelningskurvan passar ditt prov rekommenderar jag det INTE! Om du insisterar på att använda ett histogram, bedöm hur nära staplarna följer den anpassade linjens form. I diagrammet nedan verkar den anpassade linjen för normalfördelningen följa histogrammets staplar på ett lämpligt sätt. Legenden visar de uppskattade parametervärdena för den anpassade fördelningen.

Histogram som innehåller en anpassad fördelningslinje för normalfördelningen.

Histogram som innehåller en anpassad fördelningslinje för normalfördelningen.

Istället för att använda histogram för att avgöra hur väl en fördelning passar in i dina data, rekommenderar jag att du använder en kombination av fördelningstester och sannolikhetsdiagram. Sannolikhetsdiagram är speciella grafer som är särskilt utformade för att visa hur väl sannolikhetsfördelningsfunktioner passar till prover. Om du vill veta mer om dessa andra tillvägagångssätt kan du läsa mina inlägg om att identifiera fördelningen av dina data och Histogram vs. sannolikhetsplottar.

Relaterat inlägg: Om du vill jämföra fördelningar mellan grupper med hjälp av histogram behöver du både en kontinuerlig variabel och en kategorisk grupperingsvariabel. Det finns två vanliga sätt att visa grupper i histogram. Du kan antingen lägga grupperna över varandra eller grafera dem i olika paneler, som visas nedan.

Histogram som visar fyra överlappande fördelningar.

Histogram som visar fyra överlappande fördelningar.

Histogram som visar fyra fördelningar i separata paneler.

Histogram som visar fyra fördelningar i separata paneler.

Det kan vara lättare att jämföra fördelningar när de är överlappande, men ibland blir det rörigt. Histogram i separata paneler visar varje fördelning tydligare, men jämförelserna och graden av överlappning är inte lika tydliga. I exemplen ovan är fördelningarna i paneler klart mer lättlästa. Överlappande histogram kan dock fungera bra i andra fall, vilket du har sett i det här blogginlägget. Experimentera för att hitta det bästa tillvägagångssättet för dina data!

Som jag tycker att histogram är den bästa grafen för att förstå fördelningen av värden för en enda grupp, kan de bli röriga med flera grupper. Histogram är vanligtvis ganska bra för att visa två grupper, och upp till fyra grupper om du visar dem i separata paneler. Om ditt primära mål är att jämföra fördelningar och dina histogram är svåra att tolka kan du överväga att använda boxplots eller individuella plottar. Enligt min mening är dessa andra diagram bättre för att jämföra fördelningar när du har fler grupper. Men de ger inte lika mycket detaljer för varje fördelning som histogram.

Och experimentera och bestäm vilken graf som fungerar bäst för dina data och mål!

Relaterat inlägg: Boxplots vs. individuella värdeplottar:

Histogram och urvalsstorlek

Och hur fantastiska histogrammen än är för att utforska dina data, ska du vara medveten om att urvalsstorleken är en viktig faktor när du vill att histogrammets form ska likna populationsfördelningen. Vanligtvis rekommenderar jag att du har en urvalsstorlek på minst 20 personer per grupp för histogram. Med färre än 20 observationer har du för få data för att representera populationsfördelningen på ett korrekt sätt.

Båda histogrammen nedan använder sig av stickprov från en population som har ett medelvärde på 100 och en standardavvikelse på 15. Dessa egenskaper beskriver fördelningen av IQ-poäng. I det ena histogrammet används dock en urvalsstorlek på 20 medan det andra använder en urvalsstorlek på 100. Lägg märke till att jag använder procent på Y-axeln för att jämföra histogrambalkar mellan olika provstorlekar.

Histogram som använder olika provstorlekar för att visa fördelningen av IQ-poäng.

Histogram som använder olika provstorlekar för att visa fördelningen av IQ-poäng.

Det är en ganska stor skillnad! Det krävs en förvånansvärt stor urvalsstorlek för att få en bra representation av en hel fördelning. När din provstorlek är mindre än 20 bör du överväga att använda en plot med individuella värden.

Användning av hypotesprövningar i samband med histogram

Som du har sett i det här inlägget kan histogram illustrera fördelningen av grupper samt skillnader mellan grupper. Men om du vill använda dina provdata för att dra slutsatser om populationer måste du använda hypotesprövningar. Se dessutom till att du använder en provtagningsmetod, t.ex. slumpmässigt urval, för att få ett urval som speglar populationen.

Lämna ett svar

Din e-postadress kommer inte publiceras.