Histogrammen zijn grafieken die de verdeling van uw continue gegevens weergeven. Het zijn fantastische verkennende hulpmiddelen, omdat ze eigenschappen over uw steekproefgegevens onthullen op manieren die samenvattende statistieken niet kunnen. Het gemiddelde en de standaardafwijking kunnen bijvoorbeeld een numerieke samenvatting van uw gegevens geven, maar histogrammen brengen uw steekproefgegevens tot leven.
In deze blogbijdrage laat ik u zien hoe histogrammen de vorm van de verdeling, de centrale tendens en de spreiding van de waarden in uw steekproefgegevens onthullen. Je leert ook hoe je uitschieters kunt identificeren, hoe histogrammen zich verhouden tot kansverdelingsfuncties en waarom je er hypothesetests mee moet gebruiken.
- Histogrammen, centrale tendens en variabiliteit
- Histogrammen en de Centrale Tendens
- Histogrammen en variabiliteit
- Histogrammen en scheve verdelingen
- Histogrammen gebruiken om uitschieters te identificeren
- Identificatie van multimodale verdelingen met histogrammen
- Histogrammen gebruiken om subpopulaties te identificeren
- Histogrammen gebruiken om de fit van een kansverdelingsfunctie te beoordelen
- Histogrammen gebruiken om verdelingen tussen groepen te vergelijken
- Histogrammen en steekproefgrootte
- Hypothesetests gebruiken in combinatie met histogrammen
Histogrammen, centrale tendens en variabiliteit
Gebruik histogrammen wanneer je continue metingen hebt en de verdeling van waarden wilt begrijpen en uitschieters wilt zoeken. Deze grafieken nemen uw continue metingen en plaatsen ze in reeksen van waarden die bins worden genoemd. Elke bin heeft een staaf die het aantal of percentage waarnemingen weergeeft dat binnen die bin valt.
Download het CSV-gegevensbestand om de meeste histogrammen in deze blogpost te maken: Histogrammen.
In het vakgebied van de statistiek gebruiken we vaak samenvattende statistieken om een hele dataset te beschrijven. Deze statistieken gebruiken een enkel getal om een kenmerk van de steekproef te kwantificeren. Een centrale tendens is bijvoorbeeld een enkele waarde die het middelpunt of de typische waarde van een dataset weergeeft, zoals het gemiddelde. Een maat voor de variabiliteit is een ander type samenvattende statistiek die beschrijft hoe verspreid de waarden in uw gegevensreeks zijn. De standaardafwijking is een conventionele maat voor spreiding.
Deze samenvattende statistieken zijn van cruciaal belang. Hoe vaak hebt u niet gehoord dat het gemiddelde van een groep een bepaalde waarde is? Het geeft zinvolle informatie. Deze maatstaven zijn echter vereenvoudigingen van de dataset. Door de gegevens in grafieken weer te geven, komen ze tot leven. Over het algemeen vind ik dat het gebruik van grafieken in combinatie met statistiek het beste van twee werelden oplevert!
Laten we dit eens in actie zien.
: Maatstaven van Centrale Tendens en Maatstaven van Variabiliteit
Histogrammen en de Centrale Tendens
Gebruik histogrammen om het centrum van de gegevens te begrijpen. In het histogram hieronder kunt u zien dat het middelpunt in de buurt van 50 ligt. De meeste waarden in de dataset zullen dicht bij 50 liggen, en waarden verder weg zijn zeldzamer. De verdeling is ruwweg symmetrisch en de waarden vallen tussen ongeveer 40 en 64.
Een verschil in gemiddelden verschuift de verdeling horizontaal langs de X-as (tenzij het histogram wordt gedraaid). In de onderstaande histogrammen heeft de ene groep een gemiddelde van 50, terwijl de andere een gemiddelde van 65 heeft.
Histogrammen helpen je bovendien de mate van overlap tussen groepen te begrijpen. In de bovenstaande histogrammen is er een relatief kleine overlap.
Histogrammen en variabiliteit
Voorstel dat je hoort dat twee groepen hetzelfde gemiddelde van 50 hebben. Het klinkt alsof ze praktisch gelijkwaardig zijn. Maar als je de gegevens grafisch weergeeft, worden de verschillen duidelijk, zoals hieronder te zien is.
De histogrammen centreren zich op dezelfde waarde van 50, maar de spreiding van de waarden is opmerkelijk anders. De waarden voor groep A liggen meestal tussen 40 en 60, terwijl dat voor groep B tussen 20 en 90 ligt. Het gemiddelde vertelt dus niet het hele verhaal! In één oogopslag is het verschil te zien in de histogrammen.
In het kort laten histogrammen zien welke waarden meer en minder vaak voorkomen, samen met hun spreiding. Dit inzicht kunt u niet krijgen uit de ruwe lijst van waarden. Met samenvattende statistieken, zoals het gemiddelde en de standaardafwijking, kom je al een heel eind. Maar histogrammen laten de gegevens knallen!
Histogrammen en scheve verdelingen
Histogrammen zijn een uitstekend hulpmiddel om de vorm van de verdeling vast te stellen. Tot nu toe hebben we gekeken naar symmetrische verdelingen, zoals de normale verdeling. Niet alle verdelingen zijn echter symmetrisch.
De vorm van de verdeling is een fundamenteel kenmerk van uw steekproef dat kan bepalen welke maatstaf van centrale tendens het beste het centrum van uw gegevens weergeeft. De vorm is ook van invloed op de keuze tussen het gebruik van een parametrische of niet-parametrische hypothesetest. Op deze manier zijn histogrammen informatief over de samenvattende statistieken en hypothesetests die geschikt zijn voor uw gegevens.
Voor scheve verdelingen geeft de richting van de scheefheid aan in welke richting de lange staart zich uitstrekt.
Voor rechts-scheve verdelingen strekt de lange staart zich naar rechts uit, terwijl de meeste waarden zich aan de linkerkant groeperen, zoals hieronder is te zien. Dit zijn echte gegevens uit een onderzoek dat ik heb uitgevoerd.
Aan de andere kant, bij links-verticale verdelingen loopt de lange staart naar links, terwijl de meeste waarden zich aan de rechterkant bevinden.
: De normale verdeling in de statistiek en parametrische vs. niet-parametrische hypothesetests
Histogrammen gebruiken om uitschieters te identificeren
Histogrammen zijn een handige manier om uitschieters te identificeren. In een oogwenk ziet u of er ongebruikelijke waarden zijn. Als u potentiële uitschieters identificeert, onderzoek ze dan. Zijn het invoerfouten of zijn het waarnemingen die onder ongebruikelijke omstandigheden zijn gedaan? Of zijn het misschien legitieme waarnemingen die de variabiliteit in het onderzoeksgebied nauwkeurig beschrijven.
In een histogram worden uitschieters weergegeven als een geïsoleerde staaf.
Identificatie van multimodale verdelingen met histogrammen
Een multimodale verdeling heeft meer dan één piek. Het is gemakkelijk multimodale verdelingen te missen als je je concentreert op samenvattende statistieken, zoals het gemiddelde en de standaardafwijkingen. Daarom zijn histogrammen de beste methode om multimodale verdelingen te detecteren.
Stel je voor dat je dataset de hieronder getoonde eigenschappen heeft.
Dat ziet er relatief eenvoudig uit, maar als je er een grafiek van maakt, zie je onderstaand histogram.
Die bimodale verdeling is niet helemaal wat je ervan verwachtte! Dit histogram illustreert waarom u uw gegevens altijd in grafieken moet weergeven in plaats van alleen maar samenvattende statistieken te berekenen!
Histogrammen gebruiken om subpopulaties te identificeren
Soms weerspiegelen deze multimodale verdelingen de werkelijke verdeling van het fenomeen dat u bestudeert. Met andere woorden, er zijn echt verschillende piekwaarden in de verdeling van één populatie. Maar in andere gevallen wijzen multimodale verdelingen erop dat je subpopulaties combineert die verschillende kenmerken hebben. Histogrammen kunnen helpen de aanwezigheid van deze subpopulaties te bevestigen en te illustreren hoe ze van elkaar verschillen.
Voorstel dat we de lichaamslengte van Amerikaanse burgers bestuderen. Zij hebben een gemiddelde lengte van 168 centimeter met een standaardafwijking van 9,8 cm. Het histogram staat hieronder. Er lijkt een ongewoon brede piek in het midden te zijn – het is niet helemaal bimodaal.
Als we de steekproef verdelen naar geslacht, wordt de reden hiervoor duidelijk.
Merkt u op hoe twee smallere verdelingen de enkele brede verdeling hebben vervangen? Uit de histogrammen kunnen we afleiden dat geslacht een essentiële categorische variabele is in studies die betrekking hebben op lengte. De grafieken tonen aan dat het gemiddelde nauwkeurigere schattingen oplevert wanneer we de lengte per geslacht beoordelen. In feite is het gemiddelde voor de gehele populatie niet gelijk aan het gemiddelde voor een van beide subpopulaties. Dat is misleidend!
Histogrammen gebruiken om de fit van een kansverdelingsfunctie te beoordelen
Analisten kunnen een gepaste lijn voor een kansverdelingsfunctie op hun histogram leggen. Hier volgt een kort onderscheid tussen de twee:
- Histogram: Geeft de verdeling van de waarden in de steekproef weer.
- Gepaste verdelingslijn: Geeft de kansverdelingsfunctie weer voor een bepaalde verdeling (bijv. normaal, Weibull, enz.) die het beste bij uw gegevens past.
Een histogram geeft een grafiek van uw steekproefgegevens. Een passende verdelingslijn daarentegen probeert de kansverdelingsfunctie voor een populatie te vinden die de grootste waarschijnlijkheid heeft om de verdeling te produceren die in je steekproef bestaat.
Hoewel je histogrammen kunt gebruiken om te evalueren hoe goed de verdelingskromme bij je steekproef past, raad ik je dat NIET aan! Als u per se een histogram wilt gebruiken, beoordeel dan hoe nauwkeurig de staven de vorm van de gepaste lijn volgen. In de onderstaande grafiek lijkt de gepaste lijn voor de normale verdeling de histogramstaven voldoende te volgen. In de legenda staan de geschatte parameterwaarden van de aangebrachte verdeling.
In plaats van histogrammen te gebruiken om te bepalen hoe goed een verdeling bij uw gegevens past, raad ik u aan een combinatie van verdelingstests en waarschijnlijkheidplots te gebruiken. Waarschijnlijkheidplots zijn speciale grafieken die speciaal zijn ontworpen om weer te geven hoe goed waarschijnlijkheidsverdelingsfuncties bij monsters passen. Om meer te leren over deze andere benaderingen, lees mijn berichten over het identificeren van de verdeling van uw gegevens en Histogrammen vs. waarschijnlijkheidsplots.
Gerelateerd bericht: Kansverdelingen begrijpen
Histogrammen gebruiken om verdelingen tussen groepen te vergelijken
Om verdelingen tussen groepen met histogrammen te vergelijken, hebt u zowel een continue variabele als een categorische groeperingsvariabele nodig. Er zijn twee gebruikelijke manieren om groepen in histogrammen weer te geven. U kunt de groepen over elkaar leggen of ze in verschillende panelen grafisch weergeven, zoals hieronder wordt weergegeven.
Histogrammen met overlappende verdelingen kunnen eenvoudiger met elkaar worden vergeleken, maar soms worden ze rommelig. Histogrammen in afzonderlijke panelen geven elke verdeling duidelijker weer, maar de vergelijkingen en de mate van overlap zijn niet zo duidelijk. In de voorbeelden hierboven zijn de verdelingen in panelen duidelijk leesbaarder. Overlappende histogrammen kunnen echter ook in andere gevallen goed werken, zoals u in deze blogpost hebt gezien. Experimenteer om de beste aanpak voor uw gegevens te vinden!
Histogrammen zijn volgens mij de beste grafieken om de verdeling van waarden voor een enkele groep te begrijpen, maar bij meerdere groepen kunnen ze verwarrend zijn. Histogrammen zijn meestal vrij goed voor de weergave van twee groepen, en tot vier groepen als je ze in afzonderlijke panelen weergeeft. Als uw hoofddoel is distributies te vergelijken en uw histogrammen zijn moeilijk te interpreteren, overweeg dan het gebruik van boxplots of individuele plots. Naar mijn mening zijn deze andere plots beter voor het vergelijken van verdelingen wanneer u meer groepen hebt.
Opnieuw, experimenteer en bepaal welke grafiek het beste werkt voor uw gegevens en doelen!
Gerelateerd bericht: Boxplots vs. Individual Value Plots: Grafieken van continue gegevens per groep
Histogrammen en steekproefgrootte
Histogrammen zijn fantastisch voor het onderzoeken van uw gegevens, maar vergeet niet dat de steekproefgrootte een belangrijke factor is wanneer de vorm van het histogram moet lijken op de populatieverdeling. Gewoonlijk raad ik voor histogrammen een steekproefgrootte van minstens 20 per groep aan. Met minder dan 20 waarnemingen heb je te weinig gegevens om de populatieverdeling nauwkeurig weer te geven.
Beide histogrammen hieronder gebruiken steekproeven getrokken uit een populatie met een gemiddelde van 100 en een standaardafwijking van 15. Deze kenmerken beschrijven de verdeling van IQ-scores. Het ene histogram gebruikt echter een steekproefgrootte van 20, terwijl het andere een steekproefgrootte van 100 gebruikt. Merk op dat ik percentages gebruik op de Y-as om histogrammen met verschillende steekproefgroottes te vergelijken.
Dat is een behoorlijk groot verschil! Er is een verrassend grote steekproef nodig om een goede weergave van de hele verdeling te krijgen.
Hypothesetests gebruiken in combinatie met histogrammen
Zoals u in dit artikel hebt gezien, kunnen histogrammen zowel de verdeling van groepen als de verschillen tussen groepen illustreren. Als u echter uw steekproefgegevens wilt gebruiken om conclusies te trekken over populaties, zult u hypothesetests moeten gebruiken. Zorg er bovendien voor dat je een steekproefmethode gebruikt, zoals aselecte steekproeftrekking, om een steekproef te verkrijgen die de populatie weerspiegelt.