Używanie histogramów do zrozumienia danych

Histogramy są wykresami, które wyświetlają rozkład danych ciągłych. Są one fantastycznym narzędziem eksploracyjnym, ponieważ ujawniają właściwości przykładowych danych w sposób, w jaki statystyki zbiorcze nie mogą tego zrobić. Na przykład, podczas gdy średnia i odchylenie standardowe mogą liczbowo podsumować twoje dane, histogramy ożywiają twoje przykładowe dane.

W tym wpisie na blogu, pokażę ci jak histogramy ujawniają kształt rozkładu, jego tendencję centralną i rozrzut wartości w twoich przykładowych danych. Dowiesz się również, jak zidentyfikować wartości odstające, jak histogramy odnoszą się do funkcji rozkładu prawdopodobieństwa i dlaczego możesz potrzebować użyć testów hipotez z nimi.

Histogramy, tendencja centralna i zmienność

Używaj histogramów, gdy masz ciągłe pomiary i chcesz zrozumieć rozkład wartości i szukać wartości odstających. Te wykresy biorą ciągłe pomiary i umieszczają je w przedziałach wartości znanych jako kosze. Każdy blok ma pasek, który reprezentuje liczbę lub procent obserwacji, które mieszczą się w tym bloku.

Pobierz plik danych CSV, aby utworzyć większość histogramów w tym wpisie na blogu: Histogramy.

W dziedzinie statystyki często używamy statystyk zbiorczych, aby opisać cały zbiór danych. Statystyki te używają pojedynczej liczby do ilościowego określenia charakterystyki próbki. Na przykład, miara tendencji centralnej jest pojedynczą wartością, która reprezentuje punkt środkowy lub typową wartość zbioru danych, taką jak średnia. Miara zmienności jest innym rodzajem statystyki podsumowującej, która opisuje, jak bardzo wartości są rozłożone w zbiorze danych. Odchylenie standardowe jest konwencjonalną miarą rozproszenia.

Te statystyki podsumowujące są kluczowe. Jak często słyszałeś, że średnia w grupie jest konkretną wartością? Jest to istotna informacja. Jednakże, te miary są uproszczeniem zbioru danych. Wykresy ożywiają dane. Ogólnie rzecz biorąc, uważam, że używanie wykresów w połączeniu ze statystykami zapewnia najlepsze z obu światów!

Zobaczmy to w akcji.

: Miary tendencji centralnej i miary zmienności

Histogramy i tendencja centralna

Użyj histogramów, aby zrozumieć środek danych. Na poniższym histogramie można zauważyć, że środek znajduje się w pobliżu 50. Większość wartości w zbiorze danych będzie w pobliżu 50, a wartości bardziej oddalone są rzadsze. Rozkład jest z grubsza symetryczny, a wartości mieszczą się w przedziale od około 40 do 64.

Przykładowy histogram, który wyświetla rozkład dla pojedynczej grupy.

Przykładowy histogram, który wyświetla rozkład dla pojedynczej grupy.

Różnica w średnich przesuwa rozkłady poziomo wzdłuż osi X (chyba że histogram jest obrócony). Na poniższych histogramach jedna grupa ma średnią 50, a druga 65.

Histogram, który wyświetla dwie nałożone na siebie grupy, które mają różne średnie.

Histogram, który wyświetla dwie nałożone na siebie grupy, które mają różne średnie.

Dodatkowo histogramy pomagają uchwycić stopień nakładania się grup. W powyższych histogramach, jest stosunkowo mała ilość nakładania się.

Histogramy i zmienność

Załóżmy, że słyszysz, że dwie grupy mają tę samą średnią 50. Brzmi to tak, jakby były praktycznie równoważne. Jednak po wykreśleniu danych, różnice stają się widoczne, jak pokazano poniżej.

Histogramy w oddzielnych panelach, które wyświetlają dwie grupy o tej samej średniej, ale różnej zmienności.

Histogramy w oddzielnych panelach, które wyświetlają dwie grupy z tą samą średnią, ale różną zmiennością.

Histogramy skupiają się na tej samej wartości 50, ale rozrzut wartości jest znacząco różny. Wartości dla grupy A w większości mieszczą się w przedziale 40-60, podczas gdy dla grupy B zakres ten wynosi 20-90. Średnia nie oddaje całej historii! Na pierwszy rzut oka, różnica jest widoczna w histogramach.

W skrócie, histogramy pokazują, które wartości są bardziej i mniej powszechne, wraz z ich rozproszeniem. Nie można uzyskać takiego zrozumienia z surowej listy wartości. Statystyki podsumowujące, takie jak średnia i odchylenie standardowe, pozwolą Ci na częściowe osiągnięcie tego celu. Ale histogramy sprawiają, że dane nabierają wyrazu!

Histogramy i rozkłady skośne

Histogramy są doskonałym narzędziem do identyfikacji kształtu rozkładu. Do tej pory przyglądaliśmy się rozkładom symetrycznym, takim jak rozkład normalny. Jednakże, nie wszystkie rozkłady są symetryczne. Kształt rozkładu jest podstawową charakterystyką próbki, która może określić, która miara tendencji centralnej najlepiej odzwierciedla środek danych. W związku z tym, kształt wpływa również na wybór pomiędzy użyciem parametrycznego lub nieparametrycznego testu hipotezy. W ten sposób histogramy informują o statystykach podsumowujących i testach hipotez, które są odpowiednie dla danych.

W przypadku rozkładów skośnych kierunek skosu wskazuje, w którą stronę rozciąga się dłuższy ogon.

W przypadku rozkładów prawoskośnych długi ogon rozciąga się w prawo, podczas gdy większość wartości grupuje się po lewej stronie, jak pokazano poniżej. Są to prawdziwe dane z badania, które przeprowadziłem.

Odwrotnie, dla rozkładów lewoskośnych, długi ogon rozciąga się w lewo, podczas gdy większość wartości grupuje się po prawej stronie.

Histogram przedstawiający rozkład lewoskośny.

Histogram, który pokazuje rozkład lewoskośny.

: Rozkład normalny w statystyce i parametryczne vs. nieparametryczne testy hipotez

Używanie histogramów do identyfikacji wartości odstających

Histogramy są poręcznym sposobem identyfikacji wartości odstających. W jednej chwili zobaczysz, czy istnieją jakieś nietypowe wartości. Jeśli zidentyfikujesz potencjalne wartości odstające, zbadaj je. Czy są to błędy we wprowadzaniu danych, czy też reprezentują obserwacje, które wystąpiły w nietypowych warunkach? A może są to uzasadnione obserwacje, które dokładnie opisują zmienność w badanym obszarze.

Histogram, który wyświetla wartość odstającą.

Histogram, który wyświetla wartość odstającą.

W histogramie, wartości odstające pojawiają się jako izolowany słupek.

Identyfikacja rozkładów wielomodalnych za pomocą histogramów

Rozkład wielomodalny ma więcej niż jeden szczyt. Łatwo jest przeoczyć rozkłady wielomodalne, gdy skupiamy się na statystykach podsumowujących, takich jak średnia i odchylenia standardowe. W związku z tym histogramy są najlepszą metodą wykrywania rozkładów multimodalnych.

Wyobraźmy sobie, że nasz zbiór danych ma właściwości przedstawione poniżej.

Tabela statystyk opisowych.

Tabela statystyk opisowych.

Wygląda to stosunkowo prosto, ale kiedy to wykreślisz, zobaczysz poniższy histogram.

Histogram, który wyświetla rozkład wielomodalny.

Histogram, który wyświetla rozkład wielomodalny.

Ten rozkład bimodalny nie jest tym, czego oczekiwałeś! Ten histogram ilustruje, dlaczego zawsze powinieneś tworzyć wykresy swoich danych, a nie tylko obliczać statystyki zbiorcze!

Używanie histogramów do identyfikacji subpopulacji

Czasami te wielomodalne rozkłady odzwierciedlają rzeczywisty rozkład zjawiska, które badasz. Innymi słowy, w rozkładzie jednej populacji występują rzeczywiście różne wartości szczytowe. Jednak w innych przypadkach rozkłady multimodalne wskazują, że łączymy subpopulacje, które mają różne charakterystyki. Histogramy mogą pomóc potwierdzić obecność tych subpopulacji i zilustrować, jak bardzo różnią się one od siebie.

Załóżmy, że badamy wzrost obywateli amerykańskich. Ich średni wzrost wynosi 168 centymetrów, a odchylenie standardowe 9,8 CM. Histogram znajduje się poniżej. Wydaje się, że w centrum znajduje się niezwykle szeroki szczyt – nie jest on całkiem bimodalny.

Histogram wysokości

Histogram wysokości

Gdy podzielimy próbę według płci, powód staje się jasny.

Histogram przedstawiający wysokości według płci.

Histogram przedstawiający wysokości według płci.

Zauważasz jak dwa węższe rozkłady zastąpiły pojedynczy szeroki rozkład? Histogramy pomagają nam dowiedzieć się, że płeć jest istotną zmienną kategoryczną w badaniach, które dotyczą wzrostu. Wykresy pokazują, że średnia dostarcza bardziej precyzyjnych oszacowań, gdy oceniamy wysokości według płci. W rzeczywistości średnia dla całej populacji nie jest równa średniej dla żadnej z subpopulacji. To jest mylące!

Używanie histogramów do oceny dopasowania funkcji rozkładu prawdopodobieństwa

Analitycy mogą nałożyć dopasowaną linię dla funkcji rozkładu prawdopodobieństwa na histogram. Oto szybkie rozróżnienie pomiędzy tymi dwoma pojęciami:

  • Histogram: Wyświetla rozkład wartości w próbce.
  • Dopasowana linia rozkładu: Wyświetla funkcję rozkładu prawdopodobieństwa dla konkretnego rozkładu (np. normalny, Weibull, itp.), który najlepiej pasuje do danych.

Histogram przedstawia wykresy danych próbki. Z drugiej strony, dopasowana linia dystrybucji próbuje znaleźć funkcję rozkładu prawdopodobieństwa dla populacji, która ma maksymalne prawdopodobieństwo wytworzenia rozkładu, który istnieje w twojej próbce.

Mimo, że możesz użyć histogramów do oceny, jak dobrze krzywa rozkładu pasuje do twojej próbki, NIE zalecam tego! Jeśli nalegasz na użycie histogramu, oceń, jak blisko słupki podążają za kształtem dopasowanej linii. Na poniższym wykresie, dopasowana linia dla rozkładu normalnego wydaje się odpowiednio podążać za słupkami histogramu. Legenda wyświetla szacunkowe wartości parametrów dopasowanego rozkładu.

Histogram zawierający dopasowaną linię rozkładu dla rozkładu normalnego.

Histogram zawierający dopasowaną linię rozkładu dla rozkładu normalnego.

Zamiast używać histogramów do określenia, jak dobrze rozkład pasuje do danych, zalecam użycie kombinacji testów rozkładu i wykresów prawdopodobieństwa. Działki prawdopodobieństwa to specjalne wykresy, które są specjalnie zaprojektowane do wyświetlania, jak dobrze funkcje rozkładu prawdopodobieństwa pasują do próbek. Aby dowiedzieć się więcej o tych innych podejściach, przeczytaj moje posty o Identyfikacji rozkładu Twoich danych i Histogramy a wykresy prawdopodobieństwa.

Powiązany post: Understanding Probability Distributions

Using Histograms to Compare Distributions between Groups

Aby porównać rozkłady między grupami za pomocą histogramów, będziesz potrzebował zarówno zmiennej ciągłej jak i kategorycznej zmiennej grupującej. Istnieją dwa popularne sposoby wyświetlania grup w histogramach. Można albo nałożyć grupy na siebie, albo wykreślić je w różnych panelach, jak pokazano poniżej.

Histogram, który wyświetla cztery nałożone na siebie rozkłady.

Histogram, który wyświetla cztery nałożone na siebie rozkłady.

Histogram, który wyświetla cztery rozkłady w osobnych panelach.

Histogram, który wyświetla cztery rozkłady w osobnych panelach.

Porównywanie rozkładów może być łatwiejsze, gdy są one nałożone na siebie, ale czasami stają się one niechlujne. Histogramy w oddzielnych panelach wyświetlają każdy rozkład wyraźniej, ale porównania i stopień nakładania się nie są tak jasne. W powyższych przykładach rozkłady w panelach są wyraźnie bardziej czytelne. Jednakże, nakładające się histogramy mogą działać ładnie w innych przypadkach, jak widać w tym wpisie. Eksperymentuj, aby znaleźć najlepsze podejście do swoich danych!

Mimo że uważam, że histogramy są najlepszym wykresem do zrozumienia rozkładu wartości dla pojedynczej grupy, mogą one zostać zmącone w przypadku wielu grup. Histogramy są zwykle całkiem dobre do wyświetlania dwóch grup, a nawet do czterech grup, jeśli wyświetlasz je w oddzielnych panelach. Jeśli głównym celem jest porównanie rozkładów, a histogramy są trudne do zinterpretowania, rozważ użycie boxplotów lub indywidualnych wykresów. Moim zdaniem, te inne wykresy są lepsze do porównywania rozkładów, gdy masz więcej grup. Ale nie dostarczają one tak wielu szczegółów dla każdej dystrybucji jak histogramy.

Powtarzam, eksperymentuj i ustal, który wykres działa najlepiej dla Twoich danych i celów!

Powiązany post: Boxplots vs. Individual Value Plots: Graphing Continuous Data by Groups

Histogramy i wielkość próby

Jak fantastyczne są histogramy do badania danych, pamiętaj, że wielkość próby jest istotnym czynnikiem, gdy potrzebujesz, aby kształt histogramu przypominał rozkład populacji. Zazwyczaj zalecam, aby wielkość próby dla histogramów wynosiła co najmniej 20 na grupę. Mając mniej niż 20 obserwacji, masz zbyt mało danych, aby dokładnie reprezentować rozkład populacji.

Oba poniższe histogramy używają próbek pobranych z populacji, która ma średnią 100 i odchylenie standardowe 15. Te cechy opisują rozkład wyników IQ. Jednakże, jeden histogram używa próbki o wielkości 20, podczas gdy drugi używa próbki o wielkości 100. Zauważ, że używam procentów na osi Y, aby porównać słupki histogramu między różnymi wielkościami próbek.

Histogramy, które używają różnych wielkości próbek do wyświetlania rozkładu wyników IQ.

Histogramy, które używają różnych wielkości próbek do wyświetlania rozkładu wyników IQ.

To całkiem duża różnica! Potrzeba zaskakująco dużej wielkości próbki, aby uzyskać dobrą reprezentację całej dystrybucji. Jeśli rozmiar próbki jest mniejszy niż 20, rozważ użycie indywidualnego wykresu wartości.

Używanie testów hipotezy w połączeniu z histogramami

Jak widzieliśmy w tym poście, histogramy mogą ilustrować dystrybucję grup, jak również różnice między grupami. Jednakże, jeśli chcesz użyć danych z próbki do wyciągnięcia wniosków na temat populacji, będziesz musiał użyć testów hipotez. Dodatkowo, upewnij się, że używasz metody próbkowania, takiej jak próbkowanie losowe, aby uzyskać próbkę, która odzwierciedla populację.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.