Histogramme sind Diagramme, die die Verteilung Ihrer kontinuierlichen Daten darstellen. Sie sind ein hervorragendes Hilfsmittel zur Untersuchung, da sie Eigenschaften Ihrer Stichprobendaten aufzeigen, die die zusammenfassende Statistik nicht leisten kann. Während beispielsweise der Mittelwert und die Standardabweichung Ihre Daten numerisch zusammenfassen können, erwecken Histogramme Ihre Stichprobendaten zum Leben.
In diesem Blogbeitrag zeige ich Ihnen, wie Histogramme die Form der Verteilung, ihre zentrale Tendenz und die Streuung der Werte in Ihren Stichprobendaten aufzeigen. Außerdem erfahren Sie, wie Sie Ausreißer erkennen können, wie sich Histogramme zu Wahrscheinlichkeitsverteilungsfunktionen verhalten und warum Sie möglicherweise Hypothesentests mit ihnen durchführen müssen.
- Histogramme, zentrale Tendenz und Variabilität
- Histogramme und die zentrale Tendenz
- Histogramme und Variabilität
- Histogramme und schiefe Verteilungen
- Verwendung von Histogrammen zur Identifizierung von Ausreißern
- Multimodale Verteilungen mit Histogrammen identifizieren
- Using Histograms to Identify Subpopulations
- Verwendung von Histogrammen zur Bewertung der Anpassung einer Wahrscheinlichkeitsverteilungsfunktion
- Verwendung von Histogrammen zum Vergleich von Verteilungen zwischen Gruppen
- Histogramme und Stichprobengröße
- Verwendung von Hypothesentests in Verbindung mit Histogrammen
Histogramme, zentrale Tendenz und Variabilität
Verwenden Sie Histogramme, wenn Sie kontinuierliche Messungen haben und die Verteilung der Werte verstehen und nach Ausreißern suchen möchten. In diesen Diagrammen werden die kontinuierlichen Messwerte in Wertebereiche, so genannte Bins, eingeteilt. Jedes Feld hat einen Balken, der die Anzahl oder den Prozentsatz der Beobachtungen darstellt, die in dieses Feld fallen.
Laden Sie die CSV-Datendatei herunter, um die meisten der Histogramme in diesem Blogbeitrag zu erstellen: Histogramme.
Im Bereich der Statistik werden häufig zusammenfassende Statistiken verwendet, um einen gesamten Datensatz zu beschreiben. Diese Statistiken verwenden eine einzige Zahl, um ein Merkmal der Stichprobe zu quantifizieren. Ein Maß für die zentrale Tendenz ist beispielsweise ein einzelner Wert, der den Mittelpunkt oder den typischen Wert eines Datensatzes darstellt, wie etwa der Mittelwert. Ein Maß für die Variabilität ist eine andere Art von zusammenfassender Statistik, die beschreibt, wie weit die Werte in Ihrem Datensatz gestreut sind. Die Standardabweichung ist ein herkömmliches Maß für die Streuung.
Diese zusammenfassenden Statistiken sind entscheidend. Wie oft haben Sie schon gehört, dass der Mittelwert einer Gruppe ein bestimmter Wert ist? Er liefert aussagekräftige Informationen. Diese Maße sind jedoch Vereinfachungen des Datensatzes. Die grafische Darstellung der Daten erweckt sie zum Leben. Im Allgemeinen finde ich, dass die Verwendung von Diagrammen in Verbindung mit Statistiken das Beste aus beiden Welten bietet!
Lassen Sie uns dies in Aktion sehen.
: Maße der zentralen Tendenz und Maße der Variabilität
Histogramme und die zentrale Tendenz
Verwenden Sie Histogramme, um die Mitte der Daten zu verstehen. Im nachstehenden Histogramm ist zu erkennen, dass der Mittelpunkt bei 50 liegt. Die meisten Werte im Datensatz liegen in der Nähe von 50, und weiter entfernte Werte sind seltener. Die Verteilung ist annähernd symmetrisch, und die Werte liegen etwa zwischen 40 und 64.
Ein Unterschied in den Mittelwerten verschiebt die Verteilungen horizontal entlang der X-Achse (sofern das Histogramm nicht gedreht wird). In den folgenden Histogrammen hat eine Gruppe einen Mittelwert von 50, während die andere einen Mittelwert von 65 hat.
Zusätzlich helfen Histogramme dabei, den Grad der Überlappung zwischen Gruppen zu erfassen. In den obigen Histogrammen gibt es eine relativ geringe Überschneidung.
Histogramme und Variabilität
Angenommen, Sie hören, dass zwei Gruppen den gleichen Mittelwert von 50 haben. Das klingt, als ob sie praktisch gleichwertig wären. Wenn Sie die Daten jedoch grafisch darstellen, werden die Unterschiede deutlich, wie unten gezeigt.
Die Histogramme zentrieren sich auf denselben Wert von 50, aber die Streuung der Werte ist bemerkenswert unterschiedlich. Die Werte der Gruppe A liegen meist zwischen 40 und 60, während sie bei Gruppe B zwischen 20 und 90 liegen. Der Mittelwert sagt also nicht alles aus! Auf einen Blick ist der Unterschied in den Histogrammen zu erkennen.
Kurz gesagt, zeigen Histogramme, welche Werte mehr und welche weniger häufig vorkommen, sowie deren Streuung. Dieses Verständnis können Sie nicht aus der rohen Liste der Werte gewinnen. Zusammenfassende Statistiken, wie der Mittelwert und die Standardabweichung, helfen Ihnen auf diesem Weg. Aber Histogramme bringen die Daten erst richtig zur Geltung!
Histogramme und schiefe Verteilungen
Histogramme sind ein hervorragendes Instrument, um die Form einer Verteilung zu erkennen. Bisher haben wir uns mit symmetrischen Verteilungen, wie der Normalverteilung, beschäftigt. Aber nicht alle Verteilungen sind symmetrisch. Die Form der Verteilung ist ein grundlegendes Merkmal Ihrer Stichprobe, das bestimmen kann, welches Maß der zentralen Tendenz den Mittelpunkt Ihrer Daten am besten wiedergibt. In diesem Zusammenhang wirkt sich die Form auch auf die Entscheidung aus, ob ein parametrischer oder nichtparametrischer Hypothesentest verwendet werden soll. Auf diese Weise geben Histogramme Aufschluss darüber, welche zusammenfassenden Statistiken und Hypothesentests für Ihre Daten geeignet sind.
Bei schiefen Verteilungen gibt die Richtung der Schiefe an, in welche Richtung sich der längere Schwanz erstreckt.
Bei rechtsschiefen Verteilungen erstreckt sich der lange Schwanz nach rechts, während sich die meisten Werte auf der linken Seite konzentrieren, wie unten dargestellt. Dies sind echte Daten aus einer von mir durchgeführten Studie.
Umgekehrt erstreckt sich bei linksschiefen Verteilungen der lange Schwanz nach links, während sich die meisten Werte rechts häufen.
: Die Normalverteilung in der Statistik und parametrische vs. nichtparametrische Hypothesentests
Verwendung von Histogrammen zur Identifizierung von Ausreißern
Histogramme sind eine praktische Methode, um Ausreißer zu identifizieren. Im Handumdrehen sehen Sie, ob es ungewöhnliche Werte gibt. Wenn Sie potenzielle Ausreißer erkennen, sollten Sie sie untersuchen. Handelt es sich um Fehler bei der Dateneingabe oder um Beobachtungen, die unter ungewöhnlichen Bedingungen aufgetreten sind? Oder handelt es sich vielleicht um legitime Beobachtungen, die die Variabilität im Untersuchungsgebiet genau beschreiben.
In einem Histogramm erscheinen Ausreißer als isolierte Balken.
Multimodale Verteilungen mit Histogrammen identifizieren
Eine multimodale Verteilung hat mehr als einen Peak. Multimodale Verteilungen können leicht übersehen werden, wenn man sich auf zusammenfassende Statistiken wie den Mittelwert und die Standardabweichungen konzentriert. Daher sind Histogramme die beste Methode zur Erkennung multimodaler Verteilungen.
Stellen Sie sich vor, Ihr Datensatz hat die unten dargestellten Eigenschaften.
Das sieht relativ einfach aus, aber wenn Sie es grafisch darstellen, sehen Sie das folgende Histogramm.
Diese bimodale Verteilung ist nicht ganz das, was Sie erwartet haben! Dieses Histogramm veranschaulicht, warum Sie Ihre Daten immer grafisch darstellen sollten, anstatt nur zusammenfassende Statistiken zu berechnen!
Using Histograms to Identify Subpopulations
Manchmal spiegeln diese multimodalen Verteilungen die tatsächliche Verteilung des Phänomens wider, das Sie untersuchen. Mit anderen Worten, es gibt tatsächlich unterschiedliche Spitzenwerte in der Verteilung einer Population. In anderen Fällen deuten multimodale Verteilungen jedoch darauf hin, dass Sie Teilpopulationen mit unterschiedlichen Merkmalen kombinieren. Histogramme können helfen, das Vorhandensein dieser Teilpopulationen zu bestätigen und zu veranschaulichen, wie sie sich voneinander unterscheiden.
Angenommen, wir untersuchen die Körpergröße der amerikanischen Bürger. Sie haben eine Durchschnittsgröße von 168 Zentimetern mit einer Standardabweichung von 9,8 CM. Das Histogramm ist unten abgebildet. Es scheint eine ungewöhnlich breite Spitze in der Mitte zu geben – sie ist nicht ganz bimodal.
Wenn wir die Stichprobe nach Geschlecht aufteilen, wird der Grund dafür deutlich.
Haben Sie bemerkt, dass die breite Verteilung durch zwei engere Verteilungen ersetzt wurde? Anhand der Histogramme können wir erkennen, dass das Geschlecht eine wesentliche kategoriale Variable in Studien ist, die die Körpergröße betreffen. Die Diagramme zeigen, dass der Mittelwert genauere Schätzungen liefert, wenn wir die Körpergröße nach Geschlecht beurteilen. Der Mittelwert für die Gesamtpopulation entspricht nämlich nicht dem Mittelwert für eine der beiden Unterpopulationen. Das ist irreführend!
Verwendung von Histogrammen zur Bewertung der Anpassung einer Wahrscheinlichkeitsverteilungsfunktion
Analysten können eine angepasste Linie für eine Wahrscheinlichkeitsverteilungsfunktion über ihr Histogramm legen. Hier ist eine kurze Unterscheidung zwischen den beiden:
- Histogramm: Zeigt die Verteilung der Werte in der Stichprobe an.
- Fitted distribution line: Zeigt die Wahrscheinlichkeitsverteilungsfunktion für eine bestimmte Verteilung (z. B. Normal, Weibull usw.) an, die am besten zu Ihren Daten passt.
Ein Histogramm stellt Ihre Stichprobendaten grafisch dar. Mit einer angepassten Verteilungslinie hingegen wird versucht, die Wahrscheinlichkeitsverteilungsfunktion für eine Population zu finden, die mit größter Wahrscheinlichkeit die in Ihrer Stichprobe vorhandene Verteilung ergibt.
Sie können zwar Histogramme verwenden, um zu bewerten, wie gut die Verteilungskurve zu Ihrer Stichprobe passt, aber ich empfehle dies NICHT! Wenn Sie darauf bestehen, ein Histogramm zu verwenden, beurteilen Sie, wie genau die Balken der Form der angepassten Linie folgen. Im nachstehenden Diagramm scheint die angepasste Linie für die Normalverteilung den Histogrammbalken angemessen zu folgen. Die Legende zeigt die geschätzten Parameterwerte der angepassten Verteilung an.
Anstatt Histogramme zu verwenden, um festzustellen, wie gut eine Verteilung zu Ihren Daten passt, empfehle ich eine Kombination aus Verteilungstests und Wahrscheinlichkeitsgrafiken. Wahrscheinlichkeitsdiagramme sind spezielle Diagramme, die anzeigen sollen, wie gut Wahrscheinlichkeitsverteilungsfunktionen zu Stichproben passen. Um mehr über diese anderen Ansätze zu erfahren, lesen Sie meine Beiträge über die Identifizierung der Verteilung Ihrer Daten und Histogramme vs. Wahrscheinlichkeitsdiagramme.
Verbundener Beitrag: Verstehen von Wahrscheinlichkeitsverteilungen
Verwendung von Histogrammen zum Vergleich von Verteilungen zwischen Gruppen
Um Verteilungen zwischen Gruppen mithilfe von Histogrammen zu vergleichen, benötigen Sie sowohl eine kontinuierliche Variable als auch eine kategoriale Gruppierungsvariable. Es gibt zwei gängige Möglichkeiten, Gruppen in Histogrammen darzustellen. Sie können die Gruppen entweder überlagern oder sie in verschiedenen Feldern grafisch darstellen, wie unten gezeigt.
Es kann einfacher sein, Verteilungen zu vergleichen, wenn sie überlagert sind, aber manchmal werden sie unübersichtlich. Histogramme in separaten Feldern zeigen die einzelnen Verteilungen deutlicher an, aber die Vergleiche und der Grad der Überlappung sind nicht ganz so klar. In den obigen Beispielen sind die Verteilungen in den Tafeln deutlich besser lesbar. In anderen Fällen können überlagerte Histogramme jedoch sehr gut funktionieren, wie Sie in diesem Blogbeitrag gesehen haben. Experimentieren Sie, um den besten Ansatz für Ihre Daten zu finden!
Während Histogramme meiner Meinung nach das beste Diagramm sind, um die Verteilung von Werten für eine einzelne Gruppe zu verstehen, können sie bei mehreren Gruppen durcheinander geraten. Histogramme eignen sich in der Regel sehr gut für die Darstellung von zwei Gruppen und bis zu vier Gruppen, wenn man sie in getrennten Feldern anzeigt. Wenn Ihr Hauptziel darin besteht, Verteilungen zu vergleichen, und Ihre Histogramme schwer zu interpretieren sind, sollten Sie Boxplots oder individuelle Diagramme verwenden. Meiner Meinung nach eignen sich diese anderen Darstellungen besser für den Vergleich von Verteilungen, wenn Sie mehr Gruppen haben. Sie bieten jedoch nicht so viele Details für jede Verteilung wie Histogramme.
Auch hier gilt: Experimentieren Sie und bestimmen Sie, welches Diagramm für Ihre Daten und Ziele am besten geeignet ist!
Verbundener Beitrag: Boxplots vs. Einzelwertplots: Kontinuierliche Daten nach Gruppen grafisch darstellen
Histogramme und Stichprobengröße
So fantastisch Histogramme für die Untersuchung Ihrer Daten auch sind, seien Sie sich bewusst, dass die Stichprobengröße eine wichtige Überlegung ist, wenn die Form des Histogramms der Bevölkerungsverteilung ähneln soll. Normalerweise empfehle ich für Histogramme eine Stichprobengröße von mindestens 20 pro Gruppe. Bei weniger als 20 Beobachtungen haben Sie zu wenig Daten, um die Verteilung der Grundgesamtheit genau darzustellen.
Beide nachstehenden Histogramme verwenden Stichproben, die aus einer Grundgesamtheit mit einem Mittelwert von 100 und einer Standardabweichung von 15 gezogen wurden. Diese Merkmale beschreiben die Verteilung der IQ-Werte. Für das eine Histogramm wird jedoch eine Stichprobengröße von 20 verwendet, für das andere eine Stichprobengröße von 100. Beachten Sie, dass ich Prozent auf der Y-Achse verwende, um die Histogrammbalken zwischen verschiedenen Stichprobengrößen zu vergleichen.
Das ist ein ziemlich großer Unterschied! Man braucht einen überraschend großen Stichprobenumfang, um eine gute Darstellung der gesamten Verteilung zu erhalten. Wenn Ihre Stichprobengröße weniger als 20 beträgt, sollten Sie eine Einzelwertdarstellung in Erwägung ziehen.
Verwendung von Hypothesentests in Verbindung mit Histogrammen
Wie Sie in diesem Beitrag gesehen haben, können Histogramme die Verteilung von Gruppen sowie die Unterschiede zwischen Gruppen veranschaulichen. Wenn Sie jedoch aus Ihren Stichprobendaten Rückschlüsse auf Populationen ziehen wollen, müssen Sie Hypothesentests verwenden. Achten Sie außerdem darauf, dass Sie eine Stichprobenmethode, wie z. B. eine Zufallsstichprobe, verwenden, um eine Stichprobe zu erhalten, die die Grundgesamtheit widerspiegelt.