Utiliser les histogrammes pour comprendre vos données

Les histogrammes sont des graphiques qui affichent la distribution de vos données continues. Ce sont des outils exploratoires fantastiques car ils révèlent des propriétés de votre échantillon de données d’une manière que les statistiques sommaires ne peuvent pas faire. Par exemple, alors que la moyenne et l’écart type peuvent résumer numériquement vos données, les histogrammes donnent vie à vos données échantillons.

Dans ce billet de blog, je vous montrerai comment les histogrammes révèlent la forme de la distribution, sa tendance centrale et la dispersion des valeurs dans vos données échantillons. Vous apprendrez également comment identifier les valeurs aberrantes, comment les histogrammes sont liés aux fonctions de distribution de probabilité et pourquoi vous pourriez avoir besoin d’utiliser des tests d’hypothèse avec eux.

Histogrammes, tendance centrale et variabilité

Utilisez les histogrammes lorsque vous avez des mesures continues et que vous voulez comprendre la distribution des valeurs et rechercher les valeurs aberrantes. Ces graphiques prennent vos mesures continues et les placent dans des plages de valeurs appelées  » bacs « . Chaque bac a une barre qui représente le nombre ou le pourcentage d’observations qui se situent dans ce bac.

Téléchargez le fichier de données CSV pour réaliser la plupart des histogrammes de ce billet de blog : Histogrammes.

Dans le domaine des statistiques, nous utilisons souvent des statistiques sommaires pour décrire un ensemble de données entier. Ces statistiques utilisent un seul nombre pour quantifier une caractéristique de l’échantillon. Par exemple, une mesure de la tendance centrale est une valeur unique qui représente le point central ou la valeur typique d’un ensemble de données, comme la moyenne. Une mesure de la variabilité est un autre type de statistique sommaire qui décrit la dispersion des valeurs dans votre ensemble de données. L’écart-type est une mesure classique de la dispersion.

Ces statistiques récapitulatives sont cruciales. Combien de fois avez-vous entendu que la moyenne d’un groupe est une valeur particulière ? Elles fournissent des informations significatives. Cependant, ces mesures sont des simplifications de l’ensemble des données. La représentation graphique des données leur donne vie. En général, je trouve que l’utilisation des graphiques en conjonction avec les statistiques fournit le meilleur des deux mondes !

Voyons cela en action.

: Mesures de la tendance centrale et mesures de la variabilité

Histogrammes et tendance centrale

Utiliser les histogrammes pour comprendre le centre des données. Dans l’histogramme ci-dessous, vous pouvez voir que le centre est proche de 50. La plupart des valeurs de l’ensemble de données seront proches de 50, et les valeurs plus éloignées sont plus rares. La distribution est à peu près symétrique et les valeurs se situent entre 40 et 64 environ.

Exemple d'histogramme qui affiche la distribution d'un seul groupe.

Exemple d'histogramme qui affiche la distribution d'un seul groupe.

Une différence de moyennes décale les distributions horizontalement le long de l’axe X (à moins que l’histogramme ne soit tourné). Dans les histogrammes ci-dessous, un groupe a une moyenne de 50 tandis que l’autre a une moyenne de 65.

Histogramme qui affiche deux groupes superposés qui ont des moyennes différentes.

Histogramme qui affiche deux groupes superposés qui ont des moyennes différentes.

En outre, les histogrammes vous aident à saisir le degré de chevauchement entre les groupes. Dans les histogrammes ci-dessus, il y a un chevauchement relativement faible.

Histogrammes et variabilité

Supposons que vous entendiez que deux groupes ont la même moyenne de 50. On dirait qu’ils sont pratiquement équivalents. Cependant, après avoir représenté les données sous forme de graphique, les différences deviennent apparentes, comme indiqué ci-dessous.

Histogrammes dans des panneaux séparés qui affichent deux groupes ayant la même moyenne mais une variabilité différente.

Histogrammes dans des panneaux séparés qui affichent deux groupes avec la même moyenne mais une variabilité différente.

Les histogrammes se centrent sur la même valeur de 50, mais la dispersion des valeurs est notablement différente. Les valeurs du groupe A se situent principalement entre 40 et 60, tandis que pour le groupe B, cette fourchette est de 20 à 90. La moyenne ne dit pas tout ! D’un simple coup d’œil, la différence est évidente dans les histogrammes.

En bref, les histogrammes vous montrent quelles valeurs sont plus ou moins courantes ainsi que leur dispersion. Vous ne pouvez pas obtenir cette compréhension à partir de la liste brute des valeurs. Les statistiques sommaires, telles que la moyenne et l’écart-type, vous permettront d’y parvenir en partie. Mais les histogrammes font ressortir les données !

Histogrammes et distributions asymétriques

Les histogrammes sont un excellent outil pour identifier la forme de votre distribution. Jusqu’à présent, nous avons étudié les distributions symétriques, comme la distribution normale. Cependant, toutes les distributions ne sont pas symétriques. Vous pourriez avoir des données non normales qui sont asymétriques.

La forme de la distribution est une caractéristique fondamentale de votre échantillon qui peut déterminer quelle mesure de tendance centrale reflète le mieux le centre de vos données. De manière connexe, la forme a également un impact sur votre choix entre l’utilisation d’un test d’hypothèse paramétrique ou non paramétrique. De cette manière, les histogrammes sont informatifs sur les statistiques sommaires et les tests d’hypothèse qui conviennent à vos données.

Pour les distributions asymétriques, la direction de l’asymétrie indique dans quel sens s’étend la queue la plus longue.

Pour les distributions asymétriques à droite, la queue la plus longue s’étend vers la droite tandis que la plupart des valeurs se regroupent à gauche, comme illustré ci-dessous. Il s’agit de données réelles issues d’une étude que j’ai menée.

À l’inverse, pour les distributions à angle droit à gauche, la longue queue s’étend vers la gauche tandis que la plupart des valeurs se regroupent à droite.

Histogramme qui affiche une distribution à angle droit à gauche.

Histogramme qui affiche une distribution asymétrique à gauche.

: La distribution normale en statistique et tests d’hypothèse paramétriques ou non paramétriques

Utiliser les histogrammes pour identifier les valeurs aberrantes

Les histogrammes sont un moyen pratique d’identifier les valeurs aberrantes. En un instant, vous verrez s’il y a des valeurs inhabituelles. Si vous identifiez des valeurs aberrantes potentielles, étudiez-les. S’agit-il d’erreurs de saisie de données ou représentent-elles des observations qui se sont produites dans des conditions inhabituelles ? Ou peut-être s’agit-il d’observations légitimes qui décrivent avec précision la variabilité de la zone d’étude.

Un histogramme qui affiche une valeur aberrante.

Un histogramme qui affiche une valeur aberrante.

Dans un histogramme, les valeurs aberrantes apparaissent sous la forme d’une barre isolée.

Identifier les distributions multimodales avec des histogrammes

Une distribution multimodale présente plus d’un pic. Il est facile de passer à côté des distributions multimodales lorsque vous vous concentrez sur les statistiques sommaires, telles que la moyenne et les écarts types. Par conséquent, les histogrammes sont la meilleure méthode pour détecter les distributions multimodales.

Imaginez que votre ensemble de données a les propriétés indiquées ci-dessous.

Tableau des statistiques descriptives.

Tableau des statistiques descriptives.

Cela semble relativement simple, mais lorsque vous le représentez graphiquement, vous obtenez l’histogramme ci-dessous.

Histogramme qui affiche une distribution multimodale.

Histogramme qui affiche une distribution multimodale.

Cette distribution bimodale n’est pas tout à fait celle à laquelle vous vous attendiez ! Cet histogramme illustre pourquoi vous devriez toujours représenter vos données sous forme de graphique plutôt que de vous contenter de calculer des statistiques sommaires !

Utiliser les histogrammes pour identifier les sous-populations

Parfois, ces distributions multimodales reflètent la distribution réelle du phénomène que vous étudiez. En d’autres termes, il existe des valeurs de pic véritablement différentes dans la distribution d’une population. Cependant, dans d’autres cas, les distributions multimodales indiquent que vous combinez des sous-populations qui ont des caractéristiques différentes. Les histogrammes peuvent aider à confirmer la présence de ces sous-populations et à illustrer en quoi elles sont différentes les unes des autres.

Supposons que nous étudions les hauteurs des citoyens américains. Ils ont une taille moyenne de 168 centimètres avec un écart-type de 9,8 CM. L’histogramme est présenté ci-dessous. Il semble y avoir un pic inhabituellement large au centre – ce n’est pas tout à fait bimodal.

Histogramme des hauteurs

Histogramme des hauteurs

Lorsque nous divisons l’échantillon par sexe, la raison en devient claire.

Histogramme qui affiche les hauteurs selon le sexe.

Histogramme qui affiche les hauteurs selon le sexe.

Vous remarquez comment deux distributions plus étroites ont remplacé la large distribution unique ? Les histogrammes nous permettent d’apprendre que le sexe est une variable catégorielle essentielle dans les études portant sur la taille. Les graphiques montrent que la moyenne fournit des estimations plus précises lorsque nous évaluons les hauteurs en fonction du sexe. En fait, la moyenne pour l’ensemble de la population n’est pas égale à la moyenne pour l’une ou l’autre sous-population. C’est trompeur !

Utiliser les histogrammes pour évaluer l’ajustement d’une fonction de distribution de probabilité

Les analystes peuvent superposer une droite ajustée pour une fonction de distribution de probabilité sur leur histogramme. Voici une distinction rapide entre les deux :

  • Histogramme : Affiche la distribution des valeurs dans l’échantillon.
  • La ligne de distribution ajustée : Affiche la fonction de distribution de probabilité d’une distribution particulière (par exemple, normale, Weibull, etc.) qui correspond le mieux à vos données.

Un histogramme représente graphiquement les données de votre échantillon. En revanche, une courbe de distribution ajustée tente de trouver la fonction de distribution de probabilité pour une population qui a le maximum de probabilité de produire la distribution qui existe dans votre échantillon.

Bien que vous puissiez utiliser des histogrammes pour évaluer dans quelle mesure la courbe de distribution s’adapte à votre échantillon, je ne le recommande PAS ! Si vous insistez pour utiliser un histogramme, évaluez dans quelle mesure les barres suivent la forme de la ligne ajustée. Dans le graphique ci-dessous, la ligne ajustée pour la distribution normale semble suivre les barres de l’histogramme de manière adéquate. La légende affiche les valeurs estimées des paramètres de la distribution ajustée.

Histogramme qui inclut une ligne de distribution ajustée pour la distribution normale.

Histogramme qui inclut une ligne de distribution ajustée pour la distribution normale.

Au lieu d’utiliser des histogrammes pour déterminer si une distribution s’adapte bien à vos données, je recommande d’utiliser une combinaison de tests de distribution et de tracés de probabilité. Les diagrammes de probabilité sont des graphiques spéciaux qui sont spécifiquement conçus pour afficher la façon dont les fonctions de distribution de probabilité s’adaptent aux échantillons. Pour en savoir plus sur ces autres approches, lisez mes posts sur l’identification de la distribution de vos données et sur les histogrammes par rapport aux tracés de probabilité.

Postage connexe : Comprendre les distributions de probabilités

Utiliser les histogrammes pour comparer les distributions entre les groupes

Pour comparer les distributions entre les groupes à l’aide d’histogrammes, vous aurez besoin d’une variable continue et d’une variable de regroupement catégorique. Il existe deux façons courantes d’afficher les groupes dans les histogrammes. Vous pouvez soit superposer les groupes, soit les représenter graphiquement dans différents panneaux, comme indiqué ci-dessous.

Histogramme qui affiche quatre distributions superposées.

Histogramme qui affiche quatre distributions superposées.

Histogramme qui affiche quatre distributions dans des panneaux séparés.

Histogramme qui affiche quatre distributions dans des panneaux séparés.

Il peut être plus facile de comparer des distributions lorsqu’elles sont superposées, mais parfois, elles deviennent désordonnées. Les histogrammes en panneaux séparés affichent plus clairement chaque distribution, mais les comparaisons et le degré de chevauchement ne sont pas tout à fait aussi clairs. Dans les exemples ci-dessus, les distributions en panneaux sont nettement plus lisibles. Cependant, les histogrammes superposés peuvent être très utiles dans d’autres cas, comme vous l’avez vu dans cet article de blog. Expérimentez pour trouver la meilleure approche pour vos données !

Si je pense que les histogrammes sont le meilleur graphique pour comprendre la distribution des valeurs pour un seul groupe, ils peuvent s’embrouiller avec plusieurs groupes. Les histogrammes sont généralement assez bons pour afficher deux groupes, et jusqu’à quatre groupes si vous les affichez dans des panneaux séparés. Si votre objectif principal est de comparer des distributions et que vos histogrammes sont difficiles à interpréter, envisagez d’utiliser des boxplots ou des graphiques individuels. À mon avis, ces autres graphiques sont meilleurs pour comparer les distributions lorsque vous avez plus de groupes. Mais ils ne fournissent pas autant de détails pour chaque distribution que les histogrammes.

Encore une fois, expérimentez et déterminez quel graphique fonctionne le mieux pour vos données et vos objectifs !

Billet connexe : Boxplots vs tracés de valeurs individuelles : Graphiser des données continues par groupes

Histogrammes et taille de l’échantillon

Aussi fantastiques que soient les histogrammes pour explorer vos données, sachez que la taille de l’échantillon est une considération importante lorsque vous avez besoin que la forme de l’histogramme ressemble à la distribution de la population. En général, je vous recommande d’avoir un échantillon d’au moins 20 personnes par groupe pour les histogrammes. Avec moins de 20 observations, vous avez trop peu de données pour représenter la distribution de la population avec précision.

Les deux histogrammes ci-dessous utilisent des échantillons tirés d’une population qui a une moyenne de 100 et un écart-type de 15. Ces caractéristiques décrivent la distribution des scores de QI. Cependant, un histogramme utilise une taille d’échantillon de 20 tandis que l’autre utilise une taille d’échantillon de 100. Remarquez que j’utilise le pourcentage sur l’axe des ordonnées pour comparer les barres d’histogramme entre différentes tailles d’échantillon.

Histogrammes qui utilisent différentes tailles d'échantillon pour afficher la distribution des scores de QI.

Histogrammes qui utilisent différentes tailles d'échantillon pour afficher la distribution des scores de QI.

C’est une différence assez énorme ! Il faut une taille d’échantillon étonnamment grande pour obtenir une bonne représentation de l’ensemble d’une distribution. Lorsque la taille de votre échantillon est inférieure à 20, envisagez d’utiliser un graphique de valeurs individuelles.

Utilisation des tests d’hypothèse en conjonction avec les histogrammes

Comme vous l’avez vu dans ce post, les histogrammes peuvent illustrer la distribution des groupes ainsi que les différences entre les groupes. Cependant, si vous souhaitez utiliser vos données d’échantillon pour tirer des conclusions sur les populations, vous devrez utiliser des tests d’hypothèse. De plus, assurez-vous d’utiliser une méthode d’échantillonnage, comme l’échantillonnage aléatoire, pour obtenir un échantillon qui reflète la population.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.