Usare gli istogrammi per capire i tuoi dati

Gli istogrammi sono grafici che mostrano la distribuzione dei tuoi dati continui. Sono strumenti esplorativi fantastici perché rivelano le proprietà dei dati del tuo campione in modi che le statistiche riassuntive non sono in grado di fare. Per esempio, mentre la media e la deviazione standard possono riassumere numericamente i vostri dati, gli istogrammi danno vita ai vostri dati campione.

In questo post del blog, vi mostrerò come gli istogrammi rivelano la forma della distribuzione, la sua tendenza centrale e la diffusione dei valori nei vostri dati campione. Imparerai anche come identificare i valori anomali, come gli istogrammi si relazionano alle funzioni di distribuzione della probabilità e perché potresti aver bisogno di usare i test di ipotesi con essi.

Iistogrammi, tendenza centrale e variabilità

Utilizza gli istogrammi quando hai misure continue e vuoi capire la distribuzione dei valori e cercare i valori anomali. Questi grafici prendono le tue misure continue e le collocano in intervalli di valori conosciuti come bins. Ciascuna banda ha una barra che rappresenta il conteggio o la percentuale di osservazioni che rientrano in quella banda.

Scaricate il file di dati CSV per fare la maggior parte degli istogrammi in questo post del blog: Istogrammi.

Nel campo della statistica, usiamo spesso statistiche riassuntive per descrivere un intero set di dati. Queste statistiche usano un singolo numero per quantificare una caratteristica del campione. Per esempio, una misura di tendenza centrale è un singolo valore che rappresenta il punto centrale o il valore tipico di un set di dati, come la media. Una misura di variabilità è un altro tipo di statistica riassuntiva che descrive quanto sono diffusi i valori nel vostro set di dati. La deviazione standard è una misura convenzionale della dispersione.

Queste statistiche riassuntive sono cruciali. Quante volte avete sentito dire che la media di un gruppo è un valore particolare? Forniscono informazioni significative. Tuttavia, queste misure sono semplificazioni della serie di dati. Graficare i dati li porta alla vita. In generale, trovo che usare i grafici insieme alle statistiche fornisce il meglio di entrambi i mondi!

Vediamo questo in azione.

: Misure di tendenza centrale e misure di variabilità

Iistogrammi e tendenza centrale

Utilizzare gli istogrammi per capire il centro dei dati. Nell’istogramma qui sotto, puoi vedere che il centro è vicino a 50. La maggior parte dei valori nel set di dati sarà vicino a 50, e i valori più lontani sono più rari. La distribuzione è approssimativamente simmetrica e i valori cadono tra circa 40 e 64.

Esempio di istogramma che visualizza la distribuzione di un singolo gruppo.

Esempio di istogramma che visualizza la distribuzione di un singolo gruppo.

Una differenza nei mezzi sposta le distribuzioni orizzontalmente lungo l’asse X (a meno che l’istogramma non sia ruotato). Negli istogrammi qui sotto, un gruppo ha una media di 50 mentre l’altro ha una media di 65.

Istogramma che visualizza due gruppi sovrapposti che hanno medie diverse.

Istogramma che visualizza due gruppi sovrapposti che hanno medie diverse.

Inoltre, gli istogrammi ti aiutano a capire il grado di sovrapposizione tra gruppi. Negli istogrammi di cui sopra, c’è una quantità relativamente piccola di sovrapposizione.

Iistogrammi e variabilità

Supponiamo di sentire che due gruppi hanno la stessa media di 50. Sembra che siano praticamente equivalenti. Tuttavia, dopo aver graficato i dati, le differenze diventano evidenti, come mostrato qui sotto.

Iistogrammi in pannelli separati che mostrano due gruppi con la stessa media ma diversa variabilità.

Iistogrammi in pannelli separati che mostrano due gruppi con la stessa media ma diversa variabilità.

Gli istogrammi si concentrano sullo stesso valore di 50, ma la diffusione dei valori è notevolmente diversa. I valori per il gruppo A sono per lo più compresi tra 40 e 60, mentre per il gruppo B l’intervallo è 20-90. La media non racconta tutta la storia! A colpo d’occhio, la differenza è evidente negli istogrammi.

In breve, gli istogrammi ti mostrano quali valori sono più e meno comuni insieme alla loro dispersione. Non puoi ottenere questa comprensione dalla lista grezza dei valori. Le statistiche riassuntive, come la media e la deviazione standard, vi porteranno a metà strada. Ma gli istogrammi rendono i dati pop!

Iistogrammi e distribuzioni asimmetriche

Gli istogrammi sono uno strumento eccellente per identificare la forma della vostra distribuzione. Finora abbiamo esaminato le distribuzioni simmetriche, come la distribuzione normale. Tuttavia, non tutte le distribuzioni sono simmetriche. La forma della distribuzione è una caratteristica fondamentale del vostro campione che può determinare quale misura di tendenza centrale riflette meglio il centro dei vostri dati. Relativamente, la forma ha anche un impatto sulla scelta tra l’uso di un test di ipotesi parametrico o non parametrico. In questo modo, gli istogrammi sono informativi sulle statistiche riassuntive e sui test di ipotesi che sono appropriati per i vostri dati.

Per le distribuzioni asimmetriche, la direzione dell’asimmetria indica da che parte si estende la coda più lunga.

Per le distribuzioni asimmetriche, la coda lunga si estende a destra mentre la maggior parte dei valori si raggruppa a sinistra, come mostrato sotto. Questi sono dati reali di uno studio che ho condotto.

Conversamente, per le distribuzioni oblique a sinistra, la coda lunga si estende a sinistra mentre la maggior parte dei valori si raggruppa a destra.

Iistogramma che mostra una distribuzione obliqua a sinistra.

Iistogramma che mostra una distribuzione obliqua a sinistra.

: La distribuzione normale in statistica e i test ipotetici parametrici e non parametrici

Usare gli istogrammi per identificare i valori anomali

Gli istogrammi sono un modo pratico per identificare i valori anomali. In un istante, vedrai se ci sono valori insoliti. Se identifichi potenziali valori anomali, indaga su di essi. Sono errori di inserimento dei dati o rappresentano osservazioni che si sono verificate in condizioni insolite? O forse sono osservazioni legittime che descrivono accuratamente la variabilità nell’area di studio.

Un istogramma che mostra un outlier.

Un istogramma che mostra un outlier.

In un istogramma, i valori anomali appaiono come una barra isolata.

Identificare distribuzioni multimodali con gli istogrammi

Una distribuzione multimodale ha più di un picco. È facile non notare le distribuzioni multimodali quando ci si concentra sulle statistiche riassuntive, come la media e le deviazioni standard. Di conseguenza, gli istogrammi sono il metodo migliore per individuare le distribuzioni multimodali.

Immaginate che il vostro set di dati abbia le proprietà mostrate qui sotto.

Tabella delle statistiche descrittive.

Tabella delle statistiche descrittive.

Questo sembra relativamente semplice, ma quando si fa il grafico, si vede l’istogramma qui sotto.

Istogramma che mostra una distribuzione multimodale.

Istogramma che mostra una distribuzione multimodale.

Quella distribuzione bimodale non è proprio quella che ti aspettavi! Questo istogramma illustra perché dovresti sempre fare un grafico dei tuoi dati piuttosto che calcolare solo statistiche riassuntive!

Utilizzare gli istogrammi per identificare le sottopopolazioni

A volte queste distribuzioni multimodali riflettono la reale distribuzione del fenomeno che stai studiando. In altre parole, ci sono veramente diversi valori di picco nella distribuzione di una popolazione. Tuttavia, in altri casi, le distribuzioni multimodali indicano che state combinando sottopopolazioni che hanno caratteristiche diverse. Gli istogrammi possono aiutare a confermare la presenza di queste sottopopolazioni e illustrare come sono diverse tra loro.

Supponiamo di studiare le altezze dei cittadini americani. Hanno un’altezza media di 168 centimetri con una deviazione standard di 9,8 CM. L’istogramma è qui sotto. Sembra esserci un picco insolitamente ampio al centro – non è proprio bimodale.

Iistogramma delle altezze

Iistogramma delle altezze

Quando dividiamo il campione per sesso, la ragione diventa chiara.

Iistogramma che visualizza le altezze per genere.

Iistogramma che visualizza le altezze per genere.

Nota come due distribuzioni più strette hanno sostituito la singola distribuzione ampia? Gli istogrammi ci aiutano a capire che il genere è una variabile categorica essenziale negli studi che riguardano l’altezza. I grafici mostrano che la media fornisce stime più precise quando valutiamo le altezze per genere. Infatti, la media per l’intera popolazione non è uguale alla media per entrambe le sottopopolazioni. È fuorviante!

Utilizzare gli istogrammi per valutare l’adattamento di una funzione di distribuzione della probabilità

Gli analisti possono sovrapporre una linea adattata per una funzione di distribuzione della probabilità al loro istogramma. Ecco una rapida distinzione tra i due:

  • Istogramma: Visualizza la distribuzione dei valori nel campione.
  • Linea di distribuzione adattata: Visualizza la funzione di distribuzione di probabilità per una particolare distribuzione (ad esempio, normale, Weibull, ecc.) che meglio si adatta ai vostri dati.

Un istogramma rappresenta graficamente i vostri dati campione. D’altra parte, una linea di distribuzione adattata cerca di trovare la funzione di distribuzione di probabilità per una popolazione che ha la massima probabilità di produrre la distribuzione che esiste nel vostro campione.

Mentre potete usare gli istogrammi per valutare quanto bene la curva di distribuzione si adatti al vostro campione, io NON lo consiglio! Se insistete nell’usare un istogramma, valutate quanto strettamente le barre seguono la forma della linea adattata. Nel grafico qui sotto, la linea adattata per la distribuzione normale sembra seguire adeguatamente le barre dell’istogramma. La legenda mostra i valori dei parametri stimati della distribuzione adattata.

Istogramma che include una linea di distribuzione adattata per la distribuzione normale.

Istogramma che include una linea di distribuzione adattata per la distribuzione normale.

Invece di usare gli istogrammi per determinare quanto bene una distribuzione si adatti ai vostri dati, consiglio di usare una combinazione di test di distribuzione e grafici di probabilità. I grafici di probabilità sono grafici speciali che sono specificamente progettati per visualizzare quanto bene le funzioni di distribuzione della probabilità si adattano ai campioni. Per saperne di più su questi altri approcci, leggete i miei post su Identificare la distribuzione dei vostri dati e Istogrammi contro grafici di probabilità.

Post correlato: Capire le distribuzioni di probabilità

Utilizzare gli istogrammi per confrontare le distribuzioni tra gruppi

Per confrontare le distribuzioni tra gruppi usando gli istogrammi, avrete bisogno sia di una variabile continua che di una variabile categorica di raggruppamento. Ci sono due modi comuni per visualizzare i gruppi negli istogrammi. Potete sovrapporre i gruppi o graficarli in pannelli diversi, come mostrato qui sotto.

Iistogramma che visualizza quattro distribuzioni sovrapposte.

Iistogramma che visualizza quattro distribuzioni sovrapposte.

Istogramma che visualizza quattro distribuzioni in pannelli separati.

Istogramma che visualizza quattro distribuzioni in pannelli separati.

Può essere più facile confrontare le distribuzioni quando sono sovrapposte, ma a volte diventano confuse. Gli istogrammi in pannelli separati mostrano ogni distribuzione più chiaramente, ma i confronti e il grado di sovrapposizione non sono altrettanto chiari. Negli esempi qui sopra, le distribuzioni in pannelli sono chiaramente più leggibili. Tuttavia, gli istogrammi sovrapposti possono funzionare bene in altri casi, come avete visto in questo post del blog. Sperimentate per trovare l’approccio migliore per i vostri dati!

Mentre penso che gli istogrammi siano il miglior grafico per capire la distribuzione dei valori per un singolo gruppo, possono confondersi con gruppi multipli. Gli istogrammi sono di solito abbastanza buoni per la visualizzazione di due gruppi, e fino a quattro gruppi se li visualizzi in pannelli separati. Se il tuo obiettivo primario è quello di confrontare le distribuzioni e i tuoi istogrammi sono difficili da interpretare, considera l’utilizzo di boxplot o di plot individuali. A mio parere, questi altri grafici sono migliori per confrontare le distribuzioni quando avete più gruppi. Ma non forniscono così tanti dettagli per ogni distribuzione come gli istogrammi.

Ancora una volta, sperimentate e determinate quale grafico funziona meglio per i vostri dati e obiettivi!

Post correlato: Boxplot vs. Grafici dei valori individuali: Graficare Dati Continui per Gruppi

Iistogrammi e Dimensione del Campione

Per quanto i suoi istogrammi siano fantastici per esplorare i tuoi dati, sappi che la dimensione del campione è una considerazione significativa quando hai bisogno che la forma dell’istogramma assomigli alla distribuzione della popolazione. In genere, consiglio di avere una dimensione del campione di almeno 20 per gruppo per gli istogrammi. Con meno di 20 osservazioni, avete troppo pochi dati per rappresentare accuratamente la distribuzione della popolazione.

Entrambi gli istogrammi qui sotto usano campioni tratti da una popolazione che ha una media di 100 e una deviazione standard di 15. Queste caratteristiche descrivono la distribuzione dei punteggi del QI. Tuttavia, un istogramma usa una dimensione del campione di 20 mentre l’altro usa una dimensione del campione di 100. Notate che sto usando la percentuale sull’asse Y per confrontare le barre dell’istogramma tra le diverse dimensioni del campione.

Iistogrammi che usano diverse dimensioni del campione per visualizzare la distribuzione dei punteggi del QI.

Iistogrammi che usano diverse dimensioni del campione per visualizzare la distribuzione dei punteggi del QI.

Questa è una differenza piuttosto grande! Ci vuole una dimensione del campione sorprendentemente grande per ottenere una buona rappresentazione di un’intera distribuzione. Quando la dimensione del tuo campione è inferiore a 20, considera l’utilizzo di un grafico a valori individuali.

Utilizzare i test di ipotesi in congiunzione con gli istogrammi

Come hai visto in questo post, gli istogrammi possono illustrare la distribuzione dei gruppi e le differenze tra i gruppi. Tuttavia, se volete usare i vostri dati campione per trarre conclusioni sulle popolazioni, dovrete usare i test di ipotesi. Inoltre, assicuratevi di usare un metodo di campionamento, come il campionamento casuale, per ottenere un campione che rifletta la popolazione.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.