Utilizarea histogramelor pentru a vă înțelege datele

Histogramele sunt grafice care afișează distribuția datelor dvs. continue. Acestea sunt instrumente de explorare fantastice, deoarece dezvăluie proprietăți despre datele dvs. de eșantionare în moduri în care statisticile sumare nu o pot face. De exemplu, în timp ce media și abaterea standard pot rezuma numeric datele dvs., histogramele dau viață datelor dvs. de eșantionare.

În această postare pe blog, vă voi arăta cum histogramele dezvăluie forma distribuției, tendința sa centrală și răspândirea valorilor din datele dvs. de eșantionare. De asemenea, veți învăța cum să identificați valorile aberante, cum se leagă histogramele de funcțiile de distribuție a probabilităților și de ce ar putea fi necesar să utilizați teste de ipoteză cu ele.

Histograme, tendință centrală și variabilitate

Utilizați histograme atunci când aveți măsurători continue și doriți să înțelegeți distribuția valorilor și să căutați valorile aberante. Aceste grafice iau măsurătorile dvs. continue și le plasează în intervale de valori cunoscute sub numele de bins. Fiecare bin are o bară care reprezintă numărul sau procentul de observații care se încadrează în acel bin.

Descărcați fișierul de date CSV pentru a realiza majoritatea histogramelor din această postare pe blog: Histograme.

În domeniul statisticii, folosim adesea statistici de sinteză pentru a descrie un întreg set de date. Aceste statistici utilizează un singur număr pentru a cuantifica o caracteristică a eșantionului. De exemplu, o măsură a tendinței centrale este o singură valoare care reprezintă punctul central sau valoarea tipică a unui set de date, cum ar fi media. O măsură a variabilității este un alt tip de statistică sumară care descrie cât de răspândite sunt valorile din setul dumneavoastră de date. Abaterea standard este o măsură convențională a dispersiei.

Aceste statistici sumare sunt cruciale. Cât de des ați auzit că media unui grup este o anumită valoare? Aceasta oferă informații semnificative. Cu toate acestea, aceste măsuri sunt simplificări ale setului de date. Reprezentarea grafică a datelor le aduce la viață. În general, consider că utilizarea graficelor împreună cu statisticile oferă ce e mai bun din ambele lumi!

Să vedem acest lucru în acțiune.

: Măsuri de tendință centrală și măsuri de variabilitate

Histograme și tendința centrală

Utilizați histogramele pentru a înțelege centrul datelor. În histograma de mai jos, puteți vedea că centrul este aproape de 50. Majoritatea valorilor din setul de date vor fi apropiate de 50, iar valorile mai îndepărtate sunt mai rare. Distribuția este aproximativ simetrică, iar valorile se încadrează între aproximativ 40 și 64.

Exemplu de histogramă care afișează distribuția unui singur grup.

Exemplu de histogramă care afișează distribuția unui singur grup.

O diferență de medii deplasează distribuțiile pe orizontală de-a lungul axei X (cu excepția cazului în care histograma este rotită). În histogramele de mai jos, un grup are o medie de 50, în timp ce celălalt are o medie de 65.

Histograma care afișează două grupuri suprapuse care au medii diferite.

Histograma care afișează două grupuri suprapuse care au medii diferite.

În plus, histogramele vă ajută să înțelegeți gradul de suprapunere dintre grupuri. În histogramele de mai sus, există o cantitate relativ mică de suprapunere.

Histograme și variabilitate

Să presupunem că auziți că două grupuri au aceeași medie de 50. Sună ca și cum ar fi practic echivalente. Cu toate acestea, după ce reprezentați grafic datele, diferențele devin evidente, așa cum se arată mai jos.

Histograme în panouri separate care prezintă două grupuri cu aceeași medie, dar cu variabilitate diferită.

Histograme în panouri separate care afișează două grupuri cu aceeași medie, dar cu variabilitate diferită.

Histogramele se centrează pe aceeași valoare de 50, dar răspândirea valorilor este sensibil diferită. Valorile pentru grupul A se încadrează în cea mai mare parte între 40 – 60, în timp ce pentru grupul B acest interval este de 20 – 90. Media nu spune întreaga poveste! La prima vedere, diferența este evidentă în histograme.

Pe scurt, histogramele vă arată ce valori sunt mai mult și mai puțin frecvente, împreună cu dispersia lor. Nu puteți obține această înțelegere din lista brută de valori. Statisticile sumare, cum ar fi media și abaterea standard, vă vor ajuta parțial. Dar histogramele fac ca datele să iasă în evidență!

Histograme și distribuții asimetrice

Histogramele sunt un instrument excelent pentru a identifica forma distribuției dumneavoastră. Până acum, am analizat distribuțiile simetrice, cum ar fi distribuția normală. Cu toate acestea, nu toate distribuțiile sunt simetrice. S-ar putea să aveți date nenormale care sunt înclinate.

Forma distribuției este o caracteristică fundamentală a eșantionului dvs. care poate determina care măsură a tendinței centrale reflectă cel mai bine centrul datelor dvs. În legătură cu aceasta, forma influențează, de asemenea, alegerea dvs. între utilizarea unui test de ipoteză parametric sau neparametric. În acest mod, histogramele sunt informative cu privire la statisticile de sinteză și testele de ipoteză care sunt adecvate pentru datele dumneavoastră.

Pentru distribuțiile asimetrice, direcția asimetriei indică în ce direcție se extinde coada cea mai lungă.

Pentru distribuțiile asimetrice spre dreapta, coada lungă se extinde spre dreapta, în timp ce majoritatea valorilor se grupează în stânga, așa cum se arată mai jos. Acestea sunt date reale dintr-un studiu pe care l-am realizat.

În mod contrar, pentru distribuțiile asimetrice spre stânga, coada lungă se extinde spre stânga în timp ce majoritatea valorilor se grupează în dreapta.

Histograma care prezintă o distribuție asimetrică spre stânga.

Histograma care afișează o distribuție înclinată spre stânga.

: Distribuția normală în statistică și testele de ipoteză parametrice vs. neparametrice

Utilizarea histogramelor pentru a identifica valorile aberante

Histogramele sunt o modalitate utilă de a identifica valorile aberante. Într-o clipă, veți vedea dacă există valori neobișnuite. Dacă identificați potențiali valori aberante, investigați-le. Sunt erori de introducere a datelor sau reprezintă observații care au avut loc în condiții neobișnuite? Sau, poate că sunt observații legitime care descriu cu acuratețe variabilitatea din zona de studiu.

O histogramă care afișează o valoare aberantă.

O histogramă care afișează o valoare aberantă.

Într-o histogramă, valorile aberante apar ca o bară izolată.

Identificarea distribuțiilor multimodale cu ajutorul histogramelor

O distribuție multimodală are mai mult de un vârf. Este ușor să nu observați distribuțiile multimodale atunci când vă concentrați asupra statisticilor sumare, cum ar fi media și abaterile standard. În consecință, histogramele sunt cea mai bună metodă de detectare a distribuțiilor multimodale.

Imaginați-vă că setul dvs. de date are proprietățile prezentate mai jos.

Tabel de statistici descriptive.

Tabel de statistici descriptive.

Acesta pare relativ simplu, dar când îl reprezentați grafic, vedeți histograma de mai jos.

Histograma care afișează o distribuție multimodală.

Histograma care afișează o distribuție multimodală.

Distribuția aceea bimodală nu este chiar ceea ce vă așteptați! Această histogramă ilustrează de ce ar trebui să reprezentați întotdeauna grafic datele dvs. mai degrabă decât să calculați doar statistici de sinteză!

Utilizarea histogramelor pentru a identifica subpopulațiile

Uneori, aceste distribuții multimodale reflectă distribuția reală a fenomenului pe care îl studiați. Cu alte cuvinte, există valori de vârf cu adevărat diferite în distribuția unei populații. Cu toate acestea, în alte cazuri, distribuțiile multimodale indică faptul că combinați subpopulații care au caracteristici diferite. Histogramele pot ajuta la confirmarea prezenței acestor subpopulații și la ilustrarea modului în care acestea sunt diferite una de cealaltă.

Să presupunem că studiem înălțimile cetățenilor americani. Aceștia au o înălțime medie de 168 de centimetri cu o deviație standard de 9,8 CM. Histograma este mai jos. Se pare că există un vârf neobișnuit de larg în centru – nu este chiar bimodal.

Histograma înălțimilor

Histograma înălțimilor

Când împărțim eșantionul în funcție de sex, motivul devine clar.

Histograma care afișează înălțimile în funcție de sex.

Histograma care afișează înălțimile în funcție de sex.

Observați cum două distribuții mai înguste au înlocuit singura distribuție largă? Histogramele ne ajută să aflăm că sexul este o variabilă categorică esențială în studiile care implică înălțimea. Graficele arată că media oferă estimări mai precise atunci când evaluăm înălțimile în funcție de sex. De fapt, media pentru întreaga populație nu este egală cu media pentru niciuna dintre subpopulații. Este înșelătoare!

Utilizarea histogramelor pentru a evalua ajustarea unei funcții de distribuție a probabilității

Analiștii pot suprapune o linie ajustată pentru o funcție de distribuție a probabilității pe histograma lor. Iată o scurtă distincție între cele două:

  • Histograma: Afișează distribuția valorilor din eșantion.
  • Linie de distribuție ajustată: Afișează funcția de distribuție a probabilității pentru o anumită distribuție (de exemplu, normală, Weibull etc.) care se potrivește cel mai bine datelor dumneavoastră.

O histogramă reprezintă grafic datele eșantionului dumneavoastră. Pe de altă parte, o linie de distribuție ajustată încearcă să găsească funcția de distribuție a probabilității pentru o populație care are probabilitatea maximă de a produce distribuția care există în eșantionul dumneavoastră.

În timp ce puteți utiliza histogramele pentru a evalua cât de bine se potrivește curba de distribuție cu eșantionul dumneavoastră, NU vă recomand acest lucru! Dacă insistați să folosiți o histogramă, evaluați cât de mult urmează barele forma liniei ajustate. În graficul de mai jos, linia ajustată pentru distribuția normală pare să urmeze în mod adecvat barele histogramei. Legenda afișează valorile estimate ale parametrilor distribuției ajustate.

Histograma care include o linie de distribuție ajustată pentru distribuția normală.

Histograma care include o linie de distribuție ajustată pentru distribuția normală.

În loc să folosiți histograme pentru a determina cât de bine se potrivește o distribuție cu datele dumneavoastră, vă recomand să folosiți o combinație de teste de distribuție și diagrame de probabilitate. Diagramele de probabilitate sunt grafice speciale care sunt special concepute pentru a afișa cât de bine se potrivesc funcțiile de distribuție a probabilităților la eșantioane. Pentru a afla mai multe despre aceste alte abordări, citiți postările mele despre Identificarea distribuției datelor dumneavoastră și Histograme vs. Diagrame de probabilitate.

Postare conexă: Înțelegerea distribuțiilor de probabilitate

Utilizarea histogramelor pentru a compara distribuțiile între grupuri

Pentru a compara distribuțiile între grupuri folosind histograme, veți avea nevoie atât de o variabilă continuă, cât și de o variabilă de grupare categorială. Există două moduri obișnuite de a afișa grupurile în histograme. Puteți suprapune grupurile sau le puteți reprezenta grafic în panouri diferite, așa cum se arată mai jos.

Histograma care afișează patru distribuții suprapuse.

Histograma care afișează patru distribuții suprapuse.

Histogramă care afișează patru distribuții în panouri separate.

Histogramă care afișează patru distribuții în panouri separate.

Poate fi mai ușor să compari distribuțiile atunci când acestea sunt suprapuse, dar uneori devin dezordonate. Histogramele în panouri separate afișează mai clar fiecare distribuție, dar comparațiile și gradul de suprapunere nu sunt la fel de clare. În exemplele de mai sus, distribuțiile în panouri sunt în mod clar mai lizibile. Cu toate acestea, histogramele suprapuse pot funcționa foarte bine și în alte cazuri, așa cum ați văzut în această postare pe blog. Experimentați pentru a găsi cea mai bună abordare pentru datele dvs.!

În timp ce cred că histogramele sunt cel mai bun grafic pentru a înțelege distribuția valorilor pentru un singur grup, acestea pot fi încurcate în cazul grupurilor multiple. Histogramele sunt, de obicei, destul de bune pentru afișarea a două grupuri, și până la patru grupuri dacă le afișați în panouri separate. Dacă obiectivul dvs. principal este de a compara distribuțiile, iar histogramele sunt dificil de interpretat, luați în considerare utilizarea boxploturilor sau a graficelor individuale. În opinia mea, aceste alte diagrame sunt mai bune pentru compararea distribuțiilor atunci când aveți mai multe grupuri. Dar nu oferă la fel de multe detalii pentru fiecare distribuție ca și histogramele.

Încă o dată, experimentați și determinați ce grafic funcționează cel mai bine pentru datele și obiectivele dumneavoastră!

Post conex: Boxplots vs. Grafice cu valori individuale: Reprezentarea grafică a datelor continue pe grupuri

Histograme și dimensiunea eșantionului

La fel de fantastice cum sunt histogramele pentru explorarea datelor dumneavoastră, fiți conștienți de faptul că dimensiunea eșantionului este un considerent semnificativ atunci când aveți nevoie ca forma histogramei să semene cu distribuția populației. În mod obișnuit, vă recomand să aveți o dimensiune a eșantionului de cel puțin 20 de persoane pe grup pentru histograme. Cu mai puțin de 20 de observații, aveți prea puține date pentru a reprezenta cu acuratețe distribuția populației.

Ambele histograme de mai jos utilizează eșantioane extrase dintr-o populație care are o medie de 100 și o abatere standard de 15. Aceste caracteristici descriu distribuția scorurilor IQ. Cu toate acestea, una dintre histograme utilizează un eșantion de 20, în timp ce cealaltă utilizează un eșantion de 100. Observați că folosesc procente pe axa Y pentru a compara barele histogramei între diferitele mărimi ale eșantioanelor.

Histograme care utilizează diferite mărimi ale eșantioanelor pentru a afișa distribuția scorurilor IQ.

Histograme care utilizează diferite mărimi ale eșantioanelor pentru a afișa distribuția scorurilor IQ.

Ceasta este o diferență destul de mare! Este nevoie de o dimensiune surprinzător de mare a eșantionului pentru a obține o bună reprezentare a unei întregi distribuții. Atunci când dimensiunea eșantionului dvs. este mai mică de 20, luați în considerare utilizarea unui grafic de valori individuale.

Utilizarea testelor de ipoteză în conjuncție cu histogramele

După cum ați văzut în această postare, histogramele pot ilustra distribuția grupurilor, precum și diferențele dintre grupuri. Cu toate acestea, dacă doriți să utilizați datele din eșantion pentru a trage concluzii despre populații, va trebui să utilizați teste de ipoteză. În plus, asigurați-vă că utilizați o metodă de eșantionare, cum ar fi eșantionarea aleatorie, pentru a obține un eșantion care să reflecte populația.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.