Causal vs. Inferența statistică

Problema laureaților premiului Nobel dependenți de ciocolată

Fotografie realizată de Joanna Kosinska on Unsplash

Există un studiu celebru care a arătat că există o corelație puternică între consumul de ciocolată al unei țări și numărul de laureați ai premiului Nobel care provin din această țară. Așadar, ați putea spune că consumul de ciocolată face ca probabilitatea de a deveni laureat al premiului Nobel să fie mai mare și să începeți imediat să consumați ciocolată ca nebunii? Sper că nu, bănuiesc că este rezonabil să ne așteptăm ca ciocolata să nu determine pe cineva să devină laureat al premiului Nobel. Așadar, haideți să extragem două variabile din această afirmație. B- să fii laureat al premiului Nobel, A- să consumi ciocolată. Diagrama cauzală pentru această afirmație ar arăta practic așa:

The arrow meaning that A causes B. As you can see, this is a very primitive causal diagram. Now we can come to the point, although we have strong correlation between chocolate consumption and Nobel prize winning, we can ask ourselves, is there some other variable, C, such as the country’s wealth that causes both Nobel prize winning and chocolate consumption, or is it the country’s educational system that causes both and so on. Let us imagine, as indeed is the case, that there is a common cause C for both. Then the causal diagram looks like this:

Now we can mention Reichenbach’s common cause principle which states that if variables A and B have a common cause, C, atunci când condiționăm de C, corelația dintre aceste variabile este ștearsă, ceea ce înseamnă că distribuțiile condiționate ale variabilelor aleatoare care condiționează de cauza comună devin independente. Destul de frumos. Deci, de fapt, diagrama cauzală la care ar trebui să ne uităm este următoarea:

Aceasta este ceea ce înseamnă cauzalitatea, stabilirea faptului că nu există o cauză comună care face ca A și B să pară ca și cum A ar fi cauza lui B. Această practică a fost bine stabilită însă în comunitatea medicală sub forma unor studii medicale, cu mult înainte ca oamenii să înceapă să vorbească despre inferența cauzală. Așadar, cum stabilim acest lucru? În primul rând, vom numi un studiu medical cu un nume mai general și mai util. Îl vom numi experiment controlat. Experimentele controlate sunt frumoase, putem acționa direct asupra unei variabile și putem vedea cum se schimbă celelalte variabile în diagrama noastră cauzală. Într-un experiment medical, acest lucru ar însemna să luăm grupuri de persoane 1 și 2, grupul 1 luând placebo și grupul 2 luând medicamentul real pentru boală și observând rezultatele. În mod firesc, în studiile medicale dorim ca aceste persoane să provină din aceeași distribuție, adică să fie similare. De fapt, în mod ideal ne dorim ca ei să fie la fel, acesta ar fi studiul medical perfect care ar elimina orice alte potențiale cauze comune, dar este nerealist să ne așteptăm la acest lucru, un experiment controlat perfect. Acum observați rezultatele grupurilor și determinați, pe baza unei anumite încrederi, dacă medicamentul este eficient în vindecarea bolii.

În limbaj cauzal, acest lucru se numește intervenție. Dacă putem lua o variabilă și o putem seta manual la o valoare, fără a schimba nimic altceva. Practic, acest lucru înseamnă că luăm aceleași persoane înainte de a aplica placebo și medicamentul și apoi le aplicăm pe amândouă, pentru a vedea dacă boala a fost vindecată de medicament sau de altceva. În general, oamenilor le este greu să facă diferența între intervenție și stabilirea unei probabilități de realizare a unui eveniment la 1. Diferența constă în faptul că intervenția are ca rezultat două diagrame cauzale diferite pe care ne putem calcula probabilitățile și putem ajunge la o concluzie cu privire la structura cauzală reală a diagramei.

Din fericire, trebuie să-i mulțumim profesorului Judea Pearl pentru inventarea calculului cauzal, pentru care a primit prestigiosul premiu Turing și probabil că va fi cunoscut mai departe ca fiind fondatorul inferenței cauzale moderne. V-aș sugera să citiți cărțile sale despre cauzalitate pentru a aprofunda subiectul:

1. The Book of Why

2. Cauzalitatea: Modele, raționament și inferență

3. Causal Inference in Statistics: A Primer

Personal cred că prima este bună pentru un public generalist, deoarece oferă și o privire bună asupra istoriei statisticii și a cauzalității, iar apoi intră un pic mai mult în teoria din spatele inferenței cauzale.

Lasă un răspuns

Adresa ta de email nu va fi publicată.