Kausalitet vs. Statistisk slutsats

Problemet med chokladberoende Nobelpristagare

Bild av Joanna Kosinska on Unsplash

Det finns en berömd studie som visade att det finns ett starkt samband mellan ett lands chokladkonsumtion och antalet Nobelpristagare som kommer från detta land. Så skulle du säga att chokladkonsumtion gör att sannolikheten att bli nobelpristagare blir högre och börja konsumera choklad som en galning omedelbart? Jag hoppas inte det, jag misstänker att det är rimligt att förvänta sig att choklad inte leder till att man blir Nobelpristagare. Låt oss därför utvinna två variabler ur detta påstående. B- Att vara nobelpristagare, A- Att konsumera choklad. Kausaldiagrammet för detta påstående skulle i princip se ut så här:

The arrow meaning that A causes B. As you can see, this is a very primitive causal diagram. Now we can come to the point, although we have strong correlation between chocolate consumption and Nobel prize winning, we can ask ourselves, is there some other variable, C, such as the country’s wealth that causes both Nobel prize winning and chocolate consumption, or is it the country’s educational system that causes both and so on. Let us imagine, as indeed is the case, that there is a common cause C for both. Then the causal diagram looks like this:

Now we can mention Reichenbach’s common cause principle which states that if variables A and B have a common cause, C, så när vi villkorar på C, utplånas korrelationen mellan dessa variabler, vilket innebär att de betingade fördelningarna av de slumpmässiga variablerna som villkorar på den gemensamma orsaken blir oberoende. Det är trevligt nog. Så det kausaldiagram som vi borde titta på är faktiskt följande:

Det här är vad kausalitet handlar om, att fastställa att det inte finns en gemensam orsak som gör att A och B ser ut som om A orsakar B. Denna praxis har dock varit väl etablerad inom det medicinska samfundet i form av medicinska prövningar, långt innan folk började prata om kausal inferens. Så hur fastställer vi detta? För det första kommer vi att kalla en medicinsk prövning för ett mer allmänt och användbart namn. Vi kommer att kalla det ett kontrollerat experiment. Kontrollerade experiment är bra, vi kan påverka en variabel direkt och se hur våra andra variabler förändras i vårt kausaldiagram. I en medicinsk prövning skulle detta vara att ta grupper av människor 1 och 2, 1 grupp 1 tar placebo och grupp 2 tar den faktiska medicinen mot sjukdomen och observerar resultaten. I medicinska prövningar vill vi naturligtvis att dessa personer ska komma från samma fördelning, dvs. vara likartade. Egentligen vill vi helst att de ska vara likadana, detta skulle vara den perfekta medicinska prövningen som skulle eliminera alla andra potentiella gemensamma orsaker, men detta är orealistiskt att förvänta sig, ett perfekt kontrollerat experiment. Nu observerar man gruppernas resultat och bestämmer utifrån en viss säkerhet om läkemedlet är effektivt för att bota sjukdomen.

På kausalt språk kallas detta för en intervention. Om vi kan ta en variabel och sätta den manuellt till ett värde, utan att ändra något annat. Detta innebär i princip att vi tar samma personer innan vi tillämpade placebo och medicinen och sedan tillämpar båda, för att se om sjukdomen har botats av medicinen eller något annat. I allmänhet har människor svårt att skilja mellan ingrepp och att sätta en sannolikhet för en händelses förverkligande till 1. Skillnaden är att ingrepp resulterar i två olika kausaldiagram på vilka vi kan beräkna våra sannolikheter och dra en slutsats om diagrammets faktiska kausala struktur.

Glckligtvis kan vi tacka professor Judea Pearl för att ha uppfunnit kausalkalkalkylen, för vilken han har fått det prestigefyllda Turing-priset och troligen kommer han längre fram att bli känd som grundaren av den moderna kausala inferensen. Jag föreslår att man läser hans böcker om kausalitet för att dyka djupare in i ämnet:

1. The Book of Why

2. Kausalitet: Models, Reasoning and Inference

3. Causal Inference in Statistics: A Primer

Jag tycker personligen att den första är bra för en allmän publik eftersom den också ger en bra inblick i statistikens och kausalitetens historia och sedan går lite mer in på teorin bakom kausal inferens.

Lämna ett svar

Din e-postadress kommer inte publiceras.