Causale vs. Statistical Inference

Het probleem van chocoladeverslaafde Nobelprijswinnaars

Foto door Joanna Kosinska op Unsplash

Er is een beroemde studie die aantoonde dat er een sterke correlatie bestaat tussen de chocoladeconsumptie van een land en het aantal Nobelprijswinnaars dat uit dat land afkomstig is. Zou je dan zeggen dat chocoladeconsumptie ervoor zorgt dat iemand een grotere kans heeft om Nobelprijswinnaar te worden en meteen als een gek chocolade gaat consumeren? Ik hoop het niet, ik vermoed dat het redelijk is te verwachten dat chocolade er niet toe leidt dat men een Nobelprijswinnaar wordt. Laten we dus twee variabelen uit deze verklaring halen. B- Nobelprijswinnaar zijn, A- chocolade consumeren. Het causale diagram voor deze uitspraak zou er als volgt uitzien:

The arrow meaning that A causes B. As you can see, this is a very primitive causal diagram. Now we can come to the point, although we have strong correlation between chocolate consumption and Nobel prize winning, we can ask ourselves, is there some other variable, C, such as the country’s wealth that causes both Nobel prize winning and chocolate consumption, or is it the country’s educational system that causes both and so on. Let us imagine, as indeed is the case, that there is a common cause C for both. Then the causal diagram looks like this:

Now we can mention Reichenbach’s common cause principle which states that if variables A and B have a common cause, C, dan wordt de correlatie tussen deze variabelen opgeheven wanneer we conditioneren op C, wat betekent dat de voorwaardelijke verdelingen van de willekeurige variabelen die conditioneren op de gemeenschappelijke oorzaak onafhankelijk worden. Mooi genoeg. Dus eigenlijk is het causale diagram waar we naar moeten kijken het volgende:

Dit is waar causaliteit om draait, vaststellen dat er geen gemeenschappelijke oorzaak is die A en B doet lijken alsof A B veroorzaakt. Deze praktijk is in de medische wereld echter al lang ingeburgerd in de vorm van medische proeven, lang voordat mensen begonnen te praten over causale gevolgtrekkingen. Dus hoe stellen we dit vast? Ten eerste gaan we een medische proef een meer algemene, bruikbare naam geven. We noemen het een gecontroleerd experiment. Gecontroleerde experimenten zijn leuk, we kunnen direct op een variabele inwerken en zien hoe onze andere variabelen veranderen in ons causaal diagram. In een medische proef zou dit betekenen dat we groepen mensen 1 en 2 nemen, groep 1 neemt het placebo en groep 2 neemt het eigenlijke medicijn tegen de ziekte en we observeren de resultaten. In een medisch onderzoek willen we natuurlijk dat deze mensen uit dezelfde verdeling komen, d.w.z. dat ze vergelijkbaar zijn. Idealiter zouden we willen dat ze hetzelfde zijn, dit zou de perfecte medische proef zijn die alle andere mogelijke gemeenschappelijke oorzaken zou elimineren, maar dit is onrealistisch om te verwachten, een perfect gecontroleerd experiment. Nu observeer je de resultaten van de groepen en bepaal je op basis van enig vertrouwen of het medicijn efficiënt is in het genezen van de ziekte.

In causale taal heet dit een interventie. Als we een variabele kunnen nemen en die handmatig op een waarde zetten, zonder iets anders te veranderen. Dit komt er in feite op neer dat we dezelfde mensen nemen voordat we het placebo en het medicijn toepasten en vervolgens beide toepassen, om te zien of de ziekte is genezen door het medicijn of door iets anders. Over het algemeen vinden mensen het moeilijk om onderscheid te maken tussen interventie en het instellen van een waarschijnlijkheid van een gebeurtenis op 1. Het verschil is dat interventie resulteert in twee verschillende causale diagrammen waarop we onze waarschijnlijkheden kunnen berekenen en tot een conclusie kunnen komen over de werkelijke causale structuur van het diagram.

Gelukkig hebben we Prof. Judea Pearl te danken voor het uitvinden van de causale calculus, waarvoor hij de prestigieuze Turing prijs heeft ontvangen en waarschijnlijk verder bekend zal staan als de grondlegger van de moderne causale inferentie. Ik stel voor zijn boeken over causaliteit te lezen om dieper in het onderwerp te duiken:

1. The Book of Why

2. Causality: Models, Reasoning and Inference

3. Causal Inference in Statistics: A Primer

Ik denk persoonlijk dat de eerste goed is voor een algemeen publiek omdat het ook een goede blik geeft op de geschiedenis van statistiek en causaliteit en vervolgens wat meer ingaat op de theorie achter causale inferentie.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.