Wnioskowanie przyczynowe vs. Statistical Inference

Problem uzależnionych od czekolady noblistów

Photo by. Joanna Kosinska on Unsplash

Jest jedno słynne badanie, które wykazało, że istnieje silna korelacja między spożyciem czekolady w danym kraju a liczbą laureatów nagrody Nobla pochodzących z tego kraju. Czy zatem twierdzisz, że spożycie czekolady powoduje, że prawdopodobieństwo zostania noblistą jest większe i natychmiast zaczynasz spożywać czekoladę jak szalony? Mam nadzieję, że nie, podejrzewam, że rozsądnie jest oczekiwać, że czekolada nie powoduje, że ktoś zostanie laureatem nagrody Nobla. Wyodrębnijmy więc z tego stwierdzenia dwie zmienne. B – bycie laureatem nagrody Nobla, A – spożywanie czekolady. Diagram przyczynowo-skutkowy dla tego stwierdzenia wyglądałby w zasadzie tak:

The arrow meaning that A causes B. As you can see, this is a very primitive causal diagram. Now we can come to the point, although we have strong correlation between chocolate consumption and Nobel prize winning, we can ask ourselves, is there some other variable, C, such as the country’s wealth that causes both Nobel prize winning and chocolate consumption, or is it the country’s educational system that causes both and so on. Let us imagine, as indeed is the case, that there is a common cause C for both. Then the causal diagram looks like this:

Now we can mention Reichenbach’s common cause principle which states that if variables A and B have a common cause, C, to gdy warunkujemy ją od C, to korelacja między tymi zmiennymi zostaje zniesiona, co oznacza, że rozkłady warunkowe zmiennych losowych warunkujących wspólną przyczynę stają się niezależne. Wystarczająco ładnie. Więc właściwie diagram przyczynowy, na który powinniśmy patrzeć, wygląda następująco:

Na tym polega przyczynowość, ustalenie, że nie ma wspólnej przyczyny, która sprawia, że A i B wyglądają tak, jakby A powodowało B. Ta praktyka została dobrze ustalona chociaż w społeczności medycznej w formie prób medycznych, na długo przed tym, jak ludzie zaczęli mówić o wnioskowaniu przyczynowym. Jak więc to ustalić? Po pierwsze, będziemy nazywać próby medyczne bardziej ogólną, użyteczną nazwą. Nazwiemy ją kontrolowanym eksperymentem. Kontrolowane eksperymenty są fajne, możemy działać na zmienną bezpośrednio i zobaczyć, jak zmieniają się inne zmienne w naszym diagramie przyczynowym. W badaniu medycznym byłoby to wzięcie grup ludzi 1 i 2, 1 grupa 1 przyjmująca placebo i grupa 2 przyjmująca rzeczywisty lek na chorobę i obserwująca wyniki. Oczywiście, w badaniach medycznych chcemy, aby te osoby pochodziły z tego samego rozkładu, czyli były podobne. Właściwie, idealnie chcielibyśmy, aby byli tacy sami, byłaby to idealna próba medyczna, która wyeliminowałaby wszelkie inne potencjalne wspólne przyczyny, ale nie można tego oczekiwać, idealny kontrolowany eksperyment jest nierealistyczny. Teraz obserwujemy wyniki grup i określamy na podstawie pewności, czy lek jest skuteczny w leczeniu choroby.

W języku przyczynowym nazywa się to interwencją. Jeśli możemy wziąć zmienną i ustawić ją ręcznie na pewną wartość, nie zmieniając niczego innego. To jest w zasadzie stwierdzenie, że bierzemy tych samych ludzi przed zastosowaniem placebo i leku, a następnie zastosować oba, aby zobaczyć, czy choroba została wyleczona przez lek lub coś innego. Ogólnie rzecz biorąc, ludziom trudno jest odróżnić interwencję od ustawienia prawdopodobieństwa realizacji zdarzenia na 1. Różnica polega na tym, że interwencja skutkuje dwoma różnymi diagramami przyczynowymi, na których możemy obliczyć nasze prawdopodobieństwa i dojść do wniosku o rzeczywistej strukturze przyczynowej diagramu.

Na szczęście mamy prof. Judeę Pearla, któremu możemy podziękować za wynalezienie rachunku przyczynowego, za co otrzymał prestiżową nagrodę Turinga i prawdopodobnie będzie dalej znany jako twórca nowoczesnego wnioskowania przyczynowego. Sugerowałbym przeczytanie jego książek na temat przyczynowości, aby bardziej zagłębić się w temat:

1. The Book of Why

2. Causality: Models, Reasoning and Inference

3. Causal Inference in Statistics: A Primer

Ja osobiście uważam, że pierwsza z nich jest dobra dla szerokiego grona odbiorców, ponieważ daje dobre spojrzenie na historię statystyki i przyczynowości, a następnie zagłębia się nieco bardziej w teorię stojącą za wnioskowaniem przyczynowym.

2.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.