Causale vs. Inferenza statistica

Il problema dei premi Nobel dipendenti dal cioccolato

Foto di Joanna Kosinska on Unsplash

C’è uno studio famoso che ha dimostrato che esiste una forte correlazione tra il consumo di cioccolato di un paese e il numero di premi Nobel provenienti da questo paese. Quindi diresti che il consumo di cioccolato fa sì che la probabilità di diventare un premio Nobel sia più alta e inizi a consumare cioccolato come un matto immediatamente? Spero di no, ho il sospetto che sia ragionevole aspettarsi che il cioccolato non causi la vincita di un premio Nobel. Quindi estraiamo due variabili da questa affermazione. B- essere un premio Nobel, A- consumare cioccolato. Il diagramma causale per questa affermazione sarebbe fondamentalmente come questo:

The arrow meaning that A causes B. As you can see, this is a very primitive causal diagram. Now we can come to the point, although we have strong correlation between chocolate consumption and Nobel prize winning, we can ask ourselves, is there some other variable, C, such as the country’s wealth that causes both Nobel prize winning and chocolate consumption, or is it the country’s educational system that causes both and so on. Let us imagine, as indeed is the case, that there is a common cause C for both. Then the causal diagram looks like this:

Now we can mention Reichenbach’s common cause principle which states that if variables A and B have a common cause, C, allora quando condizioniamo su C, la correlazione tra queste variabili è cancellata, il che significa che le distribuzioni condizionate delle variabili casuali che condizionano la causa comune diventano indipendenti. Abbastanza carino. Quindi in realtà il diagramma causale che dovremmo guardare è il seguente:

Questo è il senso della causalità, stabilire che non esiste una causa comune che faccia apparire A e B come se A causasse B. Questa pratica è stata ben stabilita però nella comunità medica sotto forma di studi medici, ben prima che la gente iniziasse a parlare di inferenza causale. Quindi, come facciamo a stabilire questo? In primo luogo, chiameremo uno studio medico con un nome più generale e utile. Lo chiameremo esperimento controllato. Gli esperimenti controllati sono belli, possiamo agire direttamente su una variabile e vedere come cambiano le altre variabili nel nostro diagramma causale. In una sperimentazione medica, questo sarebbe prendere gruppi di persone 1 e 2, 1 gruppo 1 che prende il placebo e il gruppo 2 che prende la medicina effettiva per la malattia e osservare i risultati. Naturalmente, negli studi medici vogliamo che queste persone provengano dalla stessa distribuzione, cioè che siano simili. In realtà, idealmente vogliamo che siano uguali, questo sarebbe lo studio medico perfetto che eliminerebbe qualsiasi altra potenziale causa comune, ma questo non è realistico da aspettarsi, un perfetto esperimento controllato. Ora si osservano i risultati dei gruppi e si determina sulla base di una certa fiducia se la medicina è efficiente nel curare la malattia.

Nel linguaggio causale, questo si chiama intervento. Se possiamo prendere una variabile e impostarla manualmente su un valore, senza cambiare nient’altro. Questo è fondamentalmente affermare che prendiamo le stesse persone prima di applicare il placebo e la medicina e poi applicare entrambi, per vedere se la malattia è stata curata dalla medicina o da qualcos’altro. Generalmente, le persone trovano difficile distinguere tra l’intervento e l’impostazione di una probabilità di realizzazione di un evento a 1. La differenza è che l’intervento risulta in due diversi diagrammi causali sui quali possiamo calcolare le nostre probabilità e raggiungere una conclusione sull’effettiva struttura causale del diagramma.

Per fortuna, dobbiamo ringraziare il Prof. Judea Pearl per aver inventato il calcolo causale, per il quale ha ricevuto il prestigioso premio Turing e probabilmente sarà conosciuto in seguito come il fondatore della moderna inferenza causale. Suggerirei di leggere i suoi libri sulla causalità per approfondire l’argomento:

1. Il libro dei perché

2. Causalità: Models, Reasoning and Inference

3. Causal Inference in Statistics: A Primer

Personalmente penso che il primo sia buono per un pubblico generale, dato che dà anche una buona occhiata alla storia della statistica e della causalità e poi va un po’ più nella teoria dietro l’inferenza causale.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.