Causal vs. Inférence statistique

Le problème des prix Nobel accros au chocolat

Photo de . Joanna Kosinska sur Unsplash

Il existe une étude célèbre qui a montré qu’il existe une forte corrélation entre la consommation de chocolat d’un pays et le nombre de prix Nobel provenant de ce pays. Alors, diriez-vous que la consommation de chocolat augmente la probabilité de devenir un lauréat du prix Nobel et que vous devriez vous mettre à consommer du chocolat comme un fou immédiatement ? J’espère que non, je pense qu’il est raisonnable de penser que le chocolat ne permet pas de devenir un lauréat du prix Nobel. Extrayons donc deux variables de cette affirmation. B- être un lauréat du prix Nobel, A- consommer du chocolat. Le diagramme de causalité de cette affirmation ressemblerait essentiellement à ceci :

The arrow meaning that A causes B. As you can see, this is a very primitive causal diagram. Now we can come to the point, although we have strong correlation between chocolate consumption and Nobel prize winning, we can ask ourselves, is there some other variable, C, such as the country’s wealth that causes both Nobel prize winning and chocolate consumption, or is it the country’s educational system that causes both and so on. Let us imagine, as indeed is the case, that there is a common cause C for both. Then the causal diagram looks like this:

Now we can mention Reichenbach’s common cause principle which states that if variables A and B have a common cause, C, alors lorsque nous conditionnons sur C, la corrélation entre ces variables est effacée, ce qui signifie que les distributions conditionnelles des variables aléatoires conditionnant sur la cause commune deviennent indépendantes. C’est assez agréable. Donc en fait, le diagramme causal que nous devrions regarder est le suivant :

C’est ça la causalité, établir qu’il n’y a pas une cause commune qui fait que A et B sont comme si A causait B. Cette pratique a cependant été bien établie dans la communauté médicale sous la forme d’essais médicaux, bien avant que les gens ne commencent à parler d’inférence causale. Alors comment établir cela ? Tout d’abord, nous allons appeler un essai médical par un nom plus général et plus utile. Nous allons l’appeler une expérience contrôlée. Les expériences contrôlées sont agréables, nous pouvons agir directement sur une variable et voir comment les autres variables changent dans notre diagramme de causalité. Dans un essai médical, il s’agirait de prendre des groupes de personnes 1 et 2, le groupe 1 prenant le placebo et le groupe 2 prenant le véritable médicament contre la maladie et d’observer les résultats. Naturellement, dans les essais médicaux, nous voulons que ces personnes proviennent de la même distribution, c’est-à-dire qu’elles soient similaires. En fait, dans l’idéal, nous voulons qu’elles soient identiques, ce serait l’essai médical parfait qui éliminerait toute autre cause commune potentielle, mais il est irréaliste de s’attendre à une expérience contrôlée parfaite. Maintenant, vous observez les résultats des groupes et déterminez sur la base d’une certaine confiance si le médicament est efficace pour guérir la maladie.

Dans le langage causal, cela s’appelle une intervention. Si nous pouvons prendre une variable et la fixer manuellement à une valeur, sans rien changer d’autre. Cela revient à dire que nous prenons les mêmes personnes avant d’appliquer le placebo et le médicament, puis nous appliquons les deux, pour voir si la maladie a été guérie par le médicament ou autre chose. En général, les gens ont du mal à faire la différence entre une intervention et le fait de fixer à 1 la probabilité de réalisation d’un événement. La différence est que l’intervention donne lieu à deux diagrammes causaux différents sur lesquels nous pouvons calculer nos probabilités et parvenir à une conclusion sur la structure causale réelle du diagramme.

Heureusement, nous devons remercier le professeur Judea Pearl d’avoir inventé le calcul causal, pour lequel il a reçu le prestigieux prix Turing et sera probablement connu plus loin comme le fondateur de l’inférence causale moderne. Je vous suggère de lire ses livres sur la causalité pour plonger plus profondément dans le sujet :

1. Le livre du pourquoi

2. Causalité : Modèles, raisonnement et inférence

3. L’inférence causale en statistique : A Primer

Je pense personnellement que le premier est bon pour un public général car il donne également un bon aperçu de l’histoire des statistiques et de la causalité, puis approfondit un peu la théorie derrière l’inférence causale.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.