11.5.1 Pronostic de la mortalité en soins intensifs
La série de modèles d’évaluation de la physiologie aiguë et de la santé chronique (APACHE-II (Knaus et al., 1991) et APACHE-IV (Zimmerman et al., 2006)) constitue certains des modèles prédictifs basés sur la régression logistique les plus utilisés. Ces outils sont utilisés dans les unités de soins intensifs (USI) pour prédire la mortalité à l’hôpital sur la base d’une variété de variables physiologiques. La version initiale d’APACHE (Knaus et al., 1981) était remarquable en tant que premier modèle prédictif clinique à utiliser exclusivement des paramètres physiologiques objectifs pour prédire le résultat, et était un système de notation basé sur des experts utilisant ces paramètres pour estimer le risque de résultat.
L’APACHE-II et l’APACHE-IV restent tous deux utilisés aujourd’hui pour la recherche, le contrôle de la qualité et les applications cliniques. APACHE-II a été publié en 1985 à l’aide d’un ensemble de données de développement beaucoup plus important (5 815 admissions provenant de 13 hôpitaux) qu’APACHE, et a amélioré le système de notation basé sur l’expertise avec l’inclusion d’un modèle de régression logistique utilisant le score physiologique du patient basé sur l’expertise, l’état d’urgence et des ajustements pour certaines catégories de diagnostic. Le modèle a montré une bonne discrimination sur différents ensembles d’évaluation indépendants (Jacobs et al., 1987 ; Giangiuliani et al., 1989 ; Chisakuta et Alexander, 1990 ; Turner et al., 1991 ; Teskey et al., 1991 ; Wong et al., 1995), mais sa calibration s’est avérée très variable. Comme le modèle a été mis à la disposition du public, il a été utilisé dans de nombreuses études de validation différentes.
L’APACHE-III a été publié en 1991, ayant été développé en réponse aux critiques concernant le case-mix et la généralisation de l’APACHE-II. Le système a été développé à partir d’une base de données de 17 440 patients répartis dans 40 unités de soins intensifs aux États-Unis. L’APACHE-III était un produit commercial et n’a pas été mis à la disposition de la communauté médicale dans son ensemble aussi facilement que l’APACHE-II, mais les évaluations externes réalisées étaient similaires à celles de l’APACHE-II, indiquant une bonne discrimination et une calibration très variable (Zimmerman et al., 1998 ; Pappachan et al., 1999 ; Carneiro et al., 1997 ; von Bierbrauer et al., 1998 ; Bastos et al., 1996 ; Ihnsook et al., 2003 ; Rivera-Fernandez et al., 1998 ; Cook, 2000). APACHE-IV a été introduit en 2006 en tant que remodelage à grande échelle d’APACHE-III et est également un produit commercial. Cet effort de remodelage comprenait le remodelage de 42 des 72 équations APACHE III sous-jacentes et la suppression de 11 équations qui n’étaient plus appropriées, ou qui ne se reflétaient plus dans la pratique clinique (Zimmerman et al., 2006).
Ces modèles restent utiles dans la recherche, mais les limites de la calibration et à travers des populations de patients disparates ont restreint leur utilisation dans certaines situations cliniques (en particulier en ce qui concerne l’application à des patients individuels). D’autres systèmes de pronostic pour les unités de soins intensifs adultes, plus courants en Europe, sont le Simplified Acute Physiologic Score SAPS-3 et le Mortality Prediction Model MPM-III. Le modèle SOFA (Sequential Organ Failure Assessment) a également été utilisé pour évaluer la fonction des organes dans le temps. Ces modèles ou leurs versions antérieures ont été largement comparés dans le monde entier dans des populations de patients disparates. Plusieurs examens et comparaisons entre ces modèles ont été publiés à ce jour (Vincent et al., 1996 ; Ohno-Machado et al., 2006 ; Castella et al., 1991 ; Rowan et al., 1994 ; Wilairatana et al., 1995 ; Del Bufalo et al., 1995 ; Castella et al., 1995 ; Moreno et al., 1998 ; Nouira et al., 1998 ; Tan, 1998 ; Patel et Grant, 1999 ; Vassar et al, 1999 ; Katsaragakis et al., 2000 ; Livingston et al., 2000 ; Capuzzo et al., 2000 ; Markgraf et al., 2000 ; Beck et al., 2003 ; Keegan et al., 2012 ; Vasilevskis et al., 2009 ; Hwang et al., 2012 ; Costa e Silva et al., 2011 ; Shrope-Mok et al., 2010).
De multiples études ont comparé la régression logistique aux réseaux de neurones artificiels dans ce domaine. Clermont et ses collègues (Clermont et al., 2001) ont constaté qu’avec un ensemble de données de développement de taille suffisante (1 200), la régression logistique développée localement et les réseaux neuronaux artificiels avaient des performances équivalentes en termes de calibration (adéquate) et de discrimination (AUC allant de 0,80 à 0,84). Cependant, les deux modèles ont vu leurs performances se dégrader à mesure que la taille de l’échantillon de développement diminuait. Une autre étude plus petite avec un ensemble de développement de 168 entrepris par Dybowski et ses collègues (Dybowski et al., 1996) a montré une discrimination supérieure de l’ANN par rapport au LR (0,863 contre 0,753 AUC, respectivement).
Certaines études ont comparé le modèle APACHE-II LR aux ANN. Nimgaonkar et ses collègues (Nimgaonkar et al., 2004) ont constaté, après avoir développé un ANN sur 1 962 patients dans une unité de soins intensifs indienne avec les 22 variables APACHE-II, que l’ANN avait une discrimination supérieure à APACHE-II (0,87 contre 0,77 AUC, respectivement). Wong et ses collègues (Wong et Young, 1999) ont effectué une comparaison similaire avec un ensemble de données de développement de 2 932 patients au Royaume-Uni, et ont constaté que les deux méthodes avaient une discrimination équivalente (0,82 contre 0,83 AUC pour ANN et APACHE, respectivement).
Des comparaisons de calibration ont également été effectuées dans certaines des études, mais elles étaient problématiques car le modèle LR a été développé sur des populations de patients externes disparates par rapport aux populations britanniques et indiennes dérivées localement et utilisées pour les modèles ANN. Les comparaisons de la discrimination ne souffrent pas de ce problème de la même façon.