La discrimination est importante, mais les estimations de risque sont-elles fiables ?

On oublie souvent que les risques estimés peuvent être peu fiables même lorsque les algorithmes ont une bonne discrimination. Par exemple, les estimations de risque peuvent être systématiquement trop élevées pour tous les patients, qu’ils aient vécu l’événement ou non. La précision des estimations du risque, liée à la concordance entre le nombre estimé et le nombre observé d’événements, est appelée « calibrage ». Les revues systématiques ont montré que le calibrage est évalué beaucoup moins souvent que la discrimination, ce qui est problématique car un mauvais calibrage peut rendre les prédictions trompeuses. Des travaux antérieurs ont mis en évidence que l’utilisation de différents types d’algorithmes, allant de la régression à des approches flexibles d’apprentissage automatique, peut conduire à des modèles qui souffrent grandement d’un mauvais calibrage . Le calibrage a donc été qualifié de « talon d’Achille » de l’analyse prédictive. Le rapport sur les performances de calibrage est recommandé par les lignes directrices TRIPOD (Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis) pour les études de modélisation prédictive. La calibration est particulièrement importante lorsque l’objectif est d’aider à la prise de décision, même lorsque la discrimination est modérée, comme dans le cas des modèles de prédiction du cancer du sein. Nous expliquons la pertinence de la calibration dans cet article et proposons des solutions pour prévenir ou corriger une mauvaise calibration et ainsi rendre les algorithmes prédictifs plus pertinents sur le plan clinique.

Comment des prédictions de risque inexactes peuvent-elles être trompeuses ?

Si l’algorithme est utilisé pour informer les patients, des estimations de risque mal calibrées conduisent à de fausses attentes auprès des patients et des professionnels de santé. Les patients peuvent prendre des décisions personnelles en prévision d’un événement, ou de son absence, qui étaient en fait malavisées. Prenons l’exemple d’un modèle de prédiction qui prévoit la probabilité que le traitement par fécondation in vitro (FIV) aboutisse à une naissance vivante . Indépendamment de la façon dont les modèles peuvent distinguer les traitements qui aboutissent à une naissance vivante de ceux qui n’y aboutissent pas, il est clair qu’une forte surestimation ou sous-estimation de la probabilité d’une naissance vivante rend les algorithmes cliniquement inacceptables. Par exemple, une forte surestimation des chances de naissance vivante après une FIV donnerait de faux espoirs aux couples qui traversent une expérience déjà stressante et émotionnelle. Traiter un couple qui, en réalité, a un pronostic favorable expose inutilement la femme à d’éventuels effets secondaires nocifs, par exemple le syndrome d’hyperstimulation ovarienne.

En fait, une mauvaise calibration peut rendre un algorithme moins utile cliniquement qu’un algorithme concurrent qui a une AUC plus faible mais qui est bien calibré . À titre d’exemple, considérons les modèles QRISK2-2011 et NICE Framingham pour prédire le risque de maladie cardiovasculaire à 10 ans. Une étude de validation externe de ces modèles sur 2 millions de patients du Royaume-Uni a indiqué que QRISK2-2011 était bien calibré et avait une AUC de 0,771, alors que NICE Framingham surestimait le risque, avec une AUC de 0,776 . En utilisant le seuil de risque traditionnel de 20% pour identifier les patients à haut risque pour une intervention, QRISK2-2011 sélectionnerait 110 pour 1000 hommes âgés de 35 à 74 ans. En revanche, NICE Framingham en sélectionnerait presque deux fois plus (206 pour 1000 hommes), car un risque prédit de 20% basé sur ce modèle correspond en fait à un taux d’événements plus faible. Cet exemple illustre le fait que la surestimation du risque entraîne un surtraitement. A l’inverse, une sous-estimation conduit à un sous-traitement.

Pourquoi un algorithme peut-il donner des prédictions de risque mal calibrées ?

Plusieurs sources possibles peuvent fausser le calibrage des prédictions de risque. Un premier ensemble de causes concerne des variables et des caractéristiques sans rapport avec le développement de l’algorithme. Souvent, les caractéristiques des patients et les taux d’incidence ou de prévalence des maladies varient considérablement entre les centres de santé, les régions et les pays . Lorsqu’un algorithme est développé dans un contexte où l’incidence de la maladie est élevée, il peut systématiquement donner des estimations de risque surestimées lorsqu’il est utilisé dans un contexte où l’incidence est plus faible. Par exemple, les hôpitaux universitaires peuvent traiter plus de patients atteints de l’événement en question que les hôpitaux régionaux ; une telle hétérogénéité entre les milieux peut affecter les estimations de risque et leur calibration . Les prédicteurs de l’algorithme peuvent expliquer une partie de l’hétérogénéité, mais souvent les différences entre les prédicteurs n’expliquent pas toutes les différences entre les établissements. Les populations de patients ont également tendance à évoluer dans le temps, par exemple en raison de changements dans les modèles d’orientation, la politique de santé ou les politiques de traitement. Par exemple, au cours des 10 dernières années, il y a eu en Europe une volonté de réduire le nombre d’embryons transférés en FIV et les améliorations de la technologie de cryoconservation de la FIV ont conduit à une augmentation de la congélation et du stockage des embryons en vue d’un transfert ultérieur ; de telles évolutions peuvent modifier le calibrage des algorithmes qui prédisent le succès de la FIV .

Un deuxième ensemble de causes est lié à des problèmes méthodologiques concernant l’algorithme lui-même. Le surajustement statistique est fréquent. Il est causé par une stratégie de modélisation trop complexe pour la quantité de données à disposition (par exemple, trop de prédicteurs candidats, sélection des prédicteurs basée sur la signification statistique, utilisation d’un algorithme très flexible tel qu’un réseau neuronal) . Les prédictions surajustées capturent trop de bruit aléatoire dans les données de développement. Ainsi, lorsqu’il est validé sur de nouvelles données, on s’attend à ce qu’un algorithme surajusté présente des performances de discrimination inférieures et des risques prédits trop extrêmes – les patients à haut risque d’événement ont tendance à obtenir des prédictions de risque surestimées, tandis que les patients à faible risque d’événement ont tendance à obtenir des prédictions de risque sous-estimées. Outre l’ajustement statistique excessif, les données médicales contiennent généralement des erreurs de mesure, par exemple, l’expression des biomarqueurs varie selon les kits de dosage et la mesure par ultrasons de la vascularisation des tumeurs présente une variabilité inter- et intra-observateur. Si l’erreur de mesure diffère systématiquement entre les paramètres (par ex, les mesures d’un prédicteur sont systématiquement plus biaisées à la hausse dans un cadre différent), cela affecte les risques prédits et donc la calibration d’un algorithme .

Comment évaluer la calibration ?

Les concepts expliqués dans cette section sont illustrés dans le fichier additionnel 1, avec la validation de l’algorithme de risque de malignité ovarienne (ROMA) pour le diagnostic de malignité ovarienne chez les femmes présentant une tumeur ovarienne sélectionnée pour une ablation chirurgicale ; des détails supplémentaires peuvent être trouvés ailleurs .

Selon quatre niveaux de calibrage de plus en plus rigoureux, les modèles peuvent être calibrés au sens moyen, faible, modéré ou fort . Tout d’abord, pour évaluer la  » calibration moyenne  » (ou  » calibration dans le sens large « ), le risque moyen prédit est comparé au taux global d’événements. Lorsque le risque moyen prédit est plus élevé que le taux d’événements global, l’algorithme surestime le risque en général. Inversement, il y a sous-estimation lorsque le taux d’événements observés est supérieur au risque moyen prédit.

Deuxièmement, une ‘calibration faible’ signifie qu’en moyenne, le modèle ne surestime pas ou ne sous-estime pas le risque et ne donne pas d’estimations de risque trop extrêmes (trop proches de 0 et 1) ou modestes (trop proches de la prévalence ou de l’incidence de la maladie). La faiblesse de la calibration peut être évaluée par l’intercept de calibration et la pente de calibration. La pente de calibration évalue la dispersion des risques estimés et a une valeur cible de 1. Une pente < 1 suggère que les risques estimés sont trop extrêmes, c’est-à-dire trop élevés pour les patients à haut risque et trop faibles pour les patients à faible risque. Une pente > 1 suggère le contraire, c’est-à-dire que les estimations de risque sont trop modérées. L’ordonnée à l’origine de l’étalonnage, qui est une évaluation de l’étalonnage dans le sens large, a une valeur cible de 0. Les valeurs négatives suggèrent une surestimation, tandis que les valeurs positives suggèrent une sous-estimation.

Troisièmement, un étalonnage modéré implique que les risques estimés correspondent aux proportions observées, par exemple, parmi les patients dont le risque estimé est de 10 %, 10 sur 100 ont ou développent l’événement. Ceci est évalué à l’aide d’une courbe de calibration flexible pour montrer la relation entre le risque estimé (sur l’axe des x) et la proportion observée d’événements (sur l’axe des y), par exemple, en utilisant des fonctions loess ou spline. Une courbe proche de la diagonale indique que les risques prédits correspondent bien aux proportions observées. Nous montrons quelques courbes théoriques dans les figures 1a,b, chacune d’entre elles correspondant à des intercepts et des pentes de calibrage différents. Notez qu’une interception de calibration proche de 0 et une pente de calibration proche de 1 ne garantissent pas que la courbe de calibration flexible soit proche de la diagonale (voir le fichier additionnel 1 pour un exemple). Pour obtenir une courbe d’étalonnage précise, une taille d’échantillon suffisamment grande est nécessaire ; un minimum de 200 patients avec et 200 patients sans l’événement a été suggéré, bien que des recherches supplémentaires soient nécessaires pour étudier comment des facteurs tels que la prévalence ou l’incidence de la maladie affectent la taille d’échantillon requise. Dans les petits ensembles de données, il est défendable de n’évaluer qu’une faible calibration en calculant l’intercept et la pente de calibration.

Fig. 1
figure1

Illustrations de différents types de mauvais calibrage. Les illustrations sont basées sur un résultat avec un taux d’événements de 25 % et un modèle avec une aire sous la courbe ROC (AUC ou statistique c) de 0,71. L’intercept et la pente de calibrage sont indiqués pour chaque courbe illustrative. a Surestimation ou sous-estimation générale des risques prédits. b Risques prédits trop extrêmes ou pas assez extrêmes

Quatrièmement, un calibrage fort signifie que le risque prédit correspond à la proportion observée pour chaque combinaison possible de valeurs prédictives ; cela implique que le calibrage est parfait et constitue un objectif utopique .

Le test de Hosmer-Lemeshow, couramment utilisé, est souvent présenté comme un test de calibration, bien qu’il présente de nombreux inconvénients – il repose sur le regroupement artificiel des patients en strates de risque, donne une valeur P peu informative quant au type et à l’ampleur de la mauvaise calibration, et souffre d’une faible puissance statistique . Par conséquent, nous déconseillons l’utilisation du test de Hosmer-Lemeshow pour évaluer le calibrage.

Comment prévenir ou corriger un mauvais calibrage ?

Lors du développement d’un algorithme prédictif, la première étape consiste à contrôler le surajustement statistique. Il est important de préspécifier la stratégie de modélisation et de s’assurer que la taille de l’échantillon est suffisante pour le nombre de prédicteurs considérés . Dans les ensembles de données plus petits, il convient d’envisager des procédures visant à empêcher le surajustement, par exemple en utilisant des techniques de régression pénalisées telles que la régression Ridge ou Lasso ou en utilisant des modèles plus simples. Les modèles plus simples peuvent se référer à moins de prédicteurs, à l’omission des termes non linéaires ou d’interaction, ou à l’utilisation d’un algorithme moins flexible (par exemple, la régression logistique au lieu des forêts aléatoires ou la limitation a priori du nombre de neurones cachés dans un réseau neuronal). Cependant, l’utilisation de modèles trop simples peut se retourner contre nous (fichier additionnel 1), et la pénalisation n’offre pas une solution miracle à l’incertitude dans les petits ensembles de données. Par conséquent, dans les petits ensembles de données, il est raisonnable de ne pas développer de modèle du tout. En outre, les procédures de validation interne peuvent quantifier la pente de calibration. Lors de la validation interne, le calibrage dans le sens large n’est pas pertinent puisque la moyenne des risques prédits correspondra au taux d’événements. En revanche, le calibrage dans la largeur est très pertinent lors de la validation externe, où nous constatons souvent un décalage entre les risques prédits et observés.

Lorsque nous constatons des prédictions mal calibrées lors de la validation, la mise à jour de l’algorithme doit être envisagée pour fournir des prédictions plus précises pour les nouveaux patients du cadre de validation . La mise à jour des algorithmes basés sur la régression peut commencer par la modification de l’intercept pour corriger la calibration-dans-le-grand . Un réajustement complet de l’algorithme, comme dans l’étude de cas ci-dessous, améliorera la calibration si l’échantillon de validation est relativement grand. Nous présentons une illustration détaillée de la mise à jour du modèle ROMA dans le fichier supplémentaire 1. Les stratégies de mise à jour continue gagnent également en popularité ; ces stratégies traitent dynamiquement les changements dans la population cible au fil du temps .

Etude de cas publiée sur le diagnostic de la maladie coronarienne obstructive

Envisager un modèle de régression logistique pour prédire la maladie coronarienne obstructive (oCAD) chez les patients présentant une douleur thoracique stable et sans antécédents médicaux d’oCAD . Le modèle a été développé à partir des données de 5677 patients recrutés dans 18 centres européens et américains, dont 31% présentaient une oCAD. L’algorithme a été validé en externe sur les données de 4888 patients d’Innsbruck, en Autriche, dont 44% avaient un TCAO. L’algorithme avait une AUC de 0,69. Le calibrage a suggéré une combinaison de prédictions de risque surestimées (intercept – 1,04) et trop extrêmes (pente 0,63) (Fig. 2a). Le calibrage a été amélioré en réajustant le modèle, c’est-à-dire en réestimant les coefficients des prédicteurs (Fig. 2b).

Fig. 2
figure2

Courbes de calibrage lors de la validation d’un modèle de coronaropathie obstructive avant et après la mise à jour. a Courbe de calibrage avant mise à jour. b Courbe de calibrage après mise à jour par ré-estimation des coefficients du modèle. La courbe flexible avec des intervalles de confiance ponctuels (zone grise) était basée sur une régression locale (loess). Au bas des graphiques, des histogrammes des risques prédits sont présentés pour les patients avec (1) et les patients sans (0) maladie coronarienne. Figure adaptée de Edlinger et al , qui a été publiée sous la licence Creative Commons Attribution-Noncommercial (CC BY-NC 4.0)

.

Catégories : Articles

0 commentaire

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *