La discriminación es importante, pero ¿son fiables las estimaciones de riesgo?

A menudo se pasa por alto que los riesgos estimados pueden ser poco fiables incluso cuando los algoritmos tienen una buena discriminación. Por ejemplo, las estimaciones de riesgo pueden ser sistemáticamente demasiado elevadas para todos los pacientes, independientemente de que hayan experimentado el evento o no. La precisión de las estimaciones de riesgo, relacionada con la concordancia entre el número de eventos estimado y el observado, se denomina «calibración». Las revisiones sistemáticas han descubierto que la calibración se evalúa con mucha menos frecuencia que la discriminación, lo cual es problemático, ya que una calibración deficiente puede hacer que las predicciones sean engañosas. Los trabajos anteriores han puesto de manifiesto que el uso de diferentes tipos de algoritmos, que van desde la regresión hasta los enfoques flexibles de aprendizaje automático, pueden dar lugar a modelos que adolecen en gran medida de una mala calibración. Por ello, la calibración ha sido calificada como el «talón de Aquiles» del análisis predictivo. Las directrices TRIPOD (Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis) recomiendan informar sobre el rendimiento de la calibración en los estudios de modelos de predicción. La calibración es especialmente importante cuando el objetivo es apoyar la toma de decisiones, incluso cuando la discriminación es moderada, como en el caso de los modelos de predicción del cáncer de mama. En este artículo explicamos la relevancia de la calibración y sugerimos soluciones para prevenir o corregir una mala calibración y así hacer que los algoritmos de predicción sean más relevantes desde el punto de vista clínico.

¿Cómo pueden ser engañosas las predicciones de riesgo inexactas?

Si el algoritmo se utiliza para informar a los pacientes, las estimaciones de riesgo mal calibradas conducen a falsas expectativas con los pacientes y los profesionales sanitarios. Los pacientes pueden tomar decisiones personales en previsión de un evento, o de la ausencia del mismo, que en realidad eran erróneas. Tomemos, por ejemplo, un modelo de predicción que prevea la posibilidad de que el tratamiento de fecundación in vitro (FIV) dé lugar a un nacimiento vivo . Independientemente de lo bien que los modelos puedan discriminar entre los tratamientos que terminan en un nacimiento vivo y los que no, está claro que una fuerte sobreestimación o subestimación de la probabilidad de un nacimiento vivo hace que los algoritmos sean clínicamente inaceptables. Por ejemplo, una fuerte sobreestimación de la posibilidad de un nacimiento vivo después de la FIV daría falsas esperanzas a las parejas que están pasando por una experiencia ya estresante y emocional. Tratar a una pareja que, en realidad, tiene un pronóstico favorable expone a la mujer innecesariamente a posibles efectos secundarios perjudiciales, por ejemplo, el síndrome de hiperestimulación ovárica.

De hecho, una mala calibración puede hacer que un algoritmo sea menos útil desde el punto de vista clínico que un algoritmo de la competencia que tenga un AUC más bajo pero esté bien calibrado . Como ejemplo, consideremos los modelos QRISK2-2011 y NICE Framingham para predecir el riesgo de enfermedad cardiovascular a 10 años. Un estudio de validación externa de estos modelos en 2 millones de pacientes del Reino Unido indicó que QRISK2-2011 estaba bien calibrado y tenía un AUC de 0,771, mientras que NICE Framingham sobrestimaba el riesgo, con un AUC de 0,776 . Al utilizar el umbral de riesgo tradicional del 20% para identificar a los pacientes de alto riesgo para la intervención, QRISK2-2011 seleccionaría a 110 de cada 1000 hombres de entre 35 y 74 años. En cambio, NICE Framingham seleccionaría casi el doble (206 por cada 1000 hombres) porque un riesgo previsto del 20% basado en este modelo corresponde en realidad a una tasa de eventos inferior. Este ejemplo ilustra que la sobreestimación del riesgo conduce al sobretratamiento. Por el contrario, la subestimación conduce a un infratratamiento.

¿Por qué un algoritmo puede dar predicciones de riesgo mal calibradas?

Muchas fuentes posibles pueden distorsionar la calibración de las predicciones de riesgo. Un primer conjunto de causas está relacionado con variables y características no relacionadas con el desarrollo del algoritmo. A menudo, las características de los pacientes y las tasas de incidencia o prevalencia de la enfermedad varían mucho entre los centros de salud, las regiones y los países . Cuando un algoritmo se desarrolla en un entorno con una alta incidencia de la enfermedad, puede dar sistemáticamente estimaciones de riesgo sobreestimadas cuando se utiliza en un entorno donde la incidencia es menor . Por ejemplo, los hospitales universitarios pueden tratar a más pacientes con el evento de interés que los hospitales regionales; esta heterogeneidad entre entornos puede afectar a las estimaciones de riesgo y a su calibración . Los predictores del algoritmo pueden explicar una parte de la heterogeneidad, pero a menudo las diferencias entre los predictores no explican todas las diferencias entre los entornos . Las poblaciones de pacientes también tienden a cambiar con el tiempo, por ejemplo, debido a cambios en los patrones de derivación, la política sanitaria o las políticas de tratamiento . Por ejemplo, en los últimos 10 años, ha habido un impulso en Europa para reducir el número de embriones transferidos en la FIV y las mejoras en la tecnología de criopreservación de la FIV condujeron a un aumento de la congelación y el almacenamiento de embriones para su posterior transferencia ; tales evoluciones pueden cambiar la calibración de los algoritmos que predicen el éxito de la FIV .

Un segundo conjunto de causas se refiere a los problemas metodológicos relacionados con el propio algoritmo. El sobreajuste estadístico es común. Está causado por una estrategia de modelización demasiado compleja para la cantidad de datos de que se dispone (por ejemplo, demasiados predictores candidatos, selección de predictores basada en la significación estadística, uso de un algoritmo muy flexible como una red neuronal) . Las predicciones sobreajustadas capturan demasiado ruido aleatorio en los datos de desarrollo. Por lo tanto, cuando se valida con nuevos datos, se espera que un algoritmo sobreajustado muestre un menor rendimiento de discriminación y prediga riesgos demasiado extremos: los pacientes con alto riesgo de sufrir el evento tienden a obtener predicciones de riesgo sobreestimadas, mientras que los pacientes con bajo riesgo de sufrir el evento tienden a obtener predicciones de riesgo subestimadas. Aparte del sobreajuste estadístico, los datos médicos suelen contener errores de medición, por ejemplo, las expresiones de los biomarcadores varían con los kits de ensayo y la medición por ultrasonidos de la vascularidad del tumor tiene variabilidad inter e intraobservador. Si el error de medición difiere sistemáticamente entre los distintos entornos (por ejemplo las mediciones de un predictor están sistemáticamente más sesgadas hacia arriba en un entorno diferente), esto afecta a los riesgos predichos y, por tanto, a la calibración de un algoritmo.

¿Cómo evaluar la calibración?

Los conceptos explicados en esta sección se ilustran en el archivo adicional 1, con la validación del Algoritmo de Riesgo de Malignidad Ovárica (ROMA) para el diagnóstico de malignidad ovárica en mujeres con un tumor ovárico seleccionado para su extirpación quirúrgica ; pueden encontrarse más detalles en otro lugar.

De acuerdo con cuatro niveles de calibración cada vez más estrictos, los modelos pueden calibrarse en el sentido medio, débil, moderado o fuerte . En primer lugar, para evaluar la «calibración media» (o «calibración en sentido amplio»), se compara el riesgo medio previsto con la tasa global de eventos. Cuando el riesgo medio previsto es superior a la tasa global de eventos, el algoritmo sobrestima el riesgo en general. A la inversa, la subestimación se produce cuando la tasa de eventos observada es mayor que el riesgo medio predicho.

En segundo lugar, «calibración débil» significa que, en promedio, el modelo no sobreestima ni subestima el riesgo y no da estimaciones de riesgo demasiado extremas (demasiado cerca de 0 y 1) o modestas (demasiado cerca de la prevalencia o incidencia de la enfermedad). La calibración débil puede evaluarse mediante el intercepto de calibración y la pendiente de calibración. La pendiente de calibración evalúa la dispersión de los riesgos estimados y tiene un valor objetivo de 1. Una pendiente < 1 sugiere que los riesgos estimados son demasiado extremos, es decir, demasiado altos para los pacientes que tienen un riesgo alto y demasiado bajos para los pacientes que tienen un riesgo bajo. Una pendiente > 1 sugiere lo contrario, es decir, que las estimaciones de riesgo son demasiado moderadas. El intercepto de calibración, que es una evaluación de la calibración en general, tiene un valor objetivo de 0; los valores negativos sugieren una sobreestimación, mientras que los valores positivos sugieren una subestimación.

En tercer lugar, una calibración moderada implica que los riesgos estimados se corresponden con las proporciones observadas, por ejemplo, entre los pacientes con un riesgo estimado del 10%, 10 de cada 100 tienen o desarrollan el evento. Esto se evalúa con una curva de calibración flexible que muestre la relación entre el riesgo estimado (en el eje de las abscisas) y la proporción observada de eventos (eje de las ordenadas), por ejemplo, utilizando funciones de loess o spline. Una curva cercana a la diagonal indica que los riesgos predichos se corresponden bien con las proporciones observadas. En la Fig. 1a,b mostramos algunas curvas teóricas, cada una de las cuales corresponde a diferentes interceptos y pendientes de calibración. Nótese que un intercepto de calibración cercano a 0 y una pendiente de calibración cercana a 1 no garantizan que la curva de calibración flexible esté cerca de la diagonal (véase el archivo adicional 1 para un ejemplo). Para obtener una curva de calibración precisa, se requiere un tamaño de muestra suficientemente grande; se ha sugerido un mínimo de 200 pacientes con y 200 pacientes sin el evento , aunque se necesita más investigación para investigar cómo factores como la prevalencia o la incidencia de la enfermedad afectan al tamaño de muestra requerido . En conjuntos de datos pequeños, es defendible evaluar sólo la calibración débil calculando el intercepto y la pendiente de la calibración.

Fig. 1
figure1

Ilustraciones de diferentes tipos de descalibración. Las ilustraciones se basan en un resultado con una tasa de eventos del 25% y un modelo con un área bajo la curva ROC (AUC o estadístico c) de 0,71. Se indican el intercepto y la pendiente de calibración para cada curva ilustrativa. a Sobreestimación o subestimación general de los riesgos predichos. b Riesgos predichos demasiado extremos o no lo suficientemente extremos

Cuarta, la calibración fuerte significa que el riesgo predicho corresponde a la proporción observada para cada combinación posible de valores predictores; esto implica que la calibración es perfecta y es un objetivo utópico .

La prueba de Hosmer-Lemeshow, comúnmente utilizada, se presenta a menudo como una prueba de calibración, aunque tiene muchos inconvenientes: se basa en agrupar artificialmente a los pacientes en estratos de riesgo, da un valor P que no es informativo con respecto al tipo y el grado de descalibración, y sufre de baja potencia estadística . Por lo tanto, recomendamos no utilizar la prueba de Hosmer-Lemeshow para evaluar la calibración.

¿Cómo prevenir o corregir una mala calibración?

Cuando se desarrolla un algoritmo predictivo, el primer paso implica el control del sobreajuste estadístico. Es importante prespecificar la estrategia de modelización y asegurarse de que el tamaño de la muestra es suficiente para el número de predictores considerados . En los conjuntos de datos más pequeños, se deben considerar los procedimientos destinados a evitar el sobreajuste, por ejemplo, utilizando técnicas de regresión penalizadas, como la regresión Ridge o Lasso, o utilizando modelos más simples. Los modelos más sencillos pueden referirse a un menor número de predictores, a la omisión de términos no lineales o de interacción, o al uso de un algoritmo menos flexible (por ejemplo, la regresión logística en lugar de los bosques aleatorios o la limitación a priori del número de neuronas ocultas en una red neuronal). Sin embargo, el uso de modelos demasiado simples puede ser contraproducente (archivo adicional 1), y la penalización no ofrece una solución milagrosa para la incertidumbre en conjuntos de datos pequeños . Por lo tanto, en conjuntos de datos pequeños, es razonable que no se desarrolle un modelo en absoluto. Además, los procedimientos de validación interna pueden cuantificar la pendiente de la calibración. En la validación interna, la calibración a gran escala es irrelevante, ya que la media de los riesgos predichos coincidirá con la tasa de eventos. Por el contrario, la calibración en general es muy relevante en la validación externa, donde a menudo observamos un desajuste entre los riesgos predichos y los observados.

Cuando encontramos predicciones mal calibradas en la validación, debe considerarse la actualización del algoritmo para proporcionar predicciones más precisas para los nuevos pacientes del entorno de validación . La actualización de los algoritmos basados en la regresión puede comenzar con el cambio de la intercepción para corregir la calibración en la extensión . El reajuste completo del algoritmo, como en el caso estudiado más abajo, mejorará la calibración si la muestra de validación es relativamente grande. Presentamos una ilustración detallada de la actualización del modelo ROMA en el archivo adicional 1. Las estrategias de actualización continua también están ganando popularidad; dichas estrategias abordan dinámicamente los cambios en la población objetivo a lo largo del tiempo.

Estudio de caso publicado sobre el diagnóstico de la enfermedad coronaria obstructiva

Considere un modelo de regresión logística para predecir la enfermedad coronaria obstructiva (oCAD) en pacientes con dolor torácico estable y sin antecedentes médicos de oCAD . El modelo se desarrolló a partir de los datos de 5.677 pacientes reclutados en 18 centros europeos y americanos, de los cuales el 31% tenía oCAD. El algoritmo fue validado externamente con datos de 4888 pacientes en Innsbruck (Austria), de los cuales el 44% tenía una oCAD. El algoritmo tuvo un AUC de 0,69. La calibración sugirió una combinación de predicciones de riesgo sobreestimadas (intercepción – 1,04) y demasiado extremas (pendiente 0,63) (Fig. 2a). La calibración se mejoró volviendo a ajustar el modelo, es decir volviendo a estimar los coeficientes predictores (Fig. 2b).

Fig. 2
figure2

Curvas de calibración al validar un modelo de enfermedad coronaria obstructiva antes y después de la actualización. a Curva de calibración antes de la actualización. b Curva de calibración después de la actualización mediante la reestimación de los coeficientes del modelo. La curva flexible con intervalos de confianza puntuales (área gris) se basó en la regresión local (loess). En la parte inferior de los gráficos se muestran los histogramas de los riesgos predichos para los pacientes con (1) y los pacientes sin (0) enfermedad arterial coronaria. Figura adaptada de Edlinger et al. , que fue publicada bajo la licencia Creative Commons Attribution-Noncommercial (CC BY-NC 4.0)

Categorías: Articles

0 comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *