La discriminación es importante, pero ¿son fiables las estimaciones de riesgo?
A menudo se pasa por alto que los riesgos estimados pueden ser poco fiables incluso cuando los algoritmos tienen una buena discriminación. Por ejemplo, las estimaciones de riesgo pueden ser sistemáticamente demasiado elevadas para todos los pacientes, independientemente de que hayan experimentado el evento o no. La precisión de las estimaciones de riesgo, relacionada con la concordancia entre el número de eventos estimado y el observado, se denomina «calibración». Las revisiones sistemáticas han descubierto que la calibración se evalúa con mucha menos frecuencia que la discriminación, lo cual es problemático, ya que una calibración deficiente puede hacer que las predicciones sean engañosas. Los trabajos anteriores han puesto de manifiesto que el uso de diferentes tipos de algoritmos, que van desde la regresión hasta los enfoques flexibles de aprendizaje automático, pueden dar lugar a modelos que adolecen en gran medida de una mala calibración. Por ello, la calibración ha sido calificada como el «talón de Aquiles» del análisis predictivo. Las directrices TRIPOD (Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis) recomiendan informar sobre el rendimiento de la calibración en los estudios de modelos de predicción. La calibración es especialmente importante cuando el objetivo es apoyar la toma de decisiones, incluso cuando la discriminación es moderada, como en el caso de los modelos de predicción del cáncer de mama. En este artículo explicamos la relevancia de la calibración y sugerimos soluciones para prevenir o corregir una mala calibración y así hacer que los algoritmos de predicción sean más relevantes desde el punto de vista clínico.
¿Cómo pueden ser engañosas las predicciones de riesgo inexactas?
Si el algoritmo se utiliza para informar a los pacientes, las estimaciones de riesgo mal calibradas conducen a falsas expectativas con los pacientes y los profesionales sanitarios. Los pacientes pueden tomar decisiones personales en previsión de un evento, o de la ausencia del mismo, que en realidad eran erróneas. Tomemos, por ejemplo, un modelo de predicción que prevea la posibilidad de que el tratamiento de fecundación in vitro (FIV) dé lugar a un nacimiento vivo . Independientemente de lo bien que los modelos puedan discriminar entre los tratamientos que terminan en un nacimiento vivo y los que no, está claro que una fuerte sobreestimación o subestimación de la probabilidad de un nacimiento vivo hace que los algoritmos sean clínicamente inaceptables. Por ejemplo, una fuerte sobreestimación de la posibilidad de un nacimiento vivo después de la FIV daría falsas esperanzas a las parejas que están pasando por una experiencia ya estresante y emocional. Tratar a una pareja que, en realidad, tiene un pronóstico favorable expone a la mujer innecesariamente a posibles efectos secundarios perjudiciales, por ejemplo, el síndrome de hiperestimulación ovárica.
De hecho, una mala calibración puede hacer que un algoritmo sea menos útil desde el punto de vista clínico que un algoritmo de la competencia que tenga un AUC más bajo pero esté bien calibrado . Como ejemplo, consideremos los modelos QRISK2-2011 y NICE Framingham para predecir el riesgo de enfermedad cardiovascular a 10 años. Un estudio de validación externa de estos modelos en 2 millones de pacientes del Reino Unido indicó que QRISK2-2011 estaba bien calibrado y tenía un AUC de 0,771, mientras que NICE Framingham sobrestimaba el riesgo, con un AUC de 0,776 . Al utilizar el umbral de riesgo tradicional del 20% para identificar a los pacientes de alto riesgo para la intervención, QRISK2-2011 seleccionaría a 110 de cada 1000 hombres de entre 35 y 74 años. En cambio, NICE Framingham seleccionaría casi el doble (206 por cada 1000 hombres) porque un riesgo previsto del 20% basado en este modelo corresponde en realidad a una tasa de eventos inferior. Este ejemplo ilustra que la sobreestimación del riesgo conduce al sobretratamiento. Por el contrario, la subestimación conduce a un infratratamiento.
¿Por qué un algoritmo puede dar predicciones de riesgo mal calibradas?
Muchas fuentes posibles pueden distorsionar la calibración de las predicciones de riesgo. Un primer conjunto de causas está relacionado con variables y características no relacionadas con el desarrollo del algoritmo. A menudo, las características de los pacientes y las tasas de incidencia o prevalencia de la enfermedad varían mucho entre los centros de salud, las regiones y los países . Cuando un algoritmo se desarrolla en un entorno con una alta incidencia de la enfermedad, puede dar sistemáticamente estimaciones de riesgo sobreestimadas cuando se utiliza en un entorno donde la incidencia es menor . Por ejemplo, los hospitales universitarios pueden tratar a más pacientes con el evento de interés que los hospitales regionales; esta heterogeneidad entre entornos puede afectar a las estimaciones de riesgo y a su calibración . Los predictores del algoritmo pueden explicar una parte de la heterogeneidad, pero a menudo las diferencias entre los predictores no explican todas las diferencias entre los entornos . Las poblaciones de pacientes también tienden a cambiar con el tiempo, por ejemplo, debido a cambios en los patrones de derivación, la política sanitaria o las políticas de tratamiento . Por ejemplo, en los últimos 10 años, ha habido un impulso en Europa para reducir el número de embriones transferidos en la FIV y las mejoras en la tecnología de criopreservación de la FIV condujeron a un aumento de la congelación y el almacenamiento de embriones para su posterior transferencia ; tales evoluciones pueden cambiar la calibración de los algoritmos que predicen el éxito de la FIV .
Un segundo conjunto de causas se refiere a los problemas metodológicos relacionados con el propio algoritmo. El sobreajuste estadístico es común. Está causado por una estrategia de modelización demasiado compleja para la cantidad de datos de que se dispone (por ejemplo, demasiados predictores candidatos, selección de predictores basada en la significación estadística, uso de un algoritmo muy flexible como una red neuronal) . Las predicciones sobreajustadas capturan demasiado ruido aleatorio en los datos de desarrollo. Por lo tanto, cuando se valida con nuevos datos, se espera que un algoritmo sobreajustado muestre un menor rendimiento de discriminación y prediga riesgos demasiado extremos: los pacientes con alto riesgo de sufrir el evento tienden a obtener predicciones de riesgo sobreestimadas, mientras que los pacientes con bajo riesgo de sufrir el evento tienden a obtener predicciones de riesgo subestimadas. Aparte del sobreajuste estadístico, los datos médicos suelen contener errores de medición, por ejemplo, las expresiones de los biomarcadores varían con los kits de ensayo y la medición por ultrasonidos de la vascularidad del tumor tiene variabilidad inter e intraobservador. Si el error de medición difiere sistemáticamente entre los distintos entornos (por ejemplo las mediciones de un predictor están sistemáticamente más sesgadas hacia arriba en un entorno diferente), esto afecta a los riesgos predichos y, por tanto, a la calibración de un algoritmo.
¿Cómo evaluar la calibración?
Los conceptos explicados en esta sección se ilustran en el archivo adicional 1, con la validación del Algoritmo de Riesgo de Malignidad Ovárica (ROMA) para el diagnóstico de malignidad ovárica en mujeres con un tumor ovárico seleccionado para su extirpación quirúrgica ; pueden encontrarse más detalles en otro lugar.
De acuerdo con cuatro niveles de calibración cada vez más estrictos, los modelos pueden calibrarse en el sentido medio, débil, moderado o fuerte . En primer lugar, para evaluar la «calibración media» (o «calibración en sentido amplio»), se compara el riesgo medio previsto con la tasa global de eventos. Cuando el riesgo medio previsto es superior a la tasa global de eventos, el algoritmo sobrestima el riesgo en general. A la inversa, la subestimación se produce cuando la tasa de eventos observada es mayor que el riesgo medio predicho.
En segundo lugar, «calibración débil» significa que, en promedio, el modelo no sobreestima ni subestima el riesgo y no da estimaciones de riesgo demasiado extremas (demasiado cerca de 0 y 1) o modestas (demasiado cerca de la prevalencia o incidencia de la enfermedad). La calibración débil puede evaluarse mediante el intercepto de calibración y la pendiente de calibración. La pendiente de calibración evalúa la dispersión de los riesgos estimados y tiene un valor objetivo de 1. Una pendiente < 1 sugiere que los riesgos estimados son demasiado extremos, es decir, demasiado altos para los pacientes que tienen un riesgo alto y demasiado bajos para los pacientes que tienen un riesgo bajo. Una pendiente > 1 sugiere lo contrario, es decir, que las estimaciones de riesgo son demasiado moderadas. El intercepto de calibración, que es una evaluación de la calibración en general, tiene un valor objetivo de 0; los valores negativos sugieren una sobreestimación, mientras que los valores positivos sugieren una subestimación.
En tercer lugar, una calibración moderada implica que los riesgos estimados se corresponden con las proporciones observadas, por ejemplo, entre los pacientes con un riesgo estimado del 10%, 10 de cada 100 tienen o desarrollan el evento. Esto se evalúa con una curva de calibración flexible que muestre la relación entre el riesgo estimado (en el eje de las abscisas) y la proporción observada de eventos (eje de las ordenadas), por ejemplo, utilizando funciones de loess o spline. Una curva cercana a la diagonal indica que los riesgos predichos se corresponden bien con las proporciones observadas. En la Fig. 1a,b mostramos algunas curvas teóricas, cada una de las cuales corresponde a diferentes interceptos y pendientes de calibración. Nótese que un intercepto de calibración cercano a 0 y una pendiente de calibración cercana a 1 no garantizan que la curva de calibración flexible esté cerca de la diagonal (véase el archivo adicional 1 para un ejemplo). Para obtener una curva de calibración precisa, se requiere un tamaño de muestra suficientemente grande; se ha sugerido un mínimo de 200 pacientes con y 200 pacientes sin el evento , aunque se necesita más investigación para investigar cómo factores como la prevalencia o la incidencia de la enfermedad afectan al tamaño de muestra requerido . En conjuntos de datos pequeños, es defendible evaluar sólo la calibración débil calculando el intercepto y la pendiente de la calibración.
0 comentarios