Discriminação é importante, mas as estimativas de risco são fiáveis?

Sobre-se muitas vezes que os riscos estimados podem não ser fiáveis mesmo quando os algoritmos têm uma boa discriminação. Por exemplo, as estimativas de risco podem ser sistematicamente demasiado elevadas para todos os pacientes, independentemente de terem ou não experimentado o evento. A exactidão das estimativas de risco, relacionada com o acordo entre o número estimado e o número de eventos observados, é chamada ‘calibração’ . Revisões sistemáticas descobriram que a calibração é avaliada com muito menos frequência do que a discriminação , o que é problemático, uma vez que uma calibração deficiente pode induzir em erro as previsões . Trabalhos anteriores salientaram que a utilização de diferentes tipos de algoritmos, variando de regressão a abordagens flexíveis de aprendizagem da máquina, pode levar a modelos que sofrem muito com a má calibração . A calibração foi portanto rotulada como “calcanhar de Aquiles” da análise preditiva . A elaboração de relatórios sobre o desempenho da calibração é recomendada pelas directrizes TRIPOD (Transparent Reporting of a Multivariable Prevision Model for Individual Prognosis Or Diagnosis) para estudos de modelação de previsão . A calibração é especialmente importante quando o objectivo é apoiar a tomada de decisões, mesmo quando a discriminação é moderada, tal como para modelos de previsão do cancro da mama . Explicamos a relevância da calibração neste artigo e sugerimos soluções para prevenir ou corrigir uma calibração deficiente e assim tornar os algoritmos de previsão mais clinicamente relevantes.

Como podem as previsões incorrectas de risco ser enganadoras?

Se o algoritmo for utilizado para informar os pacientes, estimativas de risco mal calibradas levam a falsas expectativas com pacientes e profissionais de saúde. Os pacientes podem tomar decisões pessoais em antecipação de um evento, ou da sua ausência, que de facto foram mal orientados. Tome-se, por exemplo, um modelo de previsão que prevê a hipótese de que o tratamento de fertilização in vitro (FIV) conduza a um nascimento vivo . Independentemente da forma como os modelos podem discriminar entre tratamentos que terminam em nascimento vivo e os que não terminam, é evidente que a forte sobre ou subestimação da hipótese de um nascimento vivo torna os algoritmos clinicamente inaceitáveis. Por exemplo, uma forte sobrestimação da hipótese de um nascimento vivo após uma FIV daria falsas esperanças aos casais que passam por uma experiência já stressante e emocional. Tratar um casal que, na realidade, tem um prognóstico favorável expõe a mulher desnecessariamente a possíveis efeitos secundários prejudiciais, por exemplo, síndrome de hiperestimulação dos ovários.

Na realidade, uma má calibração pode tornar um algoritmo menos útil clinicamente do que um algoritmo concorrente que tem um AUC mais baixo, mas que está bem calibrado. Como exemplo, considere os modelos QRISK2-2011 e NICE Framingham para prever o risco de doença cardiovascular a 10 anos. Um estudo de validação externo destes modelos em 2 milhões de pacientes do Reino Unido indicou que o QRISK2-2011 estava bem calibrado e tinha um AUC de 0,771, enquanto o NICE Framingham estava a sobrestimar o risco, com um AUC de 0,776 . Ao utilizar o limiar de risco tradicional de 20% para identificar pacientes de alto risco para intervenção, QRISK2-2011 seleccionaria 110 por 1000 homens com idades compreendidas entre 35 e 74 anos. Por outro lado, NICE Framingham seleccionaria quase o dobro (206 por 1000 homens) porque um risco previsto de 20% com base neste modelo corresponderia na realidade a uma taxa de eventos mais baixa. Este exemplo ilustra que a sobrestimação do risco leva a um tratamento excessivo. Pelo contrário, a subestimação leva a subtratamento.

Por que pode um algoritmo dar previsões de risco mal calibradas?

Muitas fontes possíveis podem distorcer a calibração das previsões de risco. Um primeiro conjunto de causas relaciona-se com variáveis e características não relacionadas com o desenvolvimento do algoritmo. Muitas vezes, as características dos pacientes e as taxas de incidência ou prevalência de doenças variam muito entre centros de saúde, regiões e países. Quando um algoritmo é desenvolvido num ambiente com uma elevada incidência de doença, pode fornecer sistematicamente estimativas de risco sobrestimadas quando utilizado num ambiente onde a incidência é menor. Por exemplo, hospitais universitários podem tratar mais pacientes com o evento de interesse do que hospitais regionais; tal heterogeneidade entre cenários pode afectar as estimativas de risco e a sua calibração . Os preditores no algoritmo podem explicar uma parte da heterogeneidade, mas muitas vezes as diferenças entre os preditores não explicarão todas as diferenças entre as definições . As populações de doentes também tendem a mudar com o tempo, por exemplo, devido a alterações nos padrões de referência, na política de cuidados de saúde, ou nas políticas de tratamento . Por exemplo, nos últimos 10 anos, houve um impulso na Europa para reduzir o número de embriões transferidos em FIV e melhorias na tecnologia de criopreservação de FIV levaram a um aumento no congelamento e armazenamento de embriões para transferência subsequente; tais evoluções podem alterar a calibração dos algoritmos que prevêem o sucesso da FIV .

Um segundo conjunto de causas relaciona-se com problemas metodológicos relativos ao próprio algoritmo. O sobreajustamento estatístico é comum. É causado por uma estratégia de modelação demasiado complexa para a quantidade de dados em questão (por exemplo, demasiados preditores candidatos, selecção de preditores com base no significado estatístico, utilização de um algoritmo muito flexível, tal como uma rede neural). Previsões demasiado ajustadas captam demasiado ruído aleatório nos dados de desenvolvimento. Assim, quando validado em novos dados, espera-se que um algoritmo sobreajustado mostre um desempenho discriminatório inferior e preveja riscos demasiado extremos – os pacientes com alto risco do evento tendem a obter previsões de risco sobrestimadas, enquanto os pacientes com baixo risco do evento tendem a obter previsões de risco subestimadas. Para além da sobreajustamento estatístico, os dados médicos contêm geralmente erros de medição, por exemplo, as expressões dos biomarcadores variam com os kits de ensaio e a medição por ultra-sons da vascularidade tumoral tem variabilidade inter- e intra-observador. Se o erro de medição diferir sistematicamente entre as definições (por exemplo as medições de um preditor são sistemicamente mais tendenciosas para cima num cenário diferente), isto afecta os riscos previstos e, portanto, a calibração de um algoritmo .

Como avaliar a calibração?

Os conceitos explicados nesta secção são ilustrados no ficheiro adicional 1, com a validação do Algoritmo de Risco de Malignidade do Ovário (ROMA) para o diagnóstico de malignidade do ovário em mulheres com um tumor ovariano seleccionado para remoção cirúrgica; mais detalhes podem ser encontrados noutros locais .

De acordo com quatro níveis de calibração cada vez mais rigorosos, os modelos podem ser calibrados no sentido médio, fraco, moderado, ou forte . Primeiro, para avaliar ‘calibração média’ (ou ‘calibração em grande escala’), o risco médio previsto é comparado com a taxa global de eventos. Quando o risco médio previsto é superior à taxa de evento global, o algoritmo sobrestima o risco em geral. Pelo contrário, a subestimação ocorre quando a taxa de eventos observada é superior à média de risco previsto.

Segundo, ‘calibração fraca’ significa que, em média, o modelo não sobrestima o risco e não fornece estimativas de risco excessivamente extremas (demasiado próximas de 0 e 1) ou modestas (demasiado próximas da prevalência ou incidência da doença). Uma calibração fraca pode ser avaliada pela intercepção de calibração e pela inclinação de calibração. A inclinação de calibração avalia a propagação dos riscos estimados e tem um valor alvo de 1. Uma inclinação < 1 sugere que os riscos estimados são demasiado extremos, ou seja, demasiado altos para os doentes de alto risco e demasiado baixos para os doentes de baixo risco. Um declive > 1 sugere o contrário, ou seja, que as estimativas de risco são demasiado moderadas. A intercepção de calibração, que é uma avaliação da calibração em grande escala, tem um valor-alvo de 0; valores negativos sugerem sobrestimação, enquanto valores positivos sugerem subestimação.

Terceiro, calibração moderada implica que os riscos estimados correspondem a proporções observadas, por exemplo, entre pacientes com um risco estimado de 10%, 10 em 100 têm ou desenvolvem o evento. Isto é avaliado com uma curva de calibração flexível para mostrar a relação entre o risco estimado (no eixo x) e a proporção observada de eventos (eixo y), por exemplo, utilizando funções loess ou spline. Uma curva próxima da diagonal indica que os riscos previstos correspondem bem às proporções observadas. Mostramos algumas curvas teóricas na Fig. 1a,b, cada uma das quais corresponde a diferentes intercepções e inclinações de calibração. Note-se que uma intercepção de calibração próxima de 0 e uma inclinação de calibração próxima de 1 não garantem que a curva de calibração flexível esteja próxima da diagonal (ver ficheiro adicional 1 para um exemplo). Para obter uma curva de calibração precisa, é necessário um tamanho de amostra suficientemente grande; foi sugerido um mínimo de 200 pacientes com e 200 pacientes sem o evento , embora seja necessária mais investigação para investigar como factores como a prevalência ou incidência de doenças afectam o tamanho de amostra necessário . Em pequenos conjuntos de dados, é defensável avaliar apenas uma calibração fraca calculando a intercepção e a inclinação de calibração.

Fig. 1
figure1

Illustrações de diferentes tipos de erros de calibração. As ilustrações são baseadas num resultado com uma taxa de eventos de 25% e um modelo com uma área sob a curva ROC (AUC ou c-statistic) de 0,71. A intercepção e inclinação da calibração são indicadas para cada curva ilustrativa. a Sobre- ou subestimação geral dos riscos previstos. b Riscos previstos que são demasiado extremos ou não suficientemente extremos

Quarto, uma calibração forte significa que o risco previsto corresponde à proporção observada para cada combinação possível de valores de previsão; isto implica que a calibração é perfeita e é um objectivo utópico .

O teste comummente utilizado Hosmer-Lemeshow é frequentemente apresentado como um teste de calibração, embora tenha muitos inconvenientes – baseia-se no agrupamento artificial de pacientes em estratos de risco, dá um valor P que não é informativo em relação ao tipo e extensão do erro de calibração, e sofre de baixo poder estatístico . Portanto, recomendamos contra a utilização do teste Hosmer-Lemeshow para avaliar a calibração.

Como evitar ou corrigir uma calibração deficiente?

Ao desenvolver um algoritmo preditivo, o primeiro passo envolve o controlo do sobreajustamento estatístico. É importante pré-especificar a estratégia de modelação e assegurar que o tamanho da amostra é suficiente para o número de preditores considerados. Em conjuntos de dados mais pequenos, os procedimentos que visam evitar o sobreajustamento devem ser considerados, por exemplo, utilizando técnicas de regressão penalizadas como a regressão de Ridge ou Lasso ou utilizando modelos mais simples. Modelos mais simples podem referir-se a menos preditores, omitindo termos não lineares ou de interacção, ou utilizando um algoritmo menos flexível (por exemplo, regressão logística em vez de florestas aleatórias ou limitando a priori o número de neurónios ocultos numa rede neural). No entanto, a utilização de modelos demasiado simples pode ter um efeito contrário (ficheiro adicional 1), e a penalização não oferece uma solução milagrosa para a incerteza em pequenos conjuntos de dados . Portanto, em pequenos conjuntos de dados, é razoável que um modelo não seja de todo desenvolvido. Além disso, os procedimentos internos de validação podem quantificar a inclinação de calibração. Na validação interna, a calibração em grande escala é irrelevante, uma vez que a média dos riscos previstos irá corresponder à taxa de eventos. Em contraste, a calibração em grande escala é altamente relevante na validação externa, onde observamos frequentemente um desencontro entre os riscos previstos e observados.

Quando encontramos previsões mal calibradas na validação, a actualização do algoritmo deve ser considerada para fornecer previsões mais precisas para novos pacientes a partir da definição de validação . A actualização dos algoritmos baseados na regressão pode começar com a alteração da intercepção para corrigir a calibração em grande escala . A actualização completa do algoritmo, como no estudo de caso abaixo, irá melhorar a calibração se a amostra de validação for relativamente grande . Apresentamos uma ilustração detalhada da actualização do modelo ROMA no ficheiro adicional 1. As estratégias de actualização contínua estão também a ganhar popularidade; tais estratégias abordam dinamicamente as mudanças na população alvo ao longo do tempo .

Estudo de caso publicado sobre o diagnóstico de doença coronária obstrutiva

Considerar um modelo de regressão logística para prever a doença coronária obstrutiva (oCAD) em pacientes com dor torácica estável e sem historial médico de oCAD . O modelo foi desenvolvido a partir de dados de 5677 pacientes recrutados em 18 centros europeus e americanos, dos quais 31% tinham oCAD. O algoritmo foi validado externamente em dados de 4888 pacientes em Innsbruck, Áustria, dos quais 44% tinham oCAD . O algoritmo tinha um AUC de 0,69. A calibração sugeriu uma combinação de previsões de risco sobrestimadas (intercepção – 1,04) e excessivamente extremas (inclinação 0,63) (Fig. 2a). A calibração foi melhorada através da remontagem do modelo, ou seja reestimando os coeficientes de previsão (Fig. 2b).

Fig. 2
figure2

Calibração de curvas ao validar um modelo para doença coronária obstrutiva antes e depois da actualização. a Curva de calibração antes e depois da actualização. b Curva de calibração depois da actualização através da reavaliação dos coeficientes do modelo. A curva flexível com intervalos de confiança pontuais (área cinzenta) foi baseada na regressão local (loess). Na parte inferior dos gráficos, são mostrados histogramas dos riscos previstos para pacientes com (1) e pacientes sem (0) doença arterial coronária. Figura adaptada de Edlinger et al. , que foi publicada sob a licença Creative Commons Attribution-Noncommercial (CC BY-NC 4.0) licença

Categorias: Articles

0 comentários

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *