La discriminazione è importante, ma le stime del rischio sono affidabili?
Si trascura spesso che i rischi stimati possono essere inaffidabili anche quando gli algoritmi hanno una buona discriminazione. Per esempio, le stime del rischio possono essere sistematicamente troppo alte per tutti i pazienti, indipendentemente dal fatto che abbiano sperimentato o meno l’evento. L’accuratezza delle stime del rischio, relativa all’accordo tra il numero stimato e quello osservato di eventi, è chiamata “calibrazione”. Le revisioni sistematiche hanno scoperto che la calibrazione è valutata molto meno spesso della discriminazione, il che è problematico poiché una scarsa calibrazione può rendere le previsioni fuorvianti. Il lavoro precedente ha evidenziato che l’uso di diversi tipi di algoritmi, che variano dalla regressione ad approcci flessibili di apprendimento automatico, può portare a modelli che soffrono molto di scarsa calibrazione. La calibrazione è stata quindi etichettata come il “tallone d’Achille” dell’analitica predittiva. La segnalazione delle prestazioni di calibrazione è raccomandata dalle linee guida TRIPOD (Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis) per gli studi di modellazione predittiva. La calibrazione è particolarmente importante quando l’obiettivo è quello di sostenere il processo decisionale, anche quando la discriminazione è moderata, come per i modelli di previsione del cancro al seno. Spieghiamo la rilevanza della calibrazione in questo articolo e suggeriamo soluzioni per prevenire o correggere una cattiva calibrazione e quindi rendere gli algoritmi predittivi più clinicamente rilevanti.
Come possono essere fuorvianti le previsioni di rischio inaccurate?
Se l’algoritmo viene utilizzato per informare i pazienti, stime di rischio mal calibrate portano a false aspettative con i pazienti e gli operatori sanitari. I pazienti possono prendere decisioni personali in previsione di un evento, o della sua assenza, che in realtà erano fuorvianti. Prendiamo, per esempio, un modello di previsione che predice la possibilità che il trattamento di fecondazione in vitro (IVF) porti a un parto vivo. Indipendentemente da quanto bene i modelli possano discriminare tra i trattamenti che si concludono con un parto vivo rispetto a quelli che non lo fanno, è chiaro che una forte sovrastima o sottostima della probabilità di un parto vivo rende gli algoritmi clinicamente inaccettabili. Per esempio, una forte sovrastima della possibilità di un parto vivo dopo la FIVET darebbe una falsa speranza alle coppie che attraversano un’esperienza già stressante ed emotiva. Trattare una coppia che, in realtà, ha una prognosi favorevole espone inutilmente la donna a possibili effetti collaterali dannosi, ad esempio, la sindrome da iperstimolazione ovarica.
In effetti, una scarsa calibrazione può rendere un algoritmo meno clinicamente utile di un algoritmo concorrente che ha un AUC inferiore ma è ben calibrato. Come esempio, consideriamo i modelli QRISK2-2011 e NICE Framingham per prevedere il rischio a 10 anni di malattie cardiovascolari. Uno studio di validazione esterna di questi modelli in 2 milioni di pazienti del Regno Unito ha indicato che QRISK2-2011 era ben calibrato e aveva un AUC di 0,771, mentre NICE Framingham sovrastimava il rischio, con un AUC di 0,776 . Quando si utilizza la soglia di rischio tradizionale del 20% per identificare i pazienti ad alto rischio per l’intervento, QRISK2-2011 selezionerebbe 110 su 1000 uomini di età compresa tra 35 e 74 anni. D’altra parte, il NICE Framingham ne selezionerebbe quasi il doppio (206 su 1000 uomini) perché un rischio previsto del 20% basato su questo modello corrisponde in realtà a un tasso di eventi inferiore. Questo esempio illustra che la sovrastima del rischio porta al sovratrattamento. Al contrario, la sottostima porta al sottotrattamento.
Perché un algoritmo può dare previsioni di rischio mal calibrate?
Molte possibili fonti possono distorcere la calibrazione delle previsioni di rischio. Una prima serie di cause riguarda variabili e caratteristiche non collegate allo sviluppo dell’algoritmo. Spesso, le caratteristiche dei pazienti e i tassi di incidenza o prevalenza della malattia variano notevolmente tra centri sanitari, regioni e paesi. Quando un algoritmo viene sviluppato in un ambiente con un’alta incidenza della malattia, può sistematicamente dare stime di rischio sovrastimate quando viene utilizzato in un ambiente dove l’incidenza è inferiore. Per esempio, gli ospedali universitari possono trattare più pazienti con l’evento di interesse rispetto agli ospedali regionali; tale eterogeneità tra le impostazioni può influenzare le stime di rischio e la loro calibrazione. I predittori nell’algoritmo possono spiegare una parte dell’eterogeneità, ma spesso le differenze tra i predittori non spiegano tutte le differenze tra le impostazioni. Le popolazioni di pazienti tendono anche a cambiare nel tempo, ad esempio a causa di cambiamenti nei modelli di riferimento, nella politica sanitaria o nelle politiche di trattamento. Per esempio, negli ultimi 10 anni, c’è stata una spinta in Europa per ridurre il numero di embrioni trasferiti nella FIVET e i miglioramenti nella tecnologia di crioconservazione della FIVET hanno portato ad un aumento del congelamento e dello stoccaggio degli embrioni per il successivo trasferimento; tali evoluzioni possono cambiare la calibrazione degli algoritmi che prevedono il successo della FIVET. L’overfitting statistico è comune. È causato da una strategia di modellazione troppo complessa per la quantità di dati a disposizione (ad esempio, troppi predittori candidati, selezione dei predittori basata sulla significatività statistica, uso di un algoritmo molto flessibile come una rete neurale). Le previsioni troppo adattate catturano troppo rumore casuale nei dati di sviluppo. Quindi, quando viene convalidato su nuovi dati, ci si aspetta che un algoritmo overfitted mostri prestazioni di discriminazione inferiori e previsioni di rischio troppo estreme – i pazienti ad alto rischio dell’evento tendono ad avere previsioni di rischio sovrastimate, mentre i pazienti a basso rischio dell’evento tendono ad avere previsioni di rischio sottostimate. A parte l’overfitting statistico, i dati medici di solito contengono errori di misurazione, per esempio, le espressioni dei biomarcatori variano con i kit di dosaggio e la misurazione ecografica della vascolarizzazione tumorale ha una variabilità inter- e intra-osservatore. Se l’errore di misurazione differisce sistematicamente tra le impostazioni (ad es, le misurazioni di un predittore sono sistematicamente più distorte verso l’alto in un ambiente diverso), questo influisce sui rischi previsti e quindi sulla calibrazione di un algoritmo.
Come valutare la calibrazione?
I concetti spiegati in questa sezione sono illustrati nel file aggiuntivo 1, con la validazione del Risk of Ovarian Malignancy Algorithm (ROMA) per la diagnosi di malignità ovarica in donne con un tumore ovarico selezionato per la rimozione chirurgica; ulteriori dettagli possono essere trovati altrove
Secondo quattro livelli di calibrazione sempre più rigorosi, i modelli possono essere calibrati in senso medio, debole, moderato o forte. In primo luogo, per valutare la ‘calibrazione media’ (o ‘calibrazione-in-the-large’), il rischio medio previsto viene confrontato con il tasso di eventi complessivo. Quando il rischio medio previsto è superiore al tasso di eventi complessivo, l’algoritmo sovrastima il rischio in generale. Al contrario, la sottostima si verifica quando il tasso di eventi osservato è più alto del rischio medio previsto.
In secondo luogo, “calibrazione debole” significa che, in media, il modello non sovrastima o sottostima il rischio e non fornisce stime di rischio troppo estreme (troppo vicine a 0 e 1) o modeste (troppo vicine alla prevalenza o incidenza della malattia). Una calibrazione debole può essere valutata dall’intercetta di calibrazione e dalla pendenza di calibrazione. La pendenza di calibrazione valuta la diffusione dei rischi stimati e ha un valore target di 1. Una pendenza < 1 suggerisce che i rischi stimati sono troppo estremi, cioè troppo alti per i pazienti che sono ad alto rischio e troppo bassi per i pazienti che sono a basso rischio. Una pendenza > 1 suggerisce il contrario, cioè che le stime di rischio sono troppo moderate. L’intercetta di calibrazione, che è una valutazione della calibrazione-in-the-large, ha un valore target di 0; valori negativi suggeriscono una sovrastima, mentre valori positivi suggeriscono una sottostima.
In terzo luogo, la calibrazione moderata implica che i rischi stimati corrispondono alle proporzioni osservate, ad esempio, tra i pazienti con un rischio stimato del 10%, 10 su 100 hanno o sviluppano l’evento. Questo viene valutato con una curva di calibrazione flessibile per mostrare la relazione tra il rischio stimato (sull’asse delle x) e la proporzione osservata di eventi (asse delle y), per esempio, usando funzioni loess o spline. Una curva vicina alla diagonale indica che i rischi previsti corrispondono bene alle proporzioni osservate. Mostriamo alcune curve teoriche in Fig. 1a,b, ognuna delle quali corrisponde a diverse intercette e pendenze di calibrazione. Si noti che un’intercetta di calibrazione vicina a 0 e una pendenza di calibrazione vicina a 1 non garantiscono che la curva di calibrazione flessibile sia vicina alla diagonale (vedere il file aggiuntivo 1 per un esempio). Per ottenere una curva di calibrazione precisa, è necessaria una dimensione del campione sufficientemente grande; è stato suggerito un minimo di 200 pazienti con e 200 pazienti senza l’evento, anche se sono necessarie ulteriori ricerche per studiare come fattori quali la prevalenza o l’incidenza della malattia influenzino la dimensione del campione richiesta. In piccoli set di dati, è difendibile valutare solo la calibrazione debole calcolando l’intercetta e la pendenza di calibrazione.
Quarto, calibrazione forte significa che il rischio previsto corrisponde alla proporzione osservata per ogni possibile combinazione di valori predittori; ciò implica che la calibrazione è perfetta ed è un obiettivo utopico.
Il test di Hosmer-Lemeshow comunemente usato è spesso presentato come un test di calibrazione, anche se ha molti svantaggi – si basa sul raggruppamento artificiale dei pazienti in strati di rischio, dà un valore P che è poco informativo rispetto al tipo e all’estensione della calibrazione, e soffre di bassa potenza statistica. Pertanto, si consiglia di non utilizzare il test di Hosmer-Lemeshow per valutare la calibrazione.
Come prevenire o correggere una cattiva calibrazione?
Quando si sviluppa un algoritmo predittivo, il primo passo comporta il controllo dell’overfitting statistico. È importante prespecificare la strategia di modellazione e assicurarsi che la dimensione del campione sia sufficiente per il numero di predittori considerati. In insiemi di dati più piccoli, le procedure che mirano a prevenire l’overfitting dovrebbero essere considerate, ad esempio, utilizzando tecniche di regressione penalizzate come la regressione Ridge o Lasso o utilizzando modelli più semplici. I modelli più semplici possono riferirsi a un minor numero di predittori, omettendo termini non lineari o di interazione, o utilizzando un algoritmo meno flessibile (ad esempio, regressione logistica invece di foreste casuali o limitando a priori il numero di neuroni nascosti in una rete neurale). Tuttavia, l’uso di modelli troppo semplici può ritorcersi contro (Additional file 1), e la penalizzazione non offre una soluzione miracolosa per l’incertezza in piccoli set di dati. Pertanto, in piccoli insiemi di dati, è ragionevole che un modello non venga sviluppato affatto. Inoltre, le procedure di validazione interna possono quantificare la pendenza della calibrazione. Nella validazione interna, la calibrazione-in-the-large è irrilevante poiché la media dei rischi previsti corrisponderà al tasso di eventi. Al contrario, la calibrazione-in-the-large è molto rilevante nella validazione esterna, dove spesso notiamo un mismatch tra i rischi previsti e quelli osservati.
Quando troviamo previsioni scarsamente calibrate nella validazione, l’aggiornamento dell’algoritmo dovrebbe essere considerato per fornire previsioni più accurate per i nuovi pazienti del setting di validazione. L’aggiornamento degli algoritmi basati sulla regressione può iniziare con la modifica dell’intercetta per correggere la calibrazione-in-the-large. Il refitting completo dell’algoritmo, come nel caso di studio seguente, migliorerà la calibrazione se il campione di validazione è relativamente grande. Presentiamo un’illustrazione dettagliata dell’aggiornamento del modello ROMA nel file aggiuntivo 1.
Caso di studio pubblicato sulla diagnosi di coronaropatia ostruttiva
Consideriamo un modello di regressione logistica per prevedere la coronaropatia ostruttiva (oCAD) in pazienti con dolore toracico stabile e senza una storia medica di oCAD . Il modello è stato sviluppato sui dati di 5677 pazienti reclutati in 18 centri europei e americani, di cui il 31% aveva oCAD. L’algoritmo è stato convalidato esternamente sui dati di 4888 pazienti a Innsbruck, Austria, di cui il 44% aveva l’oCAD. L’algoritmo aveva un AUC di 0,69. La calibrazione suggeriva una combinazione di previsioni di rischio sovrastimate (intercetta – 1,04) e troppo estreme (pendenza 0,63) (Fig. 2a). La calibrazione è stata migliorata dal refitting del modello, cioè ristimando i coefficienti dei predittori (Fig. 2b).
0 commenti