La potenza di un esperimento è la probabilità che possa rilevare un effetto di trattamento, se è presente.
I sei fattori qui elencati sono intimamente legati, così che se ne conosciamo cinque possiamo stimare il sesto.
- Potenza
- Dimensione del campione,
- Variabilità interindividuale,
- La grandezza della risposta ad un trattamento,
- Il livello di significatività e
- L’ipotesi alternativa
Una “analisi di potenza” è spesso usata per determinare la dimensione del campione. L’uso di troppi animali (o altre unità sperimentali) spreca animali, denaro, tempo e fatica, e non è etico. Ma se si usano troppo pochi animali, l’esperimento può mancare di potenza e perdere una risposta scientificamente importante al trattamento. Anche questo spreca risorse e potrebbe avere gravi conseguenze, in particolare nella valutazione della sicurezza.
L’ipotesi nulla
In un esperimento controllato lo scopo è solitamente quello di confrontare due o più medie (o talvolta mediane o proporzioni). Normalmente stabiliamo una “ipotesi nulla” che non c’è differenza tra le medie, e lo scopo del nostro esperimento è quello di confutare questa ipotesi nulla.
Tuttavia, a causa della variabilità interindividuale, potremmo commettere un errore. Se non riusciamo a trovare una vera differenza, allora abbiamo un falso risultato negativo, noto anche come errore di tipo II o beta. Al contrario, se pensiamo che ci sia una differenza quando in realtà è solo dovuta alla variazione casuale del campione, allora abbiamo un falso positivo, un errore di tipo I o alfa. Questi sono mostrati nella tabella sottostante
Gli errori di tipo I sono controllati scegliendo il livello di significatività. Un livello del 5% significa che in media 1/20 dei confronti saranno “significativi” quando sono solo dovuti alla variazione del campione
Il controllo degli errori di tipo II è più difficile perché dipende dalla relazione tra diverse variabili, le più importanti delle quali sono il “segnale” (differenza tra le medie dei gruppi), il “rumore” (variabilità inter-individuale) e la dimensione del campione. Possiamo spesso utilizzare un’analisi della potenza per stimare la dimensione del campione necessaria, come discusso di seguito.
Analisi della potenza
La figura mostra le sei variabili coinvolte in un’analisi della potenza. Sono interrelate in modo tale che se cinque di esse sono specificate, la sesta può essere stimata.
Normalmente, l’analisi di potenza è usata per stimare la dimensione del campione. Ma se questa è fissa (per esempio, sono disponibili solo 20 soggetti), allora può essere usata per stimare il segnale o la potenza di un esperimento proposto.
Il segnale
Questa è la grandezza della differenza tra le medie dei due gruppi (M1-M2) che può avere un’importanza clinica o scientifica. Deve essere specificato dallo sperimentatore.
Una piccola differenza può non essere di grande interesse. Una grande lo sarà. Qual è il cutoff al di sotto del quale la differenza è di scarso interesse?
Nella ricerca applicata dovrebbe essere possibile specificare una dimensione dell’effetto. ma nella ricerca fondamentale si può solo voler sapere se ci sono differenze tra i due gruppi.
In questo caso dovrete usare un altro metodo per determinare la dimensione del campione come l’equazione della risorsa (vedi più avanti). Ma se avete una stima della deviazione standard, vale ancora la pena fare un’analisi della potenza per stimare la dimensione dell’effetto che probabilmente sarete in grado di rilevare per la dimensione del campione che decidete di utilizzare. Se poi non riuscite a rilevare un effetto statisticamente significativo, sarete in grado di dire qualcosa come “se l’effetto fosse stato grande quanto XX deviazioni standard avrei avuto (diciamo) il 90% di possibilità di rilevarlo”. Ricordate, se specificate cinque delle variabili di cui sopra, potete stimare la sesta. Quindi in pratica potete stimare la dimensione del campione o la dimensione dell’effetto o la potenza (è meno probabile che vogliate stimare le altre due variabili).
Il rumore
Questa è la variazione tra i soggetti sperimentali, espressa come deviazione standard (nel caso dei caratteri di misura). Deve provenire da studi precedenti o da uno studio pilota. Se non è disponibile una buona stima, può comunque valere la pena di fare un’analisi di potenza con una stima bassa e una alta per vedere che differenza fa sulla dimensione stimata del campione
Il rumore non ha bisogno di essere stimato quando si confrontano due proporzioni. È sufficiente specificare le altre variabili.
Il rapporto segnale/rumore
Questo è anche conosciuto come “dimensione dell’effetto standardizzato” o “d di Cohen”. A volte è usato come indicazione generale della grandezza di un effetto. Per esempio, Cohen nel suo libro “Statistical power analysis for the behavioral sciences”. Hillsdale N.J.: Lawrence Erlbaum Associates, 1988 suggerisce che valori di d di 0,2, 0,4 o 0,8 dovrebbero essere considerati come dimensioni di effetto “piccole”, “medie” e “grandi” rispettivamente nella ricerca psicologica. Tuttavia, nel lavoro con gli animali da laboratorio si vedono di solito effetti molto più grandi, perché il rumore è di solito così ben controllato. In questo caso gli effetti piccoli, medi e grandi potrebbero essere più realisticamente fissati a d= 0.5, 1.0 e 1.5, rispettivamente.
Le altre variabili
- L’ipotesi alternativa
L’ipotesi nulla è che le medie dei due gruppi non differiscano.
L’ipotesi alternativa può essere che differiscano (a due facce), o che differiscano in una particolare direzione, ad esempio che la media del gruppo trattato sia maggiore di quella dei controlli (a una faccia) - Il livello di significatività
Come spiegato precedentemente, questo è di solito fissato a 0,05, ma questo è abbastanza arbitrario. È la probabilità di un risultato falso positivo - La potenza
Questa è la probabilità che sarete in grado di rilevare l’effetto specificato (il segnale). Probabilmente vorrete una potenza elevata, quindi è spesso impostata a 0,8 o 0,9 (80% o 90%). Ma la potenza più alta richiederà una dimensione del campione più grande - La dimensione del campione
Questo è il numero in ogni gruppo. Di solito è quello che vogliamo stimare. Tuttavia, a volte abbiamo solo un numero fisso di soggetti, nel qual caso l’analisi di potenza può essere utilizzata per stimare la potenza o la dimensione dell’effetto.
Determinazione della dimensione del campione tramite analisi di potenza
Supponiamo che si pianifichi un esperimento con due soli gruppi (trattato e controllo) e che si misuri un carattere metrico.
La vostra ipotesi nulla è che non ci sia differenza tra le medie dei due gruppi. I passi che dovete fare sono i seguenti:
|
- Decidete la vostra ipotesi alternativa. Questa sarà o che i mezzi differiscono (a due facce) o che differiscono in una particolare direzione (a una faccia). L’impostazione predefinita è bilaterale.
- Decidete il livello di significatività che intendete utilizzare. Assumeremo il 5%.
- Decidete quale potenza volete (cioè la possibilità di rilevare un effetto reale se è presente).
- Se le conseguenze del mancato rilevamento dell’effetto (un errore di tipo II) potrebbero essere gravi, come nei test di tossicità, si potrebbe desiderare una potenza relativamente alta come il 90%.
- Negli studi fondamentali in cui possiamo essere interessati solo a grandi effetti un errore di tipo II potrebbe non avere conseguenze così gravi. Una potenza dell’80% può essere sufficiente per catturare grandi effetti e saranno necessari meno soggetti.
- Ottieni una stima del rumore, cioè la deviazione standard del carattere di interesse. Questo deve provenire da uno studio precedente, dalla letteratura o da uno studio pilota. Se si utilizza la letteratura, può essere meglio guardare diversi articoli e prendere una sorta di media (possibilmente informale) o una “stima”. Spesso è utile fare un’analisi della potenza nel “migliore” e nel “peggiore” dei casi.
- Stima il segnale (dimensione dell’effetto) che potrebbe interessarti. Quanto grande sarebbe una differenza tra le due medie di interesse scientifico o clinico? Se la differenza è solo piccola, probabilmente non vi interessa particolarmente. Se è grande, allora volete certamente essere in grado di rilevarla. Il segnale è il cutoff tra queste due alternative. Se la risposta è più grande, allora ci sarà una possibilità ancora maggiore di rilevarla.
- Calcolare la dimensione dell’effetto standardizzato (rapporto segnale/rumore) = (Mean1-Mean2)/SD.
- La tabella (a destra) mostra il rapporto S/N nell’intervallo da 0,2 a 3,0 e la dimensione del campione richiesta per l’80% e il 90% della potenza, assumendo un livello di significatività del 5% e un test a due lati.
E se ci sono più di due gruppi?
È tecnicamente possibile fare un’analisi di potenza per un’analisi della varianza con più gruppi di trattamento. Il problema è specificare una dimensione dell’effetto di importanza clinica o scientifica quando ci sono tre o più gruppi. Un’alternativa è quella di alimentare l’esperimento assumendo un t-test sui due gruppi che probabilmente saranno più estremi, come il controllo e la dose superiore (supponendo che ci siano tali gruppi). Questo significherebbe che se la risposta è più forte del previsto, allora le differenze tra il controllo e un gruppo intermedio diventerebbero statisticamente significative.
Un’altra alternativa sarebbe quella di specificare una dimensione dell’effetto “piccola”, “media” o “grande” (possibilmente d=0.5, 1.0 o 1.5 nel caso di animali da laboratorio) e il numero di gruppi di trattamento e usare il programma G*Power (sotto) per stimare le dimensioni del campione. Una schermata di tale calcolo per un esperimento con cinque gruppi di trattamento con una dimensione dell’effetto di 1,0, una potenza di 0,9 e un livello di significatività di 0,05 è mostrata qui sotto. Questo richiederebbe 25 animali.
G*Power accetterà anche le medie stimate dei quattro gruppi che sarebbero di interesse scientifico se fossero trovate insieme a una stima aggregata della deviazione standard, e farà l’analisi di potenza su questo.
Analisi di potenza per confrontare due percentuali (o proporzioni
Un’analisi di potenza per confrontare due proporzioni richiede le proporzioni di controllo previste, (p1) la proporzione o i rispondenti nel gruppo trattato che darebbe una differenza di importanza clinica o scientifica (p2), la potenza specificata e i livelli di significatività. La tabella qui sotto mostra i numeri necessari in ogni gruppo per una potenza dell’80% e un livello di significatività del 5%. Si noti che in alcuni casi sono necessari grandi numeri.
Un sito web che farà i calcoli
Clicca la freccia qui sotto per un documento in pdf che fornisce maggiori dettagli sull’analisi di potenza.
Anche se le informazioni fornite nella tabella qui sopra e nell’esempio qui sotto sono probabilmente sufficienti per stimare la dimensione del campione richiesto, potete cliccare qui sotto per un sito web che farà i calcoli per voi.
Clicca qui http://www.biomath.info
Un programma gratuito per i calcoli di potenza
Un programma gratuito G*Power include calcoli per il t-test, F-test (analisi unidirezionale della varianza) e altri. Può essere scaricato da questo sito web
Un esempio di confronto tra due mezzi
Un veterinario vuole confrontare l’effetto sulla pressione sanguigna di due anestetici per cani in condizioni cliniche. Ha pubblicato alcuni dati preliminari. I cani erano animali sani senza sesso che pesavano da 3,8 a 42,6 kg. La pressione sanguigna sistolica media era di 141 mm Hg con una deviazione standard di 36 mm, (il rumore)
Assumere:
1. Una differenza di pressione sanguigna di 20 mmHg (il segnale) o più sarebbe di importanza clinica (una decisione clinica non statistica).
2. Un livello di significatività di 0,05,
3. Una potenza del 90%
4. E un test t a 2 lati,
Quindi il rapporto segnale/rumore sarebbe 20/36 = 0.56
Dalla tabella precedente la dimensione del campione richiesta per un rapporto S/N di 0,6 è di circa 59 cani/gruppo.
(Si noti che non è necessaria una grande precisione in quanto vi sono incertezze nelle stime della deviazione standard e della dimensione dell’effetto di importanza clinica). Tuttavia ci sono molti pacchetti software statistici che faranno i calcoli. L’output qui sotto è fatto usando il pacchetto statistico R per questo set di dati. In questo caso “delta” è il rapporto segnale/rumore e la SD è impostata come uno, ma il segnale e il rumore avrebbero potuto essere inseriti separatamente. Notate che la dimensione del campione deve essere arrotondata a un numero intero. (Si noti che un piccolo cambiamento nel rapporto S/N da 0,6 a 0,56 fa una bella differenza nelle stime: da 59 a 68 cani per gruppo).
Sessantotto cani per gruppo (132 in totale) sono molti e l’utilizzo di tali animali richiederebbe molto tempo.
Un’alternativa
Nella stessa rivista un ricercatore stava lavorando con Beagle maschi di 17-23 kg. Questi avevano una pressione media di 108 mm Hg. con una SD di 9 mm.
Assumiamo che una differenza di 20 mm tra i gruppi sarebbe di importanza clinica (come prima). Con le stesse ipotesi di cui sopra, il rapporto segnale/rumore è 20/9 = 2,22 Questo è solo 6/gruppo con una potenza del 90% (vedi tabella sopra).
Quindi, utilizzando animali uniformi il numero necessario si riduce a 1/11 rispetto ai cani casuali. La tabella qui sotto riassume la situazione. Mostra anche che se il veterinario ha continuato ad usare i cani casuali con otto cani per gruppo, allora ci sarebbe stato solo il 18% di possibilità di rilevare una differenza di 20 mm nelle medie tra i due gruppi.
Questo pone un problema. I Beagle possono essere considerati come rappresentanti di “cani”?
Ed è mai il caso di usare animali geneticamente eterogenei se tutto ciò che fa è aumentare il rumore e ridurre la potenza dell’esperimento, portando a risultati falsi negativi?
Approcci alternativi
Non avrebbe senso andare avanti e fare l’esperimento semplicemente usando i cani eterogenei. Ma ci sono alcune alternative ovvie.
1. Se ad ogni cane potessero essere somministrati entrambi gli anestetici (diciamo in ordine casuale in giorni diversi), allora sarebbe possibile utilizzare piccoli numeri di cani anche piuttosto eterogenei, assumendo che non ci siano importanti differenze di razza nella risposta. Tecnicamente, questo sarebbe un disegno a blocchi randomizzato (discusso più avanti)
2. Se si pensa che ci possano essere differenze di razza nella risposta, allora il veterinario potrebbe limitare lo studio utilizzando piccoli numeri di animali di diverse (diciamo 3-4) razze in un disegno sperimentale “fattoriale”, discusso più avanti. Per quanto possibile ci dovrebbe essere un numero uguale in ogni gruppo. Questo indicherebbe se i due anestetici differiscono nel complesso e se le differenze di razza devono essere prese in considerazione quando si sceglie uno di questi anestetici.
L’equazione delle risorse: un altro metodo per determinare la dimensione del campione
Un’analisi della potenza non è sempre possibile.
- Se si misurano molti caratteri può non essere chiaro quale sia il più importante
- Può non esserci una stima della deviazione standard se il carattere non è stato misurato in precedenza
- In ricerca fondamentale può essere impossibile specificare una dimensione dell’effetto che possa essere di importanza scientifica
- Un’analisi della potenza è difficile con esperimenti complessi che coinvolgono molti e possibili interazioni.
Un’alternativa è il metodo “Resource Equation”`. Questo dipende dalla legge dei rendimenti decrescenti. Ha bisogno di una stima di E:
E= (numero totale di unità sperimentali)-(numero di gruppi di trattamento)
E E dovrebbe essere tra 10 e 20
Questo non è un limite assoluto. Ci può essere il caso che E sia più alto se porta ad un disegno più equilibrato, il costo probabile di un errore di tipo II è alto, le procedure sono molto blande o si tratta di un esperimento in vitro senza implicazioni etiche
E è il numero di gradi di libertà in un’analisi della varianza (ANOVA). Si basa sulla necessità di ottenere una stima adeguata della deviazione standard.
Il grafico in alto a destra mostra la quantità di informazioni in un campione di dati in funzione di E. La curva sale ripidamente, poi scende e si è quasi appiattita nel momento in cui E=10, e c’è poco beneficio in più nel proseguire molto oltre 20. Tuttavia, se le unità sperimentali sono poco costose (come i piatti per la coltura dei tessuti) allora
Supponiamo che si decida di fare un esperimento con quattro gruppi di trattamento (un controllo e tre livelli di dose) e otto animali per gruppo. Allora:
E= 32 – 4 = 28. Quindi questo è inutilmente grande.
Con sei animali per gruppo E=20, che è accettabile
Questo metodo è facile da usare, può essere usato quando ci sono molti risultati, non richiede stime della dimensione dell’effetto di importanza clinica o scientifica, e non richiede una stima della deviazione standard. Ma è rozzo rispetto all’analisi di potenza.
0 commenti