La potencia de un experimento es la probabilidad de que pueda detectar un efecto del tratamiento, si está presente.
Los seis factores que se enumeran aquí están íntimamente relacionados, de modo que si conocemos cinco de ellos podemos estimar el sexto.
- Potencia
- Tamaño de la muestra,
- Variabilidad interindividual,
- La magnitud de la respuesta a un tratamiento,
- El nivel de significación y
- La hipótesis alternativa
- La hipótesis alternativa
La hipótesis nula es que las medias de los dos grupos no difieren.
La hipótesis alternativa puede ser que sí difieren (dos caras), o que difieren en una dirección particular, por ejemplo, que la media del grupo tratado es mayor que la media de los controles (una cara) - El nivel de significación
Como se ha explicado anteriormente, suele establecerse en 0,05, pero esto es bastante arbitrario. Es la probabilidad de un resultado falso positivo - La potencia
Es la probabilidad de que pueda detectar el efecto que especifica (la señal). Probablemente querrá una potencia alta, por lo que suele fijarse en 0,8 o 0,9 (80% o 90%). Pero la potencia más alta requerirá un tamaño de muestra mayor - El tamaño de la muestra
Es el número en cada grupo. Normalmente es lo que queremos estimar. Sin embargo, a veces sólo tenemos un número fijo de sujetos, en cuyo caso se puede utilizar el análisis de potencia para estimar la potencia o el tamaño del efecto. - Decide tu hipótesis alternativa. Esta será que las medias difieren (dos caras) o que difieren en una dirección particular (una cara). El valor predeterminado es de dos caras.
- Decida el nivel de significación que piensa utilizar. Asumiremos un 5%.
- Decida qué potencia desea (es decir, la probabilidad de detectar un efecto real si está presente).
- Si las consecuencias de no detectar el efecto (un error de tipo II) podrían ser graves, como en las pruebas de toxicidad, podría querer una potencia relativamente alta, como el 90%.
- En estudios fundamentales en los que sólo nos interesan los efectos grandes, un error de tipo II puede no tener consecuencias tan graves. Una potencia del 80% puede ser suficiente para captar grandes efectos y se necesitarán menos sujetos.
- Obtener una estimación del ruido, es decir, la desviación estándar del carácter de interés. Esto debe provenir de un estudio previo, de la literatura o de un estudio piloto. Si se recurre a la bibliografía, lo mejor es consultar varios artículos y hacer una media (posiblemente informal) o una «estimación». A menudo es útil hacer un análisis de potencia en el «mejor» y en el «peor» caso.
- Estime la señal (tamaño del efecto) que podría interesarle. Qué tan grande sería la diferencia entre las dos medias de interés científico o clínico? Si la diferencia es pequeña, probablemente no le interese especialmente. Si es grande, entonces ciertamente querrá ser capaz de detectarla. La señal es el límite entre estas dos alternativas. Si la respuesta es mayor, entonces habrá una posibilidad aún mayor de detectarla.
- Calcule el tamaño del efecto estandarizado (relación señal/ruido) = (Media1-Media2)/SD.
- La tabla (derecha) muestra la relación señal/ruido en el rango de 0,2 a 3,0 y el tamaño de la muestra necesario para una potencia del 80% y del 90%, suponiendo un nivel de significación del 5% y una prueba de dos caras.
- Si se miden muchos caracteres puede no estar claro cuál es el más importante
- Puede que no haya una estimación de la desviación estándar si el carácter no ha sido medido previamente
- En investigación fundamental puede ser imposible especificar un tamaño del efecto que probablemente tenga importancia científica
- Un análisis de potencia es difícil con experimentos complejos que implican muchos grupos de tratamiento y posibles interacciones.
Un «análisis de potencia» se utiliza a menudo para determinar el tamaño de la muestra. El uso de demasiados animales (u otras unidades experimentales) desperdicia animales, dinero, tiempo y esfuerzo, y no es ético. Pero si se utilizan muy pocos animales, el experimento puede carecer de potencia y pasar por alto una respuesta científicamente importante al tratamiento. Esto también desperdicia recursos y podría tener graves consecuencias, sobre todo en la evaluación de la seguridad.
La hipótesis nula
En un experimento controlado el objetivo suele ser comparar dos o más medias (o a veces medianas o proporciones). Normalmente establecemos una «hipótesis nula» de que no hay diferencia entre las medias, y el objetivo de nuestro experimento es refutar esa hipótesis nula.
Sin embargo, como resultado de la variabilidad interindividual podemos cometer un error. Si no encontramos una diferencia verdadera, entonces tenemos un resultado falso negativo, también conocido como error de tipo II o beta. Por el contrario, si pensamos que hay una diferencia cuando en realidad sólo se debe a una variación muestral fortuita, entonces tenemos un falso positivo, error de tipo I o alfa. Estos se muestran en la siguiente tabla
Los errores de tipo I se controlan eligiendo el nivel de significación. Un nivel del 5% significa que, de media, 1/20 comparaciones serán «significativas» cuando sólo se deben a la variación muestral
El control de los errores de tipo II es más difícil, ya que depende de la relación entre varias variables, las más importantes de las cuales son la «señal» (diferencia entre las medias de los grupos), el «ruido» (variabilidad interindividual) y el tamaño de la muestra. A menudo podemos utilizar un análisis de potencia para estimar el tamaño de la muestra necesario, como se explica a continuación.
Análisis de potencia
La figura muestra las seis variables que intervienen en un análisis de potencia. Están interrelacionadas de forma que si se especifica alguna de las cinco, se puede estimar la sexta.
Normalmente, el análisis de potencia se utiliza para estimar el tamaño de la muestra. Pero si éste es fijo (por ejemplo, sólo se dispone de 20 sujetos) entonces se puede utilizar para estimar la señal o la potencia de un experimento propuesto.
La señal
Es la magnitud de la diferencia entre las medias de los dos grupos (M1-M2) que puede tener importancia clínica o científica. Tiene que ser especificada por el investigador.
Una pequeña diferencia puede no ser de mucho interés. Una grande sí lo será. ¿Cuál es el punto de corte por debajo del cual la diferencia es de poco interés?
En la investigación aplicada debería ser posible especificar un tamaño del efecto. pero en la investigación fundamental puede que sólo quiera saber si hay diferencias entre los dos grupos.
En este caso tendrá que utilizar otro método para determinar el tamaño de la muestra como la Ecuación de Recursos (ver más adelante). Pero si tiene una estimación de la desviación estándar, vale la pena hacer un análisis de potencia para estimar el tamaño del efecto que probablemente pueda detectar para el tamaño de la muestra que decida utilizar. Si no detecta un efecto estadísticamente significativo, podrá decir algo como «si el efecto hubiera sido tan grande como XX desviaciones estándar, habría tenido (digamos) un 90% de posibilidades de detectarlo». Recuerde que si especifica cinco de las variables anteriores puede estimar la sexta. Así que en la práctica puede estimar el tamaño de la muestra o el tamaño del efecto o la potencia (es menos probable que quiera estimar las otras dos variables).
El ruido
Es la variación entre los sujetos experimentales, expresada como la desviación estándar (en el caso de los caracteres de medida). Debe proceder de estudios anteriores o de un estudio piloto. Si no se dispone de una buena estimación, puede valer la pena hacer un análisis de potencia con una estimación baja y otra alta para ver qué diferencia supone para el tamaño de muestra estimado
No es necesario estimar el ruido cuando se comparan dos proporciones. Basta con especificar las otras variables.
La relación señal/ruido
También se conoce como «tamaño del efecto estandarizado» o «d de Cohen». A veces se utiliza como indicación general de la magnitud de un efecto. Por ejemplo, Cohen en su libro «Statistical power analysis for the behavioral sciences». Hillsdale N.J.: Lawrence Erlbaum Associates, 1988, sugirió que los valores de d de 0,2, 0,4 o 0,8 deberían considerarse como tamaños de efecto «pequeños», «medianos» y «grandes» respectivamente en la investigación psicológica. Sin embargo, en los trabajos con animales de laboratorio suelen observarse efectos mucho mayores, porque el ruido suele estar muy bien controlado. En este caso, los efectos pequeños, medianos y grandes podrían fijarse de forma más realista en d= 0,5, 1,0 y 1,5, respectivamente.
Las otras variables
Determinar el tamaño de la muestra mediante el análisis de potencia
Suponga que planea un experimento con sólo dos grupos (Tratado y Control) y que va a medir un carácter métrico.
Tu hipótesis nula es que no hay diferencia entre las medias de los dos grupos. Los pasos que debes seguir son los siguientes:
|
¿Y si hay más de dos grupos?
Técnicamente es posible hacer un análisis de potencia para un análisis de varianza con varios grupos de tratamiento. El problema es especificar un tamaño del efecto de importancia clínica o científica cuando hay tres o más grupos. Una alternativa es potenciar el experimento asumiendo una prueba t en los dos grupos que probablemente sean más extremos, como el control y la dosis máxima (suponiendo que haya tales grupos). Esto significaría que si la respuesta es más fuerte de lo esperado, entonces las diferencias entre el control y un grupo intermedio serían estadísticamente significativas.
Otra alternativa sería especificar un tamaño del efecto «pequeño», «medio» o «grande» (posiblemente d=0,5, 1,0 o 1,5 en el caso de los animales de laboratorio) y el número de grupos de tratamiento y utilizar el programa G*Power (más abajo) para estimar el tamaño de las muestras. A continuación se muestra una captura de pantalla de dicho cálculo para un experimento con cinco grupos de tratamiento con un tamaño del efecto de 1,0, una potencia de 0,9 y un nivel de significación de 0,05. Esto requeriría 25 animales.
G*Power también aceptará las medias estimadas de los cuatro grupos que serían de interés científico si se encontraran junto con una estimación conjunta de la desviación estándar, y hará el análisis de potencia sobre eso.
Análisis de potencia para comparar dos porcentajes (o proporciones
Un análisis de potencia para comparar dos proporciones requiere las proporciones de control esperadas, (p1) la proporción o respondedores en el grupo tratado que daría una diferencia de importancia clínica o científica (p2), la potencia especificada y los niveles de significación. La tabla siguiente muestra los números necesarios en cada grupo para una potencia del 80% y un nivel de significación del 5%. Tenga en cuenta que en algunos casos se necesitan números grandes.
Un sitio web que hará los cálculos
Haga clic en la flecha de abajo para ver un documento pdf que da más detalles sobre el análisis de potencia.
Aunque probablemente haya suficiente información en la tabla de arriba y en el ejemplo de abajo para que pueda estimar el tamaño de la muestra que necesita, puede hacer clic abajo para acceder a un sitio web que hará los cálculos por usted.
Haga clic aquí http://www.biomath.info
Un programa gratuito para el cálculo de la potencia
Un programa gratuito G*Power incluye cálculos para la prueba t, la prueba F (análisis de varianza de una vía) y otros. Se puede descargar de esta web
Un ejemplo de comparación de dos medias
Un veterinario quiere comparar el efecto sobre la presión arterial de dos anestésicos para perros en condiciones clínicas. Ha publicado algunos datos preliminares. Los perros eran animales sanos no sexuados que pesaban entre 3,8 y 42,6 kg. La presión arterial sistólica media era de 141 mm Hg con una ddesviación estándar de 36mm, (el ruido)
Suponga:
1. Una diferencia en la presión arterial de 20 mmHg (la señal) o más sería de importancia clínica (una decisión clínica no estadística).
2. Un nivel de significación de 0,05,
3. Una potencia del 90%
4. Y una prueba t de 2 lados,
Entonces la relación señal/ruido sería 20/36 = 0.56
De la tabla anterior, el tamaño de muestra necesario para una relación señal/ruido de 0,6 es de unos 59 perros/grupo.
(Tenga en cuenta que no se necesita una gran precisión, ya que hay incertidumbres en las estimaciones de la desviación estándar y el tamaño del efecto de importancia clínica). Sin embargo, hay muchos paquetes de software estadístico que harán los cálculos. El resultado que se muestra a continuación se realiza con el paquete estadístico R para este conjunto de datos. En este caso, «delta» es la relación señal/ruido y la desviación estándar se establece en uno, pero la señal y el ruido podrían haberse puesto por separado. Tenga en cuenta que el tamaño de la muestra debe redondearse a un número entero. (Obsérvese que un pequeño cambio en la relación señal/ruido de 0,6 a 0,56 supone una gran diferencia en las estimaciones: de 59 a 68 perros por grupo).
Sesenta y ocho perros por grupo (132 en total) son muchos perros y el uso de esos animales llevaría mucho tiempo.
Una alternativa
En la misma revista un investigador trabajaba con Beagles machos de 17-23 kg. Estos tenían una media de PA de 108 mm Hg. con una DE de 9 mm.
Supongamos que una diferencia de 20mm entre grupos tendría importancia clínica (como antes). Con las mismas suposiciones que antes, la relación señal/ruido es de 20/9 = 2,22 Esto es sólo 6/grupo con una potencia del 90% (véase la tabla anterior).
Entonces, al utilizar animales uniformes el número necesario se reduce a 1/11. en comparación con los perros aleatorios. La siguiente tabla resume la situación. También muestra que si el veterinario siguiera adelante y utilizara los perros aleatorios con ocho perros por grupo, entonces sólo habría habido un 18% de posibilidades de detectar una diferencia de 20 mm en las medias entre los dos grupos.
Esto plantea un problema. Se puede considerar que los beagles representan a los «perros»?
¿Y hay alguna razón para usar animales genéticamente heterogéneos si lo único que hace es aumentar el ruido y reducir la potencia del experimento, llevando a resultados falsos negativos?
Enfoques alternativos
No tendría sentido seguir adelante y hacer el experimento simplemente usando los perros heterogéneos. Pero hay algunas alternativas obvias.
1. Si cada perro pudiera recibir ambos anestésicos (digamos en orden aleatorio en días diferentes), entonces sería posible utilizar un pequeño número de perros incluso bastante heterogéneos, asumiendo que no hay diferencias raciales importantes en la respuesta. Técnicamente, esto sería un diseño de bloques aleatorios (discutido más adelante)
2. Si se piensa que puede haber diferencias de raza en la respuesta, entonces el veterinario podría restringir el estudio utilizando un pequeño número de animales de varias (digamos 3-4) razas en un diseño experimental «factorial», discutido más adelante. En la medida de lo posible, debería haber el mismo número de animales en cada grupo. Esto indicaría si los dos anestésicos difieren en general y si hay que tener en cuenta las diferencias de raza a la hora de elegir uno de estos anestésicos.
La ecuación de recursos: otro método para determinar el tamaño de la muestra
Un análisis de potencia no siempre es posible.
Una alternativa es el método de la «Ecuación de Recursos». Este depende de la ley de los rendimientos decrecientes. Necesita una estimación de E:
E= (Número total de unidades experimentales)-(número de grupos de tratamiento)
Y E debe estar entre 10 y 20
Esto no es un límite absoluto. Puede haber un caso para que E sea mayor si conduce a un diseño más equilibrado, el coste probable de un error de tipo II es alto, los procedimientos son muy suaves o se trata de un experimento in vitro sin implicaciones éticas
E es el número de grados de libertad en un análisis de varianza (ANOVA). Se basa en la necesidad de obtener una estimación adecuada de la desviación estándar.
El gráfico de arriba a la derecha muestra la cantidad de información en una muestra de datos en función de E. La curva sube de forma pronunciada, luego se reduce y casi se ha aplanado en el momento en que E=10, y hay poco beneficio adicional de seguir mucho más allá de 20. Sin embargo, si las unidades experimentales son baratas (como las placas de cultivo de tejidos) entonces
Suponga que decide hacer un experimento con cuatro grupos de tratamiento (un control y tres niveles de dosis) y ocho animales por grupo. Entonces:
E= 32 – 4 = 28. Así que esto es innecesariamente grande.
Con seis animales por grupo E=20, lo que es aceptable
Este método es fácil de usar, puede usarse cuando hay muchos resultados, no requiere estimaciones del tamaño del efecto de importancia clínica o científica, y no requiere una estimación de la desviación estándar. Pero es tosco en comparación con el análisis de potencia.
0 comentarios