La puissance d’une expérience est la probabilité qu’elle puisse détecter un effet de traitement, s’il est présent.
Les six facteurs énumérés ici sont intimement liés, de sorte que si nous en connaissons cinq, nous pouvons estimer le sixième.
- Puissance
- Taille de l’échantillon,
- Variabilité interindividuelle,
- Amplitude de la réponse à un traitement,
- Le niveau de signification et
- L’hypothèse alternative
Une « analyse de puissance » est souvent utilisée pour déterminer la taille de l’échantillon. L’utilisation d’un trop grand nombre d’animaux (ou d’autres unités expérimentales) entraîne un gaspillage d’animaux, d’argent, de temps et d’efforts, et est contraire à l’éthique. Mais si l’on utilise trop peu d’animaux, l’expérience peut manquer de puissance et passer à côté d’une réponse scientifiquement importante au traitement. Cela gaspille également des ressources et pourrait avoir de graves conséquences, notamment dans l’évaluation de la sécurité.
L’hypothèse nulle
Dans une expérience contrôlée, l’objectif est généralement de comparer deux ou plusieurs moyennes (ou parfois des médianes ou des proportions). Nous établissons normalement une « hypothèse nulle » selon laquelle il n’y a pas de différence entre les moyennes, et le but de notre expérience est de réfuter cette hypothèse nulle.
Cependant, en raison de la variabilité interindividuelle, nous pouvons commettre une erreur. Si nous ne parvenons pas à trouver une vraie différence, nous avons alors un résultat faussement négatif, également connu sous le nom d’erreur de type II ou bêta. À l’inverse, si nous pensons qu’il y a une différence alors qu’en fait elle est juste due à une variation aléatoire de l’échantillonnage, alors nous avons un faux positif, une erreur de type I ou alpha. Celles-ci sont présentées dans le tableau ci-dessous
Les erreurs de type I sont contrôlées par le choix du niveau de signification. Un niveau de 5% signifie qu’en moyenne 1/20 des comparaisons seront « significatives » alors qu’elles sont juste dues à la variation d’échantillonnage
Le contrôle des erreurs de type II est plus difficile car il dépend de la relation entre plusieurs variables dont les plus importantes sont le « signal » (différence entre les moyennes des groupes), le « bruit » (variabilité interindividuelle) et la taille de l’échantillon. Nous pouvons souvent utiliser une analyse de puissance pour estimer la taille de l’échantillon nécessaire, comme nous le verrons ci-dessous.
Power analysis
La figure montre les six variables impliquées dans une analyse de puissance. Elles sont liées entre elles de telle sorte que si cinq d’entre elles sont spécifiées, la sixième peut être estimée.
Normalement, l’analyse de puissance est utilisée pour estimer la taille de l’échantillon. Mais si celle-ci est fixe (par exemple, seuls 20 sujets sont disponibles), alors elle peut être utilisée pour estimer le signal ou la puissance d’une expérience proposée.
Le signal
C’est l’ampleur de la différence entre les moyennes des deux groupes (M1-M2) qui est susceptible d’avoir une importance clinique ou scientifique. Elle doit être précisée par l’investigateur.
Une petite différence peut ne pas être d’un grand intérêt. Une grande le sera. Quel est le seuil en dessous duquel la différence présente peu d’intérêt ?
En recherche appliquée, il devrait être possible de spécifier une taille d’effet. mais en recherche fondamentale, on peut vouloir simplement savoir s’il existe des différences entre les deux groupes.
Dans ce cas, vous devrez utiliser une autre méthode pour déterminer la taille de l’échantillon, comme l’équation de la ressource (voir plus loin). Mais si vous disposez d’une estimation de l’écart-type, il est toujours utile de procéder à une analyse de puissance pour estimer la taille de l’effet que vous êtes susceptible de détecter pour la taille d’échantillon que vous décidez d’utiliser. Si vous ne parvenez pas à détecter un effet statistiquement significatif, vous pourrez dire quelque chose comme « si l’effet avait été aussi grand que XX écarts types, j’aurais eu (disons) 90 % de chances de le détecter ». N’oubliez pas que si vous spécifiez cinq des variables ci-dessus, vous pouvez estimer la sixième. Ainsi, en pratique, vous pouvez estimer la taille de l’échantillon ou la taille de l’effet ou la puissance (il est moins probable que vous souhaitiez estimer les deux autres variables).
Le bruit
Il s’agit de la variation entre les sujets expérimentaux, exprimée sous forme d’écart-type (dans le cas des caractères de mesure). Elle doit provenir d’études antérieures ou d’une étude pilote. Si aucune bonne estimation n’est disponible, il peut quand même être intéressant de faire une analyse de puissance avec une estimation basse et une estimation haute pour voir quelle différence cela fait sur la taille estimée de l’échantillon
Le bruit n’a pas besoin d’être estimé quand on compare deux proportions. Il suffit de préciser les autres variables.
Le rapport signal/bruit
Ce rapport est également appelé « taille d’effet standardisée » ou « d de Cohen ». Elle est parfois utilisée comme une indication générale de l’ampleur d’un effet. Par exemple, Cohen dans son livre « Statistical power analysis for the behavioral sciences ». Hillsdale N.J. : Lawrence Erlbaum Associates, 1988, a suggéré que des valeurs de d de 0,2, 0,4 ou 0,8 soient considérées comme des tailles d’effet « petites », « moyennes » et « grandes » respectivement dans la recherche psychologique. Cependant, dans les travaux sur les animaux de laboratoire, on observe généralement des effets beaucoup plus importants, car le bruit est généralement très bien contrôlé. Dans ce cas, les effets petits, moyens et grands pourraient être fixés de manière plus réaliste à d= 0,5, 1,0 et 1,5, respectivement.
Les autres variables
- L’hypothèse alternative
L’hypothèse nulle est que les moyennes des deux groupes ne diffèrent pas.
L’hypothèse alternative peut être qu’elles diffèrent (bilatérale), ou qu’elles diffèrent dans une direction particulière, par exemple que la moyenne du groupe traité est supérieure à celle des témoins (unilatérale) - Le niveau de signification
Comme expliqué précédemment, il est généralement fixé à 0,05, mais cela est assez arbitraire. Il s’agit de la probabilité d’un résultat faussement positif - La puissance
C’est la probabilité que vous puissiez détecter l’effet que vous spécifiez (le signal). Vous voudrez probablement une puissance élevée, c’est pourquoi elle est souvent fixée à 0,8 ou 0,9 (80% ou 90%). Mais la puissance plus élevée nécessitera une taille d’échantillon plus grande - La taille de l’échantillon
C’est le nombre dans chaque groupe. C’est généralement ce que nous voulons estimer. Cependant, nous n’avons parfois qu’un nombre fixe de sujets, auquel cas l’analyse de puissance peut être utilisée pour estimer la puissance ou la taille de l’effet.
Détermination de la taille de l’échantillon par l’analyse de puissance
Supposons que vous prévoyez une expérience avec seulement deux groupes (traité et témoin) et que vous allez mesurer un caractère métrique.
Votre hypothèse nulle est qu’il n’y a pas de différence entre les moyennes des deux groupes. Les étapes que vous devez suivre sont les suivantes :
|
- Décidez de votre hypothèse alternative. Ce sera soit que les moyennes diffèrent (bilatéral), soit qu’elles diffèrent dans une direction particulière (unilatéral). La valeur par défaut est bilatérale.
- Décidez du niveau de signification que vous comptez utiliser. Nous supposerons 5%.
- Décidez de la puissance que vous souhaitez (c’est-à-dire la chance de détecter un effet réel s’il est présent).
- Si les conséquences de l’absence de détection de l’effet (une erreur de type II) peuvent être graves, comme dans les tests de toxicité, vous pourriez vouloir une puissance relativement élevée, comme 90%.
- Dans les études fondamentales où nous pouvons n’être intéressés que par des effets importants, une erreur de type II peut ne pas avoir de conséquences aussi graves. Une puissance de 80 % peut être suffisante pour capter les effets importants et moins de sujets seront nécessaires.
- Obtenir une estimation du bruit, c’est-à-dire l’écart-type du caractère d’intérêt. Cela doit provenir d’une étude précédente, de la littérature ou d’une étude pilote. Si vous utilisez la littérature, il est préférable de consulter plusieurs articles et de faire une sorte de moyenne (éventuellement informelle) ou une « estimation ». Il est souvent utile de faire une analyse de puissance dans le « meilleur » et le « pire » des cas.
- Estimez le signal (taille de l’effet) qui pourrait vous intéresser. Quelle importance aurait une différence entre les deux moyennes qui présenterait un intérêt scientifique ou clinique ? Si la différence n’est que faible, elle ne vous intéresse probablement pas particulièrement. Si elle est importante, vous voulez certainement être en mesure de la détecter. Le signal est la limite entre ces deux possibilités. Si la réponse est plus importante, alors il y aura encore plus de chances de la détecter.
- Calculez la taille de l’effet standardisé (rapport signal/bruit) = (Moyenne1-Moyenne2)/DS.
- Le tableau (à droite) montre le rapport S/N sur la plage de 0,2 à 3,0 et la taille d’échantillon requise pour une puissance de 80 % et 90 % en supposant un niveau de signification de 5 % et un test bilatéral.
Qu’en est-il s’il y a plus de deux groupes ?
Il est techniquement possible de faire une analyse de puissance pour une analyse de variance avec plusieurs groupes de traitement. Le problème est de spécifier une taille d’effet d’importance clinique ou scientifique lorsqu’il y a trois groupes ou plus. Une alternative est d’évaluer la puissance de l’expérience en supposant un test t sur les deux groupes susceptibles d’être les plus extrêmes, comme le groupe témoin et la dose maximale (en supposant qu’il y ait de tels groupes). Cela signifierait que si la réponse est plus forte que prévu, alors les différences entre le contrôle et un groupe intermédiaire deviendraient statistiquement significatives.
Une autre alternative serait de spécifier une taille d’effet « petite », « moyenne » ou « grande » (éventuellement d=0,5, 1,0 ou 1,5 dans le cas des animaux de laboratoire) et le nombre de groupes de traitement et d’utiliser le programme G*Power (ci-dessous) pour estimer la taille des échantillons. Une capture d’écran d’un tel calcul pour une expérience avec cinq groupes de traitement avec une taille d’effet de 1,0, une puissance de 0,9 et un niveau de signification de 0,05 est présentée ci-dessous. Cela nécessiterait 25 animaux.
G*Power acceptera également les moyennes estimées des quatre groupes qui présenteraient un intérêt scientifique si elles étaient trouvées, ainsi qu’une estimation groupée de l’écart-type, et fera l’analyse de puissance sur cette base.
Analyse de puissance pour la comparaison de deux pourcentages (ou proportions
Une analyse de puissance pour la comparaison de deux proportions nécessite les proportions de contrôle attendues, (p1) la proportion ou les répondeurs dans le groupe traité qui donnerait une différence d’importance clinique ou scientifique (p2), la puissance spécifiée et les niveaux de signification. Le tableau ci-dessous indique les nombres nécessaires dans chaque groupe pour une puissance de 80% et un niveau de signification de 5%. Notez que de grands nombres sont nécessaires dans certains cas.
Un site web qui fera les calculs
Cliquez sur la flèche ci-dessous pour obtenir un document pdf donnant plus de détails sur l’analyse de puissance.
Bien qu’il y ait probablement suffisamment d’informations données dans le tableau ci-dessus et l’exemple ci-dessous pour que vous puissiez estimer la taille d’échantillon dont vous avez besoin, vous pouvez cliquer ci-dessous pour accéder à un site web qui fera les calculs pour vous.
Cliquez ici http://www.biomath.info
Un programme gratuit pour les calculs de puissance
Un programme gratuit G*Power comprend des calculs pour le test t, le test F (analyse de variance à sens unique) et autres. Il peut être téléchargé sur ce site web
Un exemple de comparaison de deux moyennes
Un vétérinaire veut comparer l’effet sur la pression artérielle de deux anesthésiques pour chiens dans des conditions cliniques. Il a publié quelques données préliminaires. Les chiens étaient des animaux sains non sexués pesant de 3,8 à 42,6 kg. La pression artérielle systolique moyenne était de 141 mm Hg avec une déviation standard de 36 mm, (le bruit)
Assume:
1. Une différence de pression artérielle de 20 mmHg (le signal) ou plus aurait une importance clinique (une décision clinique et non statistique).
2. Un niveau de signification de 0,05,
3. Une puissance de 90%
4. Et un test t bilatéral,
Alors le rapport signal/bruit serait de 20/36 = 0.56
D’après le tableau ci-dessus, la taille d’échantillon requise pour un rapport signal/bruit de 0,6 est d’environ 59 chiens/groupe.
(Notez qu’une grande précision n’est pas nécessaire car il existe des incertitudes dans les estimations de l’écart-type et de la taille de l’effet d’importance clinique). Il existe cependant de nombreux logiciels statistiques qui permettent d’effectuer ces calculs. La sortie ci-dessous est effectuée à l’aide du progiciel statistique R pour cet ensemble de données. Dans ce cas, « delta » est le rapport signal/bruit et l’écart-type est fixé à un, mais le signal et le bruit auraient pu être indiqués séparément. Notez que la taille de l’échantillon doit être arrondie à un nombre entier. (Notez qu’un petit changement dans le rapport S/B de 0,6 à 0,56 fait toute une différence dans les estimations : de 59 à 68 chiens par groupe).
Sixante-huit chiens par groupe (132 au total), c’est beaucoup de chiens et l’utilisation de tels animaux prendrait beaucoup de temps.
Une alternative
Dans le même journal, un investigateur travaillait avec des Beagles mâles pesant de 17 à 23 kg. Ceux-ci avaient une TA moyenne de 108 mm Hg avec un écart-type de 9 mm.
Supposons qu’une différence de 20 mm entre les groupes aurait une importance clinique (comme précédemment). Avec les mêmes hypothèses que précédemment, le rapport signal/bruit est de 20/9 = 2,22 Cela ne représente que 6/groupe avec une puissance de 90% (voir tableau ci-dessus).
Donc, en utilisant des animaux uniformes, le nombre nécessaire est réduit à 1/11e. par rapport aux chiens aléatoires. Le tableau ci-dessous résume la situation. Il montre également que si le vétérinaire s’est lancé et a utilisé les chiens aléatoires avec huit chiens par groupe, alors il n’y aurait eu que 18% de chances de détecter une différence de 20mm dans les moyennes entre les deux groupes.
Ceci pose un problème. Peut-on considérer que les beagles représentent des « chiens » ?
Et est-il jamais justifié d’utiliser des animaux génétiquement hétérogènes si tout ce que cela fait est d’augmenter le bruit et de réduire la puissance de l’expérience, conduisant à des résultats faussement négatifs ?
Autres approches
Il serait absurde d’aller de l’avant et de faire l’expérience en utilisant simplement les chiens hétérogènes. Mais il existe des alternatives évidentes.
1. Si chaque chien pouvait recevoir les deux anesthésiques (disons dans un ordre aléatoire, à des jours différents), il serait alors possible d’utiliser un petit nombre de chiens même assez hétérogènes, en supposant qu’il n’y ait pas de différences importantes entre races dans la réponse. Techniquement, il s’agirait d’un plan en bloc randomisé (discuté plus tard)
2. Si l’on pense qu’il peut y avoir des différences de race dans la réponse, alors le vétérinaire pourrait restreindre l’étude en utilisant un petit nombre d’animaux de plusieurs (disons 3-4) races dans un plan expérimental « factoriel », discuté plus tard. Dans la mesure du possible, chaque groupe doit être composé d’un nombre égal d’animaux. Cela indiquerait si les deux anesthésiques diffèrent globalement et si les différences entre les races doivent être prises en compte lors du choix de l’un de ces anesthésiques.
L’équation de la ressource : une autre méthode pour déterminer la taille de l’échantillon
Une analyse de puissance n’est pas toujours possible.
- Si beaucoup de caractères sont mesurés, il peut être difficile de savoir lequel est le plus important
- Il peut ne pas y avoir d’estimation de l’écart-type si le caractère n’a pas été mesuré auparavant
- Dans la recherche fondamentale, il peut être impossible de spécifier une taille d’effet susceptible d’avoir une importance scientifique
- Une analyse de puissance est difficile avec des expériences complexes impliquant de nombreux resource eqn et des interactions possibles.
Une alternative est la méthode de l' »équation des ressources »`. Celle-ci dépend de la loi des rendements décroissants. Elle nécessite une estimation de E:
E= (Nombre total d’unités expérimentales)-(nombre de groupes de traitement)
Et E doit être compris entre 10 et 20
Ce n’est pas un seuil absolu. Il peut être justifié que E soit plus élevé si cela conduit à un plan plus équilibré, si le coût probable d’une erreur de type II est élevé, si les procédures sont très légères ou s’il s’agit d’une expérience in-vitro sans implications éthiques
E est le nombre de degrés de liberté dans une analyse de variance (ANOVA). Il est basé sur la nécessité d’obtenir une estimation adéquate de l’écart-type.
Le graphique ci-dessus à droite montre la quantité d’informations dans un échantillon de données en fonction de E. La courbe monte fortement, puis se termine et s’est presque aplatie au moment où E=10, et il y a peu d’avantages supplémentaires à continuer bien au-delà de 20. Cependant, si les unités expérimentales sont peu coûteuses (comme les boîtes de culture tissulaire) alors
Supposons que vous décidiez de réaliser une expérience avec quatre groupes de traitement (un témoin et trois niveaux de dose) et huit animaux par groupe. Alors :
E= 32 – 4 = 28. C’est donc inutilement grand.
Avec six animaux par groupe E=20, ce qui est acceptable
Cette méthode est facile à utiliser, elle peut être utilisée lorsque les résultats sont nombreux, elle ne nécessite pas d’estimations de la taille de l’effet d’importance clinique ou scientifique, ni d’estimation de l’écart-type. Mais elle est grossière par rapport à l’analyse de puissance.
0 commentaire