O poder de uma experiência é a probabilidade de poder detectar um efeito de tratamento, se estiver presente.

Os seis factores aqui listados estão intimamente ligados de modo que, se conhecermos cinco deles, podemos estimar o sexto.

  • Power
  • Tamanho da amostra,
  • Variabilidade interindividual,
  • A magnitude da resposta a um tratamento,
  • O nível de significância e
  • A hipótese alternativa

Uma “análise de poder” é frequentemente utilizada para determinar o tamanho da amostra. O uso de demasiados animais (ou outras unidades experimentais) desperdiça animais, dinheiro, tempo e esforço, e é pouco ético. Mas se forem utilizados muito poucos animais, a experiência pode carecer de poder e falhar uma resposta cientificamente importante ao tratamento. Isto também desperdiça recursos e pode ter consequências graves, particularmente na avaliação da segurança.

A hipótese nula

Numa experiência controlada o objectivo é normalmente comparar dois ou mais meios (ou por vezes medianas ou proporções). Normalmente estabelecemos uma “hipótese nula” de que não há diferença entre os meios, e o objectivo da nossa experiência é refutar essa hipótese nula.

No entanto, como resultado da variabilidade interindividual, podemos cometer um erro. Se não encontrarmos uma diferença verdadeira, então temos um resultado falso negativo, também conhecido como erro de Tipo II ou beta. Inversamente, se pensarmos que existe uma diferença quando na realidade é apenas devido à variação da amostragem aleatória, então temos um falso positivo, erro de Tipo I, ou erro alfa. Estes são mostrados na tabela abaixo

>p>power1

Os erros do Tipo I são controlados escolhendo o nível de significância. Um nível de 5% significa que em média 1/20 comparações serão “significativas” quando se devem apenas à variação da amostragem

O controlo dos erros de Tipo II é mais difícil, pois depende da relação entre várias variáveis, as mais importantes das quais são o “sinal” (diferença entre os meios dos grupos), o “ruído” (variabilidade inter-individual) e o tamanho da amostra. Podemos frequentemente utilizar uma análise de potência para estimar o tamanho de amostra necessário, como discutido abaixo.

Análise de potência

A figura mostra as seis variáveis envolvidas numa análise de potência. Estão inter-relacionadas de tal forma que se forem especificadas cinco delas, a sexta pode ser estimada.

Normalmente, a análise de potência é utilizada para estimar o tamanho da amostra. Mas se isso for fixo (por exemplo, apenas 20 sujeitos estão disponíveis), então pode ser usado para estimar o sinal ou a potência de uma experiência proposta.

Power11

The sinal

Esta é a magnitude da diferença entre os meios dos dois grupos (M1-M2) que é susceptível de ser de importância clínica ou científica. Tem de ser especificado pelo investigador.

Uma pequena diferença pode não ser de grande interesse. Uma grande será. Qual é o corte abaixo do qual a diferença tem pouco interesse?

Na investigação aplicada deve ser possível especificar um tamanho de efeito. mas na investigação fundamental pode apenas querer saber se existem quaisquer diferenças entre os dois grupos.

Neste caso terá de utilizar outro método para determinar o tamanho da amostra, tal como a Equação de Recursos (ver mais adiante). Mas se tiver uma estimativa do desvio padrão, ainda vale a pena fazer uma análise de poder para estimar o tamanho do efeito que provavelmente será capaz de detectar para o tamanho da amostra que decidir utilizar. Se depois não conseguir detectar um efeito estatisticamente significativo, poderá dizer algo como “se o efeito tivesse sido tão grande como XX desvios padrão eu teria (digamos) uma probabilidade de 90% de o detectar”. Lembre-se, se especificar cinco das variáveis acima, pode estimar a sexta. Assim, na prática pode estimar o tamanho da amostra ou o tamanho ou potência do efeito (é menos provável que queira estimar as outras duas variáveis).

O ruído

Esta é a variação entre os sujeitos experimentais, expressa como o desvio padrão (no caso dos caracteres de medição). Tem de provir de estudos anteriores ou de um estudo piloto. Se não estiver disponível uma boa estimativa, pode ainda valer a pena fazer uma análise de potência com uma estimativa baixa e alta para ver que diferença faz em relação ao tamanho estimado da amostra

Noise não precisa de ser estimado ao comparar duas proporções. Basta especificar as outras variáveis.

A relação sinal/ruído

Esta é também conhecida como o “tamanho do efeito normalizado” ou “Cohen’s d”. É por vezes utilizado como uma indicação geral da magnitude de um efeito. Por exemplo, Cohen no seu livro “Statistical power analysis for the behavioral sciences”. Hillsdale N.J.: Lawrence Erlbaum Associates, 1988 sugeriu que valores de d de 0,2, 0,4 ou 0,8 deveriam ser considerados como “pequenos”, “médios” e “grandes” tamanhos de efeito, respectivamente, na investigação psicológica. No entanto, no trabalho com animais de laboratório são normalmente vistos efeitos muito maiores, porque o ruído é normalmente tão bem controlado. Neste caso, os efeitos pequenos, médios e grandes podem ser definidos de forma mais realista em d= 0,5, 1,0 e 1,5, respectivamente.

As outras variáveis

  • A hipótese alternativa
    A hipótese nula é que os meios dos dois grupos não diferem.
    A hipótese alternativa pode ser que eles diferem (dois lados), ou que diferem numa determinada direcção, por exemplo, que a média do grupo tratado é superior à média dos controlos (um lado)
  • O nível de significância
    Como explicado anteriormente, isto é normalmente fixado em 0,05, mas isto é bastante arbitrário. É a probabilidade de um resultado falso positivo
  • A potência
    Esta é a probabilidade de ser capaz de detectar o efeito que especifica (o sinal). Provavelmente desejará uma potência elevada, pelo que é frequentemente fixada em 0,8 ou 0,9 (80% ou 90%). Mas a potência mais elevada exigirá um tamanho de amostra maior
  • O tamanho da amostra
    Este é o número em cada grupo. É normalmente o que queremos estimar. No entanto, por vezes temos apenas um número fixo de sujeitos, caso em que a análise de potência pode ser utilizada para estimar a potência ou o tamanho do efeito.

Determinar o tamanho da amostra por análise de potência

Partir do princípio de que planeia uma experiência com apenas dois grupos (Tratamento e Controlo) e que medirá um carácter métrico.

Sua hipótese nula é que não há diferença entre os meios dos dois grupos. Os passos que precisa de dar são os seguintes:

Tamanho do grupo em função da relação S/N (5% sig.., 2-sided)

rácio SN

90% potência

80% de potência

  • Decida sobre a sua hipótese alternativa. Isto será ou que os meios diferem (dois lados) ou que diferem numa determinada direcção (um lado). O padrão é dois lados.
  • Decidir o nível de significância que pretende utilizar. Assumiremos 5%.
  • Decidir que potência pretende (ou seja, a hipótese de detectar um efeito real se este estiver presente).
    • Se as consequências de não detectar o efeito (um erro de Tipo II) puderem ser graves, como nos testes de toxicidade, poderá querer uma potência relativamente elevada, como 90%.
    • Em estudos fundamentais em que só podemos estar interessados em grandes efeitos, um erro de Tipo II pode não ter consequências tão graves. Uma potência de 80% pode ser suficiente para captar grandes efeitos e serão necessários menos sujeitos.
  • Obter uma estimativa do ruído, ou seja, o desvio padrão do carácter de interesse. Isto tem de vir de um estudo anterior, da literatura ou de um estudo piloto. Se utilizar a literatura, pode ser melhor olhar para vários artigos e tomar algum tipo de média (possivelmente informal) ou uma “estimativa”. É muitas vezes útil fazer uma análise do “melhor” e “pior” caso.
  • Estimar o sinal (tamanho do efeito) que possa interessar-lhe. Quão grande seria a diferença entre os dois meios de interesse científico ou clínico? Se a diferença for apenas pequena, provavelmente não está particularmente interessado nela. Se for grande, então certamente quer ser capaz de o detectar. O sinal é o ponto de corte entre estas duas alternativas. Se a resposta for maior, então haverá uma possibilidade ainda maior de a detectar.
  • Calcular o tamanho do efeito padronizado (relação sinal/ruído) = (Mean1-Mean2)/SD.
  • A tabela (à direita) mostra a relação S/N na gama de 0,2 a 3,0 e o tamanho da amostra necessária para 80% e 90% de potência, assumindo um nível de significância de 5% e um teste em duas faces.
  • E se houver mais de dois grupos?

    É tecnicamente possível fazer uma análise de poder para uma análise de variância com vários grupos de tratamento. O problema é especificar um tamanho de efeito de importância clínica ou científica quando existem três ou mais grupos. Uma alternativa é alimentar a experiência assumindo um teste t nos dois grupos susceptíveis de serem mais extremos, tais como o controlo e a dose máxima (assumindo que existem tais grupos). Isto significaria que se a resposta for mais forte do que o esperado, então as diferenças entre o grupo de controlo e um grupo intermédio tornar-se-iam estatisticamente significativas.

    Outra alternativa seria especificar um tamanho de efeito “pequeno”, “médio” ou “grande” (possivelmente d=0,5, 1,0 ou 1,5 no caso de animais de laboratório) e o número de grupos de tratamento e utilizar o programa G*Power (abaixo) para estimar o tamanho das amostras. Um ecrã de tal cálculo para uma experiência com cinco grupos de tratamento com um tamanho de efeito de 1,0, uma potência de 0,9 e um nível de significância de 0,05 é mostrado abaixo. Isto exigiria 25 animais.

    G*A potência também aceitará as médias estimadas dos quatro grupos que seriam de interesse científico se fossem encontradas juntamente com uma estimativa conjunta do desvio padrão, e fará a análise de potência sobre isso.

    power13

    br>>>p>>br>

    Análise de potência para comparar duas percentagens (ou proporções

    Uma análise de potência para comparar duas proporções requer as proporções de controlo esperadas, (p1) a proporção ou respondentes no grupo tratado que daria uma diferença de importância clínica ou científica (p2), o poder especificado e os níveis de significância. A tabela abaixo mostra os números necessários em cada grupo para um nível de 80% de potência e 5% de significância. Note-se que são necessários grandes números em alguns casos.

    power12

    >br>>>p>

    Um sítio web que fará os cálculos

    Clique na seta abaixo para um papel pdf dando mais detalhes sobre a análise de potência.

    p>

    Embora exista provavelmente informação suficiente dada na tabela acima e no exemplo abaixo para estimar o tamanho de amostra requerido, pode clicar abaixo para um sítio web que fará os cálculos por si.

    clique aqui http://www.biomath.info

    >br>>>p>br>>>p>Um programa gratuito para cálculos de potência

    Um programa gratuito G*Power inclui cálculos para o teste t, teste F (análise de variância unidireccional) e outros. Pode ser descarregado deste sítio web

    >br>

    Um exemplo comparando dois meios

    Um veterinário quer comparar o efeito na tensão arterial de dois anestésicos para cães em condições clínicas. Ele publicou alguns dados preliminares. Os cães eram animais saudáveis, não sexualizados, com peso entre 3,8 e 42,6 kg. A tensão arterial sistólica média era de 141 mm Hg com um padrão ddogs1eviação de 36mm, (o ruído)

    Assume:

    1. Uma diferença na tensão arterial de 20 mmHg (o sinal) ou mais seria de importância clínica (uma decisão clínica e não estatística).
    2. Um nível de significância de 0,05,
    3. Uma potência de 90%
    4. E um teste t de 2 lados,

    Então a relação sinal/ruído seria 20/36 = 0.56

    Da tabela acima o tamanho de amostra necessário para uma relação S/N de 0,6 é cerca de 59 cães/grupo.

    (Note-se que não é necessária uma grande precisão, pois existem incertezas nas estimativas do desvio padrão e do tamanho do efeito de importância clínica). Contudo, há muitos pacotes de software estatístico que farão os cálculos. O resultado abaixo é feito utilizando o pacote estatístico R para este conjunto de dados. Neste caso “delta” é a relação sinal/ruído e o SD é definido como um só, mas o sinal e o ruído poderiam ter sido colocados em separado. Note-se que o tamanho da amostra precisa de ser arredondado para um número inteiro. (Note-se que uma pequena alteração na relação S/N de 0,6 para 0,56 faz uma grande diferença em relação às estimativas: de 59 para 68 cães por grupo).

    power9

    Sixty-eight dogs per group (132 no total) é um lote de cães e a utilização de tais animais consumiria muito tempo.

    Uma alternativa

    Na mesma revista um investigador trabalhava com Beagles machos com um peso de 17-23 kg. Estes tinham uma BP média de 108 mm Hg. com um SD 9 mm.dogs2

    Assumir uma diferença de 20 mm entre grupos seria de importância clínica (como antes). Com as mesmas hipóteses que acima, a relação sinal/ruído é 20/9 = 2,22 Isto é apenas 6/grupo com uma potência de 90% (ver quadro acima).

    Então, utilizando animais uniformes, o número necessário é reduzido para 1/11º. em comparação com os cães aleatórios. O quadro abaixo resume a situação. Também mostra que se o veterinário tivesse ido à frente e utilizado os cães aleatórios com oito cães por grupo, então haveria apenas 18% de probabilidade de detectar uma diferença de meios de 20mm entre os dois grupos.

    power6 Isto coloca um problema. Podem os Beagles ser considerados como representando “cães”?

    E há sempre algum caso de utilização de animais geneticamente heterogéneos se tudo o que faz é aumentar o ruído e reduzir o poder da experiência, levando a falsos resultados negativos?

    Alternativos
    Não faria sentido ir em frente e fazer a experiência simplesmente utilizando os cães heterogéneos. Mas existem algumas alternativas óbvias.

    1. Se cada cão pudesse receber ambos os anestésicos (digamos por ordem aleatória em dias diferentes), então seria possível utilizar um pequeno número de cães até mesmo bastante heterogéneos, assumindo que não existem diferenças de raça importantes em resposta. Tecnicamente, isto seria um desenho de bloco aleatório (discutido mais tarde)

    2. Se se pensar que pode haver diferenças de raça em resposta, então o veterinário poderia restringir o estudo utilizando pequenos números de animais de várias (digamos 3-4) raças num desenho experimental “factorial”, discutido mais tarde. Na medida do possível, deveria haver números iguais em cada grupo. Isto indicaria se os dois anestésicos diferem em excesso e se as diferenças de raça devem ser tidas em conta na escolha de um destes anestésicos.

    A Equação de Recursos: outro método de determinação do tamanho da amostra

    Nem sempre é possível uma análise de potência.

    • Se estiverem a ser medidos muitos caracteres, pode não ser claro qual deles é o mais importante
    • Pode não haver estimativa do desvio padrão se o caracter não tiver sido previamente medido
    • In investigação fundamental pode ser impossível especificar um tamanho de efeito susceptível de ser de importância científica
    • Uma análise de poder é difícil com experiências complexas envolvendo muitos tratamentos resource eqngroups e possíveis interacções.

    Uma alternativa é o método “Equação de Recursos”“. Isto depende da lei de rendimentos decrescentes. Precisa de uma estimativa de E:

    E= (número total de unidades experimentais)-(número de grupos de tratamento)

    E deve estar entre 10 e 20

    Não é um corte absoluto. Pode haver um caso para E ser mais elevado se levar a um desenho mais equilibrado, o custo provável de um erro de Tipo II é elevado, os procedimentos são muito suaves ou é uma experiência in-vitro sem implicações éticas

    E é o número de graus de liberdade numa análise de variância (ANOVA). Baseia-se na necessidade de obter uma estimativa adequada do desvio padrão.

    O gráfico acima à direita mostra a quantidade de informação numa amostra de dados em função de E. A curva sobe abruptamente, depois desce e quase aplanou até ao tempo E=10, e há pouco benefício extra em ir muito além de 20. Contudo, se as unidades experimentais forem baratas (tais como pratos de cultura de tecidos) então

    Se decidir fazer uma experiência com quatro grupos de tratamento (um controlo e três níveis de dose) e oito animais por grupo. Depois:

    E= 32 – 4 = 28. Portanto, isto é desnecessariamente grande.

    Com seis animais por grupo E=20, o que é aceitável

    Este método é fácil de usar, pode ser usado quando há muitos resultados, não requer estimativas do tamanho do efeito de importância clínica ou científica, e não requer uma estimativa do desvio padrão. Mas é grosseiro em comparação com a análise de potência.

Categorias: Articles

0 comentários

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *