Como em Distribuições de Amostragem, podemos considerar a distribuição de r sobre amostras repetidas de x e y. O teorema seguinte é análogo ao Teorema do Limite Central, mas para r em vez de x̄. Desta vez, exigimos que x e y tenham uma distribuição normal bivariada conjunta ou que as amostras sejam suficientemente grandes. Pode-se pensar numa distribuição normal bivariada como a versão tridimensional da distribuição normal, na qual qualquer fatia vertical através da superfície que grafica a distribuição resulta numa curva sineira normal.
A distribuição de amostras de r só é simétrica quando ρ = 0 (ou seja, quando x e y são independentes). Se ρ ≠ 0, então a distribuição da amostragem é assimétrica e por isso o teorema seguinte não se aplica, e outros métodos de inferência devem ser utilizados.
Teorema 1: Suponha que ρ = 0. Se x e y têm uma distribuição normal bivariada ou se o tamanho da amostra n é suficientemente grande, então r tem uma distribuição normal com média 0, e t = r/sr ~ T(n – 2) where
Aqui o numerador r da variável aleatória t é a estimativa de ρ = 0 e sr é o erro padrão de t.
Observação: Se resolvermos a equação em Theorem 1 para r, obtemos
Observação: O teorema pode ser utilizado para testar a hipótese de que as variáveis aleatórias da população x e y são independentes, ou seja ρ = 0.
Exemplo 1: Um estudo foi concebido para verificar a relação entre o tabagismo e a longevidade. Foi recolhida uma amostra de 15 homens com 50 anos ou mais e foi registado o número médio de cigarros fumados por dia e a idade de morte, como resumido na tabela da Figura 1. Podemos concluir da amostra que a longevidade é independente do tabagismo?
Figure 1 – Dados para o Exemplo 1
O diagrama de dispersão para estes dados é o seguinte Incluímos também a linha de tendência linear que parece corresponder melhor aos dados. Estudaremos isto mais aprofundadamente em Regressão Linear.
Figure 2 – Diagrama de dispersão para o Exemplo 1
Próximo calculamos o coeficiente de correlação da amostra utilizando a função CORREL:
r = CORREL(R1, R2) = – -.713
Do diagrama de dispersão e do coeficiente de correlação, é evidente que a correlação da população é susceptível de ser negativa. O valor absoluto do coeficiente de correlação parece elevado, mas será suficientemente elevado? Para determinar isto, estabelecemos a seguinte hipótese nula:
H0: ρ = 0
Recalque que ρ = 0 significaria que as duas variáveis populacionais são independentes. Usamos t = r/sr como estatística de teste onde sr é como em Theorem 1. Com base na hipótese nula, ρ = 0, podemos aplicar o Teorema 1, desde que x e y tenham uma distribuição normal bivariada. É difícil verificar a normalidade bivariada, mas podemos pelo menos verificar se cada variável é aproximadamente normal através de parcelas QQ.
Figure 3 – Teste de normalidade
Todas as amostras parecem normais, e assim por Theorem 1, sabemos que t tem aproximadamente uma distribuição t com n – 2 = 13 graus de liberdade. Agora calculamos
Finalmente, realizamos um dos seguintes testes:
p-value = TDIST(ABS(-3).67), 13, 2) = .00282 < .05 = α (two-tail)
tcrit = TINV(.05, 13) = 2.16 < 3.67 = |tobs |
e assim rejeitamos a hipótese nula e concluímos que existe uma correlação não zero entre fumar e longevidade. De facto, parece a partir dos dados que o aumento dos níveis de tabagismo reduz a longevidade.
Exemplo 2: O US Census Bureau recolhe estatísticas comparando os vários 50 estados. A tabela seguinte mostra a taxa de pobreza (% da população abaixo do nível de pobreza) e a taxa de mortalidade infantil por 1.000 nados-vivos) por estado. Com base nestes dados, podemos concluir que as taxas de pobreza e mortalidade infantil por estado estão correlacionadas?
Figure 4 – Dados para o Exemplo 2
O diagrama de dispersão para estes dados é o seguinte.
Figure 5 – Diagrama de dispersão por exemplo 2
O coeficiente de correlação da amostra é dado por
r = CORREL(R1, R2) = .564
Onde R1 é o intervalo que contém os dados da pobreza e R2 é o intervalo que contém os dados da mortalidade infantil. Uma vez que se esperava que a correlação da população fosse não negativa, foi utilizada a seguinte hipótese nula de um rabo:
H0: ρ ≤ 0
Com base na hipótese nula assumiremos que ρ = 0 (melhor caso), e assim como no Exemplo 1
Finalmente, realizamos um dos seguintes testes:
p-value = TDIST(4.737, 48, 1) = 9.8E-06 < .05 = α (umtail)
tcrit = TINV(2*.05, 48) = 1.677 < 4.737 = tobs
E assim rejeitamos a hipótese nula e concluímos que existe uma correlação não zero entre pobreza e mortalidade infantil.
Desde que estivéssemos confiantes de que o coeficiente de correlação não era negativo, optámos por realizar um teste de uma cauda. Acontece que mesmo que tivéssemos escolhido um teste de duas caudas (isto é, H0: ρ = 0), ainda teríamos rejeitado a hipótese nula.
Funções de Estatística Real: As seguintes funções são fornecidas no Real Statistics Resource Pack.
CorrTTest(r, tamanho, caudas) = o valor p do teste de uma amostra do coeficiente de correlação utilizando o Teorema 1 onde r é o coeficiente de correlação observado com base numa amostra do tamanho declarado. Se caudas = 2 (por defeito) é utilizado um teste de duas caudas, enquanto que se caudas = 1 é utilizado um teste de uma cauda.
CorrTLower(r, tamanho, alfa) = o limite inferior do intervalo de confiança 1 – alfa do coeficiente de correlação da população com base num coeficiente de correlação da amostra r proveniente de uma amostra do tamanho declarado.
CorrTUpper(r, tamanho, alfa) = o limite superior do intervalo de confiança 1 – alfa do coeficiente de correlação da população com base num coeficiente de correlação da amostra r proveniente de uma amostra do tamanho declarado.
CorrelTTTest(r, tamanho, alfa, laboratório, caudas): função de matriz que produz t-stat, p-value, e limite inferior e superior do intervalo de confiança 1 – alfa, em que r e tamanho são os descritos acima. Se lab = TRUE então a saída toma a forma de um intervalo 4 × 2 com a primeira coluna constituída por etiquetas, enquanto que se lab = FALSE (por defeito) então a saída toma a forma de um intervalo 4 × 1 sem etiquetas.
CorrelTTest(R1, R2, alfa, laboratório, caudas) = CorrelTTTest(r, tamanho, alfa, laboratório, caudas) onde r = CORREL(R1, R2) e tamanho = o tamanho comum da amostra, i.e. o número de pares de R1 e R2 que ambos contêm dados numéricos.
Se alfa for omitido, o padrão é .05. Se caudas = 2 (padrão) é utilizado um teste de duas caudas, enquanto que se caudas = 1 é utilizado um teste de uma cauda.
Observação: Por exemplo 1, observamos que CorrTTest(-.713, 15) = .00282, CorrTLower(-.713, 15, .05) = -1.13 e CorrTUpper(-.713, 15, .05) = -.294.
Também =CorrelTTest(A4:A18,B4:B18,E11,TRUE) produz a seguinte saída:
Observação: Como observado anteriormente
Podemos usar este facto para criar os valores críticos para o teste t acima descrito, nomeadamente
0 comentários