Como en las Distribuciones Muestrales, podemos considerar la distribución de r sobre muestras repetidas de x e y. El siguiente teorema es análogo al Teorema Central del Límite, pero para r en lugar de x̄. Esta vez requerimos que x e y tengan una distribución normal bivariante conjunta o que las muestras sean suficientemente grandes. Puede pensar en una distribución normal bivariante como la versión tridimensional de la distribución normal, en la que cualquier corte vertical a través de la superficie que grafica la distribución da como resultado una curva de campana ordinaria.
La distribución muestral de r sólo es simétrica cuando ρ = 0 (es decir, cuando x e y son independientes). Si ρ ≠ 0, entonces la distribución de muestreo es asimétrica y, por tanto, el siguiente teorema no se aplica y hay que utilizar otros métodos de inferencia.
Teorema 1: Supongamos que ρ = 0. Si x e y tienen una distribución normal bivariante o si el tamaño de la muestra n es suficientemente grande, entonces r tiene una distribución normal con media 0 y t = r/sr ~ T(n – 2) donde
Aquí el numerador r de la variable aleatoria t es la estimación de ρ = 0 y sr es el error estándar de t.
Observación: Si resolvemos la ecuación del Teorema 1 para r, obtenemos
Observación: El teorema puede utilizarse para comprobar la hipótesis de que las variables aleatorias poblacionales x e y son independientes, es decir, ρ = 0.
Ejemplo 1: Se diseña un estudio para comprobar la relación entre el tabaquismo y la longevidad. Se toma una muestra de 15 hombres de 50 años o más y se registra el número medio de cigarrillos fumados al día y la edad de fallecimiento, como se resume en la tabla de la figura 1. Podemos concluir de la muestra que la longevidad es independiente del tabaquismo?
Figura 1 – Datos del ejemplo 1
El diagrama de dispersión de estos datos es el siguiente. También hemos incluido la línea de tendencia lineal que parece ajustarse mejor a los datos. Lo estudiaremos más a fondo en Regresión lineal.
Figura 2 – Diagrama de dispersión para el ejemplo 1
A continuación calculamos el coeficiente de correlación de la muestra utilizando la función CORREL:
r = CORREL(R1, R2) = -.713
A partir del diagrama de dispersión y del coeficiente de correlación, está claro que la correlación poblacional es probablemente negativa. El valor absoluto del coeficiente de correlación parece alto, pero ¿es lo suficientemente alto? Para determinarlo, establecemos la siguiente hipótesis nula:
H0: ρ = 0
Recordemos que ρ = 0 significaría que las dos variables poblacionales son independientes. Usamos t = r/sr como estadístico de prueba donde sr es como en el Teorema 1. Partiendo de la hipótesis nula, ρ = 0, podemos aplicar el Teorema 1, siempre que x e y tengan una distribución normal bivariante. Es difícil comprobar la normalidad bivariante, pero al menos podemos comprobar que cada variable es aproximadamente normal mediante gráficos QQ.
Figura 3 – Comprobación de la normalidad
Ambas muestras parecen normales, por lo que por el Teorema 1, sabemos que t tiene aproximadamente una distribución t con n – 2 = 13 grados de libertad. Ahora calculamos
Finalmente, realizamos una de las siguientes pruebas:
p-value = TDIST(ABS(-3.67), 13, 2) = .00282 .05 = α (dos colas)
tcrit = TINV(.05, 13) = 2.16 3.67 = |tobs |
Así que rechazamos la hipótesis nula y concluimos que existe una correlación no nula entre fumar y la longevidad. De hecho, de los datos se desprende que el aumento de los niveles de tabaquismo reduce la longevidad.
Ejemplo 2: La Oficina del Censo de EE.UU. recoge estadísticas que comparan los distintos 50 estados. La siguiente tabla muestra la tasa de pobreza (% de población por debajo del nivel de pobreza) y la tasa de mortalidad infantil por cada 1.000 nacidos vivos) por estados. Basándonos en estos datos, ¿podemos concluir que las tasas de pobreza y de mortalidad infantil por estado están correlacionadas?
Figura 4 – Datos del ejemplo 2
El diagrama de dispersión de estos datos es el siguiente.
Figura 5 – Diagrama de dispersión para el ejemplo 2
El coeficiente de correlación de la muestra viene dado por
r = CORREL(R1, R2) = .564
Donde R1 es el rango que contiene los datos de pobreza y R2 es el rango que contiene los datos de mortalidad infantil. Como se esperaba que la correlación de la población fuera no negativa, se utilizó la siguiente hipótesis nula de una cola:
H0: ρ ≤ 0
En base a la hipótesis nula supondremos que ρ = 0 (mejor caso), y así como en el ejemplo 1
Finalmente, realizamos una de las siguientes pruebas:
p-value = TDIST(4.737, 48, 1) = 9.8E-06 .05 = α (una cola)
tcrit = TINV(2*.05, 48) = 1.677 4.737 = tobs
Y así rechazamos la hipótesis nula y concluimos que existe una correlación no nula entre la pobreza y la mortalidad infantil.
Como estábamos seguros de que el coeficiente de correlación no era negativo, optamos por realizar una prueba de una cola. Resulta que incluso si hubiéramos elegido una prueba de dos colas (es decir, H0: ρ = 0), habríamos rechazado igualmente la hipótesis nula.
Funciones de estadística real: Las siguientes funciones se proporcionan en el paquete de recursos de estadística real.
CorrTTest(r, tamaño, colas) = el valor p de la prueba de una muestra del coeficiente de correlación utilizando el Teorema 1 donde r es el coeficiente de correlación observado basado en una muestra del tamaño indicado. Si colas = 2 (por defecto) se emplea una prueba de dos colas, mientras que si colas = 1 se emplea una prueba de una cola.
CorrTLower(r, tamaño, alfa) = el límite inferior del intervalo de confianza 1 – alfa del coeficiente de correlación poblacional basado en un coeficiente de correlación muestral r procedente de una muestra del tamaño declarado.
CorrTUpper(r, size, alpha) = el límite superior del intervalo de confianza 1 – alpha del coeficiente de correlación de la población basado en un coeficiente de correlación de la muestra r procedente de una muestra del tamaño declarado.
CorrelTTest(r, size, alpha, lab, tails): función de matriz que da salida a t-stat, p-value, y límite inferior y superior del intervalo de confianza 1 – alpha, donde r y size son como se describe arriba. Si lab = TRUE entonces la salida toma la forma de un rango de 4 × 2 con la primera columna consistente en etiquetas, mientras que si lab = FALSE (por defecto) entonces la salida toma la forma de un rango de 4 × 1 sin etiquetas.
CorrelTTest(R1, R2, alpha, lab, tails) = CorrelTTest(r, size, alpha, lab, tails) donde r = CORREL(R1, R2) y size = el tamaño de la muestra común, es decir, el número de pares de R1 y R2.es decir, el número de pares de R1 y R2 que contienen datos numéricos.
Si se omite alfa se pone por defecto en .05. Si colas = 2 (por defecto) se emplea una prueba de dos colas, mientras que si colas = 1 se emplea una prueba de una cola.
Observación: Para el ejemplo 1, observamos que CorrTTest(-.713, 15) = .00282, CorrTLower(-.713, 15, .05) = -1.13 y CorrTUpper(-.713, 15, .05) = -.294.
También =CorrelTTest(A4:A18,B4:B18,E11,TRUE) produce la siguiente salida:
Observación: Como se ha observado anteriormente
Podemos utilizar este hecho para crear los valores críticos de la prueba t descrita anteriormente, a saber
0 comentarios