Comme pour les distributions d’échantillonnage, nous pouvons considérer la distribution de r sur des échantillons répétés de x et y. Le théorème suivant est analogue au théorème de la limite centrale, mais pour r au lieu de x̄. Cette fois, nous exigeons que x et y aient une distribution normale bivariée conjointe ou que les échantillons soient suffisamment grands. Vous pouvez considérer une distribution normale bivariée comme la version tridimensionnelle de la distribution normale, dans laquelle toute tranche verticale à travers la surface qui représente graphiquement la distribution donne une courbe en cloche ordinaire.

La distribution d’échantillonnage de r n’est symétrique que lorsque ρ = 0 (c’est-à-dire lorsque x et y sont indépendants). Si ρ ≠ 0, alors la distribution d’échantillonnage est asymétrique et donc le théorème suivant ne s’applique pas, et d’autres méthodes d’inférence doivent être utilisées.

Théorème 1 : Supposons que ρ = 0. Si x et y ont une distribution normale bivariée ou si la taille de l’échantillon n est suffisamment grande, alors r a une distribution normale de moyenne 0, et t = r/sr ~ T(n – 2) où

image1543

Ici le numérateur r de la variable aléatoire t est l’estimation de ρ = 0 et sr est l’erreur standard de t.

Observation : Si on résout l’équation du théorème 1 pour r, on obtient

image1545

Observation : Le théorème peut être utilisé pour tester l’hypothèse que les variables aléatoires de population x et y sont indépendantes c’est-à-dire que ρ = 0.

Exemple 1 : Une étude est conçue pour vérifier la relation entre le tabagisme et la longévité. On prélève un échantillon de 15 hommes de 50 ans et plus et on enregistre le nombre moyen de cigarettes fumées par jour et l’âge au décès, comme le résume le tableau de la figure 1. Peut-on conclure de cet échantillon que la longévité est indépendante du tabagisme ?

Corrélation des données

Figure 1 – Données de l’exemple 1

Le diagramme de dispersion de ces données est le suivant. Nous avons également inclus la ligne de tendance linéaire qui semble correspondre le mieux aux données. Nous étudierons cela plus en détail dans la régression linéaire.

Diagramme de dispersion Excel

Figure 2 – Diagramme de dispersion pour l’exemple 1

Puis nous calculons le coefficient de corrélation de l’échantillon en utilisant la fonction CORREL :

r = CORREL(R1, R2) = -.713

D’après le diagramme de dispersion et le coefficient de corrélation, il est clair que la corrélation de la population est probablement négative. La valeur absolue du coefficient de corrélation semble élevée, mais l’est-elle suffisamment ? Pour le déterminer, nous établissons l’hypothèse nulle suivante :

H0 : ρ = 0

Rappelons que ρ = 0 signifierait que les deux variables de population sont indépendantes. Nous utilisons t = r/sr comme statistique de test où sr est comme dans le théorème 1. Sur la base de l’hypothèse nulle, ρ = 0, nous pouvons appliquer le théorème 1, à condition que x et y aient une distribution normale bivariée. Il est difficile de vérifier la normalité bivariée, mais nous pouvons au moins vérifier que chaque variable est approximativement normale via les tracés QQ.

Corrélation par tracé QQ

Figure 3 – Test de normalité

Les deux échantillons semblent normaux, et donc par le théorème 1, nous savons que t a approximativement une distribution t avec n – 2 = 13 degrés de liberté. Nous calculons maintenant

image1551image1552

Enfin, nous effectuons l’un ou l’autre des tests suivants :

p-value = TDIST(ABS(-3.67), 13, 2) = .00282 < .05 = α (deux queues)

tcrit = TINV(.05, 13) = 2.16 < 3.67 = |tobs |

Et donc nous rejetons l’hypothèse nulle et concluons qu’il existe une corrélation non nulle entre le tabagisme et la longévité. En fait, il semble, d’après les données, qu’une augmentation du niveau de tabagisme réduise la longévité.

Exemple 2 : Le Bureau du recensement américain collecte des statistiques comparant les différents 50 États. Le tableau suivant montre le taux de pauvreté (% de la population sous le seuil de pauvreté) et le taux de mortalité infantile pour 1 000 naissances vivantes) par État. D’après ces données, pouvons-nous conclure que les taux de pauvreté et de mortalité infantile par état sont corrélés ?

Données par état

Figure 4 – Données de l’exemple 2

Le diagramme de dispersion de ces données est le suivant.

Diagramme de dispersion Excel

Figure 5 – Diagramme de dispersion pour l’exemple 2. 2

Le coefficient de corrélation de l’échantillon est donné par

r = CORREL(R1, R2) = .564

Où R1 est la plage contenant les données sur la pauvreté et R2 est la plage contenant les données sur la mortalité infantile. Comme on s’attendait à ce que la corrélation de population soit non négative, on a utilisé l’hypothèse nulle à un seuil suivante :

H0 : ρ ≤ 0

Sur la base de l’hypothèse nulle, nous supposerons que ρ = 0 (meilleur cas), et donc comme dans l’exemple 1

image1555image1556

Enfin, nous effectuons l’un ou l’autre des tests suivants :

p-value = TDIST(4.737, 48, 1) = 9,8E-06 < ,05 = α (one-tail)

tcrit = TINV(2*.05, 48) = 1,677 < 4.737 = tobs

Et donc nous rejetons l’hypothèse nulle et concluons qu’il existe une corrélation non nulle entre la pauvreté et la mortalité infantile.

Comme nous étions sûrs que le coefficient de corrélation n’était pas négatif, nous avons choisi d’effectuer un test à une queue. Il s’avère que même si nous avions choisi un test bilatéral (c’est-à-dire H0 : ρ = 0), nous aurions quand même rejeté l’hypothèse nulle.

Fonctions de statistiques réelles : Les fonctions suivantes sont fournies dans le Real Statistics Resource Pack.

CorrTTest(r, size, tails) = la valeur p du test à un échantillon du coefficient de corrélation utilisant le théorème 1 où r est le coefficient de corrélation observé basé sur un échantillon de la taille indiquée. Si tails = 2 (par défaut), un test bilatéral est employé, tandis que si tails = 1, un test unilatéral est employé.

CorrTLower(r, size, alpha) = la limite inférieure de l’intervalle de confiance 1 – alpha du coefficient de corrélation de la population basé sur un échantillon de coefficient de corrélation r provenant d’un échantillon de la taille indiquée.

CorrTUpper(r, size, alpha) = la limite supérieure de l’intervalle de confiance 1 – alpha du coefficient de corrélation de la population en fonction d’un coefficient de corrélation d’échantillon r provenant d’un échantillon de la taille indiquée.

CorrelTTest(r, size, alpha, lab, tails) : fonction de tableau qui sort la t-stat, la p-value, et les limites inférieure et supérieure de l’intervalle de confiance 1 – alpha, où r et size sont tels que décrits ci-dessus. Si lab = TRUE, alors la sortie prend la forme d’une plage 4 × 2 dont la première colonne est constituée d’étiquettes, tandis que si lab = FALSE (par défaut), alors la sortie prend la forme d’une plage 4 × 1 sans étiquettes.

CorrelTTest(R1, R2, alpha, lab, tails) = CorrelTTest(r, size, alpha, lab, tails) où r = CORREL(R1, R2) et size = la taille de l’échantillon commun, c’est-à-dire le nombre de paires de R1, R2.c’est-à-dire le nombre de paires de R1 et R2 qui contiennent toutes deux des données numériques.

Si alpha est omis, il prend par défaut la valeur .05. Si tails = 2 (par défaut), un test bilatéral est employé, tandis que si tails = 1, un test unilatéral est employé.

Observation : Pour l’exemple 1, on observe que CorrTTest(-,713, 15) = 0,00282, CorrTLower(-,713, 15, ,05) = -1,13 et CorrTUpper(-,713, 15, ,05) = -,294.

Aussi, =CorrelTTest(A4:A18,B4:B18,E11,TRUE) produit la sortie suivante:

Fonction CorrelTTest

Observation : Comme observé précédemment

image1545

Nous pouvons utiliser ce fait pour créer les valeurs critiques du test t décrit ci-dessus, à savoir

image9201

.

Catégories : Articles

0 commentaire

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *