Come in Distribuzioni di campionamento, possiamo considerare la distribuzione di r su campioni ripetuti di x e y. Il seguente teorema è analogo al Teorema del limite centrale, ma per r invece di x̄. Questa volta richiediamo che x e y abbiano una distribuzione normale bivariata congiunta o che i campioni siano sufficientemente grandi. Si può pensare a una distribuzione normale bivariata come alla versione tridimensionale della distribuzione normale, in cui qualsiasi fetta verticale attraverso la superficie che graficizza la distribuzione risulta in una curva a campana ordinaria.
La distribuzione di campionamento di r è simmetrica solo quando ρ = 0 (cioè quando x e y sono indipendenti). Se ρ ≠ 0, allora la distribuzione di campionamento è asimmetrica e quindi il seguente teorema non si applica, e devono essere utilizzati altri metodi di inferenza.
Teorema 1: Supponiamo che ρ = 0. Se x e y hanno una distribuzione normale bivariata o se la dimensione del campione n è sufficientemente grande, allora r ha una distribuzione normale con media 0, e t = r/sr ~ T(n – 2) dove
qui il numeratore r della variabile casuale t è la stima di ρ = 0 e sr è l’errore standard di t.
Osservazione: Se risolviamo l’equazione del teorema 1 per r, otteniamo
Osservazione: Il teorema può essere usato per testare l’ipotesi che le variabili casuali della popolazione x e y siano indipendenti, cioè ρ = 0.
Esempio 1: Uno studio è progettato per verificare la relazione tra fumo e longevità. È stato preso un campione di 15 uomini di 50 anni e più ed è stato registrato il numero medio di sigarette fumate al giorno e l’età alla morte, come riassunto nella tabella della figura 1. Possiamo concludere dal campione che la longevità è indipendente dal fumo?
Figura 1 – Dati dell’esempio 1
Il diagramma di dispersione per questi dati è il seguente. Abbiamo anche incluso la linea di tendenza lineare che sembra corrispondere meglio ai dati. Lo studieremo ulteriormente nella Regressione Lineare.
Figura 2 – Diagramma di dispersione per l’esempio 1
In seguito calcoliamo il coefficiente di correlazione del campione utilizzando la funzione CORREL:
r = CORREL(R1, R2) = -.713
Dal diagramma di dispersione e dal coefficiente di correlazione, è chiaro che la correlazione della popolazione è probabilmente negativa. Il valore assoluto del coefficiente di correlazione sembra alto, ma è abbastanza alto? Per determinarlo, stabiliamo la seguente ipotesi nulla:
H0: ρ = 0
Ricordiamo che ρ = 0 significa che le due variabili di popolazione sono indipendenti. Usiamo t = r/sr come statistica di test dove sr è come nel Teorema 1. Sulla base dell’ipotesi nulla, ρ = 0, possiamo applicare il Teorema 1, a condizione che x e y abbiano una distribuzione normale bivariata. È difficile verificare la normalità bivariata, ma possiamo almeno controllare che ogni variabile sia approssimativamente normale tramite i grafici QQ.
Figura 3 – Verifica della normalità
Entrambi i campioni sembrano normali, e quindi per il Teorema 1, sappiamo che t ha approssimativamente una distribuzione t con n – 2 = 13 gradi di libertà. Ora calcoliamo
Finalmente, eseguiamo uno dei seguenti test:
p-value = TDIST(ABS(-3.67), 13, 2) = .00282 < .05 = α (due code)
tcrit = TINV(.05, 13) = 2.16 < 3.67 = |tobs |
E così rifiutiamo l’ipotesi nulla e concludiamo che esiste una correlazione non nulla tra fumo e longevità. In effetti, dai dati risulta che l’aumento dei livelli di fumo riduce la longevità.
Esempio 2: Il Census Bureau degli Stati Uniti raccoglie statistiche che confrontano i vari 50 stati. La seguente tabella mostra il tasso di povertà (% della popolazione sotto il livello di povertà) e il tasso di mortalità infantile per 1.000 nati vivi) per stato. Sulla base di questi dati, possiamo concludere che i tassi di povertà e di mortalità infantile per stato sono correlati?
Figura 4 – Dati per l’esempio 2
Il diagramma di dispersione per questi dati è il seguente.
Figura 5 – Diagramma di dispersione per l’esempio 2
Il coefficiente di correlazione del campione è dato da
r = CORREL(R1, R2) = .564
dove R1 è l’intervallo contenente i dati sulla povertà e R2 è l’intervallo contenente i dati sulla mortalità infantile. Poiché ci si aspettava che la correlazione della popolazione fosse non negativa, è stata utilizzata la seguente ipotesi nulla a una coda:
H0: ρ ≤ 0
Basandoci sull’ipotesi nulla assumeremo che ρ = 0 (caso migliore), e quindi come nell’Esempio 1
Finalmente, eseguiamo uno dei seguenti test:
p-value = TDIST(4.737, 48, 1) = 9.8E-06 < .05 = α (una coda)
tcrit = TINV(2*.05, 48) = 1.677 < 4.737 = tobs
E così rifiutiamo l’ipotesi nulla e concludiamo che c’è una correlazione non nulla tra povertà e mortalità infantile.
Siccome eravamo sicuri che il coefficiente di correlazione non fosse negativo, abbiamo scelto di eseguire un test a una coda. Si scopre che anche se avessimo scelto un test a due code (cioè H0: ρ = 0), avremmo comunque rifiutato l’ipotesi nulla.
Funzioni di statistica reale: Le seguenti funzioni sono fornite nel Real Statistics Resource Pack.
CorrTTest(r, size, tails) = il p-value del test a un campione del coefficiente di correlazione usando il Teorema 1 dove r è il coefficiente di correlazione osservato basato su un campione della dimensione indicata. Se code = 2 (default) viene impiegato un test a due code, mentre se code = 1 viene impiegato un test a una coda.
CorrTLower(r, size, alpha) = il limite inferiore dell’intervallo di confidenza 1 – alpha del coefficiente di correlazione della popolazione basato su un coefficiente di correlazione campione r proveniente da un campione della dimensione indicata.
CorrTUpper(r, size, alpha) = il limite superiore dell’intervallo di confidenza 1 – alfa del coefficiente di correlazione della popolazione basato su un coefficiente di correlazione campione r proveniente da un campione della dimensione indicata.
CorrelTTest(r, size, alpha, lab, tails): funzione di array che produce t-stat, p-value, limite inferiore e superiore dell’intervallo di confidenza 1 – alpha, dove r e size sono come descritto sopra. Se lab = TRUE allora l’output assume la forma di un intervallo 4 × 2 con la prima colonna costituita da etichette, mentre se lab = FALSE (default) allora l’output assume la forma di un intervallo 4 × 1 senza etichette.
CorrelTTest(R1, R2, alpha, lab, tails) = CorrelTTest(r, size, alpha, lab, tails) dove r = CORREL(R1, R2) e size = la dimensione del campione comune, cioè il numero di coppie da R1 a R2.Cioè il numero di coppie di R1 e R2 che contengono entrambi dati numerici.
Se alpha è omesso, il valore predefinito è .05. Se code = 2 (default) viene impiegato un test a due code, mentre se code = 1 viene impiegato un test a una coda.
Osservazione: Per l’esempio 1, osserviamo che CorrTTest(-.713, 15) = .00282, CorrTLower(-.713, 15, .05) = -1.13 e CorrTUpper(-.713, 15, .05) = -.294.
Anche =CorrelTTest(A4:A18,B4:B18,E11,TRUE) produce il seguente output:
Osservazione: Come osservato in precedenza
Possiamo usare questo fatto per creare i valori critici per il t-test descritto sopra, cioè
0 commenti