Il test F per l'analisi di regressione

Una procedura passo dopo passo per usare il test F

Per raggiungere gli obiettivi di cui sopra, seguiremo questi passi:

Formulare la statistica del test F, nota come statistica F.
Identificare la Funzione di Densità di Probabilità della variabile casuale che la statistica F rappresenta nell’ipotesi che l’ipotesi nulla sia vera.
Inserire i valori nella formula della statistica F e calcolare il valore di probabilità corrispondente usando la Funzione di Densità di Probabilità trovata nel passo 2. Questa è la probabilità di osservare il valore della statistica F assumendo che l’ipotesi nulla sia vera.
Se la probabilità trovata nel passo 3 è inferiore alla soglia di errore come 0,05, rifiutare l’ipotesi nulla e accettare l’ipotesi alternativa ad un livello di confidenza di (1,0 – soglia di errore), per esempio 1-0,05 = 0,95 (cioè il 95% di confidenza). Altrimenti, accettare l’ipotesi nulla con una probabilità di errore pari alla soglia di errore, per esempio a 0,05 o 5%.

Tuffiamoci in questi passi.

Passo 1: Sviluppare l’intuizione per la statistica del test

Ricordiamo che il test F misura quanto sia migliore un modello complesso rispetto a una versione più semplice dello stesso modello nella sua capacità di spiegare la varianza della variabile dipendente.

Consideriamo due modelli di regressione 1 e 2:

Il modello 1 ha k_1 parametri. Il modello 2 ha k_2 parametri.
Lascia che k_1 < k_2
Quindi il modello 1 è la versione più semplice del modello 2. Cioè il modello 1 è il modello ristretto e il modello 2 è il modello non ristretto. Il modello 1 può essere annidato all’interno del modello 2.
Lasciate che RSS_1 e RSS_2 siano la somma dei quadrati degli errori residui dopo che il modello 1 e il modello 2 sono adattati allo stesso set di dati.
Lasciate che n sia il numero di campioni di dati.

Con le definizioni di cui sopra, la statistica del test F per la regressione può essere espressa come un rapporto come segue:

Formula per la statistica F applicata all'analisi di regressione — Formula per la statistica F-applicata all’analisi di regressione (Image by Author)

La formula della statistica F permette di calcolare quanta parte della varianza della variabile dipendente, il modello più semplice non è in grado di spiegare rispetto al modello complesso, espresso come frazione della varianza non spiegata dal modello complesso.

Nell’analisi di regressione, l’errore quadratico medio del modello montato è un’ottima misura della varianza non spiegata. Il che spiega i termini RSS nel numeratore e nel denominatore.

Il numeratore e il denominatore sono opportunamente scalati usando i corrispondenti gradi di libertà disponibili.

La statistica F è essa stessa una variabile casuale.

Determiniamo a quale Funzione di Densità di Probabilità obbedisce la statistica F.

Passo 2: Identificare la Funzione di Densità di Probabilità della statistica F

Si noti che sia il numeratore che il denominatore della statistica del test contengono le somme dei quadrati degli errori residui. Ricordate anche che nella regressione, l’errore residuo è una variabile casuale con una funzione di densità di probabilità (o massa di probabilità), cioè una PDF o PMF a seconda che sia continua o discreta. In questo caso ci interessa trovare la PDF della statistica F.

Se assumiamo che gli errori residui dei due modelli siano 1) indipendenti e 2) normalmente distribuiti, che casualmente sono requisiti della regressione Ordinaria ai minimi quadrati, allora si può vedere che il numeratore e il denominatore della formula della statistica F contengono somme di quadrati di variabili casuali indipendenti e normalmente distribuite.

Si può dimostrare che la somma dei quadrati di k variabili casuali indipendenti e normali segue la PDF della distribuzione Chi-quadrato(k).

PDF della distribuzione Chi-quadrato (Fonte: Wikipedia CC BY 3.0) — PDF della distribuzione Chi-quadrato (Fonte: Wikimedia Commons under CC BY 3.0)

In altre parole:

Se la variabile casuale X ha la PDF della distribuzione F con parametri d_1 e d_2, cioè :

quindi, si può dimostrare che X è espresso come il rapporto di due variabili casuali opportunamente scalate X_1 e X_2, ciascuna delle quali ha la PDF di una distribuzione Chi-quadrato. Vale a dire :

Una variabile casuale X con distribuzione F espressa come il rapporto di due variabili casuali X_1 e X_2 con distribuzione Chi-quadrato scalata — Una variabile casuale X distribuita F, espressa come il rapporto di due variabili casuali distribuite Chi-quadrato scalate X_1 e X_2 (Immagine dell’autore)

Una variabile casuale F-distribuita X espressa come il rapporto di due variabili casuali distribuite Chi-quadrato scalate X_1 e X_2 — Una variabile casuale X distribuita F, espressa come il rapporto di due variabili casuali distribuite Chi-quadrato scalate X_1 e X_2 (Immagine dell’autore)

Ora ricordiamo che k_1 e k_2 sono il numero di variabili nei modelli semplici e complessi M1 e M2 introdotti prima, e n è il numero di campioni di dati.

Sostituiamo d_1 e d_2 come segue:

d_1 = (k_2 – k_1) che è la differenza dei gradi di libertà dei residui dei due modelli M1 e M2 da confrontare, e

d_2 = (n – k_2) che sono i gradi di libertà dei residui del modello complesso M2,

Con queste sostituzioni, possiamo riscrivere la formula della distribuzione F come segue:

Formula alternativa per la PDF della distribuzione F (Immagine dell’autore)

Passo 4: Determinare se l’ipotesi nulla può essere accettata

Siccome OLSResults.summary() stampa la probabilità che si verifichi la statistica F nell’ipotesi che l’ipotesi nulla sia vera, dobbiamo solo confrontare questa probabilità con il nostro valore alfa di soglia. Nel nostro esempio, il valore p restituito da .summary() è 4.84E-16 che è un numero estremamente piccolo. Molto più piccolo anche di alfa = 0,01. Quindi, c’è molto meno dell’1% di possibilità che la statistica F di 136,7 possa essersi verificata per caso sotto l’ipotesi di un’ipotesi nulla valida.

Quindi rifiutiamo l’ipotesi nulla e accettiamo l’ipotesi alternativa H_1 che il modello complesso, cioè il modello a variabili ritardate, nonostante i suoi ovvi difetti, sia in grado di spiegare la varianza della variabile dipendente Prezzo di chiusura meglio del modello a sola intercetta.

Il test F per l’analisi di regressione

Pubblicato da admin il Aprile 18, 2020

Una procedura passo dopo passo per usare il test F

Passo 1: Sviluppare l’intuizione per la statistica del test

Passo 2: Identificare la Funzione di Densità di Probabilità della statistica F

Passo 3: Calcolare il valore della statistica F

Passo 4: Determinare se l’ipotesi nulla può essere accettata

0 commenti

Lascia un commento Annulla risposta

Articles

Cos’è SAP S/4 HANA Cloud? A Deeper Look

Articles

241 nomi di cani inglesi

Articles

Gli effetti dannosi dell’uso dei cotton fioc per pulire le orecchie

Il test F per l’analisi di regressione

Pubblicato da admin il Aprile 18, 2020

Una procedura passo dopo passo per usare il test F

Passo 1: Sviluppare l’intuizione per la statistica del test

Passo 2: Identificare la Funzione di Densità di Probabilità della statistica F

Passo 3: Calcolare il valore della statistica F

Passo 4: Determinare se l’ipotesi nulla può essere accettata

0 commenti

Lascia un commento Annulla risposta

Articoli correlati

Articles

Cos’è SAP S/4 HANA Cloud? A Deeper Look

Articles

241 nomi di cani inglesi

Articles

Gli effetti dannosi dell’uso dei cotton fioc per pulire le orecchie