100 likes | 284 Views
ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE. Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS) Stimatore della varianza comune non nota ï³ 2 e f.d. dello stimatore OLS
E N D
ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE • Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS) • Stimatore della varianza comune non nota 2 e f.d. dello stimatore OLS • Stimatore della varianza comune non nota 2 nel caso di modello nullo • Eliminazione delle variabili statisticamente non significative • Tests statistici per la selezione delle variabili • Il test F per la selezione delle variabili • Procedure operative per la selezione delle variabili: backward elimination, forward selection, stepwise selection. • Un criterio per l’eliminazione delle variabili esplicative ridondanti • Eliminazione di variabili via analisi delle componenti principali
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS) • Per le variabili risposta yi|xi, i=1,2,…,n, complessivamente considerate nel vettore y|X , sotto le seguenti ipotesi: • 1) modello (parametrico) lineare: E(y|X, ) = X; • 2) indipendenza condizionale; • 3) medesima varianza non dipendente da : VAR(y|X, ) = 2In; • lo stimatore Ordinary Least SquaresOLS = (X’X)-1X’y, ha valore medio e varianza rispettivamente: • E(OLS) = ; • VAR(OLS) = (2/n)(X’X/n)-1. • Se si assume anche l’ulteriore aggiuntiva ipotesi: • 4) la legge di distribuzione condizionale comune delle variabili risposta yi|xi, i=1,2,…,n, è Normale (ipotesi di normalità); • lo stimatore OLS coincide con lo stimatore di massima verosimiglianza ML ed ha f.d. Normale k-variata; • Diversamente, data la linearità dello stimatore, per il teorema del limite centrale, esso ha solo asintoticamente funzione di distribuzione Normale k-variata; in questo caso, per n elevato (grandi campioni) la sua f.d. sarà approssimativamente Normale k-variata.
Stimatore della varianza comune non nota 2 e sua f.d. • Lo stimatore corretto della varianza comune non nota 2 è dato da: • (1) sk2 = (y-XOLS)’ (y-XOLS)/(n-k). • Sotto l’assunzione di normalità della legge di distribuzione condizionata comune delle variabili risposta, la statistica: • (2) z = (n-k) sk2/2, • si distribuisce come un chi-quadrato con n-k gradi di libertà. • Essendo 2 non nota, e dunque solo stimabile con la (1), sempre sotto l’assunzione di normalità, considerando i singoli stimatori OLS(j), il loro valore medio (j) e la stima della loro varianza j2= diag[sk2(X’X)-1], j = 1,2,…,k, la statistica: • [OLS(j) - (j)] / , • ha funzione di distribuzione t di Student’s con n-k gradi di libertà, j = 1,2,…,k.
Stimatore della varianza comune non nota 2 nel caso di modello nullo • Nel caso di modello nullo (in assenza di dipendenza delle variabili risposta dalle covariate (regressori o variabili indipendenti)), posto m = y’1n/n, lo stimatore della varianza comune non nota 2 è dato da: • s02 =(y-m1n)’(y-m1n)/(n-1). • In questo caso, sotto l’assunzione di Normalità della legge di distribuzione condizionata comune delle variabili risposta, la statistica: • z = (n-1) s02/ 2, • si distribuisce come un (chi-quadrato) con n-1 gradi di libertà.
Eliminazione delle variabili statisticamente non significative • Perché scartare delle variabili? • (i) Per realizzare un modello parsimonioso. • (ii) Per avere un adeguato rapporto tra la dimensione del campione e il numero di parametri del modello da stimare. • (iii) Per eliminare variabili esplicative fortemente correlate con variabili già entrate nel modello il cui contributo esplicativo aggiuntivo non può che essere statisticamente irrilevante (non significativo). • (iv) Per eliminare variabili il cui contributo esplicativo è comunque statisticamente irrilevante. • Il problema di scelta del modello migliore comporta: • (1) Prefissato il numero p di variabili da selezionare, la scelta delle p (1 p k) variabili delle k disponibili con coefficiente di correlazione multiplo al quadrato (o rapporto di determinazione) massimo, p=1,2,…,k. Fissato p (1 p k), si tratta di comparare k!/[p!(k-p)!] modelli di regressione. Questa comparazione può risultare laboriosa per numero di modelli da considerare. Il migliore modello con p+1 variabili non è necessariamente costituito dalle stesse variabili del migliore modello con p variabili più una variabile aggiuntiva (i modelli non sono necessariamente nested). • (2) La scelta del numero p di variabili da considerare nel modello comparando tra loro i modelli migliori. Questa scelta è resa non univoca non essendo i modelli necessariamente inclusivi (nested).
Tests statistici per la selezione delle variabili: tests sui valori dei coefficienti di regressione stimati (test t e test chi-quadrato) • La selezione delle p variabili (0 p k), da ritenere statisticamente significative nella modellazione lineare della dipendenza della variabile risposta dalle covariate, sotto ipotesi di normalità e stima della varianza non nota 2, può avvenire nei seguenti modi: • 1- Con verifica dell’ipotesi di nullità (H0: j=0, contro H1: j0) di ogni singolo coefficiente di regressione. In tal caso si fa riferimento alla statistica determinata sotto l’ipotesi nulla: [OLS(j) - 0]/sqrt(j2), che ha f.d. t di Student’s con n-k gradi di libertà, j=1,2,…,k. Si rifiuta l’ipotesi nulla per valori elevati del valore assoluto della statistica (o per valori piccoli di p-value della statistica in valore assoluto). • 2- Con verifica dell’ipotesi di nullità (H0: q=0, contro H1: non tutti i singoli i di q sono nulli) di un gruppo di coefficienti di regressione, data la partizione: = (p’, q’)’, con: p+q=k. In tal caso si fa riferimento alla statistica di Wald (forma quadratica) determinata sotto l’ipotesi nulla: w = (q-OLS)’[VAR(q-OLS)]-1 (q-OLS), che ha f.d. chi-quadrato con q gradi di libertà, se 2 è noto (Mardia et al., teorema 3.2.1); diversamente, sostituendo 2 con la sua stima s2p+q, risulta solo asintoticamente con f.d. chi-quadrato con q gradi di libertà.
Test sulla variazione della somma dei residui al quadrato:Il test F • 3- Considerato un modello lineare con un numero fissato di variabili già accettate (ritenute statisticamente significative) xp (1 p k) (modello ridotto), si tratta di verificare l’ipotesi di decremento non significativo (ipotesi nulla) della somma dei residui al quadrato (RSS: Residual Sum of Squares) conseguente all’inserimento aggiuntivo di una o più ulteriori variabili esplicative (ulteriori covariate) xq (1 q k-p) (modello esteso). In questo caso ponendo: • xp+q = (xp, xq); • RSS(xp) = (y-Xpp-OLS)’(y-Xpp-OLS); • RSS(xp+q) = (y-Xp+q(p+q)-OLS)’(y-Xp+q(p+q)-OLS); • si fa riferimento alla statistica: • z = {[RSS(xp) - RSS(xp+q)]/q} / [RSS(xp+q)/(n-p-q)], • che, sotto l’ipotesi di normalità, ha f.d. F di Snedecor con gradi di libertà q ed [n-(p+q)]. • Si rigetta l’ipotesi nulla per valori di z maggiori del valore critico F(q,(n-p-q),(1-)), con usualmente =0.05, oppure con p-value minore di una soglia piccola prefissata (minore di ). • Il test F permette di comparare modelli necessariamente nested.
Procedure operative per la selezione delle variabili: backward elimination, forward selection, stepwise selection. • Dal test F suddetto, operando successivamente con q = 1, si ottengono le procedure di selezione seguenti: • Backward Elimination; • Forward Selection; • Stepwise Selection. • Vedi, ad esempio, Draper and Smith, Applied Regression Analysis, John Wiley & Sons, Inc.
Un criterio per l’eliminazione delle variabili esplicative ridondanti basato sui rapporti di determinazione tra variabili esplicative. • In presenza di multicollinearità si può pensare di determinare le p variabili delle k variabili esplicative inizialmente considerate che più sono in grado di spiegare le singole rimanenti k-p variabili. • Per ogni scelta di p variabili raccolte nel vettore xp, che, senza perdere in generalità, possiamo pensare siano le prime p variabili delle k considerate, si possono considerare i k-p rapporti di determinazione r2(xj,xp), ottenibili con j = p+1,…,k, per le singole rimanenti k-p variabili e fare corrispondere a tale scelta, delle possibili , il rapporto di determinazione minimo: • Delle scelte possibili di p variabili, si sceglierà quella per la quale il rapporto di determinazione minimo è massimo.
Eliminazione di variabili via analisi delle componenti principali • Delle k variabili esplicative, le prime componenti principali colgono la variabilità strutturale; le ultime componenti principali costituiscono perturbazione. • Nella scelta delle variabili, si eliminano quelle variabili che sono più fortemente correlate (positivamente o negativamente) con le ultime componenti principali (quelle corrispondenti ad autovalori poco elevati). Si eliminano cioè le variabili che presentano i più elevati coefficienti in valore assoluto che non siano già state precedentemente eliminate fino alla riduzione desiderata del numero di variabili.