420 likes | 809 Views
Capitolo 6. Regressione lineare con regressori multipli. Struttura. Distorsione da variabili omesse Causalità e analisi di regressione Regressione multipla e OLS Misure di adattamento Distribuzione campionaria dello stimatore OLS. La distorsione da variabili omesse (Paragrafo 6.1).
E N D
Capitolo 6 Regressione lineare con regressori multipli
Struttura • Distorsione da variabili omesse • Causalità e analisi di regressione • Regressione multipla e OLS • Misure di adattamento • Distribuzione campionaria dello stimatore OLS
La distorsione da variabili omesse (Paragrafo 6.1) L’errore u si verifica a causa di fattori, o variabili, che influenzano Y ma non sono inclusi nella funzione di regressione. Ci sono sempre variabili omesse. Talvolta l’omissione di queste variabili può portare a una distorsione dello stimatore OLS.
La distorsione da variabili omesse (continua) La distorsione dello stimatore OLS che si verifica a seguito di un fattore, o variabile, omesso è detta distorsione da variabile omessa. Affinché si verifichi tale distorsione, la variabile omessa “Z” deve soddisfare due condizioni: Le due condizioni per la distorsione da variabile omessa • Z è un determinante di Y (cioè Z è parte di u); e • Z è correlata con il regressoreX(cioè corr(Z,X) ≠ 0) Entrambe le condizioni devono verificarsi affinché l’omissione di Z porti a distorsione da variabile omessa.
La distorsione da variabiliomesse (continua) Nell’esempiodeipuntegginei test: • Il livello di conoscenzadella lingua inglese (se lo studente è di madrelingua o meno) verosimilmenteinfluisce sui puntegginei test standardizzati: Z è un determinante di Y. • Le comunità di immigratitendono a unaminoreaffluenza e quindihanno budget scolasticiinferiori e STRmaggiori: Z è correlata con X. Di conseguenza, è distorto. In quale direzione? • Checosasuggerisceilbuonsenso? • Se ilbuonsenso vi fadifetto, c’èuna formula…
La distorsione da variabiliomesse (continua) Formula per la distorsione da variabiliomesse: siricordil’equazione – β1 = = Dove vi = (Xi – )ui≈ (Xi – μX)ui. Sotto la prima assunzione dei minimi quadrati, E[(Xi – μX)ui] = cov(Xi,ui) = 0. Ma se E[(Xi – μX)ui] = cov(Xi,ui) = σXu≠ 0?
La distorsione da variabiliomesse (continua) Sotto le assunzionideiminimiquadrati #2 e #3 (cioèanche se la prima assunzionedeiminimiquadrati non è vera), – β1 = = = , dove ρXu = corr(X,u). Se vale la prima assunzione, alloraρXu = 0, ma se non vale abbiamo….
Formula delladistorsione da variabiliomesse: 1 + • Se unavariabileomessaZ è contemporaneamente: • unadeterminante di Y (cioè se è contenuta in u); e • correlata con X, alloraρXu≠ 0 e lo stimatore OLS è distorto e inconsistente. • Per esempio, idistrettiscolastici con pochistudenti non di madrelingua (1) ottengonopunteggimigliorinei test standardizzati e (2) hannoclassipiùpiccole (budget piùelevati), perciòignorandol’effetto di averemoltistudenti non di madrelinguasiarriverebbe a sovrastimarel’effettodelladimensionedelleclassi. Si verificaquestoneidatiriferitialla California?
I distretti con menostudenti non di madrelinguaottengonomiglioripunteggineitesti. • I distrettti con unaminorepercentuale di studenti non di madrelinguahannoclassipiùpiccole. • Traidistretti con percentuali di studenti non di madrelinguacomparabili, l’effettodelladimensionedelleclassi è piccolo (siricordichecomplessivamente la “differenza di punteggionei test” = 7.4).
Causalità e analisi di regressione • L’esempiodeipuntegginei test/STR/percentuale di studenti non di madrelinguamostrache, se unavariabileomessasoddisfa le due condizionidelladistorsione da variabiliomesse, allora lo stimatore OLS nellaregressionecheomtte tale variabile è distorto e inconsistente. Perciò, anche se n è grande, non saràvicino a β1. • Ciòfasorgereunadomandapiùprofonda: come definiamoβ1? Ovvero, checosavogliamostimare, precisamente, quandoeseguiamounaregressione?
Checosavogliamostimare, precisamente, quandoeseguiamounaregressione? Esistono (almeno) trepossibilirisposte a questadomanda: • Vogliamostimare la pendenza di unarettaattraverso un diagramma a nuvola come sempliceriepilogodeidati a cui non associamo un significatosostanziale. Questopuòessere utile talvolta, ma non è molto interessante a livellointellettuale e non rientranell’obiettivodi questo corso.
Vogliamoeffettuare previsioni del valore di Y per unaunitàche non appartieneall’insiemedeidati, per cui conosciamoilvalore di X. Realizzareprevisioni è importante per glieconomisti, ed è possibileottenereprevisionieccellentiutilizzandoimetodi di regressionesenza la necessità di conoscereglieffetticausali. Torneremo a questotemapiùavantinelcorso.
Vogliamostimarel’effettocausalesuY di unavariazione in X. Eccoperchésiamointeressatiall’effettodelladimensionedelleclassi. Si suppongacheilconsiglioscolasticodecidaunariduzione di 2 studenti per classe. Quale sarebbel’effetto sui puntegginei test? Questa è unadomandacausale (qual è l’effettocausale sui puntegginei test di STR?) perciòdobbiamostimarequestoeffettocausale. A parte la discussionedell’attività di previsione, lo scopo di questocorso è la stima di effetticausalimediantemetodi di regressione.
Checos’è, precisamente, un effettocausale? • La “causalità” è un concettocomplesso! • In questocorsoadottiamo un approcciopraticoalladefinizione di causalità: Un effettocausale è definito come un effettomisurato in un esperimentocontrollatocasualizzatoideale.
Esperimentocontrollatocausalizzatoideale • Ideale: isoggettiseguonotuttiilprotocollo di trattamento – perfetta compliance, nessunerrorenei report, ecc.! • Casualizzato: isoggettidellapopolazione di interessesonoassegnaticasualmente a un gruppo di trattamento o di controllo (così non ci sonofattori di confusione) • Controllato: la disponibilità di un gruppo di controllopermette di misurarel’effettodifferenziale del trattamento • Esperimento: iltrattamento è assegnatonell’esperimento: isoggetti non hannoscelta, perciò non vi è “causalitàinversa” in cui isoggettiscelgonoiltrattamentocheritengonomigliore.
Tornandoalladimensionedelleclassi: Si immagini un esperimentocontrollatocasualizzatoideale per misurarel’effetto sui puntegginei test dellariduzione di STR… • In tale esperimentoglistudentisarebberoassegnaticasualmentealleclassi, cheavrebberodimensioni diverse. • Poichéglistudentisonoassegnaticasualmente, tutte le lorocaratteristiche (e quindigliui) sarebberodistribuiti in modoindipendente da STRi. • Quindi, E(ui|STRi) = 0 – cioè la prima assunzionedeiminimiquadrati vale in un esperimentocontrollatocasualizzato.
In chemodoinostridatiosservazionalidifferiscono da questasituazioneideale? • Il trattamento non è assegnato in modocasuale • Si consideriPctEL – la percentuale di studenti non di madrelingua – neldistretto. Verosimilmentesoddisfai due criteri per la distorsione da variabiliomesse: Z = PctEL è: • un determinante di Y; e • correlata con ilregressoreX. • Quindiigruppi “di controllo” e “di trattamento” differiscono in modosistematico, perciòcorr(STR,PctEL) ≠ 0
Casualizzazione + gruppo di controllosignificachequalsiasidifferenzatraigruppi di trattamento e di controllo è casuale – non sistematicamentecorrelata al trattamento • Possiamoeliminare la differenza di PctELtrailgruppo di classigrandi (di controllo) e quello di classipiccole (di trattamento) esaminandol’effettodelladimensionedelleclassitraidistretti con lo stessovalore di PctEL. • Se soltanto la differenzasistematicatraigruppi di classigrandi e piccole è in PctEL, alloratorniamoall’esperimentocontrollatocasualizzato – all’interno di ciascungruppo di PctEL. • Questo è un modo per “controlare” per l’effetto di PctELquandosistimal’effetto di STR.
Tornandoalladistorsione da variabiliomesse Tremodi per superare la distorsione da variabiliomesse • Eseguire un esperimentocontrollatocasualizzato in cui iltrattamento (STR) siaassegnatocasualmente: alloraPctEL è ancora un determinante di TestScore, ma PctEL è incorrelato con STR. (Questa soluzione è raramentepraticabile.) • Adottarel’approccio “a tabulazioneincrociata”, con gradazionipiùfini di STR e PctEL – all’interno di ognigruppo, tutte le classihanno lo stessoPctEL, perciòcontrolliamo per PctEL (ma presto siesaurirannoidati, e che dire di altrideterminanti come ilredditofamigliare e illivello di istruzionedeigenitori?) • Usareunaregressione in cui la variabileomessa (PctEL) non è piùomessa: includerePctEL come regressoreaggiuntivo in unaregressionemultipla.
Il modello di regressionemultipla(Paragrafo 6.2) • Si consideriilcaso di due regressori: Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n • Y è la variabiledipendente • X1, X2sono le due variabiliindipendenti (regressori) • (Yi, X1i, X2i) denotanol’i-esimaosservazionesuY, X1 e X2. • β0 = intercettadellapopolazioneignota • β1 = effettosuY di unavariazione in X1, tenendoX2costante • β2 = effettosuY di unavariazione in X2, tenendoX1costante • ui = errore di regressione (fattoriomessi)
Interpretazionedeicoefficientinellaregressionemultipla Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n Si consideri di variareX1 di ΔX1tenendoX2costante: Retta di regressionedellapopolazioneprima dellavariazione: Y = β0 + β1X1 + β2X2 Retta di regressionedellapopolazionedopola variazione: Y + ΔY = β0 + β1(X1 + ΔX1) + β2X2
Prima: Y = β0 + β1(X1 + ΔX1) + 2X2 Dopo: Y + ΔY = β0 + β1(X1 + ΔX1) + β2X2 Differenza: ΔY = β1ΔX1 Quindi: β1 = , tenendoX2costante β2 = , tenendoX1costante β0 = valorepredetto di YquandoX1 = X2 = 0.
Lo stimatore OLS dellaregressionemultipla(Paragrafo 6.3) • Con due regressori, lo stimatore OLS risolve: • Lo stimatore OLS minimizza la differenzaquadratica media traivaloriattuali di Yi e ilvalorepredetto in base allarettastimata. • Questoproblema di minimizzazionesirisolveusandol’analisimatematica • Cosìsiottengonoglistimatori OLS di β0 e β1.
Esempio: idatideipuntegginei test della California Regressione di TestScoresuSTR: = 698,9 – 2,28×STR Oraincludiamo la percentuale di studenti non di madrelinguaneldistretto (PctEL): = 686,0 – 1,10×STR – 0,65PctEL • Checosaaccade al coefficiente di STR? • (STR, PctEL) = 0,19)
Regressionemultipla in STATA regtestscrstrpctel, robust; Regression with robust standard errors Number of obs = 420 F( 2, 417) = 223.82 Prob > F = 0.0000 R-squared = 0.4264 Root MSE = 14.464 ------------------------------------------------------------------------------ | Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- str | -1.101296 .4328472 -2.54 0.011 -1.95213 -.2504616 pctel | -.6497768 .0310318 -20.94 0.000 -.710775 -.5887786 _cons | 686.0322 8.728224 78.60 0.000 668.8754 703.189 ------------------------------------------------------------------------------ = 686,0 – 1,10×STR– 0,65PctEL Piùavantitorneremosuquestostampato…
Misure di bontàdell’adattamentonellaregressionemultipla(Paragrafo 6.4) Reale = predetto + residuale: Yi = + SER = deviazione standard di (con correzione per gr. lib.) RMSE = deviazione standard di (senzacorrezioneper gr. lib.) R2 = frazionedellavarianza di Yspiegata da X = “R2corretto” = R2 con unacorrezione per gradi di libertàchecorregge per l’incertezzadellastima; < R2
SER e RMSE Come nellaregressione con un unicoregressore, SER e RMSEsonomisuredelladispersionedelleYattornoallaretta di regressione: SER = RMSE =
R2 e (R2corretto) L’R2 è la frazionedellavarianzaspiegata – stessadefinizionedellaregressione con singoloregressore: R2 = = , dove ESS = , SSR = , TSS = . L’R2aumentasemprequandosiaggiunge un altroregressore (perché?) – un problema per unamisura di “adattamento” 6-28
R2 e (continua) L’ (l’“R2corretto”) correggequestoproblema “penalizzandovi” per l’inserimento di un altroregressore – l’ non aumentanecessariamentequandosiaggiunge un altroregressore. R2corretto: = Si notiche< R2, tuttavia se n è grandei due saranno molto vicini.
Misure di bontàdell’adattamento (continua) Esempio del punteggionei test: (1) = 698,9 – 2,28×STR, R2 = 0,05, SER = 18,6 (2) = 686,0 – 1,10×STR – 0,65PctEL, R2 = 0,426, = 0,424, SER = 14,5 • Checosa vi dice questo – precisamente – riguardo la bontàdell’adattamentodellaregressione (2) rispettoallaregressione (1)? • perché l’R2 e l’ sonocosìvicini in (2)?
Le assunzionideiminimiquadrati per la regressionemultipla (Paragrafo 6.5) Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n • La distribuzione di ucondizionataalleX ha media nulla, cioèE(ui|X1i = x1,…, Xki = xk) = 0. • (X1i,…,Xki,Yi), i =1,…,n, sonoi.i.d. • Gli outlier sonoimprobabili: X1,…, Xk, e Yhannomomentiquarti: E( ) < ∞,…, E( ) < ∞, E( ) < ∞. • Non vi è collinearità perfetta.
Assunzione 1: la media condizionata di u date le Xincluse è zero. E(u|X1 = x1,…, Xk = xk) = 0 Ha la stessainterpretazione del casodellaregressione con un singoloregressore. • La non validità di questacondizioneporta a distorsione da variabiliomesse; nellospecifico, se unavariabileomessa • appartieneall’equazione (cioè è in u) e • è correlata con unaX inclusa • alloraquestacondizione non vale e vi è distorsione da variabiliomesse. • La soluzionemigliore, se possibile, è quella di includere la variabileomessanellaregressione. • Unasecondasoluzione, correlataallaprecedente, è quella di includereunavariabilechecontrolli per la variabileomessa (cfr. Capitolo 7)
Assunzione 2: (X1i,…,Xki,Yi), i =1,…,n, sonoi.i.d. È soddisfattaautomaticamente se idatisonoraccoltimediantecampionamentocasualesemplice. Assunzione 3: gli outlier sonorari (momentiquartifiniti) È la stessaassunzionedescritta per ilcaso di un regressoresingolo. Come in quelcaso, l’OLSpuòesseresensibileagli outlier, perciòoccorrecontrollareidati (diagrammi a nuvola!) per assicurarsiche non vi sianovalori “impazziti” (refusi o errori di codifica).
Assunzione 4: Non vi è collinearità perfettaLa collinearità perfettasi ha quando uno dei regressori è funzione lineare esatta degli altri. Esempio: sisupponga di includere due volte STR, per errore: regress testscrstrstr, robust Regression with robust standard errors Number of obs = 420 F( 1, 418) = 19.26 Prob > F = 0.0000 R-squared = 0.0512 Root MSE = 18.581 ------------------------------------------------------------------------- | Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------+---------------------------------------------------------------- str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671 str | (dropped) _cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057 -------------------------------------------------------------------------
La collinearità perfettasi ha quandounodeiregressori è funzionelineareesattadeglialtri. • Nellaregressioneprecedente, β1 è l’effettosuTestScore di unavariazioneunitaria in STR, tenendoSTRcostante (???) • Torneremoallacollinearità perfetta (e imperfetta) trabreve, con altriesempi… • Con le assunzionideiminimiquadrati, orapossiamoderivare la distribuzionecampionaria di, ,…, .
La distribuzione degli stimatori OLS nella regressione multipla (Paragrafo 6.6) Sotto le quattroassunzionideiminimiquadrati, • La distribuzionecampionaria di ha media β1 • var( ) è inversamenteproporzionale a n. • Al di là di media e varianza, la distribuzioneesatta(n-finita) di è molto complessa; ma per ngrande... • è consistente: β1 (leggedeigrandinumeri) • è approssimata da una distribuzione N(0,1) (TLC) • Queste proprietà valgono per ,…, Concettualmente, non vi è nulla di nuovo!
Collinearità perfetta e imperfetta(Paragrafo 6.7) La collinearità perfetta si ha quando uno dei regressori è una funzione lineare esatta degli altri. Altri esempi di collinearità perfetta • Dal caso precedente: includete STRdue volte, • Eseguite la regressione di TestScoresu una costante, D, e B, dove: Di = 1 se STR ≤ 20, = 0 altrimenti; Bi = 1 se STR>20, = 0 altrimenti, perciò Bi = 1 – Die vi è collinearità perfetta. • Ci sarebbe collinearità perfetta se l’intercetta (costante) fosse esclusa da questa regressione? Questo esempio è un caso speciale di…
La trappola delle variabili dummy Si supponga di avere un insieme di più variabili binarie (dummy) che sono mutuamente esclusive ed esaustive – cioè esistono più categorie e ogni osservazione ricade in una di esse e solo in una (Matricole, Studenti del secondo anno, Junior, Senior, Altri). Se includete tutte queste variabili dummy e una costante, avrete collinearità perfetta – si parla talvolta di trappola delle variabili dummy. • Perché vi è collinearità perfetta in questo caso? • Soluzioni alla trappola delle variabili dummy: • omettere uno dei gruppi (per esempio Senior), oppure • omettere l’intercetta • Quali sono le implicazioni di (1) o (2) per l’interpretazione dei coefficienti?
Collinearità perfetta (continua) • La collinearità perfetta solitamente riflette un errore nelle definizioni dei regressori, o una stranezza nei dati • Se avete collinearità perfetta, il software statistico ve lo farà sapere – bloccandosi, o mostrando un messaggio di errore, o “scaricando” arbitrariamente una delle variabili • La soluzione alla collinearità perfetta consiste nel modificare l’elenco di regressori.
Collinearità imperfetta La collinearità imperfetta è ben diversa dalla collinearità perfetta, nonostante la somiglianza dei nomi. La collinearità imperfetta si verifica quando due o più regressori sono altamente correlati. • Perché si usa il termine “collinearità”? Se due regressori sono altamente correlati, allora il loro diagramma a nuvola apparirà molto simile a una retta – sono “co-lineari” – ma a meno che la correlazione sia esattamente ±1, tale collinearità è imperfetta.
Collinearità imperfetta (continua) La collinearità imperfetta implica che uno o più dei coefficienti di regressione sarà stimato in modo impreciso. • L’idea: il coefficiente di X1è l’effetto di X1tenendo costante X2; ma se X1 e X2sono altamente correlati, vi è una ridottissima variazione in X1quando X2è mantenuta costante – perciò i dati non contengono molte informazioni su ciò che accade quando X1 cambia e X2no. In questo caso, la varianza dello stimatore OLS del coefficiente di X1sarà grande. • La collinearità imperfetta (correttamente) genera grandi errori standard per uno o più dei coefficienti OLS. • La matematica? Cfr. il volume stampato, Appendice 6.2 Prossimo argomento: test di ipotesi e intervalli di confidenza…