1 / 41

Capitolo 6

Capitolo 6. Regressione lineare con regressori multipli. Struttura. Distorsione da variabili omesse Causalità e analisi di regressione Regressione multipla e OLS Misure di adattamento Distribuzione campionaria dello stimatore OLS. La distorsione da variabili omesse (Paragrafo 6.1).

velvet
Download Presentation

Capitolo 6

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Capitolo 6 Regressione lineare con regressori multipli

  2. Struttura • Distorsione da variabili omesse • Causalità e analisi di regressione • Regressione multipla e OLS • Misure di adattamento • Distribuzione campionaria dello stimatore OLS

  3. La distorsione da variabili omesse (Paragrafo 6.1) L’errore u si verifica a causa di fattori, o variabili, che influenzano Y ma non sono inclusi nella funzione di regressione. Ci sono sempre variabili omesse. Talvolta l’omissione di queste variabili può portare a una distorsione dello stimatore OLS.

  4. La distorsione da variabili omesse (continua) La distorsione dello stimatore OLS che si verifica a seguito di un fattore, o variabile, omesso è detta distorsione da variabile omessa. Affinché si verifichi tale distorsione, la variabile omessa “Z” deve soddisfare due condizioni: Le due condizioni per la distorsione da variabile omessa • Z è un determinante di Y (cioè Z è parte di u); e • Z è correlata con il regressoreX(cioè corr(Z,X) ≠ 0) Entrambe le condizioni devono verificarsi affinché l’omissione di Z porti a distorsione da variabile omessa.

  5. La distorsione da variabiliomesse (continua) Nell’esempiodeipuntegginei test: • Il livello di conoscenzadella lingua inglese (se lo studente è di madrelingua o meno) verosimilmenteinfluisce sui puntegginei test standardizzati: Z è un determinante di Y. • Le comunità di immigratitendono a unaminoreaffluenza e quindihanno budget scolasticiinferiori e STRmaggiori: Z è correlata con X. Di conseguenza, è distorto. In quale direzione? • Checosasuggerisceilbuonsenso? • Se ilbuonsenso vi fadifetto, c’èuna formula…

  6. La distorsione da variabiliomesse (continua) Formula per la distorsione da variabiliomesse: siricordil’equazione – β1 = = Dove vi = (Xi – )ui≈ (Xi – μX)ui. Sotto la prima assunzione dei minimi quadrati, E[(Xi – μX)ui] = cov(Xi,ui) = 0. Ma se E[(Xi – μX)ui] = cov(Xi,ui) = σXu≠ 0?

  7. La distorsione da variabiliomesse (continua) Sotto le assunzionideiminimiquadrati #2 e #3 (cioèanche se la prima assunzionedeiminimiquadrati non è vera), – β1 = = = , dove ρXu = corr(X,u). Se vale la prima assunzione, alloraρXu = 0, ma se non vale abbiamo….

  8. Formula delladistorsione da variabiliomesse: 1 + • Se unavariabileomessaZ è contemporaneamente: • unadeterminante di Y (cioè se è contenuta in u); e • correlata con X, alloraρXu≠ 0 e lo stimatore OLS è distorto e inconsistente. • Per esempio, idistrettiscolastici con pochistudenti non di madrelingua (1) ottengonopunteggimigliorinei test standardizzati e (2) hannoclassipiùpiccole (budget piùelevati), perciòignorandol’effetto di averemoltistudenti non di madrelinguasiarriverebbe a sovrastimarel’effettodelladimensionedelleclassi. Si verificaquestoneidatiriferitialla California?

  9. I distretti con menostudenti non di madrelinguaottengonomiglioripunteggineitesti. • I distrettti con unaminorepercentuale di studenti non di madrelinguahannoclassipiùpiccole. • Traidistretti con percentuali di studenti non di madrelinguacomparabili, l’effettodelladimensionedelleclassi è piccolo (siricordichecomplessivamente la “differenza di punteggionei test” = 7.4).

  10. Causalità e analisi di regressione • L’esempiodeipuntegginei test/STR/percentuale di studenti non di madrelinguamostrache, se unavariabileomessasoddisfa le due condizionidelladistorsione da variabiliomesse, allora lo stimatore OLS nellaregressionecheomtte tale variabile è distorto e inconsistente. Perciò, anche se n è grande, non saràvicino a β1. • Ciòfasorgereunadomandapiùprofonda: come definiamoβ1? Ovvero, checosavogliamostimare, precisamente, quandoeseguiamounaregressione?

  11. Checosavogliamostimare, precisamente, quandoeseguiamounaregressione? Esistono (almeno) trepossibilirisposte a questadomanda: • Vogliamostimare la pendenza di unarettaattraverso un diagramma a nuvola come sempliceriepilogodeidati a cui non associamo un significatosostanziale. Questopuòessere utile talvolta, ma non è molto interessante a livellointellettuale e non rientranell’obiettivodi questo corso.

  12. Vogliamoeffettuare previsioni del valore di Y per unaunitàche non appartieneall’insiemedeidati, per cui conosciamoilvalore di X. Realizzareprevisioni è importante per glieconomisti, ed è possibileottenereprevisionieccellentiutilizzandoimetodi di regressionesenza la necessità di conoscereglieffetticausali. Torneremo a questotemapiùavantinelcorso.

  13. Vogliamostimarel’effettocausalesuY di unavariazione in X. Eccoperchésiamointeressatiall’effettodelladimensionedelleclassi. Si suppongacheilconsiglioscolasticodecidaunariduzione di 2 studenti per classe. Quale sarebbel’effetto sui puntegginei test? Questa è unadomandacausale (qual è l’effettocausale sui puntegginei test di STR?) perciòdobbiamostimarequestoeffettocausale. A parte la discussionedell’attività di previsione, lo scopo di questocorso è la stima di effetticausalimediantemetodi di regressione.

  14. Checos’è, precisamente, un effettocausale? • La “causalità” è un concettocomplesso! • In questocorsoadottiamo un approcciopraticoalladefinizione di causalità: Un effettocausale è definito come un effettomisurato in un esperimentocontrollatocasualizzatoideale.

  15. Esperimentocontrollatocausalizzatoideale • Ideale: isoggettiseguonotuttiilprotocollo di trattamento – perfetta compliance, nessunerrorenei report, ecc.! • Casualizzato: isoggettidellapopolazione di interessesonoassegnaticasualmente a un gruppo di trattamento o di controllo (così non ci sonofattori di confusione) • Controllato: la disponibilità di un gruppo di controllopermette di misurarel’effettodifferenziale del trattamento • Esperimento: iltrattamento è assegnatonell’esperimento: isoggetti non hannoscelta, perciò non vi è “causalitàinversa” in cui isoggettiscelgonoiltrattamentocheritengonomigliore.

  16. Tornandoalladimensionedelleclassi: Si immagini un esperimentocontrollatocasualizzatoideale per misurarel’effetto sui puntegginei test dellariduzione di STR… • In tale esperimentoglistudentisarebberoassegnaticasualmentealleclassi, cheavrebberodimensioni diverse. • Poichéglistudentisonoassegnaticasualmente, tutte le lorocaratteristiche (e quindigliui) sarebberodistribuiti in modoindipendente da STRi. • Quindi, E(ui|STRi) = 0 – cioè la prima assunzionedeiminimiquadrati vale in un esperimentocontrollatocasualizzato.

  17. In chemodoinostridatiosservazionalidifferiscono da questasituazioneideale? • Il trattamento non è assegnato in modocasuale • Si consideriPctEL – la percentuale di studenti non di madrelingua – neldistretto. Verosimilmentesoddisfai due criteri per la distorsione da variabiliomesse: Z = PctEL è: • un determinante di Y; e • correlata con ilregressoreX. • Quindiigruppi “di controllo” e “di trattamento” differiscono in modosistematico, perciòcorr(STR,PctEL) ≠ 0

  18. Casualizzazione + gruppo di controllosignificachequalsiasidifferenzatraigruppi di trattamento e di controllo è casuale – non sistematicamentecorrelata al trattamento • Possiamoeliminare la differenza di PctELtrailgruppo di classigrandi (di controllo) e quello di classipiccole (di trattamento) esaminandol’effettodelladimensionedelleclassitraidistretti con lo stessovalore di PctEL. • Se soltanto la differenzasistematicatraigruppi di classigrandi e piccole è in PctEL, alloratorniamoall’esperimentocontrollatocasualizzato – all’interno di ciascungruppo di PctEL. • Questo è un modo per “controlare” per l’effetto di PctELquandosistimal’effetto di STR.

  19. Tornandoalladistorsione da variabiliomesse Tremodi per superare la distorsione da variabiliomesse • Eseguire un esperimentocontrollatocasualizzato in cui iltrattamento (STR) siaassegnatocasualmente: alloraPctEL è ancora un determinante di TestScore, ma PctEL è incorrelato con STR. (Questa soluzione è raramentepraticabile.) • Adottarel’approccio “a tabulazioneincrociata”, con gradazionipiùfini di STR e PctEL – all’interno di ognigruppo, tutte le classihanno lo stessoPctEL, perciòcontrolliamo per PctEL (ma presto siesaurirannoidati, e che dire di altrideterminanti come ilredditofamigliare e illivello di istruzionedeigenitori?) • Usareunaregressione in cui la variabileomessa (PctEL) non è piùomessa: includerePctEL come regressoreaggiuntivo in unaregressionemultipla.

  20. Il modello di regressionemultipla(Paragrafo 6.2) • Si consideriilcaso di due regressori: Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n • Y è la variabiledipendente • X1, X2sono le due variabiliindipendenti (regressori) • (Yi, X1i, X2i) denotanol’i-esimaosservazionesuY, X1 e X2. • β0 = intercettadellapopolazioneignota • β1 = effettosuY di unavariazione in X1, tenendoX2costante • β2 = effettosuY di unavariazione in X2, tenendoX1costante • ui = errore di regressione (fattoriomessi)

  21. Interpretazionedeicoefficientinellaregressionemultipla Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n Si consideri di variareX1 di ΔX1tenendoX2costante: Retta di regressionedellapopolazioneprima dellavariazione: Y = β0 + β1X1 + β2X2 Retta di regressionedellapopolazionedopola variazione: Y + ΔY = β0 + β1(X1 + ΔX1) + β2X2

  22. Prima: Y = β0 + β1(X1 + ΔX1) + 2X2 Dopo: Y + ΔY = β0 + β1(X1 + ΔX1) + β2X2 Differenza: ΔY = β1ΔX1 Quindi: β1 = , tenendoX2costante β2 = , tenendoX1costante β0 = valorepredetto di YquandoX1 = X2 = 0.

  23. Lo stimatore OLS dellaregressionemultipla(Paragrafo 6.3) • Con due regressori, lo stimatore OLS risolve: • Lo stimatore OLS minimizza la differenzaquadratica media traivaloriattuali di Yi e ilvalorepredetto in base allarettastimata. • Questoproblema di minimizzazionesirisolveusandol’analisimatematica • Cosìsiottengonoglistimatori OLS di β0 e β1.

  24. Esempio: idatideipuntegginei test della California Regressione di TestScoresuSTR: = 698,9 – 2,28×STR Oraincludiamo la percentuale di studenti non di madrelinguaneldistretto (PctEL):   = 686,0 – 1,10×STR – 0,65PctEL • Checosaaccade al coefficiente di STR? • (STR, PctEL) = 0,19)

  25. Regressionemultipla in STATA regtestscrstrpctel, robust; Regression with robust standard errors Number of obs = 420 F( 2, 417) = 223.82 Prob > F = 0.0000 R-squared = 0.4264 Root MSE = 14.464 ------------------------------------------------------------------------------ | Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- str | -1.101296 .4328472 -2.54 0.011 -1.95213 -.2504616 pctel | -.6497768 .0310318 -20.94 0.000 -.710775 -.5887786 _cons | 686.0322 8.728224 78.60 0.000 668.8754 703.189 ------------------------------------------------------------------------------ = 686,0 – 1,10×STR– 0,65PctEL Piùavantitorneremosuquestostampato…

  26. Misure di bontàdell’adattamentonellaregressionemultipla(Paragrafo 6.4) Reale = predetto + residuale: Yi = + SER = deviazione standard di (con correzione per gr. lib.) RMSE = deviazione standard di (senzacorrezioneper gr. lib.) R2 = frazionedellavarianza di Yspiegata da X = “R2corretto” = R2 con unacorrezione per gradi di libertàchecorregge per l’incertezzadellastima; < R2

  27. SER e RMSE Come nellaregressione con un unicoregressore, SER e RMSEsonomisuredelladispersionedelleYattornoallaretta di regressione: SER = RMSE =

  28. R2 e (R2corretto) L’R2 è la frazionedellavarianzaspiegata – stessadefinizionedellaregressione con singoloregressore: R2 = = , dove ESS = , SSR = , TSS = . L’R2aumentasemprequandosiaggiunge un altroregressore (perché?) – un problema per unamisura di “adattamento” 6-28

  29. R2 e (continua) L’ (l’“R2corretto”) correggequestoproblema “penalizzandovi” per l’inserimento di un altroregressore – l’ non aumentanecessariamentequandosiaggiunge un altroregressore. R2corretto: = Si notiche< R2, tuttavia se n è grandei due saranno molto vicini.

  30. Misure di bontàdell’adattamento (continua) Esempio del punteggionei test: (1) = 698,9 – 2,28×STR, R2 = 0,05, SER = 18,6 (2) = 686,0 – 1,10×STR – 0,65PctEL, R2 = 0,426, = 0,424, SER = 14,5 • Checosa vi dice questo – precisamente – riguardo la bontàdell’adattamentodellaregressione (2) rispettoallaregressione (1)? • perché l’R2 e l’ sonocosìvicini in (2)?

  31. Le assunzionideiminimiquadrati per la regressionemultipla (Paragrafo 6.5) Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n • La distribuzione di ucondizionataalleX ha media nulla, cioèE(ui|X1i = x1,…, Xki = xk) = 0. • (X1i,…,Xki,Yi), i =1,…,n, sonoi.i.d. • Gli outlier sonoimprobabili: X1,…, Xk, e Yhannomomentiquarti: E( ) < ∞,…, E( ) < ∞, E( ) < ∞. • Non vi è collinearità perfetta.

  32. Assunzione 1: la media condizionata di u date le Xincluse è zero. E(u|X1 = x1,…, Xk = xk) = 0  Ha la stessainterpretazione del casodellaregressione con un singoloregressore. • La non validità di questacondizioneporta a distorsione da variabiliomesse; nellospecifico, se unavariabileomessa • appartieneall’equazione (cioè è in u) e • è correlata con unaX inclusa • alloraquestacondizione non vale e vi è distorsione da variabiliomesse. • La soluzionemigliore, se possibile, è quella di includere la variabileomessanellaregressione. • Unasecondasoluzione, correlataallaprecedente, è quella di includereunavariabilechecontrolli per la variabileomessa (cfr. Capitolo 7)

  33. Assunzione 2: (X1i,…,Xki,Yi), i =1,…,n, sonoi.i.d. È soddisfattaautomaticamente se idatisonoraccoltimediantecampionamentocasualesemplice. Assunzione 3: gli outlier sonorari (momentiquartifiniti) È la stessaassunzionedescritta per ilcaso di un regressoresingolo. Come in quelcaso, l’OLSpuòesseresensibileagli outlier, perciòoccorrecontrollareidati (diagrammi a nuvola!) per assicurarsiche non vi sianovalori “impazziti” (refusi o errori di codifica).

  34. Assunzione 4: Non vi è collinearità perfettaLa collinearità perfettasi ha quando uno dei regressori è funzione lineare esatta degli altri. Esempio: sisupponga di includere due volte STR, per errore: regress testscrstrstr, robust Regression with robust standard errors Number of obs = 420 F( 1, 418) = 19.26 Prob > F = 0.0000 R-squared = 0.0512 Root MSE = 18.581 ------------------------------------------------------------------------- | Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------+---------------------------------------------------------------- str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671 str | (dropped) _cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057 -------------------------------------------------------------------------

  35. La collinearità perfettasi ha quandounodeiregressori è funzionelineareesattadeglialtri. • Nellaregressioneprecedente, β1 è l’effettosuTestScore di unavariazioneunitaria in STR, tenendoSTRcostante (???) • Torneremoallacollinearità perfetta (e imperfetta) trabreve, con altriesempi… • Con le assunzionideiminimiquadrati, orapossiamoderivare la distribuzionecampionaria di, ,…, .

  36. La distribuzione degli stimatori OLS nella regressione multipla (Paragrafo 6.6) Sotto le quattroassunzionideiminimiquadrati, • La distribuzionecampionaria di ha media β1 • var( ) è inversamenteproporzionale a n. • Al di là di media e varianza, la distribuzioneesatta(n-finita) di è molto complessa; ma per ngrande... • è consistente: β1 (leggedeigrandinumeri) • è approssimata da una distribuzione N(0,1) (TLC) • Queste proprietà valgono per ,…, Concettualmente, non vi è nulla di nuovo!

  37. Collinearità perfetta e imperfetta(Paragrafo 6.7) La collinearità perfetta si ha quando uno dei regressori è una funzione lineare esatta degli altri. Altri esempi di collinearità perfetta • Dal caso precedente: includete STRdue volte, • Eseguite la regressione di TestScoresu una costante, D, e B, dove: Di = 1 se STR ≤ 20, = 0 altrimenti; Bi = 1 se STR>20, = 0 altrimenti, perciò Bi = 1 – Die vi è collinearità perfetta. • Ci sarebbe collinearità perfetta se l’intercetta (costante) fosse esclusa da questa regressione? Questo esempio è un caso speciale di…

  38. La trappola delle variabili dummy Si supponga di avere un insieme di più variabili binarie (dummy) che sono mutuamente esclusive ed esaustive – cioè esistono più categorie e ogni osservazione ricade in una di esse e solo in una (Matricole, Studenti del secondo anno, Junior, Senior, Altri). Se includete tutte queste variabili dummy e una costante, avrete collinearità perfetta – si parla talvolta di trappola delle variabili dummy. • Perché vi è collinearità perfetta in questo caso? • Soluzioni alla trappola delle variabili dummy: • omettere uno dei gruppi (per esempio Senior), oppure • omettere l’intercetta • Quali sono le implicazioni di (1) o (2) per l’interpretazione dei coefficienti?

  39. Collinearità perfetta (continua) • La collinearità perfetta solitamente riflette un errore nelle definizioni dei regressori, o una stranezza nei dati • Se avete collinearità perfetta, il software statistico ve lo farà sapere – bloccandosi, o mostrando un messaggio di errore, o “scaricando” arbitrariamente una delle variabili • La soluzione alla collinearità perfetta consiste nel modificare l’elenco di regressori.

  40. Collinearità imperfetta La collinearità imperfetta è ben diversa dalla collinearità perfetta, nonostante la somiglianza dei nomi. La collinearità imperfetta si verifica quando due o più regressori sono altamente correlati. • Perché si usa il termine “collinearità”? Se due regressori sono altamente correlati, allora il loro diagramma a nuvola apparirà molto simile a una retta – sono “co-lineari” – ma a meno che la correlazione sia esattamente ±1, tale collinearità è imperfetta.

  41. Collinearità imperfetta (continua) La collinearità imperfetta implica che uno o più dei coefficienti di regressione sarà stimato in modo impreciso. • L’idea: il coefficiente di X1è l’effetto di X1tenendo costante X2; ma se X1 e X2sono altamente correlati, vi è una ridottissima variazione in X1quando X2è mantenuta costante – perciò i dati non contengono molte informazioni su ciò che accade quando X1 cambia e X2no. In questo caso, la varianza dello stimatore OLS del coefficiente di X1sarà grande. • La collinearità imperfetta (correttamente) genera grandi errori standard per uno o più dei coefficienti OLS. • La matematica? Cfr. il volume stampato, Appendice 6.2 Prossimo argomento: test di ipotesi e intervalli di confidenza…

More Related