1 / 60

Struttura dei dati panel

Struttura dei dati panel. Variabile dipendente osservata in N unità in T occasioni K variabili indipendenti osservate in N unità in T occasioni Residuo pertinente all’unità i e all’occasione t Di solito “incolloniamo” i dati:. Var.1. Var.k. Occasione 1. Unità 1. Occasione 2. Occasione t.

cutter
Download Presentation

Struttura dei dati panel

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Struttura dei dati panel Variabile dipendente osservata in N unità in T occasioni K variabili indipendenti osservate in N unità in T occasioni Residuo pertinente all’unità i e all’occasione t Di solito “incolloniamo” i dati: Var.1 Var.k Occasione 1 Unità 1 Occasione 2 Occasione t Unità n

  2. Vediamo un esempio: C=40+0.45 R C=30+0.45 R C=20+0.45 R C=10+0.45 R C=1.5+4.12 R Stessa “pendenza” diverse “intercette”!!!!

  3. In altri termini la elasticità del consumo rispetto al reddito sono le stesse per tutti gli individui, ciò che cambia è il “punto di partenza, cioè il consumo che corrisponde ad un reddito 0 I dati sezionali “nascondono” questo fatto: Sottostimano il “punto di partenza” (l’intercetta) Sovrastimano l’elasticità (la pendenza) Vi è Distorsione: essa distorsione si annulla solo se l’intercetta per ogni individuo è la STESSA Cioè una stima sezionale ipotizza un MODELLO di comportamento in cui la parte non spiegata della relazione (l’intercetta) è la stessa per tutti gli individui Cioè nega l’ETEROGENEITA’ tra individui

  4. 1) E’ venuta alla luce una ipotesi del modello che non era stata esplicitata: l’omogeneità tra le parti non osservate di ciascun individuo. 2) Solo una certa configurazione dei dati (osservazioni in più occasioni) consente di esplicitare ed affrontare l’eterogeneità 3) Il modo in cui rappresentiamo con dati (simboli) il fenomeno (modello) hanno una influenza diretta sulle leggi che regolano il linguaggio (la tecnica ) e quindi sulle conclusioni 4) Dobbiamo sempre occuparci del processo che ha generato i dati che può non essere neutrale per il modello

  5. Casistica di non neutralità delle misure. • Consideriamo un collettivo di unità statistiche, il DGP ha tra le sue caratteristiche più importanti la relazione (se c’è) che lega le misure effettuate sulle diverse unità. La casistica possibile è ampia, tra le assunzioni più comuni: • Indipendenza (nota e utile, tuttavia un DGP poco verosimile: ad es: imprese di uno stesso settore, pazienti di una stessa città….) • Di solito misure ripetute relative ad una stessa unità sono più “simili” di quelle tra unità diverse • Di solito misure vicine nel tempo e nello spazio tendono ad essere più simili di quelle più lontane

  6. Un problema dei dati sezionali: • l’eterogeneità non osservata • Molte caratteristiche individuali non sono osservate, alcune sono anche non osservabili (es. Capacità imprenditoriale, entusiasmo, propensione al rischio) • Queste variano tra gli individui e sono denominate “eterogeneità non osservata” • Se queste caratteristiche sono correlate con la variabile di interesse e/o con le variabili osservate, allora la stima dei coefficienti è DISTORTA • DISTORSIONE DA VARIABILE OMESSA. • I dati di panel consentono di correggere questo BIAS

  7. (digressione sulle variabili omesse) Supponiamo che il modello “vero” sia (in forma vettoriale): Se ignoriamo X2 La matrice P contiene le pendenze OLS di X2 su X1. Ad esempio nella relazione

  8. Sulla matrice di var-covar il discorso è più complesso: Con due variabili: Distorsione nella stima sia sui coefficienti che sulla Var

  9. Dobbiamo specificare la forma della eterogeneità, ciò implica ipotesi sulla matrice di varianza-covarianza, cioè sulla struttura dei residui del modello In generale le varianze dei (residui) del modello non saranno omoschedastiche saranno caratterizzate da diverse componenti che vanno “scorporate” in modo ottenere stime corrette. Questo tipologia di modelli è detta “a componenti di varianza”. Naturalmente si avranno diversi tipi di modelli a seconda delle ipotesi sulle componenti di varianza che potranno essere, in prima istanza, di tipo deterministico o stocastico Un discorso analogo vale anche per la Covarianza che, però, definisce modelli Diversi, in gran parte legati alla analisi di serie storiche

  10. Un esempio Costi e produzione di 6 imprese per 4 anni:

  11. Adattiamo un modello lineare: ln(Y)=a+bln(X)+ OLS: a=-4.18 b=0.89 Var=0.04 r²=0.98

  12. Abbiamo una PRIMA stima del modello quindi possiamo stimare i residui • E dai residui Varianze individuali e correlazioni • Ovviamente dobbiamo ipotizzare una “forma” per Varianze e Covarianze • IPOTESI: • Per le varianze individuali: Costanti nel tempo • Per le correlazioni: processo AR(1) • Sotto queste ipotesi la stima è possibile mediando (rispetto al tempo) i quadrati dei residui per ogni individuo • Calcolando l’autocorrelazione con lag=1

  13. Consideriamo i residui per per ciascuna impresa:

  14. Scopriamo che le varianze per impresa sono diverse cioè c’è eteroschedasticità: (significatività test F per l’uguaglianza delle varianze) E che le autocorrelazioni tra i residui della stessa impresa sono MOLTO diverse da 0

  15. Infatti se utilizziamo GLS (con stima elementare della matrice Var/covar) (varianze residui sulla diagonale e AR1 nei blocchi di impresa) Otteniamo stime diverse per i coefficienti: a= -5.91 b=1.10 NB. Non è stima FGLS! Dimostra solo che i residui non sono omoschedastici e incorrelati

  16. Avvertenze sulla notazione: D’ora in poi i simboli utilizzati nella notazione indicheranno VETTORI/MATRICI Per i residui, in generale il simbolo u indicherà residui OMOSCHEDASTICI e INCORRELATI Il simbolo  indicherà un residuo “composto” da u e una componente ETEROSCHEDASTICA e/o correlata, DETERMINISTICA o STOCASTICA

  17. A questo punto dobbiamo modificare il modello semplice: Formuliamo una ipotesi di dipendenza: Sviluppiamo un modello: (a componenti di varianza) Variabili esplicative Componenteindividuale Deterministica o stocastica Costantenel tempo Errore “Composto”

  18. Diversi modi per specificare l’errore(ce ne sono altri…) Effetto temporale Errore casuale Effetto Individuale

  19. Effetto individuale Due possibilità di trattamento (due dgp): • Effetti FISSI: lisonoconstanti e vengonotrattati come unaintercetta • Effetti CASUALI: lisonoestrazionidaunadistribuzione di probabilità data e diventanocomponentistocastichedell’errore, cioèilihannouna “loro” varianza

  20. Il Modello “zero” nessuneffetto Pooled regression • Si supponeche non vi siaeterogeneità o chel’eterogeneitàsiastataeliminata in qualchemodo: lisonoconstantitragliindividui e identificanouna UNICA intercetta. • Le procedure di stimapossibilisidifferenziano per iltrattamento “preliminaredeidati: • OLS “usuale” sui dati non trattati : • OLS sugliscarti per ciascunindividuo (stima within) • OLS sullemedie (nel tempo) di ciascunindividuo (stima between) • Altritrattamenti (ad. Es. Sullevariazioninel tempo) • Attenzioneagliindici: Omoschedaticità e incorrelazioneestesa a tuttigliindividui, tuttii tempi e tutte le esplicative (irrealistico)

  21. Prima strategia :OLS “usuale” Attenzione agli indici nelle ipotesi sulla varianza/covarianza: Per la Var si ipotizza che i residui siano omoschedastici per ogni individuo e per ogni occasione Per la Covar si suppone pari a 0 in ogni individuo e in ogni occasione

  22. Naturalmente se c’èeffettoindividuale Si ottienestimadistorta Modello “vero” Modello stimato Con (ci torneremo) Si ha: Quindi il residuo stimato non è  ed ha una componente u che si “ripete” nel tempo per lo stesso individuo, quindi è ETEROSCHEDASTCO e CORRELATO (nel tempo sullo stesso individuo)

  23. Seconda strategia : stimatore within: OLS sugli scarti dalla media calcolata in t per ciascun i • In questocasoiivengonoeliminati e con essi la distorsionenellastima, ma non abbiamostime per le intercetteindividuali. • Quindiavremoproblemi, ad esempio in termini di previsione.

  24. Terza strategia : stimatore between OLS sulle media calcolata in t per ciascun i • Stessiproblemi del modello OLS “usuale per quantoriguarda la distorsione, • In più forte perdita di dati, quindiperdita di efficienza

  25. Altre strategie: stimatore alle differenze prime OLS sulle variazioni t per ciascun i iivengonoeliminati e con essi la distorsionenellastima, ma non è unastrategiaraccomandabile, ad esempioeliminatutte le variabiliesplicative “time invariant” Cioèmodifica la specificazione del modello

  26. Effetti FISSI Abbiamovistochealcunestrategieeliminano le distorsoni ma, quantomeno, non fornisconounastimadelleintercetteindividuali Occupiamoci, ora, esplicitamente della stimadeii cominciandodalcaso in cui essisianodeterministici, cioècostantinel tempo e variabilitragliindividui

  27. Stimadelleintercetteindividuali: Least Square Dummy Variables (LSDV) I metodi di eliminazione non stimanoili,cioè non fornisconounamisuradellecaratteristiche non osservate. Se si è interessatiallastimadeiliè necessarioadottare un altrostimatore.:

  28. Riassumendo: EFFETTI FISSI4 stimatori

  29. I coefficienti della X • 2 considerazioni: • LSDV=Within per quanto riguarda le “pendenze • Overall = media ponderata (within e between)

  30. Abbiamo visto che 3 delle strategie proposte hanno diversi limiti, tuttavia esse rimangono importanti perché forniscono la base per test inferenziali sul modello LSDV Infatti collegati a ciascuna strategia è possibile ottenere una valutazione dell’errore di stima fondata sulle ipotesi di ciascuna strategia Tali quantità si prestano ad un insieme di test, sostanzialmente ispirati dallo schema di Analisi della varianza.

  31. Esempio e test di ipotesi Procedimento: 1 calcolo RSS per il modello within 2. Calcolo RSS per il modello “totale” 3 Trovo per differenza RSS between NB. Dati lievemente diversi Rispetto all’esempio precedente

  32. Definiamo 3 stime corrette di RSS secondo tre ipotesi di modello Dev. within Dev. «spiegata» - between Dev. Totale Divise per gli opportuni gradi di libertà si otterranno tre stime della Varianza: Vw = Varianza within Vb = Varianza beetwen Vt = Varianza totale

  33. Rapportando le Varianze (test F), possiamo «testare» 3 ipotesi :

  34. I test (F)

  35. Il TEST dice che né le PENDENZE né le intercette sono significativamente diverse

More Related