590 likes | 911 Views
Modeli diskretne zavisne promenljive (Ekonometrija D-1). Doktorske studije – prva godina Predavač: Aleksandra Nojković Maj 2012. Preporučena literatura za modele specifične zavisne promenljive. Literatura preglednog sadržaja: Amemiya (1981), McFadden (1984) and Greene (2008).
E N D
Modeli diskretne zavisne promenljive (Ekonometrija D-1) Doktorske studije – prva godina Predavač: Aleksandra Nojković Maj 2012
Preporučena literatura za modele specifične zavisne promenljive • Literatura preglednog sadržaja: Amemiya(1981), McFadden (1984) and Greene (2008). na srpskom jeziku:Nojković, A. Modeli diskretne zavisne promenljive: pregled metodologije i primenjenih istraživanja, Ekonomski anali br.172, Ekonomski fakultet, Beograd, 2007, 55-92; Jovičić i Dragutinović-Mitrović, Ekonometrijski metodi i modeli, CID, Ekonomski fakultet, Beograd. • Preporučena udžbenička literatura iz ove oblasti: Maddala (1983), Amemiya (1985), Wooldridge (2002) and Greene (2008). http://pages.stern.nyu.edu/~wgreene/DiscreteChoice/Readings/Greene-Chapter-23.pdf
Modeli diskretnog izbora • Deo su šire klase modela u kojima je zavisna promenljiva specifična/pod nekim vidom ograničenja (eng. limited dependent variable (LDV) models). • Modeli diskretnog izbora su modeli u kojima zavisna promenljiva uzima dva ili više modaliteta, a još ih nazivamo i modelima kvalitativnog odgovora/ishoda (eng. discrete choice or qualitative response (QR) models). • Osnovne klase modela: modeli binarnog i modeli višestrukog izbora (eng. binominal and multinomial models) • Modeli višestrukog izbora mogu biti nepoređanog ili poređanog izbora, kao i modele brojivih podataka (eng. count data -zavisna promenljiva uzima cele, nenegativne vrednosti).
Priroda podataka u modelima diskretnog izbora • Modeli razvijeni za analizu mikropodataka (jedinice posmatranja su preduzeća, domaćinstva ili preduzeća). • Mikoropodaci: - uporedni (podaci strukture) • podaci panela (kombinacija podataka uporednih podatak i vremenskih serija, pri čemu se veliki broj jedinica posmatranja (veliko N), posmatra u svega dve ili tri vremenske tačke (malo T)). • Za doprinos razvoju metodološkog okvira analize mikropodataka i empirijskoj primeni modela specifične zavisne promenljive Nobelovu nagradu za ekonomiju 2000. godine dobili su J. Heckman i D. McFadden. • Primena u makroekonometrijskoj analizi novijeg datuma (makroekonomske vremenske serije i paneli sa većom T dimenzijom).
Primena modela diskretnog izbora • Za modeliranje brojivih podataka u kojima preovlađuje broj ishoda nula, a zavisna promenljiva uzima diskretne vrednosti. • Broj: dece rođene u određenom intervalu godina starosti majke (promenljiva relevantna za studije fertiliteta),nedozvoljenih minusa koje je vlasnik kreditne kartice ostvario u određenom periodu, broj poseta lekaru, broj avionskih/pomorskih nesreća i slično: y = 0,1,2, …. • Pri tome, slučajna promenljiva y najčešće uzima svega nekoliko vrednosti (na primer, 0, 1 i 2), ima raspodelu asimetričnu u levo, a u modelu je prisutna heteroskedastičnost (varijansa slučajne greške raste uporedo sa rastom aritmetičke sredine promenljive y). • Modifikacija modela brojivih podataka, predložena sa ciljem da se otkloni problem postojanja većeg broja nula u opservacijama u odnosu na predviđanje poznata kao model prepona (eng. hurdle model) ili dvodelni model (two-partmodel). Uvodi se pretpostavka da različiti procesi generišu pozitivne ishode i ishod nula.
Primena modela diskretnog izbora (nastavak) • Modeliranje binarnog izbora Odluka pojedinaca o učešću u radnoj snazi ili članstvu u sindikatu: yuzima vrednost 1 ako je pojedinac zaposlen (član sindikata), a 0 u suprotnom slučaju. • Brojni drugi primeri izbora između dve alternative. Šta opredeljuje pojedinca da kupi automobili, nastavi školovanje, izađe na izbore li prestane da puši? Koji faktori utiču na odluku banke da odobri stambeni kredit ili odluku MMF da stupi u aranžman sa nekom zemljom? • Modeli korekcije uzoračkog izbora (eng. sample selection bias), modeli vrednovanja efekata npr. programa za zapošljavanje (eng. policy evaluation methods) ili novih metoda učenja i sl.
Primena modela diskretnog izbora (nastavak) • Izbor između poređanih alternativa Stav pojedinaca u istraživanjima javnog mnjenja (npr. 0 – neslaganje u potpunosti do 4 – slaganja u potpunosti). Istraživanje zaposlenosti (pojedinac može biti nezaposlen, zaposlen sa nepunim ili punim radnim vremenom). Kreditni rejting, nivo obrazovanja, izbor različitih nivoa osiguranja, ili preferencije potrošača su primeri poređanih alternativa (rang dodeljen zavisnoj promenljivoj je ordinalnog karaktera).
Primena modela diskretnog izbora (nastavak) • Izbor između nepoređanih alternativa Izbor zanimanja (npr. 1-nekvalifikovan radnik do 5- stručnjak). Izbor načina plaćanja (gotovina ili različite vrste platnih kartica). Izbor prevoznog sredstva (npr. 1-automobil, 2-autobus, a 3-voz). • Ovde vrednosti zavisne promenljive ne predstavljaju ni brojive podatke ni dodeljene rangove.
Mogućnosti primene u makroekonometrijskoj analizi • Empirijska primena ove metodologije u podacima vremenskih serija: • Modeliranje odluke cenralnih banaka SAD i Kanade o promeni instrumenata monetarne politike (Hu i Phillips (2004a,2004b)). • Empirijska primena ove metodologije u podacima panela: • Izbor politike deviznog kursa (Markiewicz (2006a,2006b), Jin (2004, 2005, 2009). • Determinante pojave inflacionih epizoda Boschen i Weise (2003), Domac i Yucel (2005)), Petrović, Mladenović i Nojković (2011). Slično, za valutne krize ili ulazak privrede u recesiju! • Uspeh reformi za okončanje hiperinflatornih epizoda (Bernholz i Kugler (2006)).
Modeli binarnog izbora • Analiziramo model kojim se opisuje odluka banke da prihvati ili odbije zahtev za odobravanje stambenog kredita (y=1 ako je zahtev odbijen, a 0 u drugom slučaju). • Linearni model verovatnoće, LMV (eng. Linear probability model(LPM)) je specijalan slučaj višestrukog linearnog regresionog modela sa 0/1 zavisnom promenljivom: yi = β’xi +εi , pri čemu je x vektor objašnjavajućih promenljivih, dok je β vektor nepoznatih parametara kojima se opisuje uticaj na verovatnoću realizacije ishoda y=1 do koje dovodi promena objašnjavajućih promenljivih za jednu jedinicu.
Nedostaci LMV • Prisutna heteroskedastičnost (var (εi) = β’xi (1- β’xi). • Ne možemo ograničiti β’xi u intervalu 0-1. Ovi modeli često predviđaju nelogčine verovatnoće (negativne vrednosti i vrednosti veće od 1), kao i negativne varijanse. • Model pretpostavlja da X dovodi do linearnog rasta Y. • Statističko zaključivanje odgovara onome u KLRM, osim R2 koji nije baš upotrebljiv u ovom slučaju!
Nelinearni modeli prilagođeni binarnoj zavisnoj promenljivoj • Potrebno je obezbediti da se ocenjena verovatnoća nađe unutar intervala 0-1, što je prikazano isprekidanom linijom.
Probit i logit modeli • Odgovarajuće funkcije raspodele koje se najčešće koriste su: normalna funkcija raspodele (eng. cumulative normal function) ilogistička funkcija raspodele(eng. logisticfunction). • Pored toga što ovi modeli obezbeđuju da se predviđene verovatnoće nađu u intervalu0-1, uticaj jedinične promene objašnjavajuće promenljive na verovatnoću pozitivnog ishoda nije linearan, već zavisi od stepena strmosti funkcije raspodele za date vrednosti x (verovatnoća se približava nuli, kao i jedinici po sve sporijoj stopi).
Primer 1: Primenanapodacima o odobravanju stambenih kredita • Izvor: J. Stock and M. Watson, Introduction to Econometrics, Addison Wesley, Pearson International Edition, 2003. • HMDA data (Home Mortgage Disclosure Act) supodaci koji se odnose na zahteve za odobravanje hipoteka/kredita podnetih u oblasti Bostona tokom 1990 godine. • 28% prijava koje su podneli crni ispitaici je odbijeno, dok je to slučaj sa samo 9% prijava podnetih od strane belaca. Dokaz rasne diskriminacije?
Primer 1: Primenanapodacima o odobravanju stambenih kredita (nastavak) • Zavisna promenljiva: odbijen zahtev za kredit (deny =1) ili odobren (deny =0). • Objašnjavajuće promenljive: • P/I rat – količnik rate kredita i prihoda pojedinca (numerička promenljiva). • Black = 1, za ispitanike koji nicu belci, Black=0, u suprotnom slučaju (veštačka promenljiva). • Consumer credit score (ccred)– uzima vrednosti od 1 (nije bilo kašnjenja u plaćanjima) do 6 (kašnjenje preko 90 dana), (kategorijska promenljiva, K=6 kategorija).
Ocena različitih modela binarnog izbora • LMV: Pr ( Y=1| X1, X2, …, Xk) = β0 + β1X1 + β2X2 +…+ βkXk. • Logit model: Pr ( Y=1| X) = Λ(β0 + β1X1 + β2X2 +…+ βkXk)= • Probit model: Pr ( Y=1| X) = Φ(β0 + β1X1 + β2X2 +…+ βkXk).
Nelinearni modeli (nastavak) • Model uslovne verovatnoće definisan je kao: E [y | x] = 0 [1- F (β’x)] + 1 [ F (β’x)] = F (β’x). • Opredeljenje za ma koju funkciju raspodele verovatnoće ne obezbeđuje da ocenjeni parametri modela predstavljaju marginalne efekte koje interpretiramo na način uobičajen za linearne modele. Marginalni efekti se u opštem slučaju izračunavaju kao: gde jeƒ(.) funkcija gustine koja odgovara kumulativnoj funkciji raspodele F(.).
Izračunavanje marginalnih efekata • Za slučaj normalne funkcije raspodele marginalni efekti se izračunavaju kao: [Φ (β’x) β ], dok je za slučaj logit modela: [Λ(β’x) (1- Λ(β’x)) β]. • Znak koeficijenta zaista odgovara smeru promene verovatnoće. • Uobičajeno je da se marginalni efekti izračunavaju za vrednosti aritmetičkih sredina vektora x (i vrednost 0 veštačkih objašnjavajućihpromenljivih) ili pak za neku drugu vrednost x od interesa. • Marginalni efekat se može dobiti i kao aritmetička sredina marginalnih efekata izračunatih za vrednosti svake pojedinačne opservacije u uzorku.
Izračunati marginalni efekti PROBIT modela u prog. paketu Stata
Nelinearni modeli (alternativni pristup) • Pomoću modela indeksne funkcije (eng.index function models). • Uvodimo u model latentnu promenljivu yi*i definišemo model: yi* = β’xi + εi , pri čemu promenljivu yi*ne opažamo u praksi. • Ono što opažamo je veštačka promenljiva (eng. indicator variable) ydefinisana kao: yi = 1 za yi* > 0 = 0 zayi* ≤ 0. • Verovatnoća da je y = 1 je : E [yi* | x] = Pr [yi =1 | x] Pr (Yi = 1) = Prob (εi> - β’xi) = 1 – F (-β’xi); Prob =1-F(-index), gde je F funkcija raspodele verovatnoće greške ε.
Logit i probit model • Ukoliko pretpostavimo logističku funkciju raspodele za slučajnu grešku εi , dolazimo do specifikacije logit modela: Prob (Y = 1) = eβ’x / (1+ eβ'x) = Λ (β’x), pri je Λ (.)oznaka logističke funkcije raspodle. • U probit modelu (još se naziva i normit model) pretpostavljamo normalnu standardizovanu funkciju raspodle slučajne greške (εi : N (0,1)) iz čeka sledi: gde jeΦ (.) uobičajena notacija za standardizovanu normalnu raspodelu.
Logit ili Probit model? • Logit model jednostavniji za ocenjivanjem, a rešavanjem po β’xdaje sledeću relaciju: gde jePiverovatnoća realizacije pozitivnog ishoda, y=1, dok je(1-Pi)verovatnoća realizacije suprotnog događaja, y=0. Količnik [Pi/ (1-Pi)] je poznat “odds ratio” (odnos verovatnoća prvog i drugog izbora). Prirodni logaritam odnosa ovih verovatnoća je: ln [ P/ (1-P)] = β’x. • Dve raspodele su veoma bliske, osim na krajevima, gde logistička funkcija raspodele ima “teže” repove (logistička raspodela je zapravo bliža t raspodeli sa sedam stepeni slobode).
Poređenje LMV, probit i logit modela • Logistička raspodela - varijansaπ2/3, tako da se ocene βdobijene iz logit modela moraju pomnožiti sa 31/2/ πda bi se uporedile sa ocenama probit modela. • Amemiya (1981) je predložio sledeću vezu: βprobit≈ 0.625 βlogit ocene iz logit modela se množe sa 1/1.6 (umesto 31/2/ π ). • Takođe predložene su i sledeće relacije: βLPM≈0.25 βlogit (osim za konstantu) βLPM≈ 0.25 βlogit + 0.5 (za konstantu).
Ocenjivanje modela binarnog izbora • Sa izuzetkom LMV, modeli binarnog izbora se ocenjuju metodom maksimalne verodostojnosti (MV). • Jednačine verodostojnostilogit i probit modela su nelinearne po β, što zahteva primenu nekog od poznatih iterativnih metoda optimizacije. • Najčešće se primenjuje Newton-Raphson-ovmetod. • Asimtotske ocene kovarijante matrice ocena MV moguće je izračunati na više načina.
Ocenjivanje i zaključivanje u nelinearnim modelima binarnog izbora • Polazimo od sledećeg logaritma funkcije verodostojnosti: • Uslov maksimizacije definisan je kao: pri čemu je jednačina verodostojnosti Sn(β) poznata i kao funkcija ostvarenih pogodaka (eng. score function). • Za oba modela jednostavno pokazuje da je ispunjen uslov globalne konkavnosti (Hessian-ova matrica je uvek negativno definitna: Hn(β) =∂2log Ln (β) / ∂β ∂β’ <0).
Izračunavanje asimp.ocena kovarijantne matrice ocena MV • Kao negativna inverzna Hessian-ova matrica za ocene MV: 2. The Berndt, Hall, Hall, and Hausman (BHHH) ocene: gdeje giizračunato na bazi prvih izvoda logit i probit modela. 3. Ocena zasnovana na očekivanoj vrednosti Hessian-ove matrice: H = E (H).
Zaključivanje u modelima binarnog izbora • Ocene MV su konzistentne i poseduju asimptotski normalnu raspodelu • Testiranje hipoteza: • Za testiranje ograničenja na pojedinačne parametre modela koriste se kritične vrednosti normalne stand.raspodele(z), odnosno testiranje F-testom. • Testiranje složenijih hipoteza, kojima se zahteva da koeficijenti u ocenjenom modelu zadovoljavaju izvesna linearna ili nelinearna ograničenja, sprovodi se primenom sledećih, asimptotski međusobno ekvivalentnih testova: Wald-ovog, testa količnika verodostojnosti (LR test) i testa Lagrange-ovog multiplikatora.
Pokazatelji kvaliteta modela binarnog izbora • Uobičajeno je da se navodi: vrednost log. funkcije verodostojnosti, prosečna vrednost ovog logaritma, statistika količnika verodostojnosti (LR statistika) i njoj pridružena verovatnoća (odgovara F testu u KLRM): LR=-2(lnLo-lnLb) • Pseudo – R2ili McFadden-ov indeks količnika verodostojnosti(McFadden’s likelihood ratio index), koji poredi vrednost logaritma funkcije verodostojnosti u ocenjenog modela (L) i modela u kome je prisutna samo konstanta (isključene su sve objašnjavajuće promenljive iz modela, L0): pseudo-R2 = LRI = 1 – (lnL / lnL0). • Vrednost ovog pokazatelja se kreće u intervalu od 0 do 1, podseća na koeficijent determinacije linearnih modela ali nema tako direktnu interpretaciju. • Koeficijent korelacije između stvarnih ishoda i modelom predviđenih verovatnoća.
Pokazatelji kvaliteta modela binarnog izbora (nastavak) • Procenat tačnih predviđanja modela(eng. Expectation-Prediction Evaluation), koji je prestavljen tabelom pogodaka i promašaja dimenzija 2x2 u slučaju binarnog modela, a kao pravilo predviđanja koristi se: y = 1 if F > F*iy = 1za ostalo. • Najčešće se kao granica predviđanja koristi F* = 0.5 (u tom slučaju model predviđa ishod 1 ako je verovatnoća realizacije ovog ishoda veća). • Problem ovog pokazatelja uočljiv je u nebalansiranim uzorcima (mali broj ishoda 1 u uzorku).
Greške specifikacije modela binarnog izbora • Najčešće greške specifikacije su: izostavljanje relevantne objašnjavajuće promenljive i prisustvo heteroskedastičnosti u modelu. • Posledice navedenih grešaka specifikacije u probit i logit modelima su: • Izostavljanjem X2 iz modela u koji je opravdano uključiti X1 i X2 (odnosno, ako je β2 ≠ 0), ocena maksimalne verodostojnosti postaje asimptotski pristrasna: plim c1β1 + c2β2, gde su c1 i c2 komplikovane funkcije nepoznatih parametara, što ima za posledicu nekonzistentnost ocene parametra β1, čak i slučaju nezavisnosti promenljivih X1 i X2.
Greške specifikacije modela binarnog izbora (nastavak) 2) Posledice prisustva heteroskedastičnosti u modelu su:nekonzistentnost ocena maksimalne verodostojnosti i nepouzdanostasimptotske ocene kovarijantne matrice. • Uobičajeni postupci transformacije za slučaj kada je varijansa slučajne greške εi funkcija objašnjavajućih varijabli xiu ovim modelima dovode do specifičnih implikacija. Transformacija β’x/σ može dovesti do promene znaka ocenjenih koeficijenata, pri čemu nova indeksna funkcija postaje nelinearna i sadrži varijable odgovorne za heteroskedastičnosti. • Navedeno predstavlja ozbiljan problem, imajući u vidu da je heteroskedastičnost svojstvena mikroekonometrijskim podacima.
Greške specifikacije modela binarnog izbora (nastavak) • Probit i logit modeli veoma osetljivi na ispravnost pretpostavke o poznatoj funkciji raspodele slučajne greške εi (normalna ili logistička). • Ukoliko ova pretpostavka nije valjana onda su dobijene ocene nekonzistentne. • Predloženi su brojni metodi poluparametarskog i neparametarskog ocenjivanja, koji polaze od manje restriktivnih pretpostavki o osobinama slučajne greške (npr. ocene dobijene metodom maksimalnog broja predviđanja/pogodaka).
Primer 2. Model ponude ženske radne snage u Srbiji • 2002 ARS, 1528 zaposlenih žena od ukupno 4376 žena uzrasta od 18 do 65 godina u uzorku. • Zavisna promenljiva Y je binarna, uzima vrednosti 1/0 za odgovore žena da/ne, na pitanje da li su zaposlene ili ne (has job =1 ili 0). • Objašnjavajuće promenljive : age = godine starosti m_stat1 = bračni status;binarna promenljiva, uzima vrednost 1 za udate žene, a 0 u suprotnom slučaju educ =godine školovanja žene, ili sc1 = završena osnovna škola sc2 = završena srednja škola sc3 = završena viša škola sc4 = završen fakultet ili više (magistri i doktori nauka).
Modeli višestrukog izbora • Za modeliranje ponašanja (donošenja odluke) kada postoji više od dve alternative (moguća ishoda). • Primeri više od dva modaliteta za kvalitativnu zavisnu promenljivu: • Analiza izbora zanimanja (radovi Schmidt-a and Strauss-a (1975a, 1975b): pet grupa zanimanja, od nekvalifikovanog radnika do profesionalca). • Izbor načina plaćanja (rad Mot and Cramer (1992): gotovina ili tri različite vrste čekova). • Analiza izbora pervoznog sredstva za odlazak na posao (Hensher (1986) i McMadden(1974)).
Model slučajne korisnosti • Izbora između više od dve alternative formalno se predstavlja slučajnom promenljivom y koja uzima vrednosti {0, 1, …, J}, gde je J pozitivan, ceo broj. • Kako različiti faktori utiču na verovatnoću j–tog izbora (Prob (Y = j), gde je j = 0, 1, …, J)? • Polazi se od korisnost j-te alternative, izabrane između (J+1)mogućnosti, za i-te jed. posmatranja (potrošača, domaćinstvo ili preduzeće): Uij= β’zij+ εij. • Izbor j-te alternative maksimizira korisnost u skupu (J+1) moguće alternative: Prob (Uij > Uik) za svako k ≠ j.
Model slučajne korisnosti (nastavak) • U zavisnosti od pretpostavke o funkciji raspodele slučajne greške (εij) u praksi ispitujemo logit i probit modele višestrukog izbora • Jednostavniji za primenu je višestruki logit model (Multinominal logit model, MNL) • U zavisnosti od polaznih pretpostavki predložene su različite specifikacije logit modela: • Uslovni logit model (Conditional logit model, CLM) • Obuhvatni logit model (Nested logit model, NLM) • Logit model uopštenih ekstremnih vrednosti (Generalized extremevaluemodel, GEVM)
Logit model višestrukog izbora • Verovatnoće (J+1) izbora koji donosi i-ta jedinica posmatranja: za j = 1, 2, …, J: Prob (Yi = j) = za j = 0: Prob (Yi = 0) = • Model se ocenjuje metodom maksimalne verodostojnosti, nelinearna funkcija se maksimizira poznatim iterativnim postupcima (Newton-ov metod i BHHH algoritam). • Broj parametara MNL se značajno uvećava sa povećanjem broja alternativa.
Logit i probit modeli poređanog izbora • Primeri izbora između poređanih alternativa: • Ocena kreditne sposobnosti • Istraživanja javnog mnjenja i marketinška istraživanja • Istraživanje zaposlenosti (sa punim radnim vremenom, pola radnog vremena ili nezaposlen) • Izbor različitih nivoa osiguranja • Izbor programa medicinske zaštite • Interesantna primena: Bernholz i Kugler (2006) koji analiziraju uspešnosti mera preduzetih sa ciljem zaustavljanja više od 30 hiperinflacija u svetu. • Dodeljen rang za npr. kreditnu sposobnost na skali od 0 do 6, ima ordinalni karakter, odnosno razlika između ranga 2 i 3 ne mora biti istog značaja kao razlika između ranga 4 i 3.
Specifikacija modela poređanog izbora • Polazimo od regresionog modela latentne zavisne promenljive yi* : yi* = β΄xi + εi. • U praksi se opaža jeste promenljiva yi koja se definiše na sledeći način: yi=0 ako yi* ≤ μ1 =1 akoμ1 < yi* ≤ μ2 =2 akoμ2< yi* ≤ μ3 ... = J akoμJ ≤ yi*, μ1 < … < μJ-1 < μJ • Nepoznati parametri μj(j = 1, 2,…, J) se nazivaju tačke odsecanja (eng.cut points) ili parametri praga(eng.thresholdparametars) i ocenjuju se zajedno sa vektorom β.
Probit model poređanog izbora • Za normalnu standardizovanu raspodelu slućajne greške εi, funkcija verovatnoće j-tog izbora se definiše kao: Prob (yi= 0) = Φ (μ1 – β’x), Prob (yi = 1) = Φ (μ2 – β’x) – Φ (μ1 – β’x) ... Prob (yi = J-1) = Φ (μJ– β’x) – Φ (μJ-1 –β’x), Prob (yi = J) = 1-Φ (μJ–β’x), gde je Φ (.) oznaka za kumulativnu normalnu standardizovanu raspodelu, a ф(.) za odgovarajuću funkciju gustine.
Funkcija gustine probit modela poređanih alternativa (npr. J=4)