150 likes | 306 Views
Kvantitative metoder 2. Dummyvariabler 28. marts 2007. Kvalitative egenskaber og dummyvariabler. Vi har (hovedsagligt) set på kvantitative variabler (løn, priser, forbrug, indkomst,…) ... Men hvad med kvalitative egenskaber i regressionsmodellen? Køn Bopælskommune Sektor (offentlig/privat)
E N D
Kvantitative metoder 2 Dummyvariabler 28. marts 2007 KM2: F16
Kvalitative egenskaber og dummyvariabler • Vi har (hovedsagligt) set på kvantitative variabler (løn, priser, forbrug, indkomst,…) • ... Men hvad med kvalitative egenskaber i regressionsmodellen? • Køn • Bopælskommune • Sektor (offentlig/privat) • Arbejdstid (ikke i arbejde, deltid, fuld tid) • Helbred (dårligt, middel, godt) • I nogle tilfælde kan udfaldene af den kvalitative egenskab rangordnes • Kaldes så for ordinal • Eksempler: arbejdstid, helbred KM2: F16
Kvalitativ egenskab med to kategorier • For kvalitative egenskaber med to kategorier laves ofte en dummyvariabel • Dummyvariabler: • Diskret variabel • Antager kun to værdier. Normalt antages værdien 1, når egenskaben er tilstede, f.eks. kvinde=1 når person er kvinde, ellers 0 • Kategorien hvor dummy = 0 kaldes reference-kategorien • Dummyvariabler for to kategorier kaldes også for indikatorvariabler eller binære variabler KM2: F16
Kvalitativ egenskab med to kategorier • Dummyvariabler kan inkluderes i den multiple regressionsmodel som alm. forklarende variabler • Eks: lønrelationen hvor kvinde er en dummyvariabel • Lønforskellen mellem mænd og kvinder (med samme uddannelse og erfaring) og når antagelse MLR.4 er opfyldt KM2: F16
Eksempel på regressionsanalyse med kvalitativ egenskab: DJØF lønundersøgelse • DJØF lavede i 2006 (baseret på september 2005-tal) en undersøgelse, hvor man sammenligner lønniveauet for mænd og kvinder i hhv. den offentlige sektor og den private sektor. ”Ingen kønsmæssig lønforskel i den offentlige sektor: Kvindelige og mandlige djøf’ere i den offentlige sektor har den samme løn, når de er på samme niveau og i samme funktion.” ”Kønsmæssig lønforskel på 4 pct. i den private sektor: Privatansatte kvindelige DJØFere i stillinger uden ledelsesansvar har en løn der udgør ca. 96 pct. af den løn deres mandlige kolleger får. I sammenligningen er der korrigeret for forskelle i ancienniet, uddannelse, branche mv. Selvom man korrigerer for disse forhold, er der således stadig en forskel på ca. 4 pct., der ikke umiddelbart kan forklares.” Se link til undersøgelsen på hjemmesiden. KM2: F16
DJØF lønundersøgelse Analysen laves ved en regressionsanalyse. I analysen blandt ikke-cheferne indgår alle de målelige forhold, der kan inddrages på basis af DJØF Privat’s lønstatistik. Følgende variabler indgår: • Uddannelsesgruppe • Geografi • Kandidatår • Branche • Køn Regressionsanalysen viser, at alle ovennævnte variabler har signifikant betydning for lønnen. Kønnet har altså betydning for lønnen. Betinget af de andre variabler udgør kvindernes løn 96,3 procent af mændenes løn. Når der er korrigeret for de målelige karakteristika, er der stadig en lønforskel på ca. 4 procent der ikke umiddelbart kan forklares. KM2: F16
Kvalitativ egenskab med to kategorier • Fortolkning af parameteren til dummyvariablen: • Koefficienten til dummyvariablen måler den forventede forskel mellem de to kategorier, alt andet lige • Inkludering af en dummyvariabel kan grafisk fortolkes som et skift i konstantleddet • ..men koefficienterne til de øvrige forklarende variabler er ens for de to grupper • Hvis den afhængige variabel indgår: • ”Lineært” (uden transformation) -> parameteren fortolkes som en absolut forskel mellem to kategorier (når man kontrollerer for øvrige forklarende variable) • I logaritmer -> parameteren fortolkes som en ca. procentuel forskel mellem to kategorier (når man kontrollerer for øvrige forklarende variable) • Vil man have den eksakte procentuelle forskel skal følgende formel anvendes KM2: F16
Kvalitativ egenskab med to kategorier • Valg af referencegruppe: • Hvad hvis vi i stedet havde inkluderet en dummy for mand? • Man kan blot omparametrisere så får man den samme model (Husk ) • Begge variabler kan ikke inkluderes samtidigt (hvis der også er et konstantled i modellen) -> Perfekt multikollinearitet (”dummyvariabelfælden”) KM2: F16
Evaluering af programmer • Et meget vigtigt eksempel på dummyvariabler er ”program evaluering” • Eks: Hvad er effekten af et jobtræningskursus? • Simpelt tilfælde: to grupper • ”Treatment” (forsøgs-) gruppen: dem som deltager i programmet • ”Control” (kontrol-) gruppen: dem som ikke deltager • Parameteren til dummyvariablen for ”treatment”- gruppen måler effekten af at have deltaget • Det er dog meget tit at denne variabel er endogen (pga. den måde økonomiske data fremkommer) KM2: F16
Kvalitativ egenskab med flere end to kategorier • Hvad hvis den kvalitative egenskab har m kategorier (og m>2) ? • Generelt skal man lave m-1 dummy variabler • Den kategori hvortil der ikke hører en dummy variabel kaldes reference kategorien • Hvis man inkluderer m dummy variabler og et konstantled vil der være perfekt multikollinearitet • Parametrene til dummy variablerne angiver forskellen mellem den pågældende kategori og referencekategorien • Betyder valget af referencekategori noget? • Nej, ikke for estimation, prediktioner, etc. • Ja, fortolkningen af parametrene til dummyvariablerne afhænger af den konkrete referencekategori, der er valgt. KM2: F16
Kvalitativ egenskab med flere end to kategorier • Eksempel: Hvad sker der hvis man bruger dummyvariabler til at kontrollere for uddannelse i lønligningen? • Uddannelseskategorier for højeste fuldførte uddannelse: • Folkeskole (udd<10) • 10. klasse (udd=10) • Gymnasial ungdomsudd./erhvervsfaglig grundudd. (udd=11,12,13) • Videregående uddannelse (udd>13) • m=4 kategorier: Definerer 3 dummyvariabler: • Model: KM2: F16
Kvalitativ egenskab med flere end to kategorier • Hvilke fordele/ulemper er der ved at bruge dummyvariabler? • Fordele: Generelt mere fleksibel form • Ulempe: Flere variabler i regressionen (tab af frihedsgrader) • Test for betydning af den kvalitative egenskab udføres som et F-test for at alle parametrene til dummyerne er lig 0 KM2: F16
Kvalitativ egenskab med flere end to kategorierEksempel: Effekten af uddannelse • Sammenligning af effekt af uddannelse målt lineært og som fire grupper KM2: F16
NB’er • Parameteren til en dummyvariabel måler forskellen til referencekategorien. • Valget af referencekategori dikterer fortolkningen af parametre til dummyvariabler. • Dummyvariabler kan bruges til at gøre modellen mindre restriktiv: Tillader en mere fleksibel funktionel sammenhæng. KM2: F16
Næste gang: • Mandag • Resten af kapitel 7: • Interaktionsled med dummyvariabler • Chow test • Lineær sandsynlighedsmodel • Obligatorisk opgave 2: På hjemmesiden fredag kl. 14. Introduceres ved forelæsningen mandag. KM2: F16