290 likes | 614 Views
Multilevel Analysis Random Intercept Model mm. Metodespecialisering Sociologi 9. semester 2005 Onsdag den 14. november. Indhold:. Kort repetition af ordinær lineær regression Grundtræk i Multilevel Analyse Traditionelle analysers fejl og mangler i visse situationer
E N D
Multilevel AnalysisRandom Intercept Model mm. MetodespecialiseringSociologi 9. semester 2005Onsdag den 14. november
Indhold: • Kort repetition af ordinær lineær regression • Grundtræk i Multilevel Analyse • Traditionelle analysers fejl og mangler i visse situationer • Grafisk eksemplificering af fejl • Mere om MLA • Eksempler i SPSS • Beregning af forklaret varians
Traditionel OLS regression Den traditionelle, simple lineære formel:
Andel forklaret varians på den afhængige variabel. Varians på den afhængige variabel. Tilbageværende varians på den afhængige variabel efter forklaring med ’Highest parental occupational status’. Konstantleddet. Regressions-koefficient. OLS tabel output fra SPSS
Regressionsligning for multipel regression Ligningen for den simple lineære regression kan selvfølgelig udvides til multipel lineær regression ved at indsætte flere uafhængige led: Disse uafhængige faktorer kan så gælde for det enkelte individ eller for en kontekst, der omgiver individet. Denne forskel tages der imidlertid ikke højde for ved ordinær lineær regression.
Hvad er Multilevel Analyse (MLA)? • Multilevel analyse er specielle analyseteknikker, designet til at analysere datasæt, der er hierarkisk struktureret. Teknikkerne findes i alle udgaver af generelle lineære modeller, herunder strukturelle ligningsmodeller. • Multilevel data eller hierarkisk strukturerede data består af forskellige niveauer indlejret i hinanden. Det kan f.eks. være: • Elever i skoler • Borgere i lande • Borgere i kommuner • Elever i klasser i skoler (tre niveauer) • Elever i skoler i kommuner (kan være såkaldt ’cross classified’) • Måletidspunkter for individer (longitudinelt datasæt) I det følgende tages der udgangspunkt i tværsnitsanalyse på to niveauer, kaldet mikro- og makroniveau – f.eks. elever i skoler.
MLA kan også forstås som tilhørende en speciel designtype Designtyperne er her opdelt efter antal cases på højeste niveau: Antal cases = k
MLA: Nogle grundtræk ift. traditionel analyse • Det indregnes i de statistiske modeller, at antallet af cases er forskelligt på de forskellige niveauer. • Variansen opdeles i de forskellige niveauer, hvorfor man også kan se forklaret varians på forskellige niveauer. Ses der f.eks. på analyse af borgere i kommuner, vedrører noget af variansen på den afhængige variabel forskelle mellem kommuner, og en anden del af variansen vedrører forskelle mellem borgerne i de enkelte kommuner. • Effekterne fra individbaserede variable (f.eks. alder eller uddannelse) tillades at varierer over casene på makroniveau.
Hvordan har man traditionelt arbejdet på hierarkiske datastrukturer? • Aggregeret niveau • Stor udeladelse af nyttig information • Risiko for såkaldte økologiske fejlslutninger • Forringede kontrolmuligheder (hurtigt overlæssede modeller) • Individniveau • Risiko for fejlestimering af regressionskoefficienter (pga. speciel form for autokorrelation) • Risiko for fejlestimering af standardfejl tilhørende især koefficienter på højere liggende niveau (pga. speciel form for autokorrelation) • Større risiko ift. MLA for at få problemer med heteroskedasticitet • For begge måder gælder derforuden, at man forbiser en del interessant information, især: • Opdeling af variansen på den afhængige variabel i de forskellige niveauer • Varierende effekt fra individbaserede variable (heteroskedasticiteten indregnes i modellen)
Alternativ løsningsstrategi • En alternativ løsningsstrategi har været at analysere på individniveau, samtidig med at man indsatte en dummy for hver enkelt case på højere niveau. • I forhold til MLA har denne metode en række ulemper: • Estimaterne af koefficienterne til de enkelte dummy-variabler baseres på et forholdsvis lille antal cases og er derfor i mange tilfælde ikke særligt troværdige. Derimod pooles informationen ifm med specifikke fixed estimater i MLA. • Der kan ikke inddrages kontekstvariable (variable på makroniveau), da dummierne indfanger al variation på dette niveau. • Individvariables koefficienter tillades ikke at variere over casene på makroniveau.
OLS Regressionslinje Kommune 1,2 og 3 Eksempel på fejlestimering med traditionel analyse på mikroniveau Hvis analysen foretages på individ-niveau, findes statistisk signifikant kommunestørrelses-effekt på tilfredshed. Problemet er, at denne effekt alene skyldes, at én stor kommune ’løfter’ regressionslinjen op. Der er således nærmere tale om en specifik kommune-effekt end en kommune-størrelses-effekt. Så slem en fejl laves nok sjældent, men princippet er det samme, og fejlen er der stadig, om end mindre, når antallet af kommuner er f.eks. 60. Her er antal undersøgelses-enheder 60 ved estimater for kommune-variabler, uanset om det samlede antal respondenter er på f.eks. 1.000 el. 2.000. Men selvfølgelig formindskes sikkerhedsintervallet for de enkelte kommuneestimater ved forøgelse af stikprøven. Tilfredshed Respondenter Kommunestørrelse
Endnu et eksempel på fejlestimering ved traditionel analyse Sorte linjer er OLS-beregninger, og røde linjer er de mere stabilt korrekte (Multilevel). I Land 1 beregnes med OLS korrekt mht. effekten fra den individ-baserede variabel SES. I land 4 går det helt galt, da al variationen skyldes forskellighed mellem klasserne, ikke SES. I land 2 og 3 ses mindre fejlestimationer. (Fra PISA 2003 Data Analysis Manual)
Nogle hovedtyper af MLA-modeller • Tom modelHer sker alene en opsplitning af variansen på de to niveauer • Random intercept modelEn eller flere uafhængige variable fra det ene niveau eller dem begge er tilført modellen som forklaringsfaktor. Enhederne på makroniveau lades variere mht. interceptet. Der beregnes et overordnet intercept samt en varians for interceptforskellene mellem makroenhederne. • Random slope modelDette beskrives ofte som en fully random model. Her tillades yderligere, at effekten fra individvariable kan variere mellem makroenhederne. Der beregnes overordnede effekter fra de individbaserede uafhængige variable samt varians for deres forskellige størrelse henover makroenhederne.
Matematikscore Forældres uddannelse Random Intercept model - grafisk illustration Sammenhæng mellem forældres uddannelse og elevens matematikscore i de enkelte skoler (her kun ganske få skoler for overskuelighedens skyld) Den overordnede regressionslinje Variation mellem skolernes intercept. I modellen angives den tilhørende varians. I første omgang beregnes ikke de enkelte intercepter, men de kan beregnes som makroresidualer.
Random slope model - grafisk illustration Samme sammenhæng, blot hvor det tillades effekten fra forældres uddannelse at variere fra skole til skole Matematikscore Et såkaldt Fanning out-mønster Forældres uddannelsesniveau I et sådant tilfælde ville der med traditionel analyse være problemer med heterogenitet.
Regressionsligninger (ordinær og random intercept) Ordinær singlelevel ligning: Random Intercept multilevel ligning – først delt og derefter samlet: Mikroniveau: Makroniveau:(for interceptet) Samlet ligning med indsættelse af makro-niveauets højreside i mikroligningen :
Random Intercept model – Grafisk illustration fra programmet MLwiN
Variable der inddrages i eksemplet på de følgende slides PV1MATH er den afhængige variabel for score i matematiktesten. Dernæst vises en uafhængig variabel på mikro-niveau samt to uafhængige variable på makroniveau.
Konstant (Grand mean) Varians på individniveau (mikro) Varians på skoleniveau (makro) Formlen til den tomme model: Tom model – Matematikscore som respons-variabel og alene interceptet som uafhængig
Intra Class Correlation koefficienten (ICC) • Ved traditionel analyse på hierarkiske datastrukturer overses en særlig form for autokorrelation, hvilket gør, at der fejlestimeres. Mikro-enhederne indenfor den enkelte makroenhed vil (som oftest) være korreleret med hinanden (de vil være mere eller mindre ens ift. mikroenheder fra andre makroenheder). • Intra Class Correlation koefficienten er et udtryk for denne korrelation mellem respondenter fra samme enhed på makroniveau. Hvis al variation forekommer mellem makroenhederne, vil korrelationen være lig med 1, og hvis al variation forekommer mellem mikroenhederne, vil den være lig med 0. Selv ved ICC på 0,05 eller endda endnu lavere kan det være relevant at benytte sig af MLA. • ICC koefficienten udregnes på baggrund af de opdelte variansestimater på følgende måde (vist med eksemplets data):
Uforklaret varians på henholdsvis mikro- og makroniveau Én uafhængig variabel på individniveau Regressionskoefficient fra forældres beskæftigelsesmæssige niveau
Varians i model med forældres beskæftigelsesniveau: Varians i tom model: Forklaret varians på elevniveau (mikro): Forklaret varians på skoleniveau (makro): Forklaret varians • Ved traditionel lineær regression er beregningen af forklaret varians (R2) en forholdsvis simpel størrelse. Ved MLA er der to eller flere niveauer, der skal forklares varians på. • Ved random intercept-modeller er der sjældent problemer med beregningen af, og forståelsen af, den forklarede varians. Her vises beregningerne fra foregående eksempel:
Hvorfor kan mikrovariable forklare varians på makroniveau? • Det kan lade sig gøre, fordi fordelingen på mikrovariable ikke er ens for makroenhederne. • I eksemplet gælder, at den forskel i niveau, der umiddelbart synes at være mellem skolerne, for en stor dels vedkommende skyldes forskellig fordeling af ressourcestærke forældres børn. Nogle skoler har mange børn af ressourcestærke forældre, og andre har næsten ingen. • Når der justeres for denne forskellige fordeling, mindskes skoleforskellene – dvs. der forklares varians.
Yderligere bemærkning vedr. forklaret varians • Selvom det ofte ved Random Intercept-modeller er ganske overensstemmende med forklaret varians ved traditionel regression, så kan der forekomme et uvanligt fænomen, nemlig negativ forklaret varians på makroniveau. • Det hænger sammen med, at en uens fordeling mellem makroenhederne på en eller flere betydningsfulde individfaktorer kan skjule reelle forskelle mellem makroenheder. Hvis det f.eks. forholdt sig således, at de ressourcestærke forældres børn klumpede sig sammen på dårlige skoler, ville forskellen mellem skolerne (altså også variansen på makroniveau) underdrives i den tomme model. Ved inddragelse af forældres beskæftigelsesmæssige niveau ville man fremdrive variationen, og altså få en negativ ’forklaret varians’. • ’Negativ forklaret varians’ er i bund og grund noget sludder, hvorfor mange da også undgår betegnelsen.
Der tilføjes yderligere en makrovariabel Variablen ’village’ angiver, om skolen er en landsbyskole. Denne er ikke signifikant på 0,05 niveau.
Parallel analyse med OLS Effekten fra ’village’ er ganske vist ganske ubetydelig, når der ses på den standardiserede koefficient, men den er nu (lige akkurat) signifikant på 0,05 niveau. Eksemplet på fejlestimation af standardfejl for makrovariable er langt fra godt, men det eneste jeg lige kunne finde i det lille uddrag af PISA, jeg arbejdede med.
Inddragelse af en analytisk makrovariabel • Makrovariablen ’m_hisei’ angiver skolens gennemsnit på mikrovariablen ’HISEI’ (forældres beskæftigelsesmæssige niveau). • Variablen har en positiv effekt på matematikscoren (selv efter kontrol for ’HISEI’), hvilket betyder, at skoler med flere børn af ressourcestærke forældre generelt giver bedre matematikscore – og vel og mærke ikke alene for de ressourcestærke forældres børn selv.
Varians i den udvidede model: Varians i tom model: Nogle angiver også en samlet forklaret varians: Forklaret varians på elevniveau (mikro): Forklaret varians på skoleniveau (makro): Ny beregning af forklaret varians