440 likes | 855 Views
Mitmetasandiline lineaarne regressioon. Mihkel Solvak Riigiteaduste Instituut Tartu Ülikool 01.11.2013. Tavaline lineaarne regressioon. Tavaline lineaarne regressioon. Tavaline lineaarne regressioon. d 1. d 2. Tavaline lineaarne regressioon. d 1. d 2. Tavaline lineaarne regressioon.
E N D
Mitmetasandiline lineaarne regressioon MihkelSolvak Riigiteaduste Instituut Tartu Ülikool 01.11.2013
Tavaline lineaarne regressioon • Sellisel regressioonil on rida eeldusi • Kaks neist on eriti relevantsed hierarhilise andmestruktuuri juures: • Keskmiste sõltumatus (meanindependence) • Vigade mittekorreleeritus ehk inimkeeli juhtumite sõltumatus
Mitmene lineaarne regressioon- eeldused (I) • Keskmiste sõltumatus: y= β0+ β1X1 + β2X2 +… +βnXn+ε • Vea ε keskmine ei sõltux-de väärtustest • Vea ε keskmine on null • Teisisõnu, regressioonimudelis on korrektsed tunnused • Vaid siis on konstant ja koefitsiendid kallutamata • Eelduse rikkumise tagajärjed on: • kallutatud parameetrid
Mitmene lineaarne regressioon- eeldused (II) • Juhtumite sõltumatus: y= β0+ β1X1 + β2X2 +… +βnXn+ε • Viga ε ei ole juhtumite vahel korreleeritud • Lihtsamalt öeldes – juhtumid on sõltumatud • Eelduse rikkumise tagajärjed on: • OLS on ebaefektiivne seose kirjeldamisel • Liiga väikesed standardvead
MLM • Juhtumite sõltumatuse eelduse rikkumine tähendab: • Juhtumist saadav info kattub või on dubleeritud teiste juhtumite infoga ehk kogu saadav info on väiksem olukorrast, kus juhtumid on juhuslikult valitud • “Efektiivne” juhtumite arv on väiksem tegelikust juhtumite arvust • Standardvead on liiga väikesed • Olulisuse nivoo eksitab (nn alphainflation), tekib suurem I tüüpi vea tegemise tõenäosus
MLM • Juhtumite sõltumatuse eelduse rikkumine tähendab: • Juhtumist saadav info kattub või on dubleeritud teiste juhtumite infoga ehk kogu saadav info on väiksem olukorrast, kus juhtumid on juhuslikult valitud • “Efektiivne” juhtumite arv on väiksem tegelikust juhtumite arvust • Standardvead on liiga väikesed • Olulisuse nivoo eksitab (nn alphainflation), tekib suurem I tüüpi vea tegemise tõenäosus • Sõltuvust tekitava faktori väljajätmine annab valesti spetsifitseeritud mudeli (nn omittedvariablebias)
MLM • Lahendused: • Kaasata sõltuvust tekitav faktor mudelisse • y= β0+ β1X1 + β2X2+β3W1 … +βnXn+ε kus W1 on teise tasandi tunnus
Miks MLM? Üldine seos x ja y vahel
Miks MLM? Grupisisene seos x ja y vahel Üldine seos x ja y vahel
Miks MLM? Gruppideülene seos x ja y vahel Grupisisene seos x ja y vahel Üldine seos x ja y vahel
MLM • Lahendused: • Kaasata sõltuvust tekitav faktor mudelisse • y= β0+ β1X1 + β2X2+β3W1 … +βnXn+ε kus W1 on teise tasandi tunnus • Mudeldada andmete tekke protsessi viisil, mis võtab juhtumite sõltuvust arvesse • Ehk mitmetasandiliselt
Kuidas sõltuvus tekkida võib • Korduvad mõõtmised • Eksperimendid • Paneeluuringud • Aegread • Klasterdatud vaatlused (sõltuvus, mis tekkinud füüsilisest, geograafilisest või sotsiaalsest lähedusest)
Mitmetasandiline analüüs • Hierarhiad andmetes leiab iga nähtuse puhul: • Tark õpilane õpib paremini tugevama tasemega koolis kui sama tark õpilane nõrgema tasemega koolis (lapsed klastritena koolides) • Rikas inimene vaeses riigis näeb maailma teismoodi kui rikas inimene rikkas riigis (inimesed klastritena riikides) • Sama haigusega patsiendi ravi on edukam ühes haiglas kui teises (patsiendid klastritena haiglates)
Mitmetasandiline analüüs • Klastrid viitavad erinevatele tasanditele, mille abil maailma kirjeldada saab ehk “indiviidi” tasandil ja mingi klastri tasandil • Analüüsides vaid ühte tasandit ja lisades info teistelt tasanditel agregeerides või disagregeerides tekib: • Sõltuvus andmetes • Kontseptuaalne segadus põhjuslikkuse analüüsimisel: • Nn ökoloogiline eksitus (ecologicalfallacy) • Nn individualistlik eksitus (individualist fallacy)
Miks MLM? Gruppideülene seos x ja y vahel Grupisisene seos x ja y vahel Üldine seos x ja y vahel
Miks MLM - analüüsitasand (Merloet al2005. J. Epidemiology and CommunityHealth)
Miks MLM - analüüsitasand (Merloet al2005. J. Epidemiology and CommunityHealth)
Miks MLM - analüüsitasand (Merloet al2005. J. Epidemiology and CommunityHealth)
Miks MLM - analüüsitasand • Ühendame indiviidi ja linnaosa informatsiooni (Merloet al2005. J. Epidemiology and CommunityHealth)
MLM • Variatsioon eelmisel graafil oli: • Kõikide indiviidide väärtused üldise keskmise suhtes • Kõikide gruppide keskmised üldise keskmise suhtes (varn) • Kõikide indiviidide väärtused nende grupi keskmise suhtes (vari) • Koguvariatsiooni saame lahutada indiviidi ja grupi osadeks. Intraklassi korrelatsioon näitab kui suur osa koguvariatsioonist on põhjustatud teise tasandi ühikute poolt (grupp, linnaosa jne) ICC= varn /(varn+ vari)
MLM • Kui ICC on suur, siis peegeldab see midagi teise tasandi ühikute kohta: • Koosseisust tingitud efektid – teise tasandi ühikud erinevad selles, mis vahekorras esimese tasandi ühikuid nad sisaldavad • Kontekstist tulenevad efektid – efektid mida ei saa taandada esimese tasandi ühikute koosseisule teise tasandi ühikute sees
MLM • Kui ICC on väike, siis: • Pääseb ehk õnneks MLM-ist! • Grupi tasandi efektid ei pruugi olla olematud, vaid teie valitud teise tasandi ühikud ei kattu tegelikult nende füüsiliste, geograafiliste või sotsiaalsete erisustega, mis grupeerivad indiviide/vaatlusi
MLM • Lahendus on mitmetasandiline modelleerimine (multi-levelmodelling) akaHLM (hierarchical linear modelling), LLM (linear mixed models), mixed models (võimixed effects models) • Hinnatakse • indiviiditasandi sõltumatute tunnuste mõju indiviidi tasandi sõltuvale tunnusele • konteksti/grupi mõju: • indiviidi tasandi sõltuvale tunnusele • indiviidi tasandi sõltumatute tunnuste efektidele sõltuvale tunnusele (nn cross-levelinteraction)
MLM • Mitmetasandiline lineaarne modelleerimine võtab andmete klastreidarvesse: • lastes vabaliikmel (keskmised) ja sirge tõusul (IV ja DV suhe) varieeruda kõrgema tasandi ühikute lõikes • varieerumine saavutatakse koheldes indiviidi tasandi vabaliiget ja sirge tõusu kui sõltuvaid tunnuseid järgmisel analüüsitasandil (kõrgem tasandi omadus (kool) võib seletada madalamal tasandil täheldatud varieerumist seostes (õpilane)) • Suur eelis: • saab lisada sõltumatuid tunnuseid igal tasandil
Mida MLM teeb • MLM alustab samuti lineaarsest seosest kahe tunnuse vahel: Yij=βoj + β1jXij+εij Yij– on sõltuva tunnuse väärtus esimese tasandi juhtumil ehk indiviid i sõltuva tunnuse väärtus grupis j Xij– on esimese tasandi prediktor βoj- on grupi j vabaliige β1j - on sõltuva tunnuse ja esimese tasandi prediktorivaheline seos (sirge tõus) grupis j εij- on esimese tasandi valemi ennustusviga
Mida MLM teeb • MLM alustab samuti lineaarsest seosest kahe tunnuse vahel: Yij=βoj + β1jXij+εij • Kuid astub sammu edasi ennustades esimese taseme kahe tunnuse vahelist seost kirjeldavaid parameetreid omakorda teise taseme tunnustega: βoj =γ00+ γ01Wj+u0j β1j =γ10+ γ11Wj+u1j
Mida MLM teeb (I) • Ennustame esimese tasandi vabaliiget teise tasandi tunnustega: βoj =γ00+ γ01Wj+u0j γ00 – üldine vabaliige, ehk keskmine vabaliige (intercept) üle kõikide gruppide kui prediktorid=0 γ01 – üldine koefitsient (sirge tõus) teise tasandi prediktorija esimese tasandi vabaliikme (DV) vahel Wj– teise tasandi prediktor u0j – vabaliikme ennustusviga, e. grupi vabaliikme kõrvalekalle üldisest vabaliikmest, teisisõnu, grupi junikaalne efekt vabaliikmele
Mida MLM teeb (II) • Ennustame esimese tasandi koefitsienti teise tasandi tunnustega: β1j =γ10+ γ11Wj+u1j γ10 – üldine vabaliige, ehk keskmine sirge tõus (slope) üle kõikide gruppide kui prediktorid =0 γ11 – üldine koefitsient (sirge tõus) teise tasandi prediktorija esimese tasandi koefitsiendi (DV) vahelise seose kohta u1j – sirge tõusu ennustusviga, grupi sirge tõusu kõrvalekalle üldisest tõusust, teisisõnu grupi j unikaalne efekt tõusule
MLM • Nüüd saame asendada: βoj =γ00+ γ01Wj+u0jβ1j =γ10+ γ11Wj+u1j Yij=βoj + β1jXij+εij Yij= γ00+γ01Wj+γ10Xij+γ11WjXij+u0j+u1jXij+εij γ01Wj - teise tasandi koefitsient (γ10) korda teise tasandi prediktor (Wj) γ10Xij - teise tasandi koefitsient (γ10) korda esimese tasandi prediktor(Xij) γ11WjXij- teise tasandi koefitsient (γ11), korda teise tasandi prediktori (Wj), korda esimese tasandi prediktori (Xij) u0j+u1jXij+εij - asendatud valemi juhusliku vea osa
MLM • Esimene mudel on ainult vabaliikmega mudel (tühi mudel, emptymodel): • milline on keskmine erinevus gruppide vahel sõltuvas tunnuses • Teises mudelis lisatakse esimese tasandi prediktor vabaliikmega mudelile (esimese tasandi mudel) • Kolmandas mudelis lisatakse teise tasandi prediktor (teise tasandi mudel)
MLM - eeldused • Meie vaadeldud esimese tasandi ühikud esindavad teise tasandi ühikutes olevat esimese tasandi ühikute populatsiooni (klasterdamata valim teise tasandi ühikute sees) • Vaadeldud teise tasandi ühikud on esinduslik valim teise tasandi ühikute populatsioonist • Muus osas tavalised lineaarse regressiooni eeldused (v.a. juhtumite sõltumatus)
MLM - spetsifitseerimisotsused • Kui palju konteksti tunnuseid lisada? • Mida teooria ütleb? • Kas mudel ei lähe liiga “keerukaks”? • Kas kõrgema tasandi ühikuid saab mõista juhuvalimina? • Kas ikka kasutada MLM-i? • Ignoreerida teise tasandi ühikuid • Kasutada teise ühiku tunnuseid esimese ühiku tunnustena • Korrigeerida standardvigu (clustered, robusts.e.)
MLM - spetsifitseerimisotsused • Mida fikseerida, mida mitte? Yij=βoj + β1jXij+εij • Mida teooria ütleb? • Kas mudel ei lähe liiga “keerukaks”? • Kas tõlgendamine ei lähe liiga keerukaks? • Ainult fikseeritud efektidega mudelid ei arvesta klastritesisu • Juhuslike mõjudega mudelid (randomcoefficientmodels) • Kui βoj sõltub grupist, siis on tegemist nn randominterceptmudeliga • Kui β1j sõltub grupist, siis on tegemist nn randomslope mudeliga • Viimase all mõeldakse ka reeglina mudeleid kus nii βoj kui β1j sõltuvad grupist
MLM – praktilised probleemid • Gruppide arv N ja gruppide suurus nj • Põletavam probleem kui tavalises OLS-is • Gruppide arv N: • Kui väiksem kui 10, siis kasutage juba fikseeritud efekte (Snijders & Bosker 2012) • Gruppide suurusnj: • Isegi ühe juhtumiga grupidvõimalikud, kui ülejäänud grupid suuremad (Snijders & Bosker 2012) • Tuntuim reegel on vähemalt N=20 gruppi ja vähemalt nj=30 grupi suurused • Ehk “20/30” reegel • Mida keerulisem mudel, seda suurem valim vajalik
MLM • Allikaid: • R. Bickel. Multilevelanalysisforappliedresearch: It’s just regression!Guilford Press, 2007. • T. Snijders & R. Bosker. Multilevelanalysis: Anintroductiontobasic and advancedmultilevelmodeling. Sage, 2012. • J. Hox. Multilevelanalysis: Techniques and applications. Routledge, 2010. • B. Tabachnick & L. Fidell. UsingMultivariateStatistics. Pearson, 2007.