1 / 44

Mitmetasandiline lineaarne regressioon

Mitmetasandiline lineaarne regressioon. Mihkel Solvak Riigiteaduste Instituut Tartu Ülikool 01.11.2013. Tavaline lineaarne regressioon. Tavaline lineaarne regressioon. Tavaline lineaarne regressioon. d 1. d 2. Tavaline lineaarne regressioon. d 1. d 2. Tavaline lineaarne regressioon.

min
Download Presentation

Mitmetasandiline lineaarne regressioon

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mitmetasandiline lineaarne regressioon MihkelSolvak Riigiteaduste Instituut Tartu Ülikool 01.11.2013

  2. Tavaline lineaarne regressioon

  3. Tavaline lineaarne regressioon

  4. Tavaline lineaarne regressioon d1 d2

  5. Tavaline lineaarne regressioon d1 d2

  6. Tavaline lineaarne regressioon d1 d2

  7. Tavaline lineaarne regressioon

  8. Tavaline lineaarne regressioon • Sellisel regressioonil on rida eeldusi • Kaks neist on eriti relevantsed hierarhilise andmestruktuuri juures: • Keskmiste sõltumatus (meanindependence) • Vigade mittekorreleeritus ehk inimkeeli juhtumite sõltumatus

  9. Mitmene lineaarne regressioon- eeldused (I) • Keskmiste sõltumatus: y= β0+ β1X1 + β2X2 +… +βnXn+ε • Vea ε keskmine ei sõltux-de väärtustest • Vea ε keskmine on null • Teisisõnu, regressioonimudelis on korrektsed tunnused • Vaid siis on konstant ja koefitsiendid kallutamata • Eelduse rikkumise tagajärjed on: • kallutatud parameetrid

  10. Mitmene lineaarne regressioon- eeldused (II) • Juhtumite sõltumatus: y= β0+ β1X1 + β2X2 +… +βnXn+ε • Viga ε ei ole juhtumite vahel korreleeritud • Lihtsamalt öeldes – juhtumid on sõltumatud • Eelduse rikkumise tagajärjed on: • OLS on ebaefektiivne seose kirjeldamisel • Liiga väikesed standardvead

  11. MLM • Juhtumite sõltumatuse eelduse rikkumine tähendab: • Juhtumist saadav info kattub või on dubleeritud teiste juhtumite infoga ehk kogu saadav info on väiksem olukorrast, kus juhtumid on juhuslikult valitud • “Efektiivne” juhtumite arv on väiksem tegelikust juhtumite arvust • Standardvead on liiga väikesed • Olulisuse nivoo eksitab (nn alphainflation), tekib suurem I tüüpi vea tegemise tõenäosus

  12. MLM

  13. MLM • Juhtumite sõltumatuse eelduse rikkumine tähendab: • Juhtumist saadav info kattub või on dubleeritud teiste juhtumite infoga ehk kogu saadav info on väiksem olukorrast, kus juhtumid on juhuslikult valitud • “Efektiivne” juhtumite arv on väiksem tegelikust juhtumite arvust • Standardvead on liiga väikesed • Olulisuse nivoo eksitab (nn alphainflation), tekib suurem I tüüpi vea tegemise tõenäosus • Sõltuvust tekitava faktori väljajätmine annab valesti spetsifitseeritud mudeli (nn omittedvariablebias)

  14. MLM • Lahendused: • Kaasata sõltuvust tekitav faktor mudelisse • y= β0+ β1X1 + β2X2+β3W1 … +βnXn+ε kus W1 on teise tasandi tunnus

  15. Miks MLM?

  16. Miks MLM? Üldine seos x ja y vahel

  17. Miks MLM? Grupisisene seos x ja y vahel Üldine seos x ja y vahel

  18. Miks MLM? Gruppideülene seos x ja y vahel Grupisisene seos x ja y vahel Üldine seos x ja y vahel

  19. MLM • Lahendused: • Kaasata sõltuvust tekitav faktor mudelisse • y= β0+ β1X1 + β2X2+β3W1 … +βnXn+ε kus W1 on teise tasandi tunnus • Mudeldada andmete tekke protsessi viisil, mis võtab juhtumite sõltuvust arvesse • Ehk mitmetasandiliselt

  20. Kuidas sõltuvus tekkida võib • Korduvad mõõtmised • Eksperimendid • Paneeluuringud • Aegread • Klasterdatud vaatlused (sõltuvus, mis tekkinud füüsilisest, geograafilisest või sotsiaalsest lähedusest)

  21. Mitmetasandiline analüüs • Hierarhiad andmetes leiab iga nähtuse puhul: • Tark õpilane õpib paremini tugevama tasemega koolis kui sama tark õpilane nõrgema tasemega koolis (lapsed klastritena koolides) • Rikas inimene vaeses riigis näeb maailma teismoodi kui rikas inimene rikkas riigis (inimesed klastritena riikides) • Sama haigusega patsiendi ravi on edukam ühes haiglas kui teises (patsiendid klastritena haiglates)

  22. Mitmetasandiline analüüs • Klastrid viitavad erinevatele tasanditele, mille abil maailma kirjeldada saab ehk “indiviidi” tasandil ja mingi klastri tasandil • Analüüsides vaid ühte tasandit ja lisades info teistelt tasanditel agregeerides või disagregeerides tekib: • Sõltuvus andmetes • Kontseptuaalne segadus põhjuslikkuse analüüsimisel: • Nn ökoloogiline eksitus (ecologicalfallacy) • Nn individualistlik eksitus (individualist fallacy)

  23. Miks MLM? Gruppideülene seos x ja y vahel Grupisisene seos x ja y vahel Üldine seos x ja y vahel

  24. Miks MLM - analüüsitasand (Merloet al2005. J. Epidemiology and CommunityHealth)

  25. Miks MLM - analüüsitasand (Merloet al2005. J. Epidemiology and CommunityHealth)

  26. Miks MLM - analüüsitasand (Merloet al2005. J. Epidemiology and CommunityHealth)

  27. Miks MLM - analüüsitasand • Ühendame indiviidi ja linnaosa informatsiooni (Merloet al2005. J. Epidemiology and CommunityHealth)

  28. MLM • Variatsioon eelmisel graafil oli: • Kõikide indiviidide väärtused üldise keskmise suhtes • Kõikide gruppide keskmised üldise keskmise suhtes (varn) • Kõikide indiviidide väärtused nende grupi keskmise suhtes (vari) • Koguvariatsiooni saame lahutada indiviidi ja grupi osadeks. Intraklassi korrelatsioon näitab kui suur osa koguvariatsioonist on põhjustatud teise tasandi ühikute poolt (grupp, linnaosa jne) ICC= varn /(varn+ vari)

  29. MLM • Kui ICC on suur, siis peegeldab see midagi teise tasandi ühikute kohta: • Koosseisust tingitud efektid – teise tasandi ühikud erinevad selles, mis vahekorras esimese tasandi ühikuid nad sisaldavad • Kontekstist tulenevad efektid – efektid mida ei saa taandada esimese tasandi ühikute koosseisule teise tasandi ühikute sees

  30. MLM • Kui ICC on väike, siis: • Pääseb ehk õnneks MLM-ist! • Grupi tasandi efektid ei pruugi olla olematud, vaid teie valitud teise tasandi ühikud ei kattu tegelikult nende füüsiliste, geograafiliste või sotsiaalsete erisustega, mis grupeerivad indiviide/vaatlusi

  31. MLM • Lahendus on mitmetasandiline modelleerimine (multi-levelmodelling) akaHLM (hierarchical linear modelling), LLM (linear mixed models), mixed models (võimixed effects models) • Hinnatakse • indiviiditasandi sõltumatute tunnuste mõju indiviidi tasandi sõltuvale tunnusele • konteksti/grupi mõju: • indiviidi tasandi sõltuvale tunnusele • indiviidi tasandi sõltumatute tunnuste efektidele sõltuvale tunnusele (nn cross-levelinteraction)

  32. MLM • Mitmetasandiline lineaarne modelleerimine võtab andmete klastreidarvesse: • lastes vabaliikmel (keskmised) ja sirge tõusul (IV ja DV suhe) varieeruda kõrgema tasandi ühikute lõikes • varieerumine saavutatakse koheldes indiviidi tasandi vabaliiget ja sirge tõusu kui sõltuvaid tunnuseid järgmisel analüüsitasandil (kõrgem tasandi omadus (kool) võib seletada madalamal tasandil täheldatud varieerumist seostes (õpilane)) • Suur eelis: • saab lisada sõltumatuid tunnuseid igal tasandil

  33. Mida MLM teeb • MLM alustab samuti lineaarsest seosest kahe tunnuse vahel: Yij=βoj + β1jXij+εij Yij– on sõltuva tunnuse väärtus esimese tasandi juhtumil ehk indiviid i sõltuva tunnuse väärtus grupis j Xij– on esimese tasandi prediktor βoj- on grupi j vabaliige β1j - on sõltuva tunnuse ja esimese tasandi prediktorivaheline seos (sirge tõus) grupis j εij- on esimese tasandi valemi ennustusviga

  34. Mida MLM teeb • MLM alustab samuti lineaarsest seosest kahe tunnuse vahel: Yij=βoj + β1jXij+εij • Kuid astub sammu edasi ennustades esimese taseme kahe tunnuse vahelist seost kirjeldavaid parameetreid omakorda teise taseme tunnustega: βoj =γ00+ γ01Wj+u0j β1j =γ10+ γ11Wj+u1j

  35. Mida MLM teeb (I) • Ennustame esimese tasandi vabaliiget teise tasandi tunnustega: βoj =γ00+ γ01Wj+u0j γ00 – üldine vabaliige, ehk keskmine vabaliige (intercept) üle kõikide gruppide kui prediktorid=0 γ01 – üldine koefitsient (sirge tõus) teise tasandi prediktorija esimese tasandi vabaliikme (DV) vahel Wj– teise tasandi prediktor u0j – vabaliikme ennustusviga, e. grupi vabaliikme kõrvalekalle üldisest vabaliikmest, teisisõnu, grupi junikaalne efekt vabaliikmele

  36. Mida MLM teeb (II) • Ennustame esimese tasandi koefitsienti teise tasandi tunnustega: β1j =γ10+ γ11Wj+u1j γ10 – üldine vabaliige, ehk keskmine sirge tõus (slope) üle kõikide gruppide kui prediktorid =0 γ11 – üldine koefitsient (sirge tõus) teise tasandi prediktorija esimese tasandi koefitsiendi (DV) vahelise seose kohta u1j – sirge tõusu ennustusviga, grupi sirge tõusu kõrvalekalle üldisest tõusust, teisisõnu grupi j unikaalne efekt tõusule

  37. MLM • Nüüd saame asendada: βoj =γ00+ γ01Wj+u0jβ1j =γ10+ γ11Wj+u1j Yij=βoj + β1jXij+εij Yij= γ00+γ01Wj+γ10Xij+γ11WjXij+u0j+u1jXij+εij γ01Wj - teise tasandi koefitsient (γ10) korda teise tasandi prediktor (Wj) γ10Xij - teise tasandi koefitsient (γ10) korda esimese tasandi prediktor(Xij) γ11WjXij- teise tasandi koefitsient (γ11), korda teise tasandi prediktori (Wj), korda esimese tasandi prediktori (Xij) u0j+u1jXij+εij - asendatud valemi juhusliku vea osa

  38. MLM • Esimene mudel on ainult vabaliikmega mudel (tühi mudel, emptymodel): • milline on keskmine erinevus gruppide vahel sõltuvas tunnuses • Teises mudelis lisatakse esimese tasandi prediktor vabaliikmega mudelile (esimese tasandi mudel) • Kolmandas mudelis lisatakse teise tasandi prediktor (teise tasandi mudel)

  39. MLM - eeldused • Meie vaadeldud esimese tasandi ühikud esindavad teise tasandi ühikutes olevat esimese tasandi ühikute populatsiooni (klasterdamata valim teise tasandi ühikute sees) • Vaadeldud teise tasandi ühikud on esinduslik valim teise tasandi ühikute populatsioonist • Muus osas tavalised lineaarse regressiooni eeldused (v.a. juhtumite sõltumatus)

  40. MLM - spetsifitseerimisotsused • Kui palju konteksti tunnuseid lisada? • Mida teooria ütleb? • Kas mudel ei lähe liiga “keerukaks”? • Kas kõrgema tasandi ühikuid saab mõista juhuvalimina? • Kas ikka kasutada MLM-i? • Ignoreerida teise tasandi ühikuid • Kasutada teise ühiku tunnuseid esimese ühiku tunnustena • Korrigeerida standardvigu (clustered, robusts.e.)

  41. MLM - spetsifitseerimisotsused • Mida fikseerida, mida mitte? Yij=βoj + β1jXij+εij • Mida teooria ütleb? • Kas mudel ei lähe liiga “keerukaks”? • Kas tõlgendamine ei lähe liiga keerukaks? • Ainult fikseeritud efektidega mudelid ei arvesta klastritesisu • Juhuslike mõjudega mudelid (randomcoefficientmodels) • Kui βoj sõltub grupist, siis on tegemist nn randominterceptmudeliga • Kui β1j sõltub grupist, siis on tegemist nn randomslope mudeliga • Viimase all mõeldakse ka reeglina mudeleid kus nii βoj kui β1j sõltuvad grupist

  42. MLM – praktilised probleemid • Gruppide arv N ja gruppide suurus nj • Põletavam probleem kui tavalises OLS-is • Gruppide arv N: • Kui väiksem kui 10, siis kasutage juba fikseeritud efekte (Snijders & Bosker 2012) • Gruppide suurusnj: • Isegi ühe juhtumiga grupidvõimalikud, kui ülejäänud grupid suuremad (Snijders & Bosker 2012) • Tuntuim reegel on vähemalt N=20 gruppi ja vähemalt nj=30 grupi suurused • Ehk “20/30” reegel • Mida keerulisem mudel, seda suurem valim vajalik

  43. MLM • Allikaid: • R. Bickel. Multilevelanalysisforappliedresearch: It’s just regression!Guilford Press, 2007. • T. Snijders & R. Bosker. Multilevelanalysis: Anintroductiontobasic and advancedmultilevelmodeling. Sage, 2012. • J. Hox. Multilevelanalysis: Techniques and applications. Routledge, 2010. • B. Tabachnick & L. Fidell. UsingMultivariateStatistics. Pearson, 2007.

More Related