1 / 65

Kvantitatiiviset tutkimusmenetelmät

Kvantitatiiviset tutkimusmenetelmät. Luento 6 Lineaarinen regressioanalyysi II Kaisu Puumalainen. Useamman selittäjän lineaarinen regressio. Tavoite ja peruskäsitteet. Yksi selitettävä muuttuja ( dependent, y) ja useampia selittäviä muuttujia (explanatory, independent, regressor , x)

rona
Download Presentation

Kvantitatiiviset tutkimusmenetelmät

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kvantitatiiviset tutkimusmenetelmät Luento 6 Lineaarinen regressioanalyysi II Kaisu Puumalainen

  2. Useamman selittäjän lineaarinen regressio

  3. Tavoitejaperuskäsitteet • Yksiselitettävämuuttuja (dependent, y) jauseampiaselittäviämuuttujia(explanatory, independent, regressor, x) • Selitettävä on jatkuvamuuttuja, selittävätpääasiassajatkuvia, mutta dummy-muunnostenavullamyöskategorisiaselittäjiävoikäyttää • Tavoitteenaennustaaselitettävänmuuttujan (y) arvoa, kun selittävien (x1 ja x2) arvottunnetaan

  4. Tavoitteet Ennustaminen Millaisellaselittävienmuuttujienkombinaatiollasaadaanparasennuste Painopistevoi olla tulkinnassa tai ennustetarkkuudessa Kahdenmallinennustetarkkuudenvertailu Selittäminen Teorian testaaminen Muuttujienvälistenyhteyksientoteaminen Eriselittäjiensuhteellinentärkeys Yksittäisenmuuttujanvaikutus, kun muutvakioitu Selittäjienkeskinäisetyhteydet Mahdollistaa epäsuorien ja ehdollisten ja interaktioyhteyksien tutkimisen Voi verrata regressiokertoimia eri otoksissa

  5. Multiple regression: vaiheet • Tutkimusongelma • Tavoitteenaselittäminen tai ennustaminen • Selitettävienjaselittävienmuuttujienvalinta • Tiedonkeruu (otoksenriittävyystestienvoimakkuudenjayleistettävyydenkannalta) • Mallinedellytykset • Lineaarisuus • Homoskedastisuus • Jäännöstermienriippumattomuus • Ei multikollineaarisuutta • Normaalisuus

  6. Multiple regression:vaiheet • Muuttujamuunnokset • Edellytystentoteuttamiseksi • Dummyjenlaatiminen • Polynomit, josepälineaarisiasuhteita • Interaktiot, josmoderoiviamuuttujia • Mallinspesifiointijaestimointi • Itse • Ohjelmisto (forward, backward, stepwise) • Merkitsevyydenarviointi • Selityskerroin • F-testi • Regressiokertoimien t-testit

  7. Multiple regression:vaiheet • Diagnostiikka: poikkeavatjapaljonvaikuttavathavainnot • Outlier, leverage • Dffitjadfbeta • Mallintulkinta • regressiokertoimet • Beta-kertoimet • Osa- ja osittaiskorrelaatiot • Validointi • Split-sample

  8. Muuttujat ja aineisto

  9. Vaihe 1&2: Muuttujien valinta ja havaintojen riittävyys • Jatkuva selitettävä • Pääasiassa jatkuvia selittäjiä • Kategoriset selittäjät dummy-muunnoksella mahdollisia • Tarkista tunnuslukujen tai histogrammin avulla ettei muuttujissa ole pahoja outliereita • Piirrä sirontakuviot: kukin selittäjä erikseen selitettävän kanssa • Ota korrelaatiomatriisi kaikista muuttujista, selitettävän tulisi korreloida selittäjien kanssa merkitsevästi, mutta selittäjien keskinäiset korrelaatiot eivät saisi olla liian voimakkaita (miel. <.70) • Havaintoja tulisi olla 5-10 kertaa niin paljon kuin selittäviä muuttujia, jotta mallista ei tule ylisovitettua (overfitting) ja huonosti yleistettävää • Ylisovitetussa mallissa on suuri R square mutta suuret estimaattien keskivirheet

  10. Vaihe 2: Testinvoimakkuus Statistical power: otoksenkokovaikuttaatilastolliseenmerkitsevyyteenjakykyynhylätävääriäoletushypoteeseja (tyyppi II) • Suositusoverfittingvälttämiseksi: N vähintään 5 kertaaselittäjienmäärä, miel. 15-20, stepwise 50 kertaa 5% riskitasollamerkitsevä R2vähintään, jostestinvoimakkuus on .80

  11. Taustaoletukset

  12. X ja Y yhteyden oikea spesifiointi, lineaarisuus Oikeiden X-muuttujien valinta X-muuttujien täydellinen reliabiliteetti (regressio- ja selityskertoimet todellista alhaisempia jos mittausvirhettä on) Vaihe 3: Yleisiäedellytyksiä Virhetermin odotusarvo on nolla

  13. Homoskedastisuus (virhetermin vakiovarianssi) Vaihe 3: Yleisiäedellytyksiä Havaintojen riippumattomuus Virhetermin (auto-)korreloimattomuus Selittäjät eivät saa olla satunnaisia eikä multikollineaarisia l. täydellisiä lineaarikombinaatioita toisistaan

  14. Vaihe 3: Yleisiäedellytyksiä Useinoletetaanlisäksi, että y jajäännöstermiovatnormaalijakautuneita Edellytyksetarvioidaanetukäteenyksittäistenmuuttujienjakaumiatutkimallasekäestimoinninjälkeenresiduaalejajaeräitätunnuslukujatarkastelemalla • Josedellytykseteivät ole voimassa, niinestimaatitvoivat olla harhaisia (biased) tai keskivirheetvääriä • Jos estimaatti ei ole harhainen niin malli ok ennustekäytössä • Hypoteesien testaaminen ei onnistu jos keskivirheet vääriä

  15. Vaihe 3: Residuaalitarkastelut Perusedellytystenvoimassaolontarkastamiseksikokomallinosalta, ei vain yksittäistenmuuttujien Lineaarisuussirontakuviosta Vakiovarianssi (heteroskedastisuus) sirontakuviosta Riippumattomuusselitettävästä, selittäjistäjaedellisistäresiduaaleistasirontakuvioista Normaalijakautuneisuushistogrammista Suurilla y-arvoillasaadaansuuriaresiduaaleja – studentizedyleensäparempi Graafisettarkastelut, ks. Kuvio Hair s.174

  16. Vaihe 3: Normaalisuus Josresiduaalienjakaumapoikkeaanormaalijakaumasta, niin F- ja t-testiteivättoimipienilläotoksilla Isoilla otoksilla ei yleensä ongelma, ellei johdu väärästä mallin spesifioinnista Toteaminengraafisesti histogrammi Normal probability plot tai Q-Q plot (ks. Kuvio) Toteaminen tunnusluvuilla Jarque-Beratesti, Kolmogorov-Smirnov yms.

  17. Vaihe 3: Homoskedastisuus Residuaalienvarianssi on samakaikillaselittäjämuuttujientasoilla Heteroskedastisuusvaikuttaa vain keskivirheisiin, eikäylensäniihinkäänvoimakkaastielleivaihtelu ole hyvinsuurta (10 x) Todetaansirontakuviollajosselittäjä on jatkuva, jalaatikkokuviollajos se on diskreetti Tilastollisesti Whiten testi tai Levenentesti (H0:homoskedastisuus) Jos paha ongelma, niin WLS-estimointi voi olla parempi isoilla otoksilla

  18. Vaihe 3: Lineaarisuus Todetaanmuuttujiensirontakuviolla (Y-kukin X erikseen) tai tehokkaamminresiduaaliensirontakuvioilla (residuaali- kukin X erikseen, residuaali – ennustettu Y) Poikkeamatvoidaankorjatamuuttujamuunnoksilla tai erikseenmallintamallaesim. NLR Huom! Muunnosten käyttö vaikuttaa kerrointen tulkintaan

  19. Vaihe 3: Virheterminkorreloimattomuus Virheterminkorrelaatio (autokorrelaatio) johtuumallinepätäydellisyydestä Aikasarja-aineistoissajapaneeliaineistoissavoiesiintyä, poikkileikkausaineistoissayleensäeiongelma, koskahavainnotovatsatunnaisessajärjestyksessäjatoisistaanriippumattomia Todetaan graafisesti tai Durbin-Watson-testillä Vaikuttaa vain keskivirheisiin Ajallinen riippuvuus voidaan korjata muunnoksella

  20. Vaihe 3: Multikollineaarisuus Selittäjienvoimakaskeskinäinenkorrelaatio Hyvinyleistä, luonnostaan tai joskäytetäändummyja, polynomitermeja tai interaktiotermejä Vaikutukset: Vaikeaeritelläyksittäistenselittäjienvaikutus, kun suuriosavaihtelusta on yhteistä Ei vaikuta korreloimattomien selittäjien tulkintaan Selitysasteenparantaminenuusillamuuttujillahankaloituu Estimointiheikkenee (singularity), voituottaavääriäetumerkkejä Havaitseminen: Selittäjienkorrelaatiomatriisi (>.90 paha) Toleranssi (osuusselittäjänvaihtelusta, jota muutselittäjäteivätkata, <.10 paha) VIF (toleranssinkäänteisluku, >10 paha) Conditionindex, sqrt (suurin ominaisarvo/pienin ominaisarvo) > 30 paha

  21. Vaihe 3: Multikollineaarisuus Korjaaminen: Jätäjokumultikollineaarisuuttaaiheuttavamuuttujapois, korvaamahdollisestiuudella Josmalliakäytetään vain ennustamiseeneikäkerrointentulkintaan, niinhaittaei ole suuri Tarkistajokaisenyksittäisenselittäjänkorrelaatioselitettävänkanssajavertaaetumerkkejäregressiokerrointenetumerkkeihin Käytäselittäjänäsummamuuttujia tai pääkomponentteja (faktoreita) Keskitä muuttujat ennen polynomitermien tai interaktioiden laskemista Erityisetestimointimenetelmät (Bayesian, ridge regression) Ortogonalisointi, käytä residuaalia selittäjänä

  22. Muuttujamuunnokset

  23. Vaihe 4: Muunnokset Jos perusedellytykset eivät ole voimassa tai mallin parantamiseksi Residuaalien normaalisuus ja homoskedastisuus: Liian tasainen jakauma – käänteisluku Vino jakauma – neliöjuuri (negatiiviselle), logaritmi (positiiviselle) tai käänteisluku Lineaarisuus: Neliöinti, logaritmi, käänteisluku tai neliöjuuri (ks. Kuvio) Jos epäilet että muuttujan vinous haittaa, kokeile korvata muuttujan arvot järjestysluvuilla ja estimoi malli uudelleen

  24. Vaihe 4: Muunnokset: ohjeita • Hyötyä yleensä jos keskiarvo/hajonta < 4 • Tee muunnos sille muuttujalle, jolla keskiarvo/hajonta on pienempi • Tee muunnos yleensä selittävälle muuttujalle • Heteroskedastisuuden korjaamiseksi Y:lle • Muunnokset vaikuttavat tulkintaan, esim. Residuaaleihin • Jos homoskedastinen niin älä muunna Y:tä • Potenssiinkorotukset auttavat yleensä vain jos vaihteluväli on iso (max=10*min)

  25. Vaihe 4: Muunnokset: ohjeita Y2 tai neliöjuuri X tai log X X2 tai neliöjuuri Y tai log Y neliöjuuri tai log joko X:lle tai Y:lle

  26. Vaihe 4: Log-mallien tulkinnasta • Lin-lin y=b1+b2x • b2on kulmakerroin, 1 yksikön lisäys x:ssä aiheuttaa b2 yksikön muutoksen y:ssä • Log-logln(y)=b1+b2ln(x) • b2on jousto, 1% lisäys x:ssä aiheuttaa b2% muutoksen y:ssä • Log-linln(y)=b1+b2x • 1 yksikön lisäys x:ssä aiheuttaa 100*b2% muutoksen y:ssä • Lin-logy=b1+b2ln(x) • 1% lisäys x:ssä aiheuttaa b2/100 yksikön muutoksen y:ssä

  27. Vaihe 4: Muunnokset: dummy-muuttujat Ainuttapasaadanominaaliasteikollisiamuuttujiamukaanregressioanalyysiinselittäjäksi Dummy tai indikaattorimuuttuja on dikotominenmuuttuja, saaarvon 0 tai 1 Josmuuttujassa on k luokkaa, niindummyjatarvitaan k-1 kappaletta Dummynkertoimetkuvaavateroasiihenryhmään, jossadummytsaavatarvon0 Esim. Selitetäänpainoapituudellajatulotasolla Pienituloinen on keskimäärin 7.5 kg kevyempi kuin samanpituinen suurituloinen, ero luokkien välillä on merkitsevä Keskituloinen on keskimäärin 4.1 kg painavampi kuin samanpituinen suurituloinen, mutta ero ei ole merkitsevä Keskituloinen on keskimäärin 11.6 kg painavampi kuin samanpituinen pienituloinen, mutta emme tiedä onko ero merkitsevä

  28. Vaihe 4: Muunnokset: dummy-muuttujat Tulkinta standardoimattomista regressiokertoimista! Ryhmillä ”omat vakiotermit” Esim. Regressioanalyysi, jossa dummy-muuttujana sukupuoli (nainen=0, mies=1) Estimoitu regressioyhtälö Palkka = 1000 + 120*työkok + 800*sukupuoli Nainen, jolla 10 vuotta työkokemusta Palkka = 1000 + 1200 + 0 = 2200 Mies, jolla 10 vuotta työkokemusta Palkka = 1000 + 1200 + 800 = 3000

  29. Vaihe 4: Muunnokset: Epälineaarisetyhteydet Polynomitermit mukaan, yleensä korkeintaan kolmannen asteen Toisen asteen kertoimet: Positiivinen – ylöspäin aukeava paraabeli Negatiivinen – alaspäin aukeava Kaikki alemman asteet termit oltava mukana mallissa! Interaktiot x1x2 moderaattorivaikutusten toteamiseksi Aiheuttaa multikollineaarisuutta, jos ei keskitetä (muunnos: X- X:n keskiarvo) Termien merkitsevyyden arviointi selityskertoimen nousun merkitsevyyden avulla (F-testi)

  30. Mallin estimointija merkitsevyys

  31. Vaihe 5: Estimointi • Kun määrittelet muuttujat tehtävärooleihin (yksi dependent ja monta explanatory), niin SAS ottaa ne kaikki mukaan malliin • Oletusarvoisesti pienimmän neliösumman menetelmä (OLS) • Jos haluat antaa SASin valita parhaita selittäjiä joukosta antamiasi mahdollisia muuttujia, niin stepwise-estimointi on mahdollista

  32. Vaihe 5: Stepwise- estimointi Etenee vaiheittain automaattisesti • Selittäjänä on vain se muuttuja joka korreloi eniten selitettävän kanssa • Osittaiskorrelaatioiden avulla etsitään seuraava selittäjä (jos merkitsevä) • Kahden selittäjän mallista lasketaan onko ensimmäinen vielä merkitsevä • Jatketaan kunnes ei enää löydy merkitseviä uusia selittäjiä Multikollineaariset selittäjät eivät pääse malliin, tulkinnassa muistettava tämä Vain ennustekäyttöön, isoilla otoksilla (kun n/k > 40) ja validoitava aina eri otoksella

  33. YleistettävyydentakiatestattavaselityskertoimenjaregressiokerrointenmerkitsevyysYleistettävyydentakiatestattavaselityskertoimenjaregressiokerrointenmerkitsevyys F-testiselityskertoimenmerkitsevyydelle (H0: R2=0) Adjusted R2ottaahuomioonhavaintojenmäärä/ selittäjienmäärä- suhteen Vaihe 6: Mallinmerkitsevyys

  34. Vaihe 6: Mallinmerkitsevyys T-testi regressiokertoimen merkitsevyydelle (H0: b=0) Vakiotermin merkitsevyyden testi ei tarpeen, paitsi jos on sellaisia havaintoja, joilla kaikki selittäjät saavat arvon nolla F-testi voi olla merkitsevä vaikka mikään t-testi ei ole, jos selittäjät multikollineaarisia

  35. Havaintojen diagnostiikka

  36. Vaihe 7: Vaikuttavatyksittäisethavainnot Outlier, discrepancy Havainto, jolla on suuri residuaali Leverage point Erilainen selittäjän arvo, vaikuttaa sen selittäjän kertoimen estimointiin Influential Vaikuttaa paljon tuloksiin, voi olla outlier tai leverage Ks. Kuvio Hair s.185

  37. Vaihe 7: Vaikuttavatyksittäisethavainnot • Tieto on virheellinen – korjaa virhe tai poista havainto • Oikea tieto, voidaan selittää poikkeuksellisen tilanteen avulla – poista ellei tilannemuuttuja ole mukana mallissa • Ei selitystä – ei syitä poistaa eikä säilyttää, jos poistetaan niin raportoitava myös • Tavallinen yksittäisten muuttujien osalta, mutta niiden yhdistelmä poikkeuksellinen – säilytä havainto mutta muuta mallia

  38. Vaihe 7: diagnostiikkaa • Distances (ks. Hair, s.236): • Cook – kuinka paljon residuaalit ja regressiokertoimet muuttuisivat jos havainto jätettäisiin pois, po. < 4 / (n-k-1) • leverage – kuinka poikkeavia arvoja havainnolla on selittävissä muuttujissa, vaihteluväli 0 … 1 - 1 / n, po. < 2* (k+1) / n • Predictionintervals: luottamusvälit y:n keskiarvolle tai yksittäiselle y:n arvolle • Influencestatistics: • DfBeta – paljonko regressiokerroin muuttuu jos havainto jätetään pois, standardoidut arvot po. < 2 / sqrt (n) • DfFit – paljonko ennustettu y muuttuu jos havainto jätetään pois, standardoidut arvot po. < 2*sqrt ((k+1) / (n-k-1))

  39. Estimaattien tulkinta

  40. Vaihe 8: Mallintulkinta Regressiokertoimista voi laskea ennusteen y:lle Voi arvioida kuinka suuren muutoksen y:ssä selittäjän muutos aiheuttaa (laske y:n osittaisderivaatta selittäjän suhteen) Selittäjien suhteelliset merkitykset beta-kertoimista, standardoitu regressiokerroin (jos ei ole liikaa multikollineaarisuutta)= b*sx/sy Osakorrelaatio (part / semipartial correlation) ja osittaiskorrelaatio (partial correlation)

  41. Vaihe 8: Mallintulkinta Y Selityskerroin = (a+b+c)/(a+b+c+e) Korrelaatiokerroin2 =r2YX1 = (a+c)/(a+b+c+e) Osakorrelaatiokerroin2=sr2YX1= a/(a+b+c+e) Osittaiskorrelaatiokerroin2=pr2YX1= a/(a+e) e a b c X2 X1

  42. Vaihe 9: Validointi • Uusiotos (tai estimation + holdout) • Käytetäänsamaamalliajatutkitaanennustetarkkuutta • Estimoidaanerikseenjaverrataanmalliensamanlaisuutta (adjusted R2, kertoimet) • Chow-testi • Bootstrapping: yksihavaintokerrallaanpois • Ennustaminen: • Laskemyösluottamusvälit, ovatkoolosuhteetsamatkuinmalliaestimoitaessa, käytä vain samanlaisillaselittäjienvaihteluväleillä

  43. SAS ohjelmisto

  44. Esimerkkimalli • Yrityskyselyaineisto, jossa on noin 190 havaintoa • Selitettävämuuttujayrityksenkasvuhalukkuus (Growth orientation), joka on mitattuuseanväittämänkeskiarvonajavaihteleevälillä 1-5 • Mahdollisiaselittäjiäovat • yrityksenliikevaihto (k€) • henkilöstömäärä (kpl) • ikä (v) • elinkaarenvaihe (1=alkuvaihe, 2=kasvuvaihe, 3=vakiintunut, 4=loppumassa)

  45. Jatkuvien muuttujien tarkastelu Selittäjille ln-muunnos jakauman vinouden korjaamiseksi Footer

  46. Kategorinen selittäjä Uudelleenkoodataandummy-muuttujaksi ”kasvuvaihe” siten, että jos elinkaari=2 niin kasvuvaihe=1 ja muutoin kasvuvaihe=0 Footer

  47. Alustava tarkastelu, sirontakuvio Footer

  48. Alustava tarkastelu, korrelaatio • Selittäjien keskinäiset korrelaatiot pieniä, paitsi liikevaihto ja henkilöstömäärä • Kasvuorientaatio korreloi voimakkaammin henkilöstömäärän kanssa muunnoksen jälkeen • Ikä ei korreloi kasvuorientaation kanssa Footer

  49. SAS: analyze – regression – linear regression Footer

More Related