660 likes | 1.02k Views
Kvantitatiiviset tutkimusmenetelmät. Luento 6 Lineaarinen regressioanalyysi II Kaisu Puumalainen. Useamman selittäjän lineaarinen regressio. Tavoite ja peruskäsitteet. Yksi selitettävä muuttuja ( dependent, y) ja useampia selittäviä muuttujia (explanatory, independent, regressor , x)
E N D
Kvantitatiiviset tutkimusmenetelmät Luento 6 Lineaarinen regressioanalyysi II Kaisu Puumalainen
Tavoitejaperuskäsitteet • Yksiselitettävämuuttuja (dependent, y) jauseampiaselittäviämuuttujia(explanatory, independent, regressor, x) • Selitettävä on jatkuvamuuttuja, selittävätpääasiassajatkuvia, mutta dummy-muunnostenavullamyöskategorisiaselittäjiävoikäyttää • Tavoitteenaennustaaselitettävänmuuttujan (y) arvoa, kun selittävien (x1 ja x2) arvottunnetaan
Tavoitteet Ennustaminen Millaisellaselittävienmuuttujienkombinaatiollasaadaanparasennuste Painopistevoi olla tulkinnassa tai ennustetarkkuudessa Kahdenmallinennustetarkkuudenvertailu Selittäminen Teorian testaaminen Muuttujienvälistenyhteyksientoteaminen Eriselittäjiensuhteellinentärkeys Yksittäisenmuuttujanvaikutus, kun muutvakioitu Selittäjienkeskinäisetyhteydet Mahdollistaa epäsuorien ja ehdollisten ja interaktioyhteyksien tutkimisen Voi verrata regressiokertoimia eri otoksissa
Multiple regression: vaiheet • Tutkimusongelma • Tavoitteenaselittäminen tai ennustaminen • Selitettävienjaselittävienmuuttujienvalinta • Tiedonkeruu (otoksenriittävyystestienvoimakkuudenjayleistettävyydenkannalta) • Mallinedellytykset • Lineaarisuus • Homoskedastisuus • Jäännöstermienriippumattomuus • Ei multikollineaarisuutta • Normaalisuus
Multiple regression:vaiheet • Muuttujamuunnokset • Edellytystentoteuttamiseksi • Dummyjenlaatiminen • Polynomit, josepälineaarisiasuhteita • Interaktiot, josmoderoiviamuuttujia • Mallinspesifiointijaestimointi • Itse • Ohjelmisto (forward, backward, stepwise) • Merkitsevyydenarviointi • Selityskerroin • F-testi • Regressiokertoimien t-testit
Multiple regression:vaiheet • Diagnostiikka: poikkeavatjapaljonvaikuttavathavainnot • Outlier, leverage • Dffitjadfbeta • Mallintulkinta • regressiokertoimet • Beta-kertoimet • Osa- ja osittaiskorrelaatiot • Validointi • Split-sample
Vaihe 1&2: Muuttujien valinta ja havaintojen riittävyys • Jatkuva selitettävä • Pääasiassa jatkuvia selittäjiä • Kategoriset selittäjät dummy-muunnoksella mahdollisia • Tarkista tunnuslukujen tai histogrammin avulla ettei muuttujissa ole pahoja outliereita • Piirrä sirontakuviot: kukin selittäjä erikseen selitettävän kanssa • Ota korrelaatiomatriisi kaikista muuttujista, selitettävän tulisi korreloida selittäjien kanssa merkitsevästi, mutta selittäjien keskinäiset korrelaatiot eivät saisi olla liian voimakkaita (miel. <.70) • Havaintoja tulisi olla 5-10 kertaa niin paljon kuin selittäviä muuttujia, jotta mallista ei tule ylisovitettua (overfitting) ja huonosti yleistettävää • Ylisovitetussa mallissa on suuri R square mutta suuret estimaattien keskivirheet
Vaihe 2: Testinvoimakkuus Statistical power: otoksenkokovaikuttaatilastolliseenmerkitsevyyteenjakykyynhylätävääriäoletushypoteeseja (tyyppi II) • Suositusoverfittingvälttämiseksi: N vähintään 5 kertaaselittäjienmäärä, miel. 15-20, stepwise 50 kertaa 5% riskitasollamerkitsevä R2vähintään, jostestinvoimakkuus on .80
X ja Y yhteyden oikea spesifiointi, lineaarisuus Oikeiden X-muuttujien valinta X-muuttujien täydellinen reliabiliteetti (regressio- ja selityskertoimet todellista alhaisempia jos mittausvirhettä on) Vaihe 3: Yleisiäedellytyksiä Virhetermin odotusarvo on nolla
Homoskedastisuus (virhetermin vakiovarianssi) Vaihe 3: Yleisiäedellytyksiä Havaintojen riippumattomuus Virhetermin (auto-)korreloimattomuus Selittäjät eivät saa olla satunnaisia eikä multikollineaarisia l. täydellisiä lineaarikombinaatioita toisistaan
Vaihe 3: Yleisiäedellytyksiä Useinoletetaanlisäksi, että y jajäännöstermiovatnormaalijakautuneita Edellytyksetarvioidaanetukäteenyksittäistenmuuttujienjakaumiatutkimallasekäestimoinninjälkeenresiduaalejajaeräitätunnuslukujatarkastelemalla • Josedellytykseteivät ole voimassa, niinestimaatitvoivat olla harhaisia (biased) tai keskivirheetvääriä • Jos estimaatti ei ole harhainen niin malli ok ennustekäytössä • Hypoteesien testaaminen ei onnistu jos keskivirheet vääriä
Vaihe 3: Residuaalitarkastelut Perusedellytystenvoimassaolontarkastamiseksikokomallinosalta, ei vain yksittäistenmuuttujien Lineaarisuussirontakuviosta Vakiovarianssi (heteroskedastisuus) sirontakuviosta Riippumattomuusselitettävästä, selittäjistäjaedellisistäresiduaaleistasirontakuvioista Normaalijakautuneisuushistogrammista Suurilla y-arvoillasaadaansuuriaresiduaaleja – studentizedyleensäparempi Graafisettarkastelut, ks. Kuvio Hair s.174
Vaihe 3: Normaalisuus Josresiduaalienjakaumapoikkeaanormaalijakaumasta, niin F- ja t-testiteivättoimipienilläotoksilla Isoilla otoksilla ei yleensä ongelma, ellei johdu väärästä mallin spesifioinnista Toteaminengraafisesti histogrammi Normal probability plot tai Q-Q plot (ks. Kuvio) Toteaminen tunnusluvuilla Jarque-Beratesti, Kolmogorov-Smirnov yms.
Vaihe 3: Homoskedastisuus Residuaalienvarianssi on samakaikillaselittäjämuuttujientasoilla Heteroskedastisuusvaikuttaa vain keskivirheisiin, eikäylensäniihinkäänvoimakkaastielleivaihtelu ole hyvinsuurta (10 x) Todetaansirontakuviollajosselittäjä on jatkuva, jalaatikkokuviollajos se on diskreetti Tilastollisesti Whiten testi tai Levenentesti (H0:homoskedastisuus) Jos paha ongelma, niin WLS-estimointi voi olla parempi isoilla otoksilla
Vaihe 3: Lineaarisuus Todetaanmuuttujiensirontakuviolla (Y-kukin X erikseen) tai tehokkaamminresiduaaliensirontakuvioilla (residuaali- kukin X erikseen, residuaali – ennustettu Y) Poikkeamatvoidaankorjatamuuttujamuunnoksilla tai erikseenmallintamallaesim. NLR Huom! Muunnosten käyttö vaikuttaa kerrointen tulkintaan
Vaihe 3: Virheterminkorreloimattomuus Virheterminkorrelaatio (autokorrelaatio) johtuumallinepätäydellisyydestä Aikasarja-aineistoissajapaneeliaineistoissavoiesiintyä, poikkileikkausaineistoissayleensäeiongelma, koskahavainnotovatsatunnaisessajärjestyksessäjatoisistaanriippumattomia Todetaan graafisesti tai Durbin-Watson-testillä Vaikuttaa vain keskivirheisiin Ajallinen riippuvuus voidaan korjata muunnoksella
Vaihe 3: Multikollineaarisuus Selittäjienvoimakaskeskinäinenkorrelaatio Hyvinyleistä, luonnostaan tai joskäytetäändummyja, polynomitermeja tai interaktiotermejä Vaikutukset: Vaikeaeritelläyksittäistenselittäjienvaikutus, kun suuriosavaihtelusta on yhteistä Ei vaikuta korreloimattomien selittäjien tulkintaan Selitysasteenparantaminenuusillamuuttujillahankaloituu Estimointiheikkenee (singularity), voituottaavääriäetumerkkejä Havaitseminen: Selittäjienkorrelaatiomatriisi (>.90 paha) Toleranssi (osuusselittäjänvaihtelusta, jota muutselittäjäteivätkata, <.10 paha) VIF (toleranssinkäänteisluku, >10 paha) Conditionindex, sqrt (suurin ominaisarvo/pienin ominaisarvo) > 30 paha
Vaihe 3: Multikollineaarisuus Korjaaminen: Jätäjokumultikollineaarisuuttaaiheuttavamuuttujapois, korvaamahdollisestiuudella Josmalliakäytetään vain ennustamiseeneikäkerrointentulkintaan, niinhaittaei ole suuri Tarkistajokaisenyksittäisenselittäjänkorrelaatioselitettävänkanssajavertaaetumerkkejäregressiokerrointenetumerkkeihin Käytäselittäjänäsummamuuttujia tai pääkomponentteja (faktoreita) Keskitä muuttujat ennen polynomitermien tai interaktioiden laskemista Erityisetestimointimenetelmät (Bayesian, ridge regression) Ortogonalisointi, käytä residuaalia selittäjänä
Vaihe 4: Muunnokset Jos perusedellytykset eivät ole voimassa tai mallin parantamiseksi Residuaalien normaalisuus ja homoskedastisuus: Liian tasainen jakauma – käänteisluku Vino jakauma – neliöjuuri (negatiiviselle), logaritmi (positiiviselle) tai käänteisluku Lineaarisuus: Neliöinti, logaritmi, käänteisluku tai neliöjuuri (ks. Kuvio) Jos epäilet että muuttujan vinous haittaa, kokeile korvata muuttujan arvot järjestysluvuilla ja estimoi malli uudelleen
Vaihe 4: Muunnokset: ohjeita • Hyötyä yleensä jos keskiarvo/hajonta < 4 • Tee muunnos sille muuttujalle, jolla keskiarvo/hajonta on pienempi • Tee muunnos yleensä selittävälle muuttujalle • Heteroskedastisuuden korjaamiseksi Y:lle • Muunnokset vaikuttavat tulkintaan, esim. Residuaaleihin • Jos homoskedastinen niin älä muunna Y:tä • Potenssiinkorotukset auttavat yleensä vain jos vaihteluväli on iso (max=10*min)
Vaihe 4: Muunnokset: ohjeita Y2 tai neliöjuuri X tai log X X2 tai neliöjuuri Y tai log Y neliöjuuri tai log joko X:lle tai Y:lle
Vaihe 4: Log-mallien tulkinnasta • Lin-lin y=b1+b2x • b2on kulmakerroin, 1 yksikön lisäys x:ssä aiheuttaa b2 yksikön muutoksen y:ssä • Log-logln(y)=b1+b2ln(x) • b2on jousto, 1% lisäys x:ssä aiheuttaa b2% muutoksen y:ssä • Log-linln(y)=b1+b2x • 1 yksikön lisäys x:ssä aiheuttaa 100*b2% muutoksen y:ssä • Lin-logy=b1+b2ln(x) • 1% lisäys x:ssä aiheuttaa b2/100 yksikön muutoksen y:ssä
Vaihe 4: Muunnokset: dummy-muuttujat Ainuttapasaadanominaaliasteikollisiamuuttujiamukaanregressioanalyysiinselittäjäksi Dummy tai indikaattorimuuttuja on dikotominenmuuttuja, saaarvon 0 tai 1 Josmuuttujassa on k luokkaa, niindummyjatarvitaan k-1 kappaletta Dummynkertoimetkuvaavateroasiihenryhmään, jossadummytsaavatarvon0 Esim. Selitetäänpainoapituudellajatulotasolla Pienituloinen on keskimäärin 7.5 kg kevyempi kuin samanpituinen suurituloinen, ero luokkien välillä on merkitsevä Keskituloinen on keskimäärin 4.1 kg painavampi kuin samanpituinen suurituloinen, mutta ero ei ole merkitsevä Keskituloinen on keskimäärin 11.6 kg painavampi kuin samanpituinen pienituloinen, mutta emme tiedä onko ero merkitsevä
Vaihe 4: Muunnokset: dummy-muuttujat Tulkinta standardoimattomista regressiokertoimista! Ryhmillä ”omat vakiotermit” Esim. Regressioanalyysi, jossa dummy-muuttujana sukupuoli (nainen=0, mies=1) Estimoitu regressioyhtälö Palkka = 1000 + 120*työkok + 800*sukupuoli Nainen, jolla 10 vuotta työkokemusta Palkka = 1000 + 1200 + 0 = 2200 Mies, jolla 10 vuotta työkokemusta Palkka = 1000 + 1200 + 800 = 3000
Vaihe 4: Muunnokset: Epälineaarisetyhteydet Polynomitermit mukaan, yleensä korkeintaan kolmannen asteen Toisen asteen kertoimet: Positiivinen – ylöspäin aukeava paraabeli Negatiivinen – alaspäin aukeava Kaikki alemman asteet termit oltava mukana mallissa! Interaktiot x1x2 moderaattorivaikutusten toteamiseksi Aiheuttaa multikollineaarisuutta, jos ei keskitetä (muunnos: X- X:n keskiarvo) Termien merkitsevyyden arviointi selityskertoimen nousun merkitsevyyden avulla (F-testi)
Vaihe 5: Estimointi • Kun määrittelet muuttujat tehtävärooleihin (yksi dependent ja monta explanatory), niin SAS ottaa ne kaikki mukaan malliin • Oletusarvoisesti pienimmän neliösumman menetelmä (OLS) • Jos haluat antaa SASin valita parhaita selittäjiä joukosta antamiasi mahdollisia muuttujia, niin stepwise-estimointi on mahdollista
Vaihe 5: Stepwise- estimointi Etenee vaiheittain automaattisesti • Selittäjänä on vain se muuttuja joka korreloi eniten selitettävän kanssa • Osittaiskorrelaatioiden avulla etsitään seuraava selittäjä (jos merkitsevä) • Kahden selittäjän mallista lasketaan onko ensimmäinen vielä merkitsevä • Jatketaan kunnes ei enää löydy merkitseviä uusia selittäjiä Multikollineaariset selittäjät eivät pääse malliin, tulkinnassa muistettava tämä Vain ennustekäyttöön, isoilla otoksilla (kun n/k > 40) ja validoitava aina eri otoksella
YleistettävyydentakiatestattavaselityskertoimenjaregressiokerrointenmerkitsevyysYleistettävyydentakiatestattavaselityskertoimenjaregressiokerrointenmerkitsevyys F-testiselityskertoimenmerkitsevyydelle (H0: R2=0) Adjusted R2ottaahuomioonhavaintojenmäärä/ selittäjienmäärä- suhteen Vaihe 6: Mallinmerkitsevyys
Vaihe 6: Mallinmerkitsevyys T-testi regressiokertoimen merkitsevyydelle (H0: b=0) Vakiotermin merkitsevyyden testi ei tarpeen, paitsi jos on sellaisia havaintoja, joilla kaikki selittäjät saavat arvon nolla F-testi voi olla merkitsevä vaikka mikään t-testi ei ole, jos selittäjät multikollineaarisia
Vaihe 7: Vaikuttavatyksittäisethavainnot Outlier, discrepancy Havainto, jolla on suuri residuaali Leverage point Erilainen selittäjän arvo, vaikuttaa sen selittäjän kertoimen estimointiin Influential Vaikuttaa paljon tuloksiin, voi olla outlier tai leverage Ks. Kuvio Hair s.185
Vaihe 7: Vaikuttavatyksittäisethavainnot • Tieto on virheellinen – korjaa virhe tai poista havainto • Oikea tieto, voidaan selittää poikkeuksellisen tilanteen avulla – poista ellei tilannemuuttuja ole mukana mallissa • Ei selitystä – ei syitä poistaa eikä säilyttää, jos poistetaan niin raportoitava myös • Tavallinen yksittäisten muuttujien osalta, mutta niiden yhdistelmä poikkeuksellinen – säilytä havainto mutta muuta mallia
Vaihe 7: diagnostiikkaa • Distances (ks. Hair, s.236): • Cook – kuinka paljon residuaalit ja regressiokertoimet muuttuisivat jos havainto jätettäisiin pois, po. < 4 / (n-k-1) • leverage – kuinka poikkeavia arvoja havainnolla on selittävissä muuttujissa, vaihteluväli 0 … 1 - 1 / n, po. < 2* (k+1) / n • Predictionintervals: luottamusvälit y:n keskiarvolle tai yksittäiselle y:n arvolle • Influencestatistics: • DfBeta – paljonko regressiokerroin muuttuu jos havainto jätetään pois, standardoidut arvot po. < 2 / sqrt (n) • DfFit – paljonko ennustettu y muuttuu jos havainto jätetään pois, standardoidut arvot po. < 2*sqrt ((k+1) / (n-k-1))
Vaihe 8: Mallintulkinta Regressiokertoimista voi laskea ennusteen y:lle Voi arvioida kuinka suuren muutoksen y:ssä selittäjän muutos aiheuttaa (laske y:n osittaisderivaatta selittäjän suhteen) Selittäjien suhteelliset merkitykset beta-kertoimista, standardoitu regressiokerroin (jos ei ole liikaa multikollineaarisuutta)= b*sx/sy Osakorrelaatio (part / semipartial correlation) ja osittaiskorrelaatio (partial correlation)
Vaihe 8: Mallintulkinta Y Selityskerroin = (a+b+c)/(a+b+c+e) Korrelaatiokerroin2 =r2YX1 = (a+c)/(a+b+c+e) Osakorrelaatiokerroin2=sr2YX1= a/(a+b+c+e) Osittaiskorrelaatiokerroin2=pr2YX1= a/(a+e) e a b c X2 X1
Vaihe 9: Validointi • Uusiotos (tai estimation + holdout) • Käytetäänsamaamalliajatutkitaanennustetarkkuutta • Estimoidaanerikseenjaverrataanmalliensamanlaisuutta (adjusted R2, kertoimet) • Chow-testi • Bootstrapping: yksihavaintokerrallaanpois • Ennustaminen: • Laskemyösluottamusvälit, ovatkoolosuhteetsamatkuinmalliaestimoitaessa, käytä vain samanlaisillaselittäjienvaihteluväleillä
Esimerkkimalli • Yrityskyselyaineisto, jossa on noin 190 havaintoa • Selitettävämuuttujayrityksenkasvuhalukkuus (Growth orientation), joka on mitattuuseanväittämänkeskiarvonajavaihteleevälillä 1-5 • Mahdollisiaselittäjiäovat • yrityksenliikevaihto (k€) • henkilöstömäärä (kpl) • ikä (v) • elinkaarenvaihe (1=alkuvaihe, 2=kasvuvaihe, 3=vakiintunut, 4=loppumassa)
Jatkuvien muuttujien tarkastelu Selittäjille ln-muunnos jakauman vinouden korjaamiseksi Footer
Kategorinen selittäjä Uudelleenkoodataandummy-muuttujaksi ”kasvuvaihe” siten, että jos elinkaari=2 niin kasvuvaihe=1 ja muutoin kasvuvaihe=0 Footer
Alustava tarkastelu, korrelaatio • Selittäjien keskinäiset korrelaatiot pieniä, paitsi liikevaihto ja henkilöstömäärä • Kasvuorientaatio korreloi voimakkaammin henkilöstömäärän kanssa muunnoksen jälkeen • Ikä ei korreloi kasvuorientaation kanssa Footer