Kvantitatiiviset tutkimusmenetelmät

Kvantitatiiviset tutkimusmenetelmät Luento 6 Lineaarinen regressioanalyysi II Kaisu Puumalainen

Useamman selittäjän lineaarinen regressio

Tavoitejaperuskäsitteet • Yksiselitettävämuuttuja (dependent, y) jauseampiaselittäviämuuttujia(explanatory, independent, regressor, x) • Selitettävä on jatkuvamuuttuja, selittävätpääasiassajatkuvia, mutta dummy-muunnostenavullamyöskategorisiaselittäjiävoikäyttää • Tavoitteenaennustaaselitettävänmuuttujan (y) arvoa, kun selittävien (x1 ja x2) arvottunnetaan

Tavoitteet Ennustaminen Millaisellaselittävienmuuttujienkombinaatiollasaadaanparasennuste Painopistevoi olla tulkinnassa tai ennustetarkkuudessa Kahdenmallinennustetarkkuudenvertailu Selittäminen Teorian testaaminen Muuttujienvälistenyhteyksientoteaminen Eriselittäjiensuhteellinentärkeys Yksittäisenmuuttujanvaikutus, kun muutvakioitu Selittäjienkeskinäisetyhteydet Mahdollistaa epäsuorien ja ehdollisten ja interaktioyhteyksien tutkimisen Voi verrata regressiokertoimia eri otoksissa

Multiple regression: vaiheet • Tutkimusongelma • Tavoitteenaselittäminen tai ennustaminen • Selitettävienjaselittävienmuuttujienvalinta • Tiedonkeruu (otoksenriittävyystestienvoimakkuudenjayleistettävyydenkannalta) • Mallinedellytykset • Lineaarisuus • Homoskedastisuus • Jäännöstermienriippumattomuus • Ei multikollineaarisuutta • Normaalisuus

Multiple regression:vaiheet • Muuttujamuunnokset • Edellytystentoteuttamiseksi • Dummyjenlaatiminen • Polynomit, josepälineaarisiasuhteita • Interaktiot, josmoderoiviamuuttujia • Mallinspesifiointijaestimointi • Itse • Ohjelmisto (forward, backward, stepwise) • Merkitsevyydenarviointi • Selityskerroin • F-testi • Regressiokertoimien t-testit

Multiple regression:vaiheet • Diagnostiikka: poikkeavatjapaljonvaikuttavathavainnot • Outlier, leverage • Dffitjadfbeta • Mallintulkinta • regressiokertoimet • Beta-kertoimet • Osa- ja osittaiskorrelaatiot • Validointi • Split-sample

Muuttujat ja aineisto

Vaihe 1&2: Muuttujien valinta ja havaintojen riittävyys • Jatkuva selitettävä • Pääasiassa jatkuvia selittäjiä • Kategoriset selittäjät dummy-muunnoksella mahdollisia • Tarkista tunnuslukujen tai histogrammin avulla ettei muuttujissa ole pahoja outliereita • Piirrä sirontakuviot: kukin selittäjä erikseen selitettävän kanssa • Ota korrelaatiomatriisi kaikista muuttujista, selitettävän tulisi korreloida selittäjien kanssa merkitsevästi, mutta selittäjien keskinäiset korrelaatiot eivät saisi olla liian voimakkaita (miel. <.70) • Havaintoja tulisi olla 5-10 kertaa niin paljon kuin selittäviä muuttujia, jotta mallista ei tule ylisovitettua (overfitting) ja huonosti yleistettävää • Ylisovitetussa mallissa on suuri R square mutta suuret estimaattien keskivirheet

Vaihe 2: Testinvoimakkuus Statistical power: otoksenkokovaikuttaatilastolliseenmerkitsevyyteenjakykyynhylätävääriäoletushypoteeseja (tyyppi II) • Suositusoverfittingvälttämiseksi: N vähintään 5 kertaaselittäjienmäärä, miel. 15-20, stepwise 50 kertaa 5% riskitasollamerkitsevä R2vähintään, jostestinvoimakkuus on .80

Taustaoletukset

X ja Y yhteyden oikea spesifiointi, lineaarisuus Oikeiden X-muuttujien valinta X-muuttujien täydellinen reliabiliteetti (regressio- ja selityskertoimet todellista alhaisempia jos mittausvirhettä on) Vaihe 3: Yleisiäedellytyksiä Virhetermin odotusarvo on nolla

Homoskedastisuus (virhetermin vakiovarianssi) Vaihe 3: Yleisiäedellytyksiä Havaintojen riippumattomuus Virhetermin (auto-)korreloimattomuus Selittäjät eivät saa olla satunnaisia eikä multikollineaarisia l. täydellisiä lineaarikombinaatioita toisistaan

Vaihe 3: Yleisiäedellytyksiä Useinoletetaanlisäksi, että y jajäännöstermiovatnormaalijakautuneita Edellytyksetarvioidaanetukäteenyksittäistenmuuttujienjakaumiatutkimallasekäestimoinninjälkeenresiduaalejajaeräitätunnuslukujatarkastelemalla • Josedellytykseteivät ole voimassa, niinestimaatitvoivat olla harhaisia (biased) tai keskivirheetvääriä • Jos estimaatti ei ole harhainen niin malli ok ennustekäytössä • Hypoteesien testaaminen ei onnistu jos keskivirheet vääriä

Vaihe 3: Residuaalitarkastelut Perusedellytystenvoimassaolontarkastamiseksikokomallinosalta, ei vain yksittäistenmuuttujien Lineaarisuussirontakuviosta Vakiovarianssi (heteroskedastisuus) sirontakuviosta Riippumattomuusselitettävästä, selittäjistäjaedellisistäresiduaaleistasirontakuvioista Normaalijakautuneisuushistogrammista Suurilla y-arvoillasaadaansuuriaresiduaaleja – studentizedyleensäparempi Graafisettarkastelut, ks. Kuvio Hair s.174

Vaihe 3: Normaalisuus Josresiduaalienjakaumapoikkeaanormaalijakaumasta, niin F- ja t-testiteivättoimipienilläotoksilla Isoilla otoksilla ei yleensä ongelma, ellei johdu väärästä mallin spesifioinnista Toteaminengraafisesti histogrammi Normal probability plot tai Q-Q plot (ks. Kuvio) Toteaminen tunnusluvuilla Jarque-Beratesti, Kolmogorov-Smirnov yms.

Vaihe 3: Homoskedastisuus Residuaalienvarianssi on samakaikillaselittäjämuuttujientasoilla Heteroskedastisuusvaikuttaa vain keskivirheisiin, eikäylensäniihinkäänvoimakkaastielleivaihtelu ole hyvinsuurta (10 x) Todetaansirontakuviollajosselittäjä on jatkuva, jalaatikkokuviollajos se on diskreetti Tilastollisesti Whiten testi tai Levenentesti (H0:homoskedastisuus) Jos paha ongelma, niin WLS-estimointi voi olla parempi isoilla otoksilla

Vaihe 3: Lineaarisuus Todetaanmuuttujiensirontakuviolla (Y-kukin X erikseen) tai tehokkaamminresiduaaliensirontakuvioilla (residuaali- kukin X erikseen, residuaali – ennustettu Y) Poikkeamatvoidaankorjatamuuttujamuunnoksilla tai erikseenmallintamallaesim. NLR Huom! Muunnosten käyttö vaikuttaa kerrointen tulkintaan

Vaihe 3: Virheterminkorreloimattomuus Virheterminkorrelaatio (autokorrelaatio) johtuumallinepätäydellisyydestä Aikasarja-aineistoissajapaneeliaineistoissavoiesiintyä, poikkileikkausaineistoissayleensäeiongelma, koskahavainnotovatsatunnaisessajärjestyksessäjatoisistaanriippumattomia Todetaan graafisesti tai Durbin-Watson-testillä Vaikuttaa vain keskivirheisiin Ajallinen riippuvuus voidaan korjata muunnoksella

Vaihe 3: Multikollineaarisuus Selittäjienvoimakaskeskinäinenkorrelaatio Hyvinyleistä, luonnostaan tai joskäytetäändummyja, polynomitermeja tai interaktiotermejä Vaikutukset: Vaikeaeritelläyksittäistenselittäjienvaikutus, kun suuriosavaihtelusta on yhteistä Ei vaikuta korreloimattomien selittäjien tulkintaan Selitysasteenparantaminenuusillamuuttujillahankaloituu Estimointiheikkenee (singularity), voituottaavääriäetumerkkejä Havaitseminen: Selittäjienkorrelaatiomatriisi (>.90 paha) Toleranssi (osuusselittäjänvaihtelusta, jota muutselittäjäteivätkata, <.10 paha) VIF (toleranssinkäänteisluku, >10 paha) Conditionindex, sqrt (suurin ominaisarvo/pienin ominaisarvo) > 30 paha

Vaihe 3: Multikollineaarisuus Korjaaminen: Jätäjokumultikollineaarisuuttaaiheuttavamuuttujapois, korvaamahdollisestiuudella Josmalliakäytetään vain ennustamiseeneikäkerrointentulkintaan, niinhaittaei ole suuri Tarkistajokaisenyksittäisenselittäjänkorrelaatioselitettävänkanssajavertaaetumerkkejäregressiokerrointenetumerkkeihin Käytäselittäjänäsummamuuttujia tai pääkomponentteja (faktoreita) Keskitä muuttujat ennen polynomitermien tai interaktioiden laskemista Erityisetestimointimenetelmät (Bayesian, ridge regression) Ortogonalisointi, käytä residuaalia selittäjänä

Muuttujamuunnokset

Vaihe 4: Muunnokset Jos perusedellytykset eivät ole voimassa tai mallin parantamiseksi Residuaalien normaalisuus ja homoskedastisuus: Liian tasainen jakauma – käänteisluku Vino jakauma – neliöjuuri (negatiiviselle), logaritmi (positiiviselle) tai käänteisluku Lineaarisuus: Neliöinti, logaritmi, käänteisluku tai neliöjuuri (ks. Kuvio) Jos epäilet että muuttujan vinous haittaa, kokeile korvata muuttujan arvot järjestysluvuilla ja estimoi malli uudelleen

Vaihe 4: Muunnokset: ohjeita • Hyötyä yleensä jos keskiarvo/hajonta < 4 • Tee muunnos sille muuttujalle, jolla keskiarvo/hajonta on pienempi • Tee muunnos yleensä selittävälle muuttujalle • Heteroskedastisuuden korjaamiseksi Y:lle • Muunnokset vaikuttavat tulkintaan, esim. Residuaaleihin • Jos homoskedastinen niin älä muunna Y:tä • Potenssiinkorotukset auttavat yleensä vain jos vaihteluväli on iso (max=10*min)

Vaihe 4: Muunnokset: ohjeita Y2 tai neliöjuuri X tai log X X2 tai neliöjuuri Y tai log Y neliöjuuri tai log joko X:lle tai Y:lle

Vaihe 4: Log-mallien tulkinnasta • Lin-lin y=b1+b2x • b2on kulmakerroin, 1 yksikön lisäys x:ssä aiheuttaa b2 yksikön muutoksen y:ssä • Log-logln(y)=b1+b2ln(x) • b2on jousto, 1% lisäys x:ssä aiheuttaa b2% muutoksen y:ssä • Log-linln(y)=b1+b2x • 1 yksikön lisäys x:ssä aiheuttaa 100*b2% muutoksen y:ssä • Lin-logy=b1+b2ln(x) • 1% lisäys x:ssä aiheuttaa b2/100 yksikön muutoksen y:ssä

Vaihe 4: Muunnokset: dummy-muuttujat Ainuttapasaadanominaaliasteikollisiamuuttujiamukaanregressioanalyysiinselittäjäksi Dummy tai indikaattorimuuttuja on dikotominenmuuttuja, saaarvon 0 tai 1 Josmuuttujassa on k luokkaa, niindummyjatarvitaan k-1 kappaletta Dummynkertoimetkuvaavateroasiihenryhmään, jossadummytsaavatarvon0 Esim. Selitetäänpainoapituudellajatulotasolla Pienituloinen on keskimäärin 7.5 kg kevyempi kuin samanpituinen suurituloinen, ero luokkien välillä on merkitsevä Keskituloinen on keskimäärin 4.1 kg painavampi kuin samanpituinen suurituloinen, mutta ero ei ole merkitsevä Keskituloinen on keskimäärin 11.6 kg painavampi kuin samanpituinen pienituloinen, mutta emme tiedä onko ero merkitsevä

Vaihe 4: Muunnokset: dummy-muuttujat Tulkinta standardoimattomista regressiokertoimista! Ryhmillä ”omat vakiotermit” Esim. Regressioanalyysi, jossa dummy-muuttujana sukupuoli (nainen=0, mies=1) Estimoitu regressioyhtälö Palkka = 1000 + 120*työkok + 800*sukupuoli Nainen, jolla 10 vuotta työkokemusta Palkka = 1000 + 1200 + 0 = 2200 Mies, jolla 10 vuotta työkokemusta Palkka = 1000 + 1200 + 800 = 3000

Vaihe 4: Muunnokset: Epälineaarisetyhteydet Polynomitermit mukaan, yleensä korkeintaan kolmannen asteen Toisen asteen kertoimet: Positiivinen – ylöspäin aukeava paraabeli Negatiivinen – alaspäin aukeava Kaikki alemman asteet termit oltava mukana mallissa! Interaktiot x1x2 moderaattorivaikutusten toteamiseksi Aiheuttaa multikollineaarisuutta, jos ei keskitetä (muunnos: X- X:n keskiarvo) Termien merkitsevyyden arviointi selityskertoimen nousun merkitsevyyden avulla (F-testi)

Mallin estimointija merkitsevyys

Vaihe 5: Estimointi • Kun määrittelet muuttujat tehtävärooleihin (yksi dependent ja monta explanatory), niin SAS ottaa ne kaikki mukaan malliin • Oletusarvoisesti pienimmän neliösumman menetelmä (OLS) • Jos haluat antaa SASin valita parhaita selittäjiä joukosta antamiasi mahdollisia muuttujia, niin stepwise-estimointi on mahdollista

Vaihe 5: Stepwise- estimointi Etenee vaiheittain automaattisesti • Selittäjänä on vain se muuttuja joka korreloi eniten selitettävän kanssa • Osittaiskorrelaatioiden avulla etsitään seuraava selittäjä (jos merkitsevä) • Kahden selittäjän mallista lasketaan onko ensimmäinen vielä merkitsevä • Jatketaan kunnes ei enää löydy merkitseviä uusia selittäjiä Multikollineaariset selittäjät eivät pääse malliin, tulkinnassa muistettava tämä Vain ennustekäyttöön, isoilla otoksilla (kun n/k > 40) ja validoitava aina eri otoksella

YleistettävyydentakiatestattavaselityskertoimenjaregressiokerrointenmerkitsevyysYleistettävyydentakiatestattavaselityskertoimenjaregressiokerrointenmerkitsevyys F-testiselityskertoimenmerkitsevyydelle (H0: R2=0) Adjusted R2ottaahuomioonhavaintojenmäärä/ selittäjienmäärä- suhteen Vaihe 6: Mallinmerkitsevyys

Vaihe 6: Mallinmerkitsevyys T-testi regressiokertoimen merkitsevyydelle (H0: b=0) Vakiotermin merkitsevyyden testi ei tarpeen, paitsi jos on sellaisia havaintoja, joilla kaikki selittäjät saavat arvon nolla F-testi voi olla merkitsevä vaikka mikään t-testi ei ole, jos selittäjät multikollineaarisia

Havaintojen diagnostiikka

Vaihe 7: Vaikuttavatyksittäisethavainnot Outlier, discrepancy Havainto, jolla on suuri residuaali Leverage point Erilainen selittäjän arvo, vaikuttaa sen selittäjän kertoimen estimointiin Influential Vaikuttaa paljon tuloksiin, voi olla outlier tai leverage Ks. Kuvio Hair s.185

Vaihe 7: Vaikuttavatyksittäisethavainnot • Tieto on virheellinen – korjaa virhe tai poista havainto • Oikea tieto, voidaan selittää poikkeuksellisen tilanteen avulla – poista ellei tilannemuuttuja ole mukana mallissa • Ei selitystä – ei syitä poistaa eikä säilyttää, jos poistetaan niin raportoitava myös • Tavallinen yksittäisten muuttujien osalta, mutta niiden yhdistelmä poikkeuksellinen – säilytä havainto mutta muuta mallia

Vaihe 7: diagnostiikkaa • Distances (ks. Hair, s.236): • Cook – kuinka paljon residuaalit ja regressiokertoimet muuttuisivat jos havainto jätettäisiin pois, po. < 4 / (n-k-1) • leverage – kuinka poikkeavia arvoja havainnolla on selittävissä muuttujissa, vaihteluväli 0 … 1 - 1 / n, po. < 2* (k+1) / n • Predictionintervals: luottamusvälit y:n keskiarvolle tai yksittäiselle y:n arvolle • Influencestatistics: • DfBeta – paljonko regressiokerroin muuttuu jos havainto jätetään pois, standardoidut arvot po. < 2 / sqrt (n) • DfFit – paljonko ennustettu y muuttuu jos havainto jätetään pois, standardoidut arvot po. < 2*sqrt ((k+1) / (n-k-1))

Estimaattien tulkinta

Vaihe 8: Mallintulkinta Regressiokertoimista voi laskea ennusteen y:lle Voi arvioida kuinka suuren muutoksen y:ssä selittäjän muutos aiheuttaa (laske y:n osittaisderivaatta selittäjän suhteen) Selittäjien suhteelliset merkitykset beta-kertoimista, standardoitu regressiokerroin (jos ei ole liikaa multikollineaarisuutta)= b*sx/sy Osakorrelaatio (part / semipartial correlation) ja osittaiskorrelaatio (partial correlation)

Vaihe 8: Mallintulkinta Y Selityskerroin = (a+b+c)/(a+b+c+e) Korrelaatiokerroin2 =r2YX1 = (a+c)/(a+b+c+e) Osakorrelaatiokerroin2=sr2YX1= a/(a+b+c+e) Osittaiskorrelaatiokerroin2=pr2YX1= a/(a+e) e a b c X2 X1

Vaihe 9: Validointi • Uusiotos (tai estimation + holdout) • Käytetäänsamaamalliajatutkitaanennustetarkkuutta • Estimoidaanerikseenjaverrataanmalliensamanlaisuutta (adjusted R2, kertoimet) • Chow-testi • Bootstrapping: yksihavaintokerrallaanpois • Ennustaminen: • Laskemyösluottamusvälit, ovatkoolosuhteetsamatkuinmalliaestimoitaessa, käytä vain samanlaisillaselittäjienvaihteluväleillä

SAS ohjelmisto

Esimerkkimalli • Yrityskyselyaineisto, jossa on noin 190 havaintoa • Selitettävämuuttujayrityksenkasvuhalukkuus (Growth orientation), joka on mitattuuseanväittämänkeskiarvonajavaihteleevälillä 1-5 • Mahdollisiaselittäjiäovat • yrityksenliikevaihto (k€) • henkilöstömäärä (kpl) • ikä (v) • elinkaarenvaihe (1=alkuvaihe, 2=kasvuvaihe, 3=vakiintunut, 4=loppumassa)

Jatkuvien muuttujien tarkastelu Selittäjille ln-muunnos jakauman vinouden korjaamiseksi Footer

Kategorinen selittäjä Uudelleenkoodataandummy-muuttujaksi ”kasvuvaihe” siten, että jos elinkaari=2 niin kasvuvaihe=1 ja muutoin kasvuvaihe=0 Footer

Alustava tarkastelu, sirontakuvio Footer

Alustava tarkastelu, korrelaatio • Selittäjien keskinäiset korrelaatiot pieniä, paitsi liikevaihto ja henkilöstömäärä • Kasvuorientaatio korreloi voimakkaammin henkilöstömäärän kanssa muunnoksen jälkeen • Ikä ei korreloi kasvuorientaation kanssa Footer

SAS: analyze – regression – linear regression Footer

Kvantitatiiviset tutkimusmenetelmät