640 likes | 1.09k Views
Kvantitatiiviset tutkimusmenetelmät. Luento 5 Lineaarinen regressioanalyysi I Kaisu Puumalainen. Lineaarisen regression peruskäsitteet. Tavoite ja peruskäsitteet.
E N D
Kvantitatiiviset tutkimusmenetelmät Luento 5 Lineaarinen regressioanalyysi I Kaisu Puumalainen
Tavoitejaperuskäsitteet • Yksiselitettävämuuttuja (dependent, y) jayksi tai useampiaselittäviämuuttujia(explanatory, independent, regressor, x) • Selitettävä on jatkuvamuuttuja, selittävätpääasiassajatkuvia, mutta dummy-muunostenavullamyösnominaalisiaselittäjiävoikäyttää • Tavoitteenaennustaaselitettävänmuuttujan (y) arvoa, kun selittävien (x1 ja x2) arvottunnetaan • Regressioanalyysi perustuu muuttujien väliseen korrelaatioon, suhde voi olla joko positiivinen (kun x kasvaa, y kasvaa myös) tai negatiivinen (kun x kasvaa, y pienenee) • Mallin lineaarisuus tarkoittaa, että se on parametrien suhteen lineaarinen; muuttujien x ja y suhde voi alun perin olla epälineaarinen, ks. Excel-demo
Esim. Tulojenvaikutusruokamenoihin Kirjoista Hill et al. UndergraduateEconometrics ja Principles of Econometrics
Esim. Sirontakuvio Jokainen havainto on pisteenä kuviossa, positiivinen korrelaatio nähtävissä
Esim. Y:n ehdollinenjakauma Kullakin x:n arvolla y:llä on ehdollinen jakauma, jonka keskiarvo kasvaa x:n kasvaessa, mutta varianssi pysyy samana kaikilla x:n arvoilla
Esim. Regressiosuoranparametrit • Tuntemattomat β1, β2ja e estimoidaan aineistosta (esim. OLS-menetelmällä) Estimoidutparametrit (parameter estimates) Vakiotermi (intercept, constant) β1 on regressiosuoranja y-akselinleikkauspiste, arvojonka y saa kun x saaarvonnolla Regressiokerroin (regression coefficient) β 2 on regressiosuorankulmakerroin (slope), kertoomontakoyksikköä y muuttuujos x kasvaayhdelläyksiköllä
Esim. Residuaalit • Jäännöstermi eli residuaali e (residual, error) • Teoreettisesti se on mallin selittämättä jäänyt osa, jonka suuruutta ei voida tietää. Estimoitaessa sitä kuvataan y:n ja ennustetun y:n erotuksella • Hyvässä mallissa jäännöstermi on pieni ja täysin satunnainen
I Y:n saama arvo jokaiselle x:n arvolla on: - X ja Y yhteyden oikea spesifiointi, lineaarisuus - Oikeiden X-muuttujien valinta - X-muuttujien täydellinen reliabiliteetti II Jäännöstermin odotusarvo on E(e)=0 koska oletetaan, että: III Jäännöstermin varianssi on vakio: - homoskedastisuus Yhden muuttujan lineaarinen Regressiomalli: oletukset
IV Minkä tahansa jäännöstermiparin kovarianssi on nolla: - Havaintojen riippumattomuus - Virhetermin (auto-)korreloimattomuus Yhden muuttujan lineaarinen Regressiomalli: oletukset V Selittävä muuttuja x ei ole satunnaismuuttuja, ja se saa vähintään kaksi erilaista arvoa VI Jäännöstermit noudattavat normaalijakaumaa, jos y noudattaa normaalijakaumaa (ja päinvastoin) (tämä ei ole välttämätön oletus)
Yhden muuttujan lineaarinen regressiomalli: oletukset • Jos oletukset eivät päde estimoidun mallin kertoimet ovat harhaisia (biased) ja/tai niiden keskivirheet (standarderrors) vääriä tai epäluotettavia • Oletusten paikkansapitävyyden tarkistaminen tärkeää • Yksittäisen muuttujien, muuttujien välisten suhteiden sekä estimoitujen virhetermien tarkastelu • Silmämääräisesti sirontakuvioilla (”scatterplot”) • Tilastollisesti testaamalla • Jos käy ilmi että oletukset eivät päde, voidaan tilanteesta riippuen käyttää esimerkiksi muuttujamuunnoksia, mallimuunnosta, tai poikkeaman edellyttämää estimointimenetelmää.
Yhden selittäjän mallin estimointi ja parametriestimaattien tulkinta
Pienimmän neliösumman estimointimenetelmä OLS • Estimointiin voidaan käyttää esim. • pienimmän neliösumman menetelmää (ordinaryleastsquares, OLS) • suurimman uskottavuuden menetelmää (maximumlikelihood, ML) • Pienimmän neliösumman menetelmä • minimoidaan havaintojen ja regressiosuoran (vertikaalisen) etäisyyden neliöt • estimoitu suora on nyt ŷ=b1+b2xi • vertikaalinen etäisyys regressiosuorasta kuhunkin havaintopisteeseen on jäännöstermi • êi= yi-ŷi= yi- b1- b2xi • Etsitään sellainen suora jossa näiden erotuksien neliösumma on mahdollisimman pieni. Matemaattisesti, minimoidaan neliösumma:
Pienimmän neliösumman estimointimenetelmä OLS Derivoimalla edellisestä kaavasta saadaan estimaatit parametreille β1 ja β2:
Esim. Tulojenvaikutusruokamenoihin Pienimmän neliösumman menetelmällä estimoidut regressiokertoimet. Miten kertoimet tulkitaan?
OLS-menetelmän ominaisuuksia • estimoitu regressiosuora kulkee x:n ja y:n keskiarvon kautta • virhetermien keskiarvo on nolla • kun taustaoletukset lineaariselle regressiomallille pätevät, estimaattoreilla b1 ja b2 on pienin varianssi vaihtoehtoisten lineaaristen ja harhattomien β1 ja β2-estimaattoreiden joukossa (Gauss-Markovin teoreema) →OLS-menetelmä on ”bestlinearunbiasedestimator” (BLUE) • Paras, koska pienin varianssi • Unbiased, harhaton: E(b2)=β2
Parametriestimaattien keskivirheet, luottamusvälit ja tilastollinen merkitsevyys
Virhetermin varianssi ja keskivirhe • Todelliset perusjoukon virhetermit (randomerror) ei ovat tuntemattomia, mutta voimme arvioida niitä pienimmän neliösumman jäännöstermillä (residuaalit, residuals), joka siis on: ei = yi- β1 - β2xi • jäännöstermin estimaatti saadaan kun korvataan tuntemattomat parametrit niiden OLS-estimaattoreilla: êi = yi – b1 – b2xi • nyt voidaan määritellä jäännöstermin varianssiksi Jossa nimittäjässä vähennetään otoskoosta regressioparametrien määrä, ja saadaan harhaton estimaattori. Joten: • Jäännöstermin keskivirhe on varianssin neliöjuuri (standarderror of regression)
Parametriestimaattien varianssit • Estimaattorin varianssi kuvaa estimaattorin tarkkuutta, se kertoo siitä, kuinka paljon estimaatti vaihtelee eri otoksissa. Estimaattori on sitä täsmällisempi, mitä pienempi sen varianssi on. • Keskivirhe on varianssin neliöjuuri • Estimaattorien varianssien ja kovarianssin kaavat:
Parametriestimaattien varianssit • Huomataan, että: • virhetermin varianssi σ2esiintyy jokaisessa kaavassa. • Mitä suurempi virhetermin varianssi • sitä epätarkempaa tieto koskien β1 ja β2 • sitä suurempaa on epävarmuus siitä mitä arvoja y saa verrattuna E(y):n • sitä suurempi on teoreettisen malliin liittyvä epävarmuus • Neliösumma esiintyy jokaisessa kaavassa: • kuvaa sitä kuinka kaukana havainnot ovat keskiarvosta, eli kuinka laajalle levittäytyneitä x- havainnot ovat • Mitä suurempi neliösumma on sitä pienempi on OLS estimaattorin varianssi
Parametriestimaattien varianssit • Mitä suurempi otoskoko n sitä pienempi on OLS-estimaattoreiden varianssi • Mitä suurempi on havaintojen etäisyys origosta (Σx2) sitä suurempi on b1:n varianssi • vakiotermi β1 on y:n odotettu arvo kun x=0. Mitä kauempana havainnot ovat sitä vaikeampaa/epävarmempaa on vakiotermin tulkitseminen ja estimoiminen • Saamme siis sitä varmemmin oikeaan osuvat parametriestimaatit, mitä • Suurempi otos • Enemmän vaihtelua muuttujassa x • Pienemmät itseisarvoltaan ovat virhetermit eli residuaalit
Parametriestimaattien keskivirheet • Keskivirheet saadaan ottamalla variansseista neliöjuuret • Keskivirhe kuvaa sitä miten paljon eri otoksista estimoidut parametrit eroavat toisistaan
Esim. Keskivirheet Sijoittamalla ed. kaavoihin saadaan keskivirheet
Parametriestimaattien keskivirheet • Vertaa estimaattien keskiarvoja esimerkissä laskettuihin 40,7676 ja 0,1283 • Vertaa estimaattien keskihajontoja esimerkissä laskettuihin 22,1387 ja 0,0305
Kertoimien luottamusväli • Kertoimen luottamusväli: • [bk–tcse(bk), bk+tcse(bk)] • jossa bk=estimoitu kerroin, tc=taulukosta saatava raja-arvo (vapausasteet n-2), se(bk)=kertoimen keskivirhe • kapeampi luottamusväli → tarkempi informaatio • jos luottamusväli kattaa nollan, kerroin ei ole merkitsevä • Esim. kaksisuuntainen 5% t-arvo vapausasteilla 38 = 2,024 • Vakiotermin luottamusväli • 40,7676+/- 2,024*22,1387 = -4,04 …85,58 • Kulmakertoimen luottamusväli • 0,1283 +/- 2,024*0,0305 = 0,067 … 0,190
Kertoimen merkitsevyyden testaaminen • Kun regressiosuora on estimoitu, voidaan testata tukeeko aineisto sitä että x-muuttujalla on vaikutusta y-muuttujaan (sillä tavoin kuten mallia muodostettaessa oletettiin). • Testataan kertoimen tilastollista merkitsevyyttä, testataan poikkeaako kerroin nollasta. • H0: βk= 0 ja H1: βk ≠ 0 • t-testi: • t=(bk-c) / se(bk) ~t(n-K) • koska c=0 →t= bk / se(bk) ~t(n-K) • jossa ”~t(n-K)” tarkoittaa: ”noudattaa t-jakaumaa vapausasteella (n-K)”, jossa n havaintojen lukumäärä ja K estimoitavien parametrien lukumäärä • Jos testisuure on suurempi tai yhtä suuri kuin taulukosta saatava kriittinen raja-arvo, nollahypoteesi hylätään.
Kertoimen merkitsevyyden testaaminen • Ohjelmat laskevat kertoimen merkitsevyyden automaattisesti (the p-value, probability, prob., significancelevel, sig.) • p-arvo: ”tarkka merkitsevyystaso”, todennäköisyys ykköstyypin virheelle (hypoteesin hylkääminen kun se on tosi) • jos p-arvo on pienempi kuin valittu merkitsevyys/riskitaso α, H0 hylätään • esim. jos testataan 95% luottamustasolla, α=0.05; jos 99%:n α=0.01 • Esimerkissä vakiotermin merkitsevyys • t= 40,7676 / 22,1387 = 1,84 < kriittinen arvo 2,024 -> H0 jää voimaan • Esimerkissä kulmakertoimen merkitsevyys • t= 0,1283 / 0,0305 = 4,21 > kriittinen arvo 2,024 -> H0 hylätään
y:n vaihtelun komponentit • Toivottavaa, että selittävät muuttujat (x) selittäisivät mahdollisimman paljon selitettävän muuttujan (y) vaihtelusta • Selitettävän muuttujan (y) kokonaisvaihtelu keskiarvonsa ympärillä voidaan jakaa osiin neliösummien avulla siten, että: = total sum of squares = SST , kokonaisneliösumma Mittaa y:n kokonaisvaihtelua = explained /regression sum of squares = SSR Se osuus y:n vaihtelusta jonka malli selittää = error/residualsumof squares = SSE , jäännösneliösumma Se osuus y:n vaihtelusta jota malli ei selitä • Siis: SST=SSR+SSE
Selityskerroin r2 on Pearsonin korrelaatiokertoimen neliö, ja samalla todellisen ja ennustetun y:n välinen korrelaatio toiseen
Selityskerroin • r2 = selityskerroin eli selitysaste, coefficient of determination, r square • 0< r2<1, kertoo kuinka monta prosenttia y:n vaihtelusta malli selittää • Mitä lähempänä 1 sitä suuremman osan selitettävän muuttujan vaihtelusta malli selittää • Jos r2 = 1 kaikki havainnot ovat täsmälleen samoja kuin estimoidussa mallissa, SSE = 0 • Jos x:n ja y:n välillä ei ole mitään yhteyttä, SSR=0 ja r2=0 • Yhden selittävän muuttujan regressiossa pätee, että rx.y2=r2=ry.ŷ2 • Huom. • Eri mallien selityskertoimet ovat täysin vertailukelpoisia vain jos muuttujat ovat samat • Jos malli ei sisällä vakiotermiä, r2 ei ole mielekästä tulkita
ANOVA-taulukko ja mallinmerkitsevyys • Vaihtelun komponentit on tapana esittää ANOVA-taulukossa • Taulukossa k on estimoitujen parametrien määrä • F on testisuure, jonka p-arvo saadaan F-jakaumasta • F-testin H0: r2=0
Esimerkin selityskerroin ja mallin merkitsevyys Selityskerroin r2=25221,22 / 79532,55 = 0,317 Ruokamenojen vaihtelusta 31,7% selittyy tulojen avulla Malli on tilastollisesti merkitsevä, koska F-testin p-arvo jää alle 5% riskitason
CAPM-malli • Osakkeen tuotto lasketaan logaritmisten hintojen välisenä muutoksena ajanhetkestä t-1 ajanhetkeen t seuraavasti (hinnat ovat maksetut osingot, liikkeellelaskut ja splitithuomoiden korjattuja): Footer
CAPM-malli Osakkeen hinnoittumista ja riskiä kuvataan markkinaperusteisesti Capital AssetPricing –mallilla (CAPM) seuraavasti: Riskitöntä tuottoa voi edustaa esim. Euribor-korko Footer
CAPM-malli • Em. teoreettista CAPM- mallia voidaan testata empiirisesti Sharpen markkinamallilla (aikasarjamalli) seuraavasti Footer
CAPM-esimerkki • Estimoidaan CAPM-malli Nokian ja Rautaruukin osakkeille aikaväliltä 1.1.2003 – 31.12.2005 käyttäen päivittäistä dataa • Markkinaportfoliota edustaa OMX Helsinki – indeksi • Alla hintaindeksien kuvaajat Pit ja Pmt Footer
CAPM-esimerkki • Vasemmalla Rautaruukin logaritmiset tuotot (rit) • Oikealla Rautaruukin logaritmiset ylituotot (rit – rft) Footer
Tunnusluvut logaritmisille tuotoilleSAS: describe – summarystatistics Footer
Jakaumahistogrammit Footer
Mallin määrittely Footer
Tulostettavat kuviot Footer