750 likes | 1.05k Views
Luento 4: Regressioanalyysi. Petri Nokelainen. petri.nokelainen@uta.fi http://www.uta.fi/~petri.nokelainen. Kasvatustieteiden yksikkö Tampereen yliopisto. Sisältö. 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia
E N D
Luento 4: Regressioanalyysi Petri Nokelainen petri.nokelainen@uta.fi http://www.uta.fi/~petri.nokelainen Kasvatustieteiden yksikkö Tampereen yliopisto
Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet
(3.2) (3.3) (3.4) 1. General Linear Model (GLM) X (IV) Y (DV) Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuva Varianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuva Kahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuva Monimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuva Erotteluanalyysi (LDA) n, jatkuva n, epäjatkuva Faktorianalyysi (EFA) n, latentti n, jatkuva Pääkomponenttianalyysi (PCA) n, latentti n, jatkuva
DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Seq. Multiple R n jatkuvaa n jatkuvaa Canonical R Muuttujien välisten riippuvuuksienvoimakkuus 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.
(3.2) 1.1 Korrelaatio DV IV 1
Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet
(3.2) (3.3) (3.4) 2. Regressioanalyysi X (IV) Y (DV) Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuva Varianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuva Kahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuva Monimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuva Erotteluanalyysi (LDA) n, jatkuva n, epäjatkuva Faktorianalyysi (EFA) n, latentti n, jatkuva Pääkomponenttianalyysi (PCA) n, latentti n, jatkuva
DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Seq. Multiple R n jatkuvaa n jatkuvaa Canonical R Muuttujien välisten riippuvuuksienvoimakkuus 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.
(3.3) 2. Regressioanalyysi IV 1 IV 2 DV r IV 3 IV 4
2. Regressioanalyysi ”…regression analysis is a method of analyzing the variability of a dependent variable by resorting to information available on one or more independent variables.” (Pedhazur, 1982, 5)
2. Regressioanalyysi • Tarkastelee muuttujien välistä lineaarista yhteyttä, ts. ilmoittaa korrelaatiokertoimen tavoin kahden muuttujan välisen vaikutussuhteen voimakkuuden (-1, …, 1). • Mahdollistaa lisäksi DV -muuttujan arvojen ennustamisen IV –muuttujan (tai muuttujien) arvojen perusteella.
Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet
2.1 Regressioanalyysin historia • Perustuu Galtonin (1885) havaintoihin: • Pitkien isien pojista ei keskimäärin tullutkaan yhtä pitkiä kuin isistään, lyhyiden isien pojista tulikin keskimäärin pidempiä kuin isistään. • Poikien keskipituus lähestyi keskipituutta. Sir Francis Galton 1822-1911
2.1 Regressioanalyysin historia • Regressioanalyysi on yksi kasvatustieteiden käytetyimmistä menetelmistä, mutta usein unohdetaan että sen tulisi perustua vahvalle teoreettiselle pohjalle.
Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet
2.2 Regressioanalyysin lajit • Yhden tai useamman ennustemuuttujan (IV) regressioanalyysi • Monimuuttujaregressioanalyysi (Multivariate regression analysis)(ks. lisää esim. Nummenmaa et al., 1997, 307-326; Kerlinger, 1986, 527-561). • Hierarkkinen regressioanalyysi • Hierarchical/sequential multiple regression (Pedhazur, 1982; Tabachnick & Fidell, 2007)
2.2 Regressioanalyysin lajit • Askeltava regressioanalyysi • Stepwise multiple regression (Pedhazur, 1982; Tabachnick & Fidell, 2007) • Kanoninen korrelaatio • Canonical correlation (Kerlinger, 1986, 561-568) • Logistinen regressioanalyysi • Logistic regression analysis • Poistaa lineaarisen regressioanalyysin vaatimuksen selitettävän muuttujan jatkuvuudesta, ks. esimerkki dokumentista ”6.1 Logistinen regressio” (FSD) • Multiway frequency analysis (Nummenmaa et al., 1997, 127-147)
A Standardi R B Hierarkkinen R C Askeltava R A B C IV1 IV2 IV3
Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet
2.3 Regressioanalyysin käyttötapoja • Käyttötapoja: • Selittävien (IV) muuttujien etsiminen • Opiskelumenestyksen selittäminen motivaation ja oppimisstrategioiden avulla. • Selittävien (IV) muuttujien selitysosuuden tutkiminen • Kuinka suuri vaikutus varhaisessa vaiheessa tapahtuneella erityisluokalle siirrolla on erityisoppilaan koulumenestykseen. • Selittävien (IV) muuttujien keskinäisen selitysosuuden vertailu eli mitkä muuttujat ovat toisia parempia tietyn Ilmiön selittäjinä. • Selitettävän (DV) muuttujan ennustaminen.
Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet
2.4 Regressioanalyysin rajoituksia • Yleisiä rajoituksia • Regressioanalyysin avulla löydetyt vaikutussuhteet eivät välttämättä ole kausaalisia. • Kausaalisuuden määrittely on looginen ja koeasetelmallinen ongelma (Pearl, 2000). • Analyysiin mukaan otettujen DV ja IV muuttujien valinnan tulee olla teoreettisesti, loogisesti tms. perusteltavissa.
2.4 Regressioanalyysin rajoituksia • Teknisiä rajoituksia • Otoskoko (esim. viisi IV muuttujaa) • Greenin (1991) mukaan • N > 50+8m (useita IV muuttujia), esim. N = 50+8*5 = 90 • N > 104 + m (yksi IV), esim. N = 104 + 5 = 109 • Stevensin (1996) mukaan • N = 15m (kaikissa tapauksissa), esim. 15*5 = 75 • IV muuttujien väliset suhteet • Multikollineaarisuutta (korkeita r = +/- .9 korrelaatioita) ei saa esiintyä. • Singulaarisuutta (muuttuja on toisen/toisten kombinaatio, esim. kolmen testin yksittäiset pistemäärät ja niiden summamuuttuja) ei saa esiintyä.
2.4 Regressioanalyysin rajoituksia • Teknisiä rajoituksia • Poikkeavat arvot (outlier) tulisi poistaa, korvata uudella arvolla (rescore) tai muuntaa (transform). • X Y –muuttujien kuvaajien tarkastelu! • Regressioanalyysiohjelmissa (SAS, BMDP, SPSS) poikkeavien arvojen vaikutusta tutkitaan seuraavilla mittaluvuilla: • Leverage (l) arvioi poikkeavia arvoja IV muuttujien joukossa • Korkeat arvot ovat “kaukana” toisista • Discrepancy (d) arvioi sitä kuinka tapaus on linjassa muiden kanssa. • Influency (l) = l * d.
2.4 Regressioanalyysin rajoituksia Korkea l Korkea d Korkea i Matala l Korkea d Kohtuullinen i Korkea l Matala d Kohtuullinen i (Tabachnik & Fidell, 1996, 135.)
2.4 Regressioanalyysin rajoituksia • Residuaalien (havaitun ja ennustetun DV arvon välinen erotus, regressioyhtälön virhetermi tai jäännöstermi, ) • Normaalisuus • Residuaalien (ennustevirheiden) tulisi olla normaalisti jakautuneita • Lineaarisuus • Residuaalien ja ennustettujen DV arvojen välillä tulisi olla lineaarinen suhde • Homoskedastisuus • DV muuttujien residuaalien varianssien tulisi olla yhtä suuria. • Riippumattomuus • Residuaalien tulisi olla toisistaan riippumattomia.
2.4 Regressioanalyysin rajoituksia A • A) Normaalisuus ei toteudu • B) Lineaarisuus ei toteudu • C) Homoskedastisuus ei toteudu 0 0 B C 0 0
Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet
2.5 Regressioanalyysin vaiheet • Regressioanalyysin vaiheet: • Muuttujien valinta (DV, IV) • Paitsi jos käytetään “Enter” -menetelmää • Analyysi • Mallille tehtävät diagnostiset tarkastelut
Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet
DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Seq. Multiple R n jatkuvaa n jatkuvaa Canonical R Muuttujien välisten riippuvuuksienvoimakkuus 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.
3. Kahden muuttujan regressioanalyysi • Kahden muuttujan regressioanalyysi • Määritellään kahden, riippuvan (DV) ja riippumattoman (IV) muuttujan välinen yhtälö. • Esim. ennustetaan akateemista tuottavuutta (DV) kognitiivisten oppimistuotosten, esim. GPA, avulla (IV). • Jokaiselle yhtälössä olevalle riippumattomalle muuttujalle annetaan painokerroin (), jotka yhdessä muodostavat ns. Beta –vektorin (B). • Selitettävän muuttujan arvo saadaan kun selittävät muuttujat lasketaan yhteen painokertoimilla painotettuna ja summaan lisätään vakio. • Mallissa on aina mukana virhettä, jota kuvataan jäännöstermin, residuaalin, () avulla.
3. Kahden muuttujan regressioanalyysi • Yksinkertaisessa kahden muuttujan välisessä regressiossa määritetään lineaarinen yhtälö joka kuvaa riippuvan (Y) ja riippumattoman (X) muuttujan välistä suhdetta: y = 0+ x+ y = riippuva muuttuja 0 = leikkauskohta (intercept, constant) = regressioparametri (slope), kuvaa Y –muuttujan ennustettua arvon muutosta kun X –muuttujan arvo kasvaa yhden yksikön x = riippumaton muuttuja = jäännöstermi
3. Kahden muuttujan regressioanalyysi y yi ei yi= 0+ xi + yj, x
3. Kahden muuttujan regressioanalyysi • Mallin (regressioyhtälö) ”hyvyyden” mittana käytetään selitettävän (DV, Y) ja selittävien (IV, X) muuttujien välistä korrelaatiota R. • H0 = DV ja IV muuttujien välillä ei ole korrelaatiota (yksikin regressiokerroin saa arvon 0). • Suurella otoskoolla nollahypoteesi tulee siis lähes varmasti hylätyksi.
3. Kahden muuttujan regressioanalyysi • R2on mallin selitysaste • Kuinka monta prosenttia malli (siis ennustemuuttuja eli IV) pystyy selittämään riippuvan muuttujan (DV) vaihtelusta. • SPSS laskee kaksi selitysastetta, joista tieteellisissä raporteissa käytetään konservatiivisempaa (”Adjusted R2”). • Selitysasteen (R2) perusteella voidaan tehdä päätelmiä efektikoosta:
Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet
DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Seq. Multiple R n jatkuvaa n jatkuvaa Canonical R Muuttujien välisten riippuvuuksienvoimakkuus 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.
4. Useamman muuttujan regressioanalyysi • Määritellään yhden riippuvan (DV) ja usean riippumattoman (IV) muuttujan välisiä yhtälöitä. • Esim. ennustetaan työssä koettua stressiä (DV) esimiehen johtamisominaisuuksien (IV1) ja ryhmän toimintakyvyn perusteella (IV2). • Kaikki riippumattomat muuttujat analysoidaan (“Enter” –menetelmä), niitä ei valita tai aseteta järjestykseen.
4. Useamman muuttujan regressioanalyysi • Usean muuttujan lineaarisessa regressiossa määritetään lineaarinen yhtälö joka kuvaa yhden riippuvan ja usean riippumattoman muuttujan välistä suhdetta: y = 0+ 1x1 +2x2 +... + nxn + y = riippuva muuttuja 0 = vakio (constant) 1…n = regressioparametreja x1…n = riippumattomia muuttujia = virhetermi
4. Useamman muuttujan regressioanalyysi yi= 0+ 1ix1i +2ix2i +... + nixni + y yi ei yj, x
4. Useamman muuttujan regressioanalyysi Knowledge Value Performance Satisfaction (Warren, White, & Fuller, 1974.)
4. Useamman muuttujan regressioanalyysi Yläasteen opintomenestys Ammatillisten opintojen menestys Kontrolliuskomukset WorldSkills kilpailumenestys Näyttötilanteiden jännittäminen Ulkoinen tavoiteorientaatio Tekemällä oppiminen N=64
4. Useamman muuttujan regressioanalyysi • Regressioanalyysin suorittaminen PASW/SPSS -ohjelmassa • Analyze – Regression - Linear • Dependent: kilpailumenestys (alle 23-vuotiaiden menestyminen WSC –kilpailuissa, luokiteltu 3 luokkaan: 1 = heikko, 2 = keskitasoinen, 3 = paras). • Independent(s): str_3 (Learning by Doing, asteikko 1 = täysin eri mieltä .. 5 = täysin samaa mieltä), mot_2 (Extrinsic Goal Orientation), mot_4 (Control Beliefs), mot_6 (Test Anxiety), ammatopmenestys (menestyminen ammatillisissa opinnoissa), ya_ka (yläasteen päästötodistuksen keskiarvo). • Statistics: Estimates, Confidence intervals (95%), Model fit, Collinearity diagnostics, Durbin-Watson. • Plots:Y: *ZRESID (standardoidut residuaalit) ja X: *ZPRED (standardoidut ennustetut arvot)
Ensin tarkastellaan tulosteen lopusta ”Charts” –osasta täyttävätkö residuaalit niille asetetut vaatimukset normaaliuden ja lineaarisuuden osalta: 4. Useamman muuttujan regressioanalyysi Residuaalit ovat jakautuneet normaalisti ja lineaarisesti.