1 / 89

Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät. Petri Nokelainen. petri.nokelainen@uta.fi http://www.uta.fi/~petri.nokelainen. Kasvatustieteiden yksikkö Tampereen yliopisto. Sisältö. 1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut

chaz
Download Presentation

Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät Petri Nokelainen petri.nokelainen@uta.fi http://www.uta.fi/~petri.nokelainen Kasvatustieteiden yksikkö Tampereen yliopisto

  2. Sisältö 1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennäköisyysjakaumat 1.4 Hypoteesien testaaminen 2. Tilastollisten analyysimenetelmien päätyypit 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus 2.2 Ryhmien välisten erojen merkitsevyys 2.3 Ryhmäjäsenyyden ennustaminen 2.4 Muuttujarakenteen mallintaminen

  3. Tilastollisia käsitteitä1.1 Sijaintiluvut • Mediaani • Järjestettyjen arvojen keskimmäisin arvo (n+1)/2 • Moodi • Tyypillisin arvo, esiintyy useimmin • Multimodaalinen

  4. Tilastollisia käsitteitä1.1 Sijaintiluvut • Keskiarvo (k.a., M) • Generalized mean • k = 1 aritmeettinen keskiarvo • k = -1 harmoninen keskiarvo • k -> 0 geometrinen keskiarvo

  5. Tilastollisia käsitteitä1.1 Sijaintiluvut

  6. Tilastollisia käsitteitä1.1 Sijaintiluvut

  7. Tilastollisia käsitteitä1.1 Sijaintiluvut (FSD, http://www.fsd.uta.fi/menetelmaopetus/keskiluvut/keskiluvut.html.)

  8. Tilastollisia käsitteitä1.1 Sijaintiluvut 10 9 8 7 6 5 4 3 2 1 • Tynnyrikuvaaja (Boxplot) • Laatikon ääripäät kuvaavat kvartiileja (quartiles) • Ensimmäinen kvartiili on mediaania pienempien arvojen mediaani, toinen kvartiili on itse mediaani ja kolmas kvartiili on mediaania korkeampien arvojen mediaani. • Mediaani on merkitty laatikon keskellä kulkevalla viivalla • Laatikon ulkopuolella olevat viivat (whiskers) kuvaavat pienintä ja suurinta havaintoa.

  9. Sisältö 1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennäköisyysjakaumat 1.4 Hypoteesien testaaminen 2. Tilastollisten analyysimenetelmien päätyypit 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus 2.2 Ryhmien välisten erojen merkitsevyys 2.3 Ryhmäjäsenyyden ennustaminen 2.4 Muuttujarakenteen mallintaminen

  10. Tilastollisia käsitteitä1.2 Hajontaluvut

  11. Tilastollisia käsitteitä1.2 Hajontaluvut • Keskihajonta s (k.h., SD, standard deviation) • Varianssin s2neliöjuuri: • Edellyttää välimatka-asteikollista muuttujaa. • Kuvaa havaintojen keskimääräistä etäisyyttä keskiarvosta. • Keskihajonta säilyttää alkuperäisen mitta-asteikon tulkinnassa.

  12. Tilastollisia käsitteitä1.2 Hajontaluvut

  13. Tilastollisia käsitteitä1.2 Hajontaluvut (FSD, http://www.fsd.uta.fi/menetelmaopetus/hajontaluvut/hajontaluvut.html.)

  14. Tilastollisia käsitteitä1.2 Hajontaluvut • Normaalijakauman oletukseen perustuvissa testeissä on syytä tarkastella otosjakauman symmetrisyyttä. • Vinousg1 (skewness) kuvaa jakauman vaakapoikkeamaa oikealle tai vasemmalle verrattuna normaalijakaumaan. • Huipukkuusg2 (kurtosis) kuvaa jakauman huipun muotoa. g1: oikealle ja vasemmalle vinot jakaumat g2: huipukas ja tasainen jakauma

  15. Esimerkki vasemmalle vinosta (negatiivisesta) ja huipukkaasta vastausjakaumasta 234 vastaajaa ovat käyttäneet kaikkia 7-portaisen vastausasteikon vastausvaihtoehtoja. Keskiarvon keskivirheen (n =  /√n = 1.253/ √234 ≈ .082) avulla voidaan arvioida 95% luottamusväli annetuille vastauksille: 5.28 - 5.60 (5.44 ± 1.96*.082). Kaksi kertaa keskivirhettä (.159) suuremman ja itseisarvoltaan 1 lähestyvän skewness (g1) arvon (-.956) perusteella voidaan päätellä että vastausjakauma on vasemmalle vino (”negatiivinen”). Kurtosis (g2) saa positiivisen, kaksi kertaa keskivirhettään (.317) suuremman arvon (.923), joten jakauman voidaan todeta olevan huipukas. Esimerkki normaalista vastausjakaumasta 234 vastaajaa ovat käyttäneet kaikkia 5-portaisen vastausasteikon vastausvaihtoehtoja. Keskiarvon keskivirheen (n =  /√n = 1.099/ √234 ≈ .072) avulla voidaan arvioida 95% luottamusväli annetuille vastauksille: 3.03 – 3.31 (3.17 ± 1.96*.072). Jakauma muistuttaa vaakavinoumaltaan normaalijakaumaa, koska skewness arvo (-.122) on pienempi kuin sen keskivirhe (.160). Jakauma on muodoltaan hieman tasainen, koska kurtosis saa negatiivisen arvon (-.578), mutta ei poikkea normaalista koska tuo arvo jaettuna sen keskivirheellä (.320) on pienempi kuin kaksi (-.578/.320 = 1.81).

  16. Sisältö 1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennäköisyysjakaumat 1.4 Hypoteesien testaaminen 2. Tilastollisten analyysimenetelmien päätyypit 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus 2.2 Ryhmien välisten erojen merkitsevyys 2.3 Ryhmäjäsenyyden ennustaminen 2.4 Muuttujarakenteen mallintaminen

  17. Tilastollisia käsitteitä1.3 Todennäköisyysjakaumat • Empiiriset frekvenssijakaumat kuvaavat havaittujen mittaustulosten jakautumista. • Diskreeteille muuttujille pylväsdiagrammitai viivadiagrammi.

  18. Tilastollisia käsitteitä1.3 Todennäköisyysjakaumat • Empiiriset frekvenssijakaumat kuvaavat havaittujen mittaustulosten jakautumista. • Jatkuville muuttujille histogrammi tai tynnyrikaavio (boxplot, laatikko-jana).

  19. Tilastollisia käsitteitä1.3 Todennäköisyysjakaumat • Tilastolliset todennäköisyysjakaumat ovat matemaattisia malleja ilmiöiden esiintymistodennäköisyyksistä, ts. empiirisesti havaittuja ilmiöitä voidaan kuvata matemaattisten mallien avulla. • Lähes kaikki tilastolliset testit perustuvat erilaisten todennäköisyysjakaumien käyttöön. • Diskreettejä jakaumia: binomijakauma, Poisson –jakauma. • Jatkuvia jakaumia: Normaalijakauma, Studentin t-jakauma, 2 –jakauma, F –jakauma.

  20. Populaatio Otos  s  x Tilastollisia käsitteitä1.3 Todennäköisyysjakaumat Normaalijakauma Hajonta Odotusarvo   Tilastollisessa päättelyssä yleisimmin käytetty jakauma (ns. Gaussin käyrä). Odotusarvo () ja hajonta () määrittävät jakauman muodon.  

  21. 2.3% 2.3% -3 –2 -1 0 1 2 3 Tilastollisia käsitteitä1.3 Todennäköisyysjakaumat Standardoidun normaalijakauman odotusarvo on 0 ja keskihajonta 1. X-akselin mittayksikkönä on keskihajonta, joten voimme esim. päätellä että 68.2% havainnoista on +/- yhden keskihajonnan mitan päässä keskiarvosta.

  22. 2.3% 2.3% -3 –2 -1 0 1 2 3 Tilastollisia käsitteitä1.3 Todennäköisyysjakaumat WAIS-R –testillä mitattujen älykkyysosamäärien keskiarvo Suomessa on 100 ja keskihajonta 15. Älykkyys on normaalisti jakautunut ominaisuus, joten testipistemäärien jakauma noudattelee normaalijakaumaan parametrein  = 100 ja  = 15. Saat MENSAn järjestämästä testistä pistemääräksesi 131 – miten menee?!

  23. 2.3% 2.3% -3 –2 -1 0 1 2 3 Tilastollisia käsitteitä1.3 Todennäköisyysjakaumat Älykkyysosamäärä 131 sijaitsee yli kahden keskihajonnan mitan päässä keskiarvosta. Vain 2.3 prosenttia ihmisistä saa vastaavia tai korkeampia älykkyysosamääräpisteitä.

  24. Sisältö 1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennäköisyysjakaumat 1.4 Hypoteesien testaaminen 2. Tilastollisten analyysimenetelmien päätyypit 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus 2.2 Ryhmien välisten erojen merkitsevyys 2.3 Ryhmäjäsenyyden ennustaminen 2.4 Muuttujarakenteen mallintaminen

  25. 1.4 Hypoteesien testaaminen • Hypoteesi sisältää tutkijan ”valistuneen arvauksen” aineiston tutkimuskysymykseen antamasta vastauksesta. • Hypoteesin testaamisen avulla arvioidaan, voidaanko otoksen perusteella tehdä populaatiota koskevia luotettavia päätelmiä.

  26. 1.4 Hypoteesien testaaminen • Nollahypoteesi (H0) tarkoittaa sitä, että aineiston antama tulos ei esiinny populaatiossa, se on syntynyt esim. epäedustavan otoksen vaikutuksesta. • Vastahypoteesi (H1), tai vaihtoehtoinen hypoteesi, olettaa päinvastaista: Aineistossa esiintynyt ilmiö on löydettävissä myös populaatiosta.

  27. 1.4 Hypoteesien testaaminen • Otannalla on suuri merkitys tilastollisen tutkimuksen tulosten yleistettävyydelle: otos määrittelee sen populaation johon tulokset voidaan yleistää. • Mihin populaatioon yliopisto-opiskelijoiden silmien väriä koskevat tulokset voidaan yleistää? • Entäpä jos tutkitaan loogista ajattelua?

  28. 1.4 Hypoteesien testaaminen • Tutkimuskysymyksissä esitettyjä hypoteeseja testataan aineistosta tilastollisten testien avulla. • Testit laskevat todennäköisyyden (ns. ”p-arvo”) aineistolle jos nollahypoteesi pitää paikkansa: P(D|H0). • P-arvot vaihtelevat välillä 0 = epätosi .. 1 = tosi.

  29. 1.4 Hypoteesien testaaminen • Nollahypoteesin hylkäämistä silloin kun se oikeasti pitääkin paikkansa kutsutaan tyypin yksi virheeksi (Type I error, ). • Nollahypoteesin virheellinen hyväksyminen johtaa tyypin kaksi virheeseen (Type II error, ).

  30. 1.4 Hypoteesien testaaminen • P-arvoille on asetettu yleisiä raja-arvoja (kriittinen  -arvo), joita käytetään apuvälineinä tulkittaessa tutkimuslöydösten tilastollista merkitsevyyttä: p < .05 tilastollisesti melkein merkitsevä Tämä on yleisin merkitsevyysraja (5%). p < .01 tilastollisesti merkitsevä p < .001 tilastollisesti erittäin merkitsevä.

  31. 1.4 Hypoteesien testaaminen • Esim. jos t-testi tuottaa tulokseksi t(49)=3.4, p=.04, voidaan todeta että on olemassa vain neljän prosentin todennäköisyys saada vastaavan suuruinen ero kahden verrattavan ryhmän välille, jos otos edustaa populaatiota jossa nollahypoteesi on tosi. • Vaikka kahden ryhmän välinen ero on tilastollisesti merkitsevä, se ei automaattisesti tarkoita tieteellisessä mielessä merkityksellistä eroa.

  32. 1.4 Hypoteesien testaaminen • Hypoteesintestaukseen liittyy kaksi virhetyyppiä: • Tyypin I virhe (Type I error,  error) • Oikeasti paikkansa pitävä H0 hylätään ja H1 astuu virheellisesti voimaan. • Löydetään tutkimustulos jota ei oikeasti ole olemassakaan. • Tyypin II virhe (Type II error,  error) • Oikeasti paikkansa pitävä H1 hylätään ja H0 jää virheellisesti voimaan. • Tämä on ns. ”nollatutkimusta” josta usein puuttuu voima (power), mutta ei hätää – myöhempi tutkimus kyllä ennemmin tai myöhemmin löytää asioiden oikean laidan!

  33. Sisältö 1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennäköisyysjakaumat 1.4 Hypoteesien testaaminen 2. Tilastollisten analyysimenetelmien päätyypit 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus 2.2 Ryhmien välisten erojen merkitsevyys 2.3 Ryhmäjäsenyyden ennustaminen 2.4 Muuttujarakenteen mallintaminen

  34. 2. Tilastollisten analyysimenetelmien päätyypit • Muuttujien välisten riippuvuussuhteiden voimakkuus • Korreloiko vastaajien ikä työhön sitoutumista mittaavan muuttujan arvojen kanssa, ja jos korreloi, niin minkä suuntaisesti? • Ryhmien välisten erojen merkitsevyys • Onko eri ikäryhmien välillä eroja työhön sitoutumisessa? • Ryhmäjäsenyyden ennustaminen • Mitkä työhön sitoutumista mittaavat muuttujat ennustavat parhaiten mihin ikäryhmään vastaajat kuuluvat? • Muuttujarakenteen mallintaminen • Millaisiin ulottuvuuksiin (”faktoreihin”) käsite ”työhön sitoutuminen” on jaettavissa? • Selittävätkö esimiehen johtamistaidot ja työn psyykkinen rasittavuus työhön sitoutumista?

  35. 2. Tilastollisten analyysimenetelmien päätyypit • Muuttujien välisten riippuvuussuhteiden voimakkuus • Khiin neliötesti (2), korrelaatioanalyysi (r), regressioanalyysi (R), kanoninen korrelaatioanalyysi • Ryhmien välisten erojen merkitsevyys • t-testi, varianssianalyysi (ANOVA), monimuuttujavarianssianalyysi (MANOVA), kovarianssianalyysi (ANCOVA) • Ryhmäjäsenyyden ennustaminen • Erotteluanalyysi (DA), logistinen regressioanalyysi (LOGIT), ryhmittely eli klusterianalyysi • Muuttujarakenteen mallintaminen • Eksploratiivinen faktorianalyysi (EFA), pääkomponenttianalyysi (PCA), rakenneyhtälömallinnus (SEM, alalajina polkuanalyysi PATH ANALYSIS ja konfirmatorinen faktorianalyysi CFA)

  36. S P S S S P S S SPSS Extension MPlus AMOS (Nokelainen, 2008.)

  37. Sisältö 1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennäköisyysjakaumat 1.4 Hypoteesien testaaminen 2. Tilastollisten analyysimenetelmien päätyypit 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus 2.2 Ryhmien välisten erojen merkitsevyys 2.3 Ryhmäjäsenyyden ennustaminen 2.4 Muuttujarakenteen mallintaminen

  38. 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus • Khiin neliötesti (Chi square test, 2) • Millainen riippuvuussuhde on iän ja työhön sitoutumisen välillä? • 1 nominaali/järjestysasteikollinen riippumaton (IV) muuttuja (ikä luokiteltuna kolmeen luokkaan) • 1 nominaali/järjestysasteikollinen riippuva (DV) muuttuja (työhön sitoutuminen asteikolla 1 - 5) Olemme kiinnostuneita kuhunkin luokkaan X {X1, X2, X3} kuuluvien ihmisten vastauksista {Y1, Y2, Y3, Y4,Y5} kysymykseen Y.

  39. 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus Taulukosta näemme, että tulos 2(1)=20.822 on tilastollisesti merkitsevä yhden promillen riskitasolla (p < .001).

  40. 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus • Khiin neliön suhteellinen tulkitseminen on vaikeaa, koska sillä ei ole ylärajaa • riippuvuuslukuna käytetään usein kontingenssikerrointa (C)

  41. 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus • Cmax ei ole 1, vaan se riippuu taulukon rivien (h) ja sarakkeiden (g) lukumäärästä seuraavan kaavan mukaisesti: , jossa k = min(g,h) k 2 3 4 5 6 0.71 0.82 0.87 0.89 0.91

  42. 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus • Khiin neliötestin tulos • Khiin neliötestin perusteella miesten ja naisten hiihto ja luistelutottumukset poikkesivat toisistaan tilastollisesti merkitsevästi, 2(1) = 20.822, p < .001, C = .48 (Cmax = 0.71). • Naiset raportoivat tasaisempaa kiinnostusta kahteen edellä mainittuun talviurheilulajiin kuin miehet, jotka selvästi suosivat hiihtämistä.

  43. 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus • Raportointiesimerkkejä: • Khiin neliötestin perusteella tytöt saavat poikia parempia kouluarvosanoja: 2(1) = 5.432, p = .031. • 2 = Khiin neliö, (1) = vapausasteet (df, degrees of freedom), 5.432 = Khiin neliötestin arvo, ei kerro muuta kuin sen, että sukupuolten välillä on eroa (poikkeaa nollasta), p = 0.31 tarkoittaa sitä, että sukupuolten välillä on tilastollisesti melkein merkitsevä ero 5 prosentin riskitasolla.

  44. 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus • Raportointiesimerkkejä: • Khiin neliötestin perusteella tytöt saavat poikia parempia kouluarvosanoja: C(1) = 0.39, p = .031 (Cmax = 0.71). • C = Kontingenssikerroin, (1) = vapausasteet, 0.39 kertoo ryhmien välisen eron merkitsevyyden, p = .031 tarkoittaa sitä, että sukupuolten välillä on tilastollisesti merkitsevä ero 5 prosentin riskitasolla (.031 < .05), Cmax = 0.71 on tässä taulukossa ryhmien välisen eron yläraja. • Kun C = 0.39, voidaan todeta, että ero ei ole tieteellisesti kovin merkittävä, vaikka onkin sitä tilastollisesti. • Jos arvo olisi esim. 0.60, voisimme olla enemmän riemuissamme sukupuolten välisestä erosta (koska tällöin ollaan lähempänä ryhmien välisen eron ylärajaa 0.71).

  45. 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus • Korrelaatioanalyysi (rp tai rs) • Onko iän ja työhön sitoutumisen välillä riippuvuussuhde? Jos on, niin minkä suuntainen? • 2 jatkuvaa muuttujaa (rp) (ikä vuosina, työhön sitoutumista mittaavan testin pistemäärä) • 2 järjestysasteikollista muuttujaa (rs) (ikä luokkina, työhön sitoutuminen asteikolla 1 – 5) Olemme kiinnostuneita kunkin vastaajan antamista vastauksista kahteen muuttujaan X ja Y.

  46. =KORRELAATIO(E7:E10,F7:F10)

  47. 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus • Testin nollahypoteesi (H0) = muuttujien korrelaatio perusjoukossa on 0. • Tietokoneohjelmat laskevat korrelaation yhteydessä merkitsevyysluvun (p, significance) olettaen että normaalijakauman ehto täyttyy, • p -arvo • ilmoittaa todennäköisyyden sille että otoksesta laskettu korrelaatio on vähintään saadun suuruinen mikäli H0 pitää paikkansa • ilmoittaa kuinka paljon on ”todisteita” nollahypoteesia vastaan, mitä pienempi p (0 < p < .05), sitä enemmän todisteita

  48. 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus • Yleinen merkitsevyystaso on 5 prosenttia p < 0.05 (5%) * tilastollisesti melkein merkitsevä p < 0.01 (1%) ** tilastollisesti merkitsevä p < 0.001 (0,1%) *** tilastollisesti erittäin merkitsevä • Jos luku jää etukäteen sovitun merkitsevyystason alapuolelle, H0hylätään ja vaihtoehtoinen hypoteesi H1 hyväksytään. • Ongelmana on se, että H1 ei ole ollut mukana analyyseissa eikä siten ole välttämättä H0:n vastakohta ..

  49. 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus • Korrelaation yhteydessä on syytä kommentoida muuttujien välistä yhteistä varianssia (coefficient of determination), joka lasketaan korottamalla korrelaatiokertoimen arvo toiseen potenssiin. • Esim. jos muuttujien välillä on r = .3 suuruinen korrelaatio, niillä on 9 prosenttia (.3*.3=.09) yhteistä vaihtelua (total variance). • Onko se paljon vai vähän, riippuu tutkimustehtävän luonteesta eli analyysin tuloksille asetetuista tieteellisistä oletuksista.

  50. 2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus • Cohen (1988) on lisäksi määritellyt korrelaatioille tieteellisen vaikuttavuuden (effect size) arvot: • Small effect size r > 0.1 • Medium effect size r > 0.3 • Large effect size r > 0.5 • Much larger than typical r > 0.7

More Related