1 / 41

Kvantitatiivisen aineiston keruu ja analyysi (kl.2011) - harjoitukset pääaineopiskelijoille

Kvantitatiivisen aineiston keruu ja analyysi (kl.2011) - harjoitukset pääaineopiskelijoille. Mira Kalalahti Käyttäytymistieteiden laitos Mira.kalalahti@helsinki.fi Teollisuuskatu 23 (PL26) 00014 Helsingin yliopisto. Muuttujien luonne.

fala
Download Presentation

Kvantitatiivisen aineiston keruu ja analyysi (kl.2011) - harjoitukset pääaineopiskelijoille

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kvantitatiivisenaineistonkeruujaanalyysi (kl.2011)-harjoituksetpääaineopiskelijoille Mira Kalalahti Käyttäytymistieteiden laitos Mira.kalalahti@helsinki.fi Teollisuuskatu 23 (PL26) 00014 Helsingin yliopisto

  2. Muuttujien luonne Ei-numeeriset/laadulliset muuttujat vs. numeeriset/määrälliset Esim. pituus, (numeerisia) Esim. sukupuoli, (ei-numeerisia)

  3. Muuttujien luonne Jatkuvat vs. epäjatkuvat eli diskreetit muuttujat Muuttuja on jatkuva, kun sen kahden arvon välissä on ääretön määrä arvoja. Muuttuja on epäjatkuva eli diskreetti, kun sen mitta-asteikolla siirrytään hyppäyksittäin arvosta toiseen.

  4. Muuttujien luonne Muuttuja on dikotominen, jos se saa kaksi arvoa: Ominaisuus joko on olemassa kyseisellä tilastoyksiköllä tai sitä ei ole olemassa (esim. tutkittava on naimisissa tai ei ole). Dikotomiset muuttujat voidaan koodata 0-1-muuttujiksi 0 = ei,1 = kyllä) eli dummy-muuttujiksi

  5. Mittaustaso: ”sanallinen mittaaminen” Luokittelu- eli nominaaliasteikko: Muuttujat voidaan luokitella (ryhmiin tai luokkiin), mutta luokkia ei voida asettaa mitattavan ominaisuuden mukaan järjestykseen eikä arvoilla voi suorittaa laskutoimituksia Esim. pohjoismaat, kansalaisuus, sukupuoli jne.

  6. Mittaustaso: ”sanallinen mittaaminen” Järjestys- eli ordinaaliasteikko: Muuttujien arvot voidaan laittaa mitattavan ominaisuuden mukaan luonnolliseen järjestykseen, mutta arvot eivät ole välttämättä tasavälisiä Esim. viran hakijat kelpoisuuden mukaan Esim. mielipidemittaukset (mm. likert): keskiarvojen laskeminen ”sallittua” yleiskuvan antajana)

  7. Mittaustaso: ”määrällinen mittaaminen” Välimatka- eli intervalliasteikko: Mittausarvojen etäisyys tunnetaan (muuttujan arvot ovat säännöllisen välimatkan päässä toisistaan Ei yksiselitteistä nollakohtaa Esim. Celsius-asteikko, syntymävuosi (mittayksikkö on yksi vuosi)

  8. Mittaustaso: ”määrällinen mittaaminen” Suhdeasteikko eli absoluuttinen asteikko: Välimatka-asteikollisen lisäksi muuttujilla on yksiselitteinen nollakohta, absoluuttinen nollapiste Muuttujana arvojen suhde (eli toinen jaettuna toisella) pysyy samana, vaikka mittayksikköä muutetaan Esim. jos rahaa on 0 euroa, sitä ei ole yhtään, lukumäärämuuttujat ovat suhdeasteikon muuttujia

  9. Mittaustaso Vaativammalla asteikolla on myös vähemmän vaativan asteikon ominaisuudet: muuttujan mitta-asteikko on ”vaativin” mitta-asteikko (se, jolla on eniten ominaisuuksia) (esim. ikämuuttuja on suhdeasteikon muuttuja, koska sillä on absoluuttinen nollapiste kaikkien muiden mitta-asteikkojen ominaisuuksien lisäksi)

  10. Kuvaileva (deskriptiivinen) tutkimus vs. selittävä(tilastolliseen päättelyyn perustuva) tutkimus Kuvaileva tutkimus tiivistää informaatiota muuttujien ominaisuuksista ja niiden välisistä suhteista Esim. jakaumien tarkastelu, keskiarvot, hajonnat Tilastollisen päättelyn avulla voidaan tehdä johtopäätöksiä perusjoukosta Kuinka hyvin otoksen avulla mitatut tulokset kuvaavat perusjoukkoa? Miten hyvin tulokset otoksesta voidaan yleistää perusjoukkoa koskeviksi tuloksiksi?

  11. Analyysimenetelmän valinta Tutkimusasetelma/-ongelma Analysoidaanko erillisiä muuttujia? Analysoidaanko muuttujien välisiä suhteita? Ryhmitelläänkö tapauksia? Mitta-asteikko Otoskoko ja oletusten voimassaolo (esim. jakaumat)

  12. Kuvaileva l. deskriptiivinen (perus)tutkimus Erillisten muuttujien analysoiminen Frekvenssijakaumat (lukumäärät, prosentit) Jakaumat kertovat vastaajajoukon ominaisuuksista ja jakautumisesta sekä mittarien toimivuudesta Keskiluvut (jakauman sijainti x-akselilla) mediaani (keskimmäinen arvo moodi (yleisin arvo) keskiarvo (mean)

  13. Kuvaileva l. deskriptiivinen (perus)tutkimus Hajontaluvut keskihajonta (std.deviation) varianssi (variance) vaihteluväli (range) Jakaumaa kuvaavat tunnusluvut: vinous (skewness) (onko suuri osa havainnoista keskiarvoa suurempia / pienempiä?) huipukkuus (kurtosis) (onko jakauma huipukas tai litteä?) yhden muuttujan graafinen esittäminen

  14. 1. Harjoitus: aineiston kuvaaminen, sijainti- ja hajontalukuja Frekvenssit ja prosenttiosuudet (taulukko / pylväsdiagrammi) Keskiluvut (keskiarvo, mediaani, moodi) Keskiarvo, keskihajonta, minimi- ja maksimiarvot, muuttujien vinous (skewness) ja huipukkuus (kurtosis)

  15. 1. Harjoitus: Frekvenssit ja prosenttiosuudet (taulukko / pylväsdiagrammi) Luokittelumuuttujat: frekvenssit ja prosenttiosuudet, moodi Esim. Siviilisääty, tupakointihistoria Välimatka-asteikolliset: histogrammi, moodi, mediaani, keskiarvo, keskihajonta Esim. Tyytyväisyys elämänlaatuun (kysymys 13)

  16. 1. Harjoitus: Keskiluvut (keskiarvo, mediaani, moodi) Luokittelumuuttujista vai moodi Järjestyasteikollisista mediaani tai moodi Välimatka-asteikollisista (ja soveltuvista järjestysasteikollisista): histogrammi, moodi, mediaani, keskiarvo

  17. 1. Keskiarvo, keskihajonta, minimi- ja maksimiarvot, muuttujien vinous (skewness) ja huipukkuus (kurtosis)

  18. Jakauman normaalisuus Parametriset testit edellyttävät numeeristen muuttujien jakauman olevan normaalisti jakautuneita. Normaalisti jakautunut muuttuja muistuttaa symmetristä Gaussin kellokäyrää. Tutkiminen havainnollisesti: histogrammin avulla (raportoi, ei tarvitse liittää raporttiin) Tutkiminen vinous- ja huipukkuuslukujen avulla: kuvaavat, miten jakauma poikkeaa normaalijakaumasta. Suuremmilla aineistoilla (N>200) vinous ei enää helposti vaaranna testin tulosta. Arvot eivät saisi olla yli kaksi kertaa suuremmat kuin niiden keskivirhe (standard error). Vinous (Skewness): mihin suuntaan jakauma laahaa esim. positiivisesti (oikealle) tai negatiivisesti (vasemmalle) vino, g₁ > 0, jakauma on oikealle vino ja g₁ < 0, jakauma on vasemmalle vino. Likimäärin normaalijakaumaa noudattelevan muuttujan vinous vaihtelee välillä -0.5 ja +0.5 Huipukkuus (Kurtosis): esim. kaksihuippuinen, huiputon, huipukas: g₂ > 0, jakauma on terävähuippuinen ja g₂ < 0, jakauma on litteähuippuinen (havainnot jakautuvat jokseenkin tasaisesti kaikille arvoille).Likimain normaalijakaumaa noudattavan muuttujan huipukkuus on lähellä lukua +3.00

  19. Jakauman normaalisuus Tutkiminen testaamalla: Analyze-Descriptive Statistic-Explore-Normality plots with tests • Suuret aineistot (yli 50): Kolmogorov-Smirnov, pienet aineistot (alle 50). Saphiro-Wilkn -testi: Testitulos luetaan sig.-kohdasta: jos testin tulos EI ole merkitsevä, muuttujan voidaan sanoa olevan normaalisti jakautunut ja voidaan käyttää parametrisia testejä. • Ongelma: testin tulos on yleensä merkitsevä (eli jakauma ei ole normaalisti jakautunut vaan testitulos on lähes aina epänormaali, joten testiä ei voi käyttää suoraviivaiseen päättelyyn. • Jos jakuma on huomattavan vino, kannattaa käyttää non-parametrisiä testejä. Muutoin kannattaa tehdä molemmat rinnakkain ja katsoa, eroaako johtopäätös.

  20. Jakauman luonnehdinta: Jakauman huipukkuus esim. kaksihuippuinen, huiputon (litteähuippuinen), huipukas JA symmetrisyys vs. vinous (ts. mihin suuntaan ‘häntä laahaa’) esim. Positiivisesti (oikealle) tai negatiivisesti (vasemmalle) vino Vinous- ja huipukkuus kuvaavat sitä, miten jakauma poikkeaa normaalijakaumasta.

  21. Vinous (skewness) Vinouskerroin g₁ ilmoittaa, mihin suuntaan jakauma on vino Jos g₁ > 0, jakauma on oikealle vino Jos g₁ < 0, jakauma on vasemmalle vino Likimäärin normaalijakaumaa noudattelevan muuttujan vinous vaihtelee välillä -0.5 ja +0.5 Nyrkkisääntö: jos vinousindeksi on yli kaksi kertaa suurempi kuin sen keskivirhe, jakauman katsotaan poikkeavan symmetriaoletuksesta

  22. Huipukkuus (kurtosis) Jakauman huipun muotoa tarkastellaan huipukkuuskertoimen g₂ avulla Kuinka terävähuippuinen jakauma on Normaalijakauman huipukkuus on 0 Likimain normaalijakaumaa noudattavan muuttujan huipukkuus on lähellä lukua +3.00 Jos g₂ > 0, jakauma on terävähuippuinen (havainnot ‘pakkautuvat’ muutamille arvoille) Jos g₂ < 0, jakauma on litteähuippuinen (havainnot jakautuvat jokseenkin tasaisesti kaikille arvoille)

  23. Jakauman luonnehdinta: Jakauman huipukkuus esim. kaksihuippuinen, huiputon (litteähuippuinen), huipukas JA symmetrisyys vs. vinous (ts. mihin suuntaan ‘häntä laahaa’) esim. Positiivisesti (oikealle) tai negatiivisesti (vasemmalle) vino Vinous- ja huipukkuus kuvaavat sitä, miten jakauma poikkeaa normaalijakaumasta.

  24. Kotitehtävä: Tulkitse kysymyksen 10. muuttujasta tunnilla otetun tulosteen tunnusluvut. Tarkastele myös histogrammin avulla, onko muuttujan jakauma tasainen (vinous, huipukkuus, yksihuippuisuus). Käyttäisitkö keskiarvoa tämän muuttujan tulkinnassa?

  25. Kuvaileva l.- deskriptiivinen (perus)tutkimus Otoksesta laskettavien tunnuslukujen yleistettävyys?? Keskivirhe Luottamusväli Otoksesta laskettavien tulosten tilastollinen merkitsevyys? Eli millä todennäköisyydellä saatu tulos on totta myös perusjoukossa? Hypoteesien testauksen tekniikka Perusjoukon keskiarvoa (tai vastaavaa tunnuslukua) ei voida otoksen perusteella määrittää tarkasti. Otoksen perusteella voidaan kuitenkin sanoa, millä TODENNÄKÖISYYDELLÄ keskiarvo sijoittuu tietylle välille.

  26. Tilastolliset testit auttavat päättelemään, johtuuko tarkasteltu ilmiö sattumasta vai ei (yleistys otoksesta perusjoukkoon) aineisto kertoo, millä varmuudella teemme päätelmiä jokaisessa tilastollisessa testissä otannasta saatavia tuloksia verrataan teoreettiseen malliin teoreettisen mallin mukaan testissä testataan ns. nollahypoteesia, jonka mukaan vaikutusta tai eroa ei ole (vaihtoehtoinen hypoteesi olettaa, että eroa on)

  27. Tilastolliset testit yhteiskuntatieteissä yleisin merkitsevyystaso on 0,05eli sallitaan 5 %:n riski sille, että teemme virheellisen johtopäätöksen hylätessämme nollahypoteesin Merkitsevyys ei merkitse merkittävyyttä (onko tulos sisällöllisesti merkittävä, relevantti, tärkeä)

  28. Testauksen terminologia Muuttuja Luottamusväli Luottamus- /merkitsevyystaso Nollahypoteesi, vastahypoteesi ja vaihtoehtoinen hypoteesi (tutkimushypoteesi) Testisuure Vapausasteet P-arvo

  29. Tilastollinen päättely Luottamusväli: kertoo, millä välillä todellinen perusjoukon tunnusluvun arvo on tietyllä todennäköisyydellä. Luottamustaso: kertoo, millä todennäköisyydellä perusjoukkoa kuvaava tunnusluku on tietyllä luottamusvälillä. Toisen tietäminen edellyttää toisen tietämistä. Luottamustason kasvaessa laajenee myös luottamusväli.

  30. Testauksen terminologia P-arvo, merkitsevyystaso: valinta määrittää todennäköisyyden sille, että tutkija hylkää nollahypoteesin, vaikka se todellisuudessa on tosi (riskitaso, virheellisen valinnan riski) Yleensä yhteiskuntatieteissä 0.05 (eli 5 %), myös 0.01 )eli 1 % ja 0.01 (eli 0,1 %) tasot. Jos käytetään 5 %:n riskitaso, saavutetaan tällä 95%:n todennäköisyys sille, että tulos on tutkimuksen perusjoukossa pätevä. Samalla virheen todennäköisyys on 5 %.

  31. Testauksen terminologia P-arvo: tilastollisen testin tuloksena saadaan ns. p-arvo (probability), joka ilmoittaa virheellisen päätelmän todennäköisyyden p < .05  tulos tilastollisesti ‘melkein merkitsevä’ p < .01  tulos tilastollisesti ‘merkitsevä’ p < .001  tulos tilastollisesti ‘erittäin merkitsevä’

  32. Testauksen terminologia Nollahypoteesi H0: useimmiten teoriasta johdetun oletuksen vastainen hypoteesi (eroa tai yhteyttä ei ole) VastahypoteesiH1 : nollahypoteesin vastainen, hyväksytään, jos tilastollisen testauksen avulla nollahypoteesi pystytään kumoamaan

  33. Testauksen vaiheet Aseta nollahypoteesi ja vastahypoteesi Valitse tilastollinen testi (useimmat menetelmät sisältävät testit automaattisesti) ja tutkijan tehtäväksi jää tulkita tulokset oikein Valitse merkitsevyystaso HUOM: tilastollisesti merkitsevä ei ole yhtä kuin tutkimuksellisesti merkittävä

  34. Tilastolliset testit jaetaan parametrisiin ja parametrittomiin (ei-parametriset, epäparametriset) testeihin sen mukaan, minkälaisia jakaumia testit käyttävät. Ei-parametrisillä testeillä ei ole jakaumaoletuksia. Testit eivät ole kuitenkaan yhtä voimakkaita kuin parametriset testit, minkä vuoksi kannattaa käyttää parametrisiä testejä aina kun siihen on mahdollisuus. Parametriset ja ei-parametriset testit

  35. Parametriset ja ei-parametriset testit Parametrisillä testeillä on jakaumaoletuksia vähintään välimatka-asteikko varianssien yhtä suuruus jakaumien normaalisuus 5 %.

  36. Parametrinen vs. parametriton Parametrinen Pearsonin tulomomentti-korrelaatio Riippumattomien otosten testi T-testi Yksisuuntainen varianssianalyysi (ANOVA) Toistomittaus MANOVA/ Riippuvien otosten T-testi Parametriton Spearmanin järjestyskorrelaatio Mann-Whitneyn U-testi Kruskal-Wallisin –testi Wilcoxonin testi

More Related