1 / 31

Tilastollista päättelyä

Tilastollista päättelyä. Vesa A. Niskanen. Parametrinen vai ei-parametrinen ( parametriton ) testi ?. Ei-parametrinen (kun yksikin näistä voimassa): Testimjat eivät ole vaaditun jakauman (esim. normjak) mukaisia. Testimjat luokittelu tai järjestysasteikolla.

karan
Download Presentation

Tilastollista päättelyä

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tilastollistapäättelyä Vesa A. Niskanen

  2. Parametrinenvaiei-parametrinen (parametriton) testi? • Ei-parametrinen (kun yksikin näistä voimassa): • Testimjat eivät ole vaaditun jakauman (esim. normjak) mukaisia. • Testimjat luokittelu tai järjestysasteikolla. • Aineistot pieniä (alle 30 hav.) • Toisinaan kannattaa myös tehdä ei-parametrinen testi parametrisenkin lisäksi.

  3. Tilastollinen testaus • Ohjelmatlaskevat p-arvoneliriskitason (elimerkitsevyystaso, level of significance). • 0 ≤ p ≤ 1 • Esim. p=0,05 (=5%), p=0,01 (=1%). • Johtopäätökset: • Jos p ei ole pieni (esim. p>0,05), niinvalitaannollahypoteesi (H0). • Jos p tarpeeksipieni (esim. p<0,05), niinhylätään H0 javalitaanvaihtoehtoinenhypoteesi (Hv).

  4. Esimerkki (t-testi) • H0: uroksetjanaaraatsamanpainoisia • Hv: eivätsamanpainoisia • Jos tulosteissasaadaan p=0,03 => johtopäätös on Hv.

  5. p-arvo • Kertoomeilleriskinelitodennäköisyyden olla väärässä, josjohtopäätökseksivalitaan on Hv. • Esim. p=0,72. Jos nytjohtopäätöksemmeHv, niinolemmeväärässätodennäköisyydellä 0,72 (72%). SiiseiHv, vaan H0. • Esim. p=0,02. Jos nytjohtopäätöksemmeHv, niinolemmeväärässätodennäköisyydellä 0,02 (2%). SiisHv. • Toinen tapa: p on todennäköisyys, ettätestisuureenarvosaadaansattumalta.

  6. Esim. Khii2-jakauma ja p-arvo p χ2

  7. Ordinal, interval or ratio scales (Petrie & Watson) Alsonon-equal variances • Large data sets: normality is not necessary • Small data sets: use also non-parametric test • Ordinal scale: use also non-parametric test

  8. Petrie & Watson Likelihood ratio test(log likelihood) Fisher’s exact (non-large data) Likelihood ratio test(log likelihood) Fisher’s exact (non-large data)

  9. Ristiintaulukointi, riippumattomuustestit • Pienehköaineisto: Fisherineksaktitesti. • Muulloin: Likelihood ratio (eli log-likelihood). • Khii-neliöeräissätilanteissaepäluotettava, siksi en suosittele. • Päättely: • H0 (nollahypot): eiriippuvuutta (kun esim p>0,05), • Hv (vaihtoehthypot): on riippuvuus (kun esim. p<0,05). • Jos Hv, lisätarkasteluesim. sarake- tai rivi% avulla.

  10. Korrelaatiot • Mitta-asteikon mjat (miel. normaalisti jakautuneet): Pearson. • Järj.asteikolla Pearson myös yleensä hyvä. • Tarvittaessa järj. asteikolla Spearman tai Kendall. • Päättely: • H0: ei korrel, • Hv: on korrel (kun esim. p<0,05). • Käytä lisäksi graafista tarkastelua (scatter plot)

  11. negative, linear positive, linear Scatter plots non-linear no correlation positive, non-linear

  12. Mja normaalijakauman mukainen? • Pienehkö aineisto: Shapiro-Wilk. • Muulloin: Kolmogorov-Smirnov. • Päättely: • H0: on normjak, • Hv: ei normjak (esim. p<0,05). • Käytä lisäksi graafista tarkastelua.

  13. Normjak, kuvia Bodywt Stem-and-Leaf Plot Frequency Stem & Leaf 4.00 Extremes (=<62) 1.00 6 . 8 6.00 7 . 446688 6.00 8 . 022668 33.00 9 . 000002222444444566666666788888889 69.00 10 . 000000000000022222222444444444444446666666666666666666688888888888888 64.00 11 . 0000000011222222224444444444444444444446666666666666888888888899 74.00 12 . 00000000000000000000011222222223334444444444445556666666666788888888888888 50.00 13 . 00000000000122222222344444444444444566666688888889 31.00 14 . 0000002222334444445666668888899 19.00 15 . 0002222224466666788 13.00 16 . 0222445668889 5.00 17 . 24445 11.00 Extremes (>=178) Stem width: 10 Each leaf: 1 case(s)

  14. Kaksi riippumatonta otosta • Esim. ovatkourostenjanaaraidenpainotsamat? • Ryhmätsuuria (>30 hav), testimjamitta-asteikolla: t-testi. • Ryhmätpieniä (<30) testimjamitta-asteikollajahavainnotryhmissänormjak: t-testi(ehkämyösMann-Whitney). • Ryhmätpieniä (<30) jahavainnotryhmissäeivätnormjak: Mann-Whitney. • Testimjajärjasteikolla: Mann-Whitney. • Päättely: • H0: eieroaryhmissä (keskiarvoissa), • Hv: on ero (esim. p<0,05).

  15. Kaksi tai enemmänriippumattomiaotoksiaja 1 luokittelevamja (ANOVA) • Esim. onkopainoissaeroaeridieettiryhmissä? • Mitta-asteikontestimja, jaryhmienhavainnotnormjak tai niidenvarianssityhtäsuuria (siisvarianssienosaltaLevenentestissä H0 eliesim p>0,05): yksisuunt. varianssianalyysi(parametrinentesti). • Mitta-asteikontai järj. asteikontestimja, ryhmienhavainnoteivätnormjakeikäniidenvarianssityhtäsuuria (varianssienosaltaLevenentestissäHveliesim p<0,05): Kruskall-Wallis.

  16. Kaksi tai enemmänriippumattomiaotoksiaja 1 luokittelevamja (yksisuuntainen ANOVA), (2) • Yleistestinpäättely (esim. ANOVA-taulu): • H0: eieroaryhmienvälillä, • Hv: on eroainakinkahdenryhmänosalta (esim. p<0,05). • Jos yleistestissäHv: silloinesim. parittaisetvertailuteliPost Hoc –testit: • yhtäsuuretryhmienvarianssit, parametrinen: esim. Tukey(paljonryhmiä) tai Bonferroni (vähänryhmiä); • eiyhtäsuurryhmienvarianssit, parametrinen: esim. Tamhane T2 • Kruskall-Wallis (siisei-parametrinen): esim. Mann-Whitney tai Kruskall-Wallis Bonferroni-korjauksella (SPSS laskeesuoraan). • Bonferroni-korjaus: kerro p-arvotluvulla b kun b=k*(k-1)/2, missä k on ryhmienmäärä. • Post Hoc -testinpäättelytparienosalta: • H0: eieroatestimjanosaltaparintapauksessa, • Hv: on ero (esim. p<0,05).

  17. Kaksi tai enemmänriippumattomiaotoksiajauseampikuin 1 luokittelevamja • MonisuuntainenANOVA. Luokittelevatmjatkiinteitä (fixed) tai satunnaisia (random) tekijöitä. Jos molempia, niin mixed effects –malli. • Ei-param. testiäei ole tarjolla. • Esim. esimpainojenerosukupuolenjadieettienryhmissä. • NormaalisuusjavarianssienLevenentesti: kuten 1-suunt. ANOVA (siisLevenen H0: samatvarianssit). • Varianssitaulu (test of between-subjects effects): • Jokaisentekijän (oma)vaikutus: H0: ryhmienvälilläeieroa; Hv: ainakinkahdenryhmänvälilläero. • Yhdysvaikutus(interaction, jostarpeeksihavaintoja): H0: ei ole; Hv: on. • Ryhmienparittaisetvertailut pairwise comparison -tauluissa(josylläHv, Bonferroni –korjauksella). • Graafinenesitysyhdysvaikutuksentarkasteluun.

  18. Kaksi tai enemmänriippumattomiaotoksia, 1 tai useampiluokittelevamjajakovariaatteja • Kovarianssianalyysi. • Esim. painojenerodieettienjasukupuoltenryhmissä kun alkupainon (kovariaatin) vaikutuseliminoitu. Lasketaansiiskovariaateillakorjattujenkeskiarvojeneroja. • Testimjanormaalinen, ryhmienvarianssitsamat (Levenentestissäsiismielellään H0), kovariaatitjatestimjakorreloivat, kovariaatiteivätkorreloikeskenään. • Varianssitaulu (test of between-subjects effects, korjatutkeskiarvot): • Jokaisentekijän (oma)vaikutus: H0: ryhmienvälilläeieroa; Hv: ainakinkahdenryhmänvälilläero. • Yhdysvaikutus (interaction, jostarpeeksihavaintoja): H0: ei ole; Hv: on. Pitäisi olla H0, koskamuutenkeskiarvojenerojentulkintavaikeaa. • Post Hoc –testitkorjatuistakeskiarvoista (josedelläHv): kutenmonisuunt. ANOVA.

  19. Parittaiset (riippuvat) otokset, 2 kpl • Esim. alkupaino – loppupaino kun dieettikäsittelynä • Paljonhavaintoja (>30), testimjatmitta-asteikolla: t-testi. • Vähänhav.yksiköitä (<30), testimjatmitta-asteikollajahavainnotryhmissänormjak: t-testi. • Vähänhav.yksiköitä (<30) testimjatmitta-asteikollajahavainnotryhmissäeivätnormjak: Wilcoxon (ehkämyösSign- elimerkkitesti). • Testimjatjärj.asteikolla: Wilcoxon (ehkämyös Sign). • Dikotomisetmjat: McNemar. • Päättely: • H0: eieroa (useinkäytännössämyös: käsittelyeivaikuttanut), • Hv: on ero (esim. p<0,05).

  20. Kaksi tai useampiamittauksiasamoistayksiköistä (1) • Esim. painonmuutosuseidenmittauskertojenvälillätietyndieetinaikana. • Parametrinen: toistettujenmittaustenanalyysi (ANOVA) kun toistomjatnormjakjaryhmienvarianssitsamat. • Mittauksien (within –subject mjat) lisäksivoidaankäyttääluokitteleviamjia (between subjects mjat) jajopakovariaatteja.

  21. Kaksi tai useampiamittauksiasamoistayksiköistä (2) • Tarkimminmittauksienerotunivariaattitestesteillä: • Mauchly’s test of spherity (kovarianssimatriisiensymmetrisyys): • H0: ovatsymmetrisiä, Hv: eivät ole. • Jos edellä H0: seuraavastataulustatests within-subjects effectskatsotaantesti spherical assumed. • Jos Hv ( eisymmetrisiä) ja Greenhouse-Geisser >0,75: taulustatests within-subjects effects katsotaantesti Huynh-Feldt. • Jos Hv ( eisymmetrisiä) ja Greenhouse-Geisser< 0,75: taulustatests within-subjects effects katsotaantestiGreenhouse-Geisser.

  22. Kaksi tai useampiamittauksiasamoistayksiköistä (3) • Tests within-subjects effects -taulu: • Kaikissatesteissä (eli spherical assumed, Huynh-Feldtja Greenhouse-Geisser, kannattaaainakatsoa ne kaikki): • H0: mittauksienvälilläeieroja; Hv: on eroja (ainakinkahdenvälillä). • Jos edelläHv: parittaisetvertailut (esim. peräkkäisetpareittain) test of within-subjects contrasts -taulusta: • H0: parinosaltaeieroa; Hv: on ero.

  23. Kaksi tai useampiamittauksiasamoistayksiköistä (4) • Esim. painonmuutosmittauskertojenvälillädieetinaikana. • Ei-parametrinen: Friedman • H0: mittauksienvälilläeieroa; Hv: ainakin 2 mittauksentapauksessaero. • Jos edelläHv: jatkovertailut 2 mittaustakerrallaanesim. Friedman tai WilcoxonBonferroni-korjauksella (SPSS laskeetämänkin). • Bonferroni-korjaus: kerro p-arvotluvulla b kun b=k*(k-1)/2, missä k on mittauksienlukumäärä. • Päättely: • H0: eieroako. kahdenmittauksenvälillä, • Hv: on ero(esim. p<0,05).

  24. Lineaarinenregressioanalyysi (1) • Selitettävänormjak, kaikkimjatainakinvälimatka-asteikko (joskinselittäjätjoskusjopaluokitteluasteikolla). • Esim. kuinkalehmänpainoavoidaanarvioidarinnanympäryksenjakorkeudenperust. • Selittäjätkorreloivatselitettävänkanssa. • Selittäjäteivätsaakorreloidakeskenään (eisiismultikollineaarisuutta) • Outlieritpoisaineistosta, josmahdollista.

  25. Lineaarinenregressioanalyysi (2) • Model summary -taulu: selitysaste(rsquare, 0-1, parasarvo 1), korjattuselitysasteyleensäluotettavampikriteeri (adjusted rsquare, 0-1, siinäkinparasarvo 1). • ANOVA-taulu: yleistestissäpitääjohtopäätös olla Hv (esim. p<0,05). • Coefficients taulu: • Regressiokertoimet B-sarakkeessa. • Toleranssitkertovatmultikollineaarisuudesta (po. lähellä 1). • t-testit: onkoko. selittäjäoleellinen (on, jos p pienieliHv). • Residuaalitpo. normjaknollanympärillä (niidenkeskiarvopitää olla 0). Studentisoidutresiduaalitilmaisevatoutlierit (silloin outlier kun ko. arvo <-3 tai >3). • Myösaskeltavia (esim. stepwise) menetelmiä “automaattiseen” mallinnukseen.

  26. Logistinenregressioanalyysi (1) • Selitettävämjadikotominen 0/1, jolloin 0=kontrolli. • Esim. mitkätekijätselittävät/ennustavatkorvatulehdusta (0=eitulehdus, 1=tulehdus). • Selittäjätmieluitendiskreettejä dummy-mjia (vaikkaasteikkovapaa). Jatkuvatmjatmiel. norm jak. • Selittäjäteivätsaakorreloida (eimultikollineaarisuutta, tämätärkeä). • Outlieritpoisaineistosta, josmahdollista. • (Multinomial-tapaus: selitettävälläuseampiluokka).

  27. Logistinenregressioanalyysi (2) • Vertailuarvonvalinta (SPSS): contrast=indicator japienempiarvo (0) vertailuarvoksi (SPSS: first). • TavallisestialoitetaantulostentarkastelukohdastaBlock=1. • Omnibus test eliyleistestiregkertoimille: yleensä vain model-rivintarkastelu. Pitäisi olla pieni p-arvo (Hv). • Model summary –taulussaselitysaste: Nagelkerkersquare, 0-1, parasarvo1. • Classification table eliluokittelutaulukossapitää olla mahd. paljonoikeitaluokituksia. • Variables in equation –taulu: Waldintestin p-arvotkertovatoleellisetselittäjät (po. niilläpieni p); B-sarakkeenkertoimetkertovatsittenriskinkasvusta (B>0) tai vähenemisestä (B<0). Tai (vain diskr. mjat): Exp(B) eli odds ratio –arvot (riskisuhde) kertovatluotettavastiriskinkasvusta (>1) tai vähenemisestä (<1) selittäjienluokissa, josarvo 1 on riskisuhteen (95%) luottamusvälinulkopuolella. • Residuaalitnormjaknollanympärillä (niidenkeskiarvopitää olla 0). • Joskustämämenetelmävoidaankorvataerotteluanalyysillä, jolloinmjillakuitenkinenemmänrajoituksia. • Vrt. myösCoxinregressionanalyysi.

  28. Coxin regressioanalyysi • Selitettävämja on aika, selittäjilläasteikkojatyyppivapaa. • Vain oleellisetselittäjätmukaan (esim. t-testienavulla). • Selittäjäteivätsaakorreloida (eimultikollineaarisuutta). • Outlieritpoisaineistosta, josmahdollista. • Elinaika-aineistojenanalyysi, päättyyesim. kuolemaan (status). • Vrt. Myöslogistinenregressionanalyysi.

  29. Kaplan-Meier elinaika-analyysi • Selitettävä mja on aika, selittäjänä vain yksi luokitteluasteikon selittäjä. • Elinaika-aineistojen analyysi, päättyy esim. kuolemaan (status). • Vrt. myös logistinen regressionanalyysi ja Coxin regressioanalyysi.

  30. Sekamallit: Kaksitai enemmänriippumattomiaotoksiajauseampikuin 1 luokittelevamja • MonisuuntainenANOVA • Esim. painojenerot kun ryhminäsairaalat (lohko), sukupuoli (pääruutu), dieetti (osaruutu). • Jos muutenryhmiintuleeliianvähänhavaintoja, niinsekamallit (mixed models, esim. osaruutukokeeteli split-plot –kokeet).

  31. Sekamallit: Kaksitai enemmänriippumattomiaotoksiajauseampikuin 1 luokittelevamja • Esim. painojenerot kun ryhminäsairaalat (lohko), sukupuoli (pääruutu, ne arvotaanensin, allasar.), dieetti (osaruutu, ne arvotaansitten, allarivit). Sair 1 Sair 2

More Related