310 likes | 548 Views
Tilastollista päättelyä. Vesa A. Niskanen. Parametrinen vai ei-parametrinen ( parametriton ) testi ?. Ei-parametrinen (kun yksikin näistä voimassa): Testimjat eivät ole vaaditun jakauman (esim. normjak) mukaisia. Testimjat luokittelu tai järjestysasteikolla.
E N D
Tilastollistapäättelyä Vesa A. Niskanen
Parametrinenvaiei-parametrinen (parametriton) testi? • Ei-parametrinen (kun yksikin näistä voimassa): • Testimjat eivät ole vaaditun jakauman (esim. normjak) mukaisia. • Testimjat luokittelu tai järjestysasteikolla. • Aineistot pieniä (alle 30 hav.) • Toisinaan kannattaa myös tehdä ei-parametrinen testi parametrisenkin lisäksi.
Tilastollinen testaus • Ohjelmatlaskevat p-arvoneliriskitason (elimerkitsevyystaso, level of significance). • 0 ≤ p ≤ 1 • Esim. p=0,05 (=5%), p=0,01 (=1%). • Johtopäätökset: • Jos p ei ole pieni (esim. p>0,05), niinvalitaannollahypoteesi (H0). • Jos p tarpeeksipieni (esim. p<0,05), niinhylätään H0 javalitaanvaihtoehtoinenhypoteesi (Hv).
Esimerkki (t-testi) • H0: uroksetjanaaraatsamanpainoisia • Hv: eivätsamanpainoisia • Jos tulosteissasaadaan p=0,03 => johtopäätös on Hv.
p-arvo • Kertoomeilleriskinelitodennäköisyyden olla väärässä, josjohtopäätökseksivalitaan on Hv. • Esim. p=0,72. Jos nytjohtopäätöksemmeHv, niinolemmeväärässätodennäköisyydellä 0,72 (72%). SiiseiHv, vaan H0. • Esim. p=0,02. Jos nytjohtopäätöksemmeHv, niinolemmeväärässätodennäköisyydellä 0,02 (2%). SiisHv. • Toinen tapa: p on todennäköisyys, ettätestisuureenarvosaadaansattumalta.
Ordinal, interval or ratio scales (Petrie & Watson) Alsonon-equal variances • Large data sets: normality is not necessary • Small data sets: use also non-parametric test • Ordinal scale: use also non-parametric test
Petrie & Watson Likelihood ratio test(log likelihood) Fisher’s exact (non-large data) Likelihood ratio test(log likelihood) Fisher’s exact (non-large data)
Ristiintaulukointi, riippumattomuustestit • Pienehköaineisto: Fisherineksaktitesti. • Muulloin: Likelihood ratio (eli log-likelihood). • Khii-neliöeräissätilanteissaepäluotettava, siksi en suosittele. • Päättely: • H0 (nollahypot): eiriippuvuutta (kun esim p>0,05), • Hv (vaihtoehthypot): on riippuvuus (kun esim. p<0,05). • Jos Hv, lisätarkasteluesim. sarake- tai rivi% avulla.
Korrelaatiot • Mitta-asteikon mjat (miel. normaalisti jakautuneet): Pearson. • Järj.asteikolla Pearson myös yleensä hyvä. • Tarvittaessa järj. asteikolla Spearman tai Kendall. • Päättely: • H0: ei korrel, • Hv: on korrel (kun esim. p<0,05). • Käytä lisäksi graafista tarkastelua (scatter plot)
negative, linear positive, linear Scatter plots non-linear no correlation positive, non-linear
Mja normaalijakauman mukainen? • Pienehkö aineisto: Shapiro-Wilk. • Muulloin: Kolmogorov-Smirnov. • Päättely: • H0: on normjak, • Hv: ei normjak (esim. p<0,05). • Käytä lisäksi graafista tarkastelua.
Normjak, kuvia Bodywt Stem-and-Leaf Plot Frequency Stem & Leaf 4.00 Extremes (=<62) 1.00 6 . 8 6.00 7 . 446688 6.00 8 . 022668 33.00 9 . 000002222444444566666666788888889 69.00 10 . 000000000000022222222444444444444446666666666666666666688888888888888 64.00 11 . 0000000011222222224444444444444444444446666666666666888888888899 74.00 12 . 00000000000000000000011222222223334444444444445556666666666788888888888888 50.00 13 . 00000000000122222222344444444444444566666688888889 31.00 14 . 0000002222334444445666668888899 19.00 15 . 0002222224466666788 13.00 16 . 0222445668889 5.00 17 . 24445 11.00 Extremes (>=178) Stem width: 10 Each leaf: 1 case(s)
Kaksi riippumatonta otosta • Esim. ovatkourostenjanaaraidenpainotsamat? • Ryhmätsuuria (>30 hav), testimjamitta-asteikolla: t-testi. • Ryhmätpieniä (<30) testimjamitta-asteikollajahavainnotryhmissänormjak: t-testi(ehkämyösMann-Whitney). • Ryhmätpieniä (<30) jahavainnotryhmissäeivätnormjak: Mann-Whitney. • Testimjajärjasteikolla: Mann-Whitney. • Päättely: • H0: eieroaryhmissä (keskiarvoissa), • Hv: on ero (esim. p<0,05).
Kaksi tai enemmänriippumattomiaotoksiaja 1 luokittelevamja (ANOVA) • Esim. onkopainoissaeroaeridieettiryhmissä? • Mitta-asteikontestimja, jaryhmienhavainnotnormjak tai niidenvarianssityhtäsuuria (siisvarianssienosaltaLevenentestissä H0 eliesim p>0,05): yksisuunt. varianssianalyysi(parametrinentesti). • Mitta-asteikontai järj. asteikontestimja, ryhmienhavainnoteivätnormjakeikäniidenvarianssityhtäsuuria (varianssienosaltaLevenentestissäHveliesim p<0,05): Kruskall-Wallis.
Kaksi tai enemmänriippumattomiaotoksiaja 1 luokittelevamja (yksisuuntainen ANOVA), (2) • Yleistestinpäättely (esim. ANOVA-taulu): • H0: eieroaryhmienvälillä, • Hv: on eroainakinkahdenryhmänosalta (esim. p<0,05). • Jos yleistestissäHv: silloinesim. parittaisetvertailuteliPost Hoc –testit: • yhtäsuuretryhmienvarianssit, parametrinen: esim. Tukey(paljonryhmiä) tai Bonferroni (vähänryhmiä); • eiyhtäsuurryhmienvarianssit, parametrinen: esim. Tamhane T2 • Kruskall-Wallis (siisei-parametrinen): esim. Mann-Whitney tai Kruskall-Wallis Bonferroni-korjauksella (SPSS laskeesuoraan). • Bonferroni-korjaus: kerro p-arvotluvulla b kun b=k*(k-1)/2, missä k on ryhmienmäärä. • Post Hoc -testinpäättelytparienosalta: • H0: eieroatestimjanosaltaparintapauksessa, • Hv: on ero (esim. p<0,05).
Kaksi tai enemmänriippumattomiaotoksiajauseampikuin 1 luokittelevamja • MonisuuntainenANOVA. Luokittelevatmjatkiinteitä (fixed) tai satunnaisia (random) tekijöitä. Jos molempia, niin mixed effects –malli. • Ei-param. testiäei ole tarjolla. • Esim. esimpainojenerosukupuolenjadieettienryhmissä. • NormaalisuusjavarianssienLevenentesti: kuten 1-suunt. ANOVA (siisLevenen H0: samatvarianssit). • Varianssitaulu (test of between-subjects effects): • Jokaisentekijän (oma)vaikutus: H0: ryhmienvälilläeieroa; Hv: ainakinkahdenryhmänvälilläero. • Yhdysvaikutus(interaction, jostarpeeksihavaintoja): H0: ei ole; Hv: on. • Ryhmienparittaisetvertailut pairwise comparison -tauluissa(josylläHv, Bonferroni –korjauksella). • Graafinenesitysyhdysvaikutuksentarkasteluun.
Kaksi tai enemmänriippumattomiaotoksia, 1 tai useampiluokittelevamjajakovariaatteja • Kovarianssianalyysi. • Esim. painojenerodieettienjasukupuoltenryhmissä kun alkupainon (kovariaatin) vaikutuseliminoitu. Lasketaansiiskovariaateillakorjattujenkeskiarvojeneroja. • Testimjanormaalinen, ryhmienvarianssitsamat (Levenentestissäsiismielellään H0), kovariaatitjatestimjakorreloivat, kovariaatiteivätkorreloikeskenään. • Varianssitaulu (test of between-subjects effects, korjatutkeskiarvot): • Jokaisentekijän (oma)vaikutus: H0: ryhmienvälilläeieroa; Hv: ainakinkahdenryhmänvälilläero. • Yhdysvaikutus (interaction, jostarpeeksihavaintoja): H0: ei ole; Hv: on. Pitäisi olla H0, koskamuutenkeskiarvojenerojentulkintavaikeaa. • Post Hoc –testitkorjatuistakeskiarvoista (josedelläHv): kutenmonisuunt. ANOVA.
Parittaiset (riippuvat) otokset, 2 kpl • Esim. alkupaino – loppupaino kun dieettikäsittelynä • Paljonhavaintoja (>30), testimjatmitta-asteikolla: t-testi. • Vähänhav.yksiköitä (<30), testimjatmitta-asteikollajahavainnotryhmissänormjak: t-testi. • Vähänhav.yksiköitä (<30) testimjatmitta-asteikollajahavainnotryhmissäeivätnormjak: Wilcoxon (ehkämyösSign- elimerkkitesti). • Testimjatjärj.asteikolla: Wilcoxon (ehkämyös Sign). • Dikotomisetmjat: McNemar. • Päättely: • H0: eieroa (useinkäytännössämyös: käsittelyeivaikuttanut), • Hv: on ero (esim. p<0,05).
Kaksi tai useampiamittauksiasamoistayksiköistä (1) • Esim. painonmuutosuseidenmittauskertojenvälillätietyndieetinaikana. • Parametrinen: toistettujenmittaustenanalyysi (ANOVA) kun toistomjatnormjakjaryhmienvarianssitsamat. • Mittauksien (within –subject mjat) lisäksivoidaankäyttääluokitteleviamjia (between subjects mjat) jajopakovariaatteja.
Kaksi tai useampiamittauksiasamoistayksiköistä (2) • Tarkimminmittauksienerotunivariaattitestesteillä: • Mauchly’s test of spherity (kovarianssimatriisiensymmetrisyys): • H0: ovatsymmetrisiä, Hv: eivät ole. • Jos edellä H0: seuraavastataulustatests within-subjects effectskatsotaantesti spherical assumed. • Jos Hv ( eisymmetrisiä) ja Greenhouse-Geisser >0,75: taulustatests within-subjects effects katsotaantesti Huynh-Feldt. • Jos Hv ( eisymmetrisiä) ja Greenhouse-Geisser< 0,75: taulustatests within-subjects effects katsotaantestiGreenhouse-Geisser.
Kaksi tai useampiamittauksiasamoistayksiköistä (3) • Tests within-subjects effects -taulu: • Kaikissatesteissä (eli spherical assumed, Huynh-Feldtja Greenhouse-Geisser, kannattaaainakatsoa ne kaikki): • H0: mittauksienvälilläeieroja; Hv: on eroja (ainakinkahdenvälillä). • Jos edelläHv: parittaisetvertailut (esim. peräkkäisetpareittain) test of within-subjects contrasts -taulusta: • H0: parinosaltaeieroa; Hv: on ero.
Kaksi tai useampiamittauksiasamoistayksiköistä (4) • Esim. painonmuutosmittauskertojenvälillädieetinaikana. • Ei-parametrinen: Friedman • H0: mittauksienvälilläeieroa; Hv: ainakin 2 mittauksentapauksessaero. • Jos edelläHv: jatkovertailut 2 mittaustakerrallaanesim. Friedman tai WilcoxonBonferroni-korjauksella (SPSS laskeetämänkin). • Bonferroni-korjaus: kerro p-arvotluvulla b kun b=k*(k-1)/2, missä k on mittauksienlukumäärä. • Päättely: • H0: eieroako. kahdenmittauksenvälillä, • Hv: on ero(esim. p<0,05).
Lineaarinenregressioanalyysi (1) • Selitettävänormjak, kaikkimjatainakinvälimatka-asteikko (joskinselittäjätjoskusjopaluokitteluasteikolla). • Esim. kuinkalehmänpainoavoidaanarvioidarinnanympäryksenjakorkeudenperust. • Selittäjätkorreloivatselitettävänkanssa. • Selittäjäteivätsaakorreloidakeskenään (eisiismultikollineaarisuutta) • Outlieritpoisaineistosta, josmahdollista.
Lineaarinenregressioanalyysi (2) • Model summary -taulu: selitysaste(rsquare, 0-1, parasarvo 1), korjattuselitysasteyleensäluotettavampikriteeri (adjusted rsquare, 0-1, siinäkinparasarvo 1). • ANOVA-taulu: yleistestissäpitääjohtopäätös olla Hv (esim. p<0,05). • Coefficients taulu: • Regressiokertoimet B-sarakkeessa. • Toleranssitkertovatmultikollineaarisuudesta (po. lähellä 1). • t-testit: onkoko. selittäjäoleellinen (on, jos p pienieliHv). • Residuaalitpo. normjaknollanympärillä (niidenkeskiarvopitää olla 0). Studentisoidutresiduaalitilmaisevatoutlierit (silloin outlier kun ko. arvo <-3 tai >3). • Myösaskeltavia (esim. stepwise) menetelmiä “automaattiseen” mallinnukseen.
Logistinenregressioanalyysi (1) • Selitettävämjadikotominen 0/1, jolloin 0=kontrolli. • Esim. mitkätekijätselittävät/ennustavatkorvatulehdusta (0=eitulehdus, 1=tulehdus). • Selittäjätmieluitendiskreettejä dummy-mjia (vaikkaasteikkovapaa). Jatkuvatmjatmiel. norm jak. • Selittäjäteivätsaakorreloida (eimultikollineaarisuutta, tämätärkeä). • Outlieritpoisaineistosta, josmahdollista. • (Multinomial-tapaus: selitettävälläuseampiluokka).
Logistinenregressioanalyysi (2) • Vertailuarvonvalinta (SPSS): contrast=indicator japienempiarvo (0) vertailuarvoksi (SPSS: first). • TavallisestialoitetaantulostentarkastelukohdastaBlock=1. • Omnibus test eliyleistestiregkertoimille: yleensä vain model-rivintarkastelu. Pitäisi olla pieni p-arvo (Hv). • Model summary –taulussaselitysaste: Nagelkerkersquare, 0-1, parasarvo1. • Classification table eliluokittelutaulukossapitää olla mahd. paljonoikeitaluokituksia. • Variables in equation –taulu: Waldintestin p-arvotkertovatoleellisetselittäjät (po. niilläpieni p); B-sarakkeenkertoimetkertovatsittenriskinkasvusta (B>0) tai vähenemisestä (B<0). Tai (vain diskr. mjat): Exp(B) eli odds ratio –arvot (riskisuhde) kertovatluotettavastiriskinkasvusta (>1) tai vähenemisestä (<1) selittäjienluokissa, josarvo 1 on riskisuhteen (95%) luottamusvälinulkopuolella. • Residuaalitnormjaknollanympärillä (niidenkeskiarvopitää olla 0). • Joskustämämenetelmävoidaankorvataerotteluanalyysillä, jolloinmjillakuitenkinenemmänrajoituksia. • Vrt. myösCoxinregressionanalyysi.
Coxin regressioanalyysi • Selitettävämja on aika, selittäjilläasteikkojatyyppivapaa. • Vain oleellisetselittäjätmukaan (esim. t-testienavulla). • Selittäjäteivätsaakorreloida (eimultikollineaarisuutta). • Outlieritpoisaineistosta, josmahdollista. • Elinaika-aineistojenanalyysi, päättyyesim. kuolemaan (status). • Vrt. Myöslogistinenregressionanalyysi.
Kaplan-Meier elinaika-analyysi • Selitettävä mja on aika, selittäjänä vain yksi luokitteluasteikon selittäjä. • Elinaika-aineistojen analyysi, päättyy esim. kuolemaan (status). • Vrt. myös logistinen regressionanalyysi ja Coxin regressioanalyysi.
Sekamallit: Kaksitai enemmänriippumattomiaotoksiajauseampikuin 1 luokittelevamja • MonisuuntainenANOVA • Esim. painojenerot kun ryhminäsairaalat (lohko), sukupuoli (pääruutu), dieetti (osaruutu). • Jos muutenryhmiintuleeliianvähänhavaintoja, niinsekamallit (mixed models, esim. osaruutukokeeteli split-plot –kokeet).
Sekamallit: Kaksitai enemmänriippumattomiaotoksiajauseampikuin 1 luokittelevamja • Esim. painojenerot kun ryhminäsairaalat (lohko), sukupuoli (pääruutu, ne arvotaanensin, allasar.), dieetti (osaruutu, ne arvotaansitten, allarivit). Sair 1 Sair 2