780 likes | 893 Views
Tilastomenetelmät psykiatrisessa epidemiologiassa. Jouko Miettunen, FT 9.10.2007 Psykiatrian klinikka. Esitelmän aiheet. Perusmenetelmiä Ristiintaulukkojen testaaminen Jakaumien tunnusluvut ja testaaminen Korrelaatiokertoimet Monimuuttujamenetelmiä Regressioanalyysit Elinaika-analyysi
E N D
Tilastomenetelmät psykiatrisessa epidemiologiassa Jouko Miettunen, FT 9.10.2007 Psykiatrian klinikka
Esitelmän aiheet Perusmenetelmiä • Ristiintaulukkojen testaaminen • Jakaumien tunnusluvut ja testaaminen • Korrelaatiokertoimet Monimuuttujamenetelmiä • Regressioanalyysit • Elinaika-analyysi • Varianssianalyysit • Faktorianalyysit • Muita menetelmiä (Luotettavuuden arviointi) Tilasto-ohjelmat Kirjallisuutta
Luokitellut muuttujat • Jakaumien vertailu ryhmien välillä • Tilastollinen testaaminen • Khiin neliötesti, OR, RR Jatkuvat muuttujat • Keskiarvojen vertailu ryhmien välillä • Studentin t-testi • Mediaanien vertailu ryhmien välillä • Mann-Whitneyn U-testi • Kruskal-Wallisin testi • Korrelaatiokertoimet
Jatkuva vai luokiteltu muuttuja? • Luokittelemalla menetetään tietoa • Usein kuitenkin selkeyttää tulosten esittämistä • Analyysimenetelmät erilaisia
Luokittelutapoja • Aiemmat tutkimukset • Kliiniset kriteerit • Aineistoon perustuvat • Mediaani, kvartiilit, alin/ylin 10%, jne. • Keskiarvo • Keskiarvo ± 2 keskihajontaa
Ristiintaulukkojen testaaminen • c2 –testi • Fisherin tarkka testi (Fisher’s exact test) Epidemiologiassa erityisesti käytössä • vetosuhde, ristitulosuhde (odds ratio) • riskisuhde (risk ratio)
Esimerkki • Pohjois-Suomen 1966 syntymäkohortti • Seisomaan oppiminen ja myöhempi psykoottinen sairaus • Jatkoanalyysi psykoosipotilaiden joukossa • Onko sukurasituksella merkitystä?
Age at standing unsupported * Psychotic disorder until 2001 Psychotic disorder until 2001 healthy any psychosis Total Age at standing - 10 months Count 4074 40 4114 unsupported 99,0% 1,0% 100,0% 11 months Count 2430 35 2465 98,6% 1,4% 100,0% 12 months + Count 2970 60 3030 98,0% 2,0% 100,0% Total Count 9474 135 9609 98,6% 1,4% 100,0% c2 –testi
Age at standing unsupported * Any psychotic 1st degree relative Any psychotic 1st degree relative no yes Total Age at standing 8 1 9 - 10 months Count unsupported 88,9% 11,1% 100,0% 16 2 18 11 months Count 88,9% 11,1% 100,0% 23 6 29 12 months + Count 79,3% 20,7% 100,0% Total Count 47 9 56 83,9% 16,1% 100,0% Fisherin tarkka testi • Pienille • otoksille • - Jos väh. 25 prosentissa soluista odotettu arvo on alle 5
Assosiaation mittaaminen epidemiologiassa • Absoluuttinen • Riskiero (risk difference) • Altistunut – ei-altistunut • Suhteellinen • Riskisuhde (risk ratio, relative risk, RR) • Ristitulosuhde tai vetosuhde (odds ratio, OR) • Altistunut / ei-altistunut • Eivät kerro sellaisenaan kausaliteetista
a / (a + b) = Riskisuhde, RR c / (c + d) Tauti Kyllä Ei Yhteensä Altiste Kyllä a b a + b Ei c d c + d Yhteensä a + c b + c a + b + c + d a / b ad = = Odds Ratio, OR c / d bc
Lapsella psykoosi Kyllä Ei Yhteensä Vanhemmalla psykoosi Kyllä 24 (5.0%) 459 483 Ei 132 (1.3%) 10319 10451 Yhteensä 156 10451 10934 24 / (24 + 459) = 3.9 = RR 132 / (132 + 10319) 24 / 459 = = 4.1 OR 132 / 10319
Odds Ratio (OR) vai Risk Ratio (RR)? • RR tarkempi riskin tunnuslukuna • Mikäli yleinen sairaus tulisi käyttää RR:ää • OR:ssä on helpompi ottaa huomioon sekoittavat tekijät • Mikäli harvinainen sairaus ja iso aineisto OR ≈ RR
Keskiarvo vai mediaani? • Keskiarvo soveltuu likimain normaalijakautuneelle aineistolle • Mikäli aineistossa on paljon poikkeavia arvoja tai se on huomattavan vino, mediaani kuvaa muuttujan jakaumaa paremmin
Normaaliuden arviointi • Mikäli mediaani ja keskiarvo eroavat huomattavasti toisistaan, jakauma ei ole normaalijakautunut • Huipukkuus (kurtosis) ja vinous (skewness) kuvaavat normaalisuutta • Normaaliuden testit eivät ole tehokkaita • Kolmogorov-Smirnov testi • Shapiro-Wilk testi (kun N<50) • Tärkein on kuitenkin visuaalinen arvio!
Muuttujien erilaisia jakaumia B on normaalijakautunut. A on positiivisesti huipukas jakauma C negatiivisesti huipukas jakauma Havainnot on kasaantunut oikealle (jakauma on negatiivisesti vino eli vino vasemmalle)
Mediaanien vertailu: Mann-Whitneyn U-testi Pohjois-Suomen 1986 syntymäkohortti 15-16 v.: Toronto Alexithymia Scale
Mediaanien vertailu: Kruskal-Wallisin H-testi Pohjois-Suomen 1966 syntymäkohortti: masennusoireet (SCL-25) • Ei testaa varsinaisesti mediaaneja • vaan koko jakauman sijaintia (suositeltavaa) • Varsinaisesti mediaaneja testataan • esim. jakamalla koko aineisto mediaanista • kahteen osaan ja verrataan jakaumia ryhmien • välillä (esim. tässä koulutuksen mukaan) • c2 –testillä.
Korrelaatiokertoimet • Pearsonin korrelaatiokerroin • Normaalijakautuneille muuttujille • Spearmanin korrelaatiokerroin • Ei-normaalijakautuneille muuttujille • Järjestyskorrelaatiokerroin (mean rank) • Tuloksia voi graafisesti esittää korrelaatiodiagrammin avulla
Korrelaatiodiagrammi r = 0.75
Lineaarinen regressioanalyysi • Selitetään jatkuvaa (tai ainakin välimatka-asteikollista) muuttujaa • Selittäviä muuttujia voi olla useita • Jatkuvia tai kaksiluokkaisia muuttujia • Muuttujien välinen riippuvuus oletetaan lineaariseksi • Selittävät muuttujat ei saa liikaa korreloida keskenään (multikollineaarisuus) • Selitettävän muuttujan hajonta ei riipu selittävien muuttujien hajonnasta (homoskedastisuus)
Esimerkki • Kohortti 1966, 31 v. seuranta • Alkoholin käytön (g/pv) ennustaminen • Ennustavat muuttujat • Sukupuoli • Siviilisääty (naimaton tai eronnut, ei/kyllä) • Masennus • Jatkuva muuttuja (SCL-masennusoireet) • Syntymäpaino • Jatkuva muuttuja (g)
Logistinen regressioanalyysi • Yleisin tapa ottaa huomioon sekoittavat muuttujat, Erityisesti pitkittäistutkimuksissa • Vastemuuttuja (outcome) on kaksiluokkainen (esim. kyllä/ei) • Altistemuuttujat (exposure) voivat olla sekä kaksiluokkaisia, useampiluokkaisia että jatkuvia • Multinomiaalisessa logistisessa regressioanalyysissa vastemuuttujassa voi olla useita luokkia
Muuttujien valinta, esim. • Aiemman tiedon tai ko. aineiston perusteella • Sosiodemograafiset muuttujat, esim. sukupuoli, sosiaaliluokka? • Malliin mukaan aiemmin tunnetut sekoittavat tekijät? • Erityisesti jos vaikuttavat tuloksiin • Mukana ei saa olla liikaa muuttujia • Riippuu aineiston koosta ja muuttujien jakaumista • Mukana ei kannata olla keskenään liikaa korreloivia muuttujia
Esimerkki Pohjois-Suomen vuoden 1966 syntymäkohortti • N = 10 934 • Runsaasti haastattelu- ja rekisteridataa
Esimerkki • Mikä psykoottisilla potilailla ennustaa uutta sairaalahoitoa? • N = 158 • Altistemuuttujat • sukupuoli • Isän sosiaaliluokka (1980) • Sukurasitus • Sairastumisikä • Ensimmäisen sairaalahoidon kesto • diagnoosi (skitsofrenia / muu psykoosi) Miettunen ym. Nord J Psychiatry 2006; 60: 286-93.
Categorical Variables Codings Parameter coding Frequency (1) (2) Fathers social class 1980 I,II 48 ,000 ,000 III,IV 96 1,000 ,000 V 14 ,000 1,000 Parent has psychotic dg 1972-2000 no 133 ,000 yes 25 1,000 Sex male 93 1,000 female 65 ,000 Diagnosis schizophrenia 108 1,000 other psych 50 ,000 Length of first hospitalization < 1 month 94 1,000 > 1 month 64 ,000 SPSS Output - muuttujat
Variables in the Equation 95,0% C.I.for EXP(B) B S.E. Wald df Sig. Exp(B) Lower Upper 1,048 ,375 7,805 1 ,005 2,852 1,367 5,948 Length of 1st hospital.(1) Sex(1) -,559 ,366 2,331 1 ,127 ,572 ,279 1,172 Onset age -,047 ,043 1,199 1 ,274 ,954 ,876 1,038 Diagnosis(1) ,839 ,385 4,740 1 ,029 2,314 1,087 4,926 Father’s Social Class 1980 ,651 2 ,722 FSC 1980(1) ,309 ,392 ,622 1 ,430 1,362 ,632 2,934 FSC 1980(2) ,109 ,647 ,028 1 ,866 1,115 ,314 3,960 Parental psychosis(1) ,612 ,513 1,423 1 ,233 1,845 ,675 5,045 Constant ,488 1,100 ,197 1 ,657 1,629 SPSS Output - tulokset
Varianssianalyysi • Verrataan ryhmien sisäistä ja välistä variaatiota • ANOVA • Yksi jatkuva selitettävä eli vastemuuttuja • MANOVA • Useita jatkuvia vastemuuttujia • Toistettujen mittausten ANOVA = Repeated measurements ANOVA • Samat mittaukset on tehty useaan kertaan samoilta henkilöiltä • ANOVA, MANOVA and rANOVA • Vain luokiteltuja altisteita • ANCOVA, MANCOVA, rANCOVA • Myös jatkuvia altisteita
Esimerkki Erot hippokampuksen koossa • Pohjois-Suomen 1966 syntymäkohortti • Seurantatutkimus 1999-2001 • Skitsofreniapotilaat (N=56) vs. terveet verrokit (N=104) • Toistettujen mittausten ANCOVA • Oikean ja vasemman puolen hippokampusmittauksia käsitellään toistettuina mittauksia
Schizophrenia and Comparison subjects Hippocampus volumes F Sig. Model 1 Within effect: side20.3 < 0.001 Diagnosis 1.2 0.28 Gender 6.5 0.01 Model 2 Within effect: side0.81 0.37 Covariate: brain vol. 35.0 < 0.001 Diagnosis < 0.01 0.89 Gender 0.7 0.41 Familial psychosis 1.9 0.17 Perinatal risk 0.8 0.38 Handedness 0.3 0.61 Tanskanen ym. Schizophrenia Research (2005)
Elinaika-analyysi • Tutkitaan aikaa kahden tapahtuman välissä, esim. • Syntymästä sairastumiseen • Sairastumisesta kuolemaan • Uloskirjoittautumisesta uuteen sairaalahoitoon • Kaplan-Meierin mallilla arvioidaan tapahtumien todennäkoisyyksiä eri aikapisteissä • Käytössä usein kohorttitutkimuksissa
Elinaika-analyysiin tarvittava tieto • Tapahtuma (0,1) • Aika tapahtumaan (päiviä, kuukausia,…) tai sensurointiin • Aineisto voi sensuroitua • Seuranta loppuu • Menetetään yhteys tutkittavaan (esim. muuttaa muualle) • Seurattava henkilö kuolee muusta syystä kuin mikä on tutkimuksen kohteena
Esimerkki Pohjois-Suomen 1966 Syntymäkohortti • Mikä ennustaa itsemurhan tekoikää? • Otos Suomessa asuvat 16-vuotiaana (N=10,934) • Seuranta vuoden 2001 loppuun • 58 (0.5%) itsemurhaa • 140 (1.3%) muuta kuolemaa • 10,736 (98.2%) elossa • Ennustajamuuttuja • Perhetyyppi syntymähetkellä (parisuhteessa, yksin)
Käyrät voivat kuvata eloonjäämistä (survival) tai toisinpäin piirrettynä vaaraa (hazard) Test Statistics for Equality of Survival Distributions log rank test, p=0.002
Ryhmien välisen eron, tai trendin erossa, tulisi olla suurinpiirtein sama seurannan ajan • käyrien ei tulisi ainakaan mennä ristiin, jos halutaan testata tilastollisesti • Otoskoko voi olla suhteellisen pieni • Viitteitä, esim. Parmar & Machin: Survival analysis. A practical approach. John Wiley & Sons, 1995.
Sekoittavien tekijöiden huomiointi Itsemurhan ikä ja perhetyyppi • Mahdollisia sekoittavia tekijöitä • sukupuoli • sosiaaliluokka 1966 (I-II,III-IV,V) • kouluarvosanojen keskiarvo (14-v.) • psykiatrinen diagnoosi (ei, kyllä) • rikos (ei, ei-väkivaltainen, väkivaltainen) • Coxin regressioanalyysi
Categorical Variable Codings Frequency (1) (2) Sex 1=male 5425 1 2=female 5222 0 Psych dg 0=healthy 10197 0 1=any dg 450 1 Fathers Social Class 1966 1=I,II 783 0 0 2=III,IV 7823 1 0 3=V 2041 0 1 Family type 1966 1=single 1975 1 2=full 8672 0 Criminality 0=no crimes 10019 0 0 1=violent 200 1 0 2=nonviolent 428 0 1 SPSS Output - muuttujat
Variables in the Equation 95,0% CI for Exp(B) B SE Wald df Sig. Exp(B) Lower Upper SEX ,812 ,340 5,720 1 ,017 2,253 1,158 4,383 PSYCH DG 2,463 ,303 66,085 1 ,000 11,740 6,483 21,260 FAM TYPE ,728 ,287 6,429 1 ,011 2,072 1,180 3,637 FSC 1966 1,514 2 ,469 FSC 1966(1) ,451 ,715 ,398 1 ,528 1,570 ,386 6,377 FSC 1966(2) ,536 ,436 1,513 1 ,219 1,710 ,727 4,018 SCHOOL MARK -,276 ,164 2,825 1 ,093 ,759 ,550 1,047 CRIMES 3,398 2 ,183 CRIMES(1) ,239 ,454 ,276 1 ,600 1,269 ,521 3,093 CRIMES(2) -1,011 ,625 2,613 1 ,106 ,364 ,107 1,239 SPSS Output - tulokset
Kyselylomakkeen kehittäminen • Psykologia, psykiatria, hoitotiede, kasvatustiede, sosiologia, … • Lomakkeissa usein liki samoja asioita mittaavia kysymyksiä • Etsitään muuttujien yhdistelmistä selittävää mallia, tiivistetään tietoa • Etsitään tärkeimpiä muuttujia • Kysymysten lukumäärä lomakkeessa • Mikä on sopiva (riittävä) määrä? • Mahdolliset osa-asteikot
Piilevät muuttujat • Monia asioita ei voida mitata suoraan • Tarvitaan useita samaa ilmiötä mittaavia muuttujia • Esim. älykkyys, sosiaalisuus, konservatiivisuus
Faktorianalyysit • Eksploratiivinen faktorianalyysi (ja pääkomponenttianalyysi) [EFA (PCA)] • vanhimpia monimuuttujamenetelmiä(Spearman 1904) • etsitään muuttujien kombinaatioista selitettävää mallia • Konfirmatorinen faktorianalyysi [CFA] • tutkitaan valmista mallia ja varmistetaan antaako aineisto tukea ko. mallille
Esimerkki • Esimerkkinä on psykoosioireita mittaavan PANSS (Positive and Negative Syndrome Scale) -asteikon rakenne (30 muuttujaa) • Mittarista on esitetty useita erilaisia faktoriratkaisuja • Aineistona on Pohjois-Suomen vuoden 1966 syntymäkohortin psykoottisia henkilöitä jotka osallistuivat haastatteluun 1999-2001 • Pieni aineisto (N=85) • Muuttujat likert-asteikolla (1-7) • Muuttujissa on vaihtelua