310 likes | 532 Views
Terveys 2000 koulutus. KTL 3.6.2003. Sisältö. Tutkimusasetelmat Otanta-asetelma Ositus ja ryvästys Painokertoimet Esimerkit SAS/SUDAAN Stata R Kysymykset ja keskustelu. Tutkimusasetelmat. Poikkileikkaustutkimus Kahden riippumattoman otoksen vertailu
E N D
Terveys 2000 koulutus KTL 3.6.2003
Sisältö • Tutkimusasetelmat • Otanta-asetelma • Ositus ja ryvästys • Painokertoimet • Esimerkit • SAS/SUDAAN • Stata • R • Kysymykset ja keskustelu
Tutkimusasetelmat • Poikkileikkaustutkimus • Kahden riippumattoman otoksen vertailu • Mini-Suomi –otoksen toistomittaustutkimus • Kohortti- ja upotetut tapaus-verrokkitutkimukset
Ositus ja ryvästys • Suomi jaettiin 20 ositteeseen • Suurimmat kaupungit muodostivat 15 ositetta • Lopuista 5 ositteesta (miljoonapiiristä)poimittiin 65 terveyskeskuspiiriä (ryvästä) 234:stä • 8028 havaintoyksilöä poimittiin • yli 80-vuotiaita kaksinkertaisella todennäköisyydellä • havaintojen lukumäärä ositetta kohden vastasi ositteen väkilukua
Kaksitasoisen otannan vaikutuksia • Kustannussäästöjä aineiston keräämisessä • Samasta terveyskeskuspiiristä poimittujen henkilöiden välillä riippuvuuksia: • Maantieteelliset etäisyydet pieniä • Sukulaisuussuhteita enemmän • Monet palvelut yhteisiä • Riippuvuuksien huomioiminen analyyseissä välttämätöntä
Painokertoimien taustaa • Yksilöillä erilaiset poimintatodennäköisyydet • Yli 80-vuotiailla kaksinkertainen poimintatodennäköisyys • Esim. suora keskiarvo havainnoista tuottaa harhaisen arvion väestökeskiarvosta • Ratkaisu: painotettu keskiarvo, jossa yli 80-vuotiailla painoiksi asetetaan 1/2
Painokertoimet ja kato • Yksilöiden osallistumisaktiivisuus vaihtelee • Jos osallistuneetja katotapaukset ovat… • samanlaisia, erot voidaan korjata melko hyvin (esim. vain iästä ja sukupuolesta johtuva kato) • oletus havaittujen ja katotapausten samankaltaisuudesta • erilaisia, erojen huomioiminen on vaikeaa (usein esim. terveyteen ja toimintakykyyn liittyvät muuttujat) • kadon luonteesta vahvoja oletuksia, joiden testaaminen vaikeaa
Painokertoimien taustaa • Painokertoimilla voidaan korjata tunnetuista tekijöistä johtuvan kadon vaikutusta • Terveys 2000 –painokertoimissa huomioitu
Erilaisia painokertoimia • Osallistuminen voidaan määritellä eri tavoilla • Terveys 2000 –osallistuneiden määrät eri painoilla: • Unionipaino: osallistunut vähintään yhteen tutkimuspisteeseen (n = 7112) • Ravintokyselypaino: Osallistunut ravintokyselyyn(n = 6005) • ”Kaikki”-paino: Osallistunut tutkimuspisteeseen tai vastannut karhu- tai puhelinhaastatteluun (n = 7415) • Leikkauspaino: osallistunut kaikkiin tutkimuspisteisiin (n = 5482)
Väestöpainot vs. analyysipainot • Analyysipainoja käytetään erilaisten keskiarvojen, prevalenssien ja regressiomallien estimoinnissa • Väestöpainoja käytetään vain estimoitaessa erilaisia totaaleja, kuten ominaisuuden X lukumääriä väestössä
Painomuuttujan valinta • Analyysimuuttujien puuttuvan tiedon profiilin pitäisi vastata painomuuttujan puuttuvia tietoja • Leikkauspainojen käyttäminen saattaa karsia merkittävän osan havaintoyksilöistä • Unionipainot sopivat useimpiin tilanteisiin • Ravintokyselyssä osallistumisprofiili poikkeaa selvästi unionipainojen profiilista • ”Kaikki”-painoissa mukana on yksilöitä, joista on vain vähän tietoja
Painotuksen ja osituksen vaikutuksia • Tarkastellaan esimerkkejä, joissa keskiarvoja estimoidaan • … painotuksella tai ilman, ja • … huomioimalla ositus/ryvästys tai ei • Keskiarvoesimerkkien tuloksia voidaan havaita myös monimutkaisemmissa analyyseissä
Esimerkkimuuttujat • Ikä • Systolinen verenpaine SystBP • Painoindeksi BMI • Kokonaiskolesteroli
Tunnusluvut • Keskiarvo, joka kuvaa 30+ -vuotiaiden keskiarvoa • Estimoitu keskivirhe (s.e.) • DEFT eli ”Design Factor” on suhteellinen ero keskivirheissä (ja luottamusvälin leveydessä), jos jätetään huomioimatta painot sekä ositus- ja ryvästystiedot • DEFF ”Design Effect” on DEFT 2
Johtopäätöksiä otanta-asetelman huomioimisesta • Painokertoimien huomioiminen tuottaa oikean piste-estimaatin • Rypäiden (erityisesti tk-piirien) sisäinen homogeenisuus ja erot verrattuna toisiin rypäisiin aiheuttavat sisäkorreloituneisuutta, mikä voi muuttaa huomattavasti estimoituja keskivirheitä verrattuna analyysiin yksinkertaisella satunnaisotannalla
Lukumäärien estimointi • Monellako 30+ -vuotiaalla on ominaisuus X? • Terveys 2000 –tutkimuksen 30+ -vuotiaiden perusjoukossa on 3,254,681 ihmistä • Käytetään väestöpainokertoimia, jotka kuvaavat kuinka montaa kohdeperusjoukon ihmistä kohdehenkilö kuvaa, ja painotettua summaa tutkimusmuuttujasta
Lukumääräestimointiesimerkki • Kuinka monella 30+ -vuotiaalla systolinen verenpaine on yli 140? Mikä on keskivirhe? • Käytetään väestöpainoja ja ositus-ryvästystietoja
Esimerkkiaineisto Selittäjiä: • ikä (jatkuvana tai 6-luokkaisena) ikaja ika6 • sukupuoli sp2 • siviilisääty aa01 • painoindeksi (body mass index) BMI • kokonaiskolesteroli T114 • HDL-kolesteroli T115 ja • portaiden nouseminen PortaanNousu.
Vastemuuttuja • Jatkuva: systolinen verenpaine SystBp2 • Binäärinen SystBp2_01: • arvo on 1, jos yli 140 • muuten 0 • Kolmiluokkainen SystBp2_123: • arvo on 1, jos alle 120 • arvo on 2, jos välillä 120, 160 • muuten 3
Mallivakiointi • Mikä on muuttujan Y keskiarvo (tai prevalenssi) eri determinanttimuuttujan arvoilla, jos sekoittavan tekijän jakauma olisi sama? • Determinanttimuuttuja voi olla esim. sukupuoli • Mallivakiointi predictive marginal: • determinanttimuuttujan X havaittu arvo muutetaan arvoksi x kaikilla yksilöillä, • lasketaan ennustearvo jokaiselle yksilölle ja • lasketaan keskiarvo ennusteista • Hyöty: vertailukelpoisuus hyvä, koska erilaisilla tekijän X arvoilla x muuttujan Y arvoon vaikuttavien muiden tekijöiden jakauma on sama
Mallivakiointi (jatkoa) • Miksi ei sijoiteta kaavoihin yksinkertaisesti kovariaattien keskiarvoja? • Estimoitaessa prevalenssia mallivakioitu tulos voi erota merkittävästi havaitusta prevalenssista
Mallivakiointiesimerkki: jatkuva vaste • Vasteena systolinen verenpaine, lineaarinen regressiomalli • Selittäjinä BMI, sukupuoli, 6-luokkainen ikä, kokonaiskolesteroli ja siviilisääty
Mallivakiointiesimerkki: binäärinen vaste • Vasteena systolinen verenpaine (”1” = yli 140, logit-malli) • Selittäjinä BMI, sukupuoli, 6-luokkainen ikä, kokonaiskolesteroli ja siviilisääty
Esimerkit • Perustunnusluvut (keskiarvot, taulukoinnit) • Lineaarinen regressiomalli • Logistinen regressiomalli • Moniluokkainen logistinen regressiomalli • Järjestysasteikollinen vaste • Luokiteltu vaste