1 / 28

Miksi tilastollinen malli kiinnostaa biologiassa?

Miksi tilastollinen malli kiinnostaa biologiassa?. Mikko J. Sillanpää Oulun yliopisto. BIOLOGIA. TILASTOTIEDE. GENETIIKKA. BIOMETRIA. ESITYS KESKITTYY TÄHÄN. Wikipedia: Mikä on malli?. Malli voi tarkoittaa ainakin seuraavia asioita: henkilö , joka esittelee vaatteita

rigg
Download Presentation

Miksi tilastollinen malli kiinnostaa biologiassa?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Miksi tilastollinen malli kiinnostaa biologiassa? Mikko J. Sillanpää Oulun yliopisto

  2. BIOLOGIA TILASTOTIEDE GENETIIKKA BIOMETRIA ESITYS KESKITTYY TÄHÄN

  3. Wikipedia: Mikä on malli? • Malli voi tarkoittaa ainakin seuraavia asioita: • henkilö, joka esittelee vaatteita • kaavain, jota kutsutaan myös sapluunaksi • Looginen malli eli loogisen kielen tulkinta (lauseen peruspropositioiden arvottaminen tosiksi tai epätosiksi) • mallinnuksen tulos, todellisuuden osaa esittävä olio kuten käsitteellinen, kausaalinen tai matemaattinen malli • pienoismalli, alkuperäistä kooltaan huomattavasti pienempi kopio

  4. Mikä on tilastollinen malli? • karkea kuvaus ilmiöön vaikuttavista tekijöistä sisältäen oletuksia tekijöiden todennäköisyysjakaumista ja tekijöiden välisistä riippuvuuksista • tekijöitä pyritään arvioimaan/oppimaan kerätyn mittausaineiston perusteella

  5. Mitä biologia/genetiikka tarjoaa? • Kysymyksenasettelu / hypoteesit • Biologinen tietämys • esim. periytymissäännöt tai miten rekombinaatio ja mutaatio toimivat • Tutkittavan lajin genomin koko • Sukusiittoinen / ristisiittoinen • Vapaapölytteinen jne.

  6. Mitä mittausdata tarjoaa? • - Usein tilastollisen mallin kiinnostuksen kohteena olevista suureista eisaada suoria mittauksia • -Tällöin niitä arvioidaan epäsuorasti olemassa olevan mittausaineiston perusteella

  7. Esimerkkejä kysymyksistä ja epäsuorista mittauksista • Määritä verenpaineeseen vaikuttavien geenien paikat ja vaikutusten suuruudet ihmisen genomissa geenimerkkien perusteella? • - verenpaineen ja 500 000 geenimerkin mittaukset 2000 ihmiseltä

  8. Assosiaatiokartoituksessa, olemme kiinnostuneet estimoimaan geenimerkkikohtaiset vaikutukset βj

  9. Geneettinen assosiaatio-malli geenimerkin j arvo yksilöllä i 500 000 tuntematon (virhe)varianssi yleiskeskiarvo virhe ei~N(0,σ2) verenpaine yksilöllä i vaikutus geenimerkissä j

  10. Geenimerkkien mittaukset • Genotyypille AA, koodi xij = -1 • AB, koodi xij = 0 • BB, koodi xij = 1 • Näistä saadaan: -βj AA:lle βjxij = 0 AB:lle βjBB:lle

  11. Kiinnostavia menetelmällisiä kysymyksiä Koska mittauksia enemmän kuin yksilöitä, tarvitsemme dimensionpudotusta ja regularisaatiota – > erilaiset mallinvalintamenetelmät • Koska havaitsematon populaatiorakenne ja sukulaisuuden aiheuttavat vääriä assosiaatioita -> sekoittavien tekijöiden korjausmenetelmät • Toisistaan riippuvien mittauspisteiden riippuvuuden huomiointi mallissa -> erilaiset silotusmenetelmät

  12. Koska mittausdatassa puuttuvia havaintoja -> puuttuvan tiedon korvausmenetelmät • Koska mittausdatassa voi olla mittausvirhettä -> mittausvirhemallit

  13. Muita tutkittavia eri lajeilla • Epilepsia koirilla • Sukasten lukumäärä banaanikärpäsellä • Kukkimisaika lituruoholla • Juomakäyttäytyminen hiirillä • Tuotosominaisuudet viljakasveilla • Lihan laatuominaisuudet lohikaloilla

  14. Jalostusarvostelu • Määritä maidontuotannon jalostusarvo sonneilla jalostuspopulaatiossa • Tunnettu sukupuu (sis. 3 000 000 lehmän ja 8000 sonnin tiedot) ja maidontuotantomittaukset lypsylehmillä • Nykyään: 100 000 geenimerkki-mittausta kaikilta sonneilta pitkin niiden genomia

  15. Jalostusarvostelumalli Y = Xb + Zu +e Y maitotuotokset b ympäristötekijät u ~ N(0, G σ2 ) jalostusarvot e ~ N(0, I σ2 ) virhetermit G sisältää sukulaisuudet u e

  16. Kiinnostavia menetelmällisiä kysymyksiä • Perinteisen tilastotieteen kehikossa tästä nousee yhtälöryhmä jossa yli 3 000 000 tuntematonta. Tässä tarvitaan iteratiivisia numeerisia menetelmiä ja harvamatriisitekniikoita • Sekoittumisongelmat ja monihuippuiset posterioritMCMC-estimoinnissa variansseja arvioitaessa

  17. Mallin tekijöiden arviointi • Epäsuorien mittausten ja tehtyjen oletusten perusteella ei usein saada yksikäsitteistä ratkaisua mallin tekijöille mutta voidaan saadaa esimerkiksi todennäköisyysjakauma-muotoisia arvioita

  18. Bayes-päättely • p(data|θ) on uskottavuusfunktio • p(θ) on priorijakauma • p(data) on normalisoiva tekijä • usein ollaan kiinnostuttu

  19. Bayes-analyysin tulokset esitetään usein kertomalla • piste-estimaatti (esim. MAP) • posterioriväli

  20. Koska malleissa voi helposti olla tuhansia tuntemattomia tekijöitä, pitää posteriori jakaumia varten arvioida tuhat-ulotteisia integraaleja

  21. MCMC-menetelmät • Numeeriset integrointimenetelmät jotka saivat alkunsa Manhattan-projektista toisessa maailman sodassa • Käytetään nykyyään laajasti arvioitaessa posteriori jakaumia Bayesläisessä tilastotieteessä

  22. posteriorI JAKAUMA

  23. Vaikka tietokoneet ovat nopeita, niin MCMC-laskenta voi silti kestää nykytietokoneilla tapauksesta riippuen vielä useita päiviä..koska tilastomatemaatikot haluavat käyttää monimutkaisempia malleja

  24. Tutkimus kysymys ja biologinen tietämys GENETIIKKA TILASTOTIEDE Tilastolliset mallit ja estimointialgoritmit Mittaukset, tunnetut seikat ja oletukset tutkittavasta ilmiöstä

  25. Tulokseksi parhaassa tapauksessa voidaan saada jotain epälineaarista • ELI ENEMMÄN KUIN OSIENSA SUMMA

  26. Lopuksi jotakin alan työpaikoista • Matemaattisen yliopistokoulutuksen saaneita henkilöitä jotka ”puhuvat hyvin biologiaa” on työmarkkinoiden kysyntään nähden jatkuvasti liian vähän • Tästä johtuen työllistymisnäkymät kyseisellä alalla erityisen hyvät

  27. Muuta aiheesta suomenkielellä Sillanpää MJ (2012) ”Perinnöllisyyttä ja tilastotiedettä” Solmu 3/2012. Juga J, Sillanpää MJ, Mäntysaari E (2012) ”Lypsykarjan genominen valinta” Helsingin yliopiston maataloustieteiden pääsykoekirjassa ”Maailma muuttuu: muuttuuko maatalous”, sivut 165-172. Mervi Seppänen (ed.)

  28. Kiitos!!!

More Related