1 / 20

Merkkikohtaiset menetelmät fylogenetiikassa

Merkkikohtaiset menetelmät fylogenetiikassa. Niukkuusperiaate (parsimony). Sanan alkuperäismerkitys: henkilö, joka on tarkka rahojensa suhteen = pihi. Biologiassa: Sen polun suosimista fylogeenisissa puissa, joka vaatii vähiten mutaatioita. Mitä tiedämme: Mutaatiot harvinaisia

robert
Download Presentation

Merkkikohtaiset menetelmät fylogenetiikassa

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Merkkikohtaiset menetelmät fylogenetiikassa Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  2. Niukkuusperiaate (parsimony) • Sanan alkuperäismerkitys: henkilö, joka on tarkka rahojensa suhteen = pihi. • Biologiassa: Sen polun suosimista fylogeenisissa puissa, joka vaatii vähiten mutaatioita. • Mitä tiedämme: • Mutaatiot harvinaisia • Mitä enemmän harvinaisia tapahtumia malli sisältää, sitä varmemmin se on väärä Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  3. Informatiivisuus • Tarkastellaan positiota GGGG. Se voidaan esittää juurettomana puuna seuraavilla tavoilla: Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  4. Informatiivisuus (jatk.) • Tai Newick muodossa: • ((1,2)(3,4)); ((1,3)(2,4)); ((1,4))(2,4)) • Miten erotamme yhden puun muista? • V: emme mitenkään, kaikki nukleotidit epäinformatiivisia • Jos jossakin positioissa esiintyy kaikissa sama nukleotidi, sanomme positiota invariantiksi. Invariantit positiot eivät voi olla informatiivisia. • Esimerkki 2. Tarkastellaan positiota GGAA Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  5. Informatiivisuus (jatk.) Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  6. Informatiivisuus – vielä kerran • Vasemman yläkulman puussa vain yksi mutaatio  se voidaan erottaa muista puista tarkastelemalla MUTAATIOIDEN määrää. • Yleisesti ottaen, positio ei voi olla informatiivinen, jos siinä ei esiinny kahta eri nukleotidia, jotka molemmat esiintyvät vähintään kahdesti. • epäinformatiiviset positiot hylätään ennen tarkempaa analyysia  tulokset eroavat etäisyyspohjaisista metodeista. Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  7. Painottamaton niukkuus • Yksinkertaisimmassa mallissa teemme seuraavat toimenpiteet: • Karsimme positiot, jotka eivät ole informatiivisia • jokaiselle informatiiviselle paikalle valitaan paras puuesitys • Alussa sanoimme: Mitä enemmän harvinaisia tapahtumia malli sisältää, sitä varmemmin se on väärä • Nyt sanomme: Mitä vähemmän harvinaisia tapahtumia malli sisältää, sitä varmemmin se on oikein Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  8. …jatkoa • Puu, jossa esiintyy vähiten mutaatioita on niukin (tästä olemme siis kiinnostuneita). • Operaatioiden aikavaatimus kasvaa nopeasti käytettäessä triviaalialgoritmeja. • Algoritmi tulostaa minimaalisen puun substituutioiden määrän = puun niukkuuden arvo. Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  9. määritelmiä • Substituutioiden minimimäärä on lehtisolmuissa esiintyvien (eri) nukleotidien määrä – 1. • Puun pituus (length) saadaan huomioimalla substituutioiden määrä myös epäinformatiivisissa positioissa. Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  10. Painotettu niukkuus • Edellä esitetty malli (hirveä) yksinkertaistus: • ”Sakot” eri mutaatioille • Erityisesti jos vertailu suoritetaan aminohappotasolla, käytämme painoja, jolloin laskemme jokaiselle mutaatiolle ”utiliteetin”. • Ongelmia: • Jotkin sekvenssit herkempiä muuttumaan • Jotkin sekvenssit funktionaalisesti tärkeämpiä kuin toiset • Muutosten vaikutukset lajikohtaisia (ja/tai geenikoht.) Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  11. Päätellyt esi-isä sekvenssit • Niukkuuden tärkeimpiä sivutuotteita on minimaalisten esi-isä sekvenssien generointi: • Sekvenssit, jossa vähiten mutaatioita, ovat luultavimmin oikeita. • Voidaan päätellä puuttuvat linkit evoluutiossa! Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  12. Synapomorfia ja homoplasia • Apomorfia: • Piirre, joka on ominainen esi-isälle ja sen jälkeläisille, evolutionäärinen uutuus ryhmälle. • Synapomorfia • Kaksi tai useampaa taksonomista ryhmää jakavat saman apomorfisen piirteen  evolutionäärinen sukulaissuhde? • Informatiivisia paikkoja fylogeneettisissa puissa • Homoplasia • Piirre kehittynyt itsenäisesti. Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  13. Nopeammat hakumenetelmät • Niukkuusmenetelmä ei sovellu useiden sekvenssien analysointiin. • 10 sekvenssiä > 2 miljoonaa puuta  kaikkia mahdollisia puita ei voida käydä läpi (läpikäyvä haku = exhaustive search) • Tarkasteltava aineisto yleensä ainakin 10 kertaa suurempaa, kuin mihin tavalliset menetelmät pystyvät Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  14. Branch & Bound • 1. askel. Määritetään likimääräinen yläraja sille, mikä puun pituus on. • Satunnaisesti valittu puu • UPGMA • 2.askel. Kasvatetaan puuta askel kerrallaan. • Eli lisätään uusi haara • Tarkistetaan ylittyikö yläraja? • Jos ei, niin puuta kasvatetaan taas seuraavalla kierroksella. • Jos ylittyi, lopetetaan kyseessä oleva haara. Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  15. Esimerkki Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  16. Arviointia • Miksi menetelmä on tehokas? • Jos jokin haara tuottaa puun, jonka pituus > L, se ei voi olla paras mahdollinen, koska meillä on jo parempi. • Onko menetelmä tehokas? • Parempi kuin tavallinen niukkuusmenetelmän soveltaminen. • Ei kuitenkaan sovellu yli 20 sekvenssin data-aineistoille. Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  17. Heuristiset menetelmät • Jos sekvenssejä enemmän kuin 20 tarvitaan vielä tehokkaampia algoritmeja  heuristiset hakumenetelmät. • Perustuvat vuorikiipeilijä –algoritmiin • ”muistiton samoilija yrittää päästä tiheässä sumussa mahdollisimman korkealle” • Periaate bioinformatiikan algoritmeissa sama paitsi että nyt yritetään päästä korkeimmalta huipulta alas! Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  18. Heuristiset menetelmät • Muodostetaan jokin satunnainen puu. • Ryhdytään muokkaamaan puusta parempaa. • Branch swapping, oksien vaihtaminen • Ulkoot u(x) funktio, joka kuvaa puun x pituutta. • Jos vaihtamalla kaksi oksaa, alipuuta tai muuta isomorfista osaa saadaan puu y, jolla u(y) < u(x), niin vaihto tehdään. • Jatketaan kunnes ei enää voida parantaa tulosta. Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  19. Heuristiset menetelmät • Lokaali ratkaisu • Ei löydä välttämättä optimaalista ratkaisua • Tarpeeksi hyvä? • Miten voidaan parantaa? • Useita kierroksia, joka kierroksella generoidaan uusi puu ja pyritään parantamaan tulosta. • Jos useita kierroksia ilman parannusta, olemme löytäneet kenties kelvollisen? Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

  20. Muita? • Jaetaan laajemmat kokonaisuudet osiin ja sovelletaan menetelmiä osaongelmiin (divide and conquer). • Muita optimointialgoritmeja • Geneettiset algoritmit • Simuloitu jäähdytys • kts. Russel & Norvig – Artificial Intelligence Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris

More Related