200 likes | 309 Views
Merkkikohtaiset menetelmät fylogenetiikassa. Niukkuusperiaate (parsimony). Sanan alkuperäismerkitys: henkilö, joka on tarkka rahojensa suhteen = pihi. Biologiassa: Sen polun suosimista fylogeenisissa puissa, joka vaatii vähiten mutaatioita. Mitä tiedämme: Mutaatiot harvinaisia
E N D
Merkkikohtaiset menetelmät fylogenetiikassa Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Niukkuusperiaate (parsimony) • Sanan alkuperäismerkitys: henkilö, joka on tarkka rahojensa suhteen = pihi. • Biologiassa: Sen polun suosimista fylogeenisissa puissa, joka vaatii vähiten mutaatioita. • Mitä tiedämme: • Mutaatiot harvinaisia • Mitä enemmän harvinaisia tapahtumia malli sisältää, sitä varmemmin se on väärä Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Informatiivisuus • Tarkastellaan positiota GGGG. Se voidaan esittää juurettomana puuna seuraavilla tavoilla: Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Informatiivisuus (jatk.) • Tai Newick muodossa: • ((1,2)(3,4)); ((1,3)(2,4)); ((1,4))(2,4)) • Miten erotamme yhden puun muista? • V: emme mitenkään, kaikki nukleotidit epäinformatiivisia • Jos jossakin positioissa esiintyy kaikissa sama nukleotidi, sanomme positiota invariantiksi. Invariantit positiot eivät voi olla informatiivisia. • Esimerkki 2. Tarkastellaan positiota GGAA Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Informatiivisuus (jatk.) Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Informatiivisuus – vielä kerran • Vasemman yläkulman puussa vain yksi mutaatio se voidaan erottaa muista puista tarkastelemalla MUTAATIOIDEN määrää. • Yleisesti ottaen, positio ei voi olla informatiivinen, jos siinä ei esiinny kahta eri nukleotidia, jotka molemmat esiintyvät vähintään kahdesti. • epäinformatiiviset positiot hylätään ennen tarkempaa analyysia tulokset eroavat etäisyyspohjaisista metodeista. Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Painottamaton niukkuus • Yksinkertaisimmassa mallissa teemme seuraavat toimenpiteet: • Karsimme positiot, jotka eivät ole informatiivisia • jokaiselle informatiiviselle paikalle valitaan paras puuesitys • Alussa sanoimme: Mitä enemmän harvinaisia tapahtumia malli sisältää, sitä varmemmin se on väärä • Nyt sanomme: Mitä vähemmän harvinaisia tapahtumia malli sisältää, sitä varmemmin se on oikein Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
…jatkoa • Puu, jossa esiintyy vähiten mutaatioita on niukin (tästä olemme siis kiinnostuneita). • Operaatioiden aikavaatimus kasvaa nopeasti käytettäessä triviaalialgoritmeja. • Algoritmi tulostaa minimaalisen puun substituutioiden määrän = puun niukkuuden arvo. Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
määritelmiä • Substituutioiden minimimäärä on lehtisolmuissa esiintyvien (eri) nukleotidien määrä – 1. • Puun pituus (length) saadaan huomioimalla substituutioiden määrä myös epäinformatiivisissa positioissa. Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Painotettu niukkuus • Edellä esitetty malli (hirveä) yksinkertaistus: • ”Sakot” eri mutaatioille • Erityisesti jos vertailu suoritetaan aminohappotasolla, käytämme painoja, jolloin laskemme jokaiselle mutaatiolle ”utiliteetin”. • Ongelmia: • Jotkin sekvenssit herkempiä muuttumaan • Jotkin sekvenssit funktionaalisesti tärkeämpiä kuin toiset • Muutosten vaikutukset lajikohtaisia (ja/tai geenikoht.) Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Päätellyt esi-isä sekvenssit • Niukkuuden tärkeimpiä sivutuotteita on minimaalisten esi-isä sekvenssien generointi: • Sekvenssit, jossa vähiten mutaatioita, ovat luultavimmin oikeita. • Voidaan päätellä puuttuvat linkit evoluutiossa! Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Synapomorfia ja homoplasia • Apomorfia: • Piirre, joka on ominainen esi-isälle ja sen jälkeläisille, evolutionäärinen uutuus ryhmälle. • Synapomorfia • Kaksi tai useampaa taksonomista ryhmää jakavat saman apomorfisen piirteen evolutionäärinen sukulaissuhde? • Informatiivisia paikkoja fylogeneettisissa puissa • Homoplasia • Piirre kehittynyt itsenäisesti. Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Nopeammat hakumenetelmät • Niukkuusmenetelmä ei sovellu useiden sekvenssien analysointiin. • 10 sekvenssiä > 2 miljoonaa puuta kaikkia mahdollisia puita ei voida käydä läpi (läpikäyvä haku = exhaustive search) • Tarkasteltava aineisto yleensä ainakin 10 kertaa suurempaa, kuin mihin tavalliset menetelmät pystyvät Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Branch & Bound • 1. askel. Määritetään likimääräinen yläraja sille, mikä puun pituus on. • Satunnaisesti valittu puu • UPGMA • 2.askel. Kasvatetaan puuta askel kerrallaan. • Eli lisätään uusi haara • Tarkistetaan ylittyikö yläraja? • Jos ei, niin puuta kasvatetaan taas seuraavalla kierroksella. • Jos ylittyi, lopetetaan kyseessä oleva haara. Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Esimerkki Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Arviointia • Miksi menetelmä on tehokas? • Jos jokin haara tuottaa puun, jonka pituus > L, se ei voi olla paras mahdollinen, koska meillä on jo parempi. • Onko menetelmä tehokas? • Parempi kuin tavallinen niukkuusmenetelmän soveltaminen. • Ei kuitenkaan sovellu yli 20 sekvenssin data-aineistoille. Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Heuristiset menetelmät • Jos sekvenssejä enemmän kuin 20 tarvitaan vielä tehokkaampia algoritmeja heuristiset hakumenetelmät. • Perustuvat vuorikiipeilijä –algoritmiin • ”muistiton samoilija yrittää päästä tiheässä sumussa mahdollisimman korkealle” • Periaate bioinformatiikan algoritmeissa sama paitsi että nyt yritetään päästä korkeimmalta huipulta alas! Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Heuristiset menetelmät • Muodostetaan jokin satunnainen puu. • Ryhdytään muokkaamaan puusta parempaa. • Branch swapping, oksien vaihtaminen • Ulkoot u(x) funktio, joka kuvaa puun x pituutta. • Jos vaihtamalla kaksi oksaa, alipuuta tai muuta isomorfista osaa saadaan puu y, jolla u(y) < u(x), niin vaihto tehdään. • Jatketaan kunnes ei enää voida parantaa tulosta. Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Heuristiset menetelmät • Lokaali ratkaisu • Ei löydä välttämättä optimaalista ratkaisua • Tarpeeksi hyvä? • Miten voidaan parantaa? • Useita kierroksia, joka kierroksella generoidaan uusi puu ja pyritään parantamaan tulosta. • Jos useita kierroksia ilman parannusta, olemme löytäneet kenties kelvollisen? Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris
Muita? • Jaetaan laajemmat kokonaisuudet osiin ja sovelletaan menetelmiä osaongelmiin (divide and conquer). • Muita optimointialgoritmeja • Geneettiset algoritmit • Simuloitu jäähdytys • kts. Russel & Norvig – Artificial Intelligence Petteri Nurmi, Eero Huvio, Jussi Kollin & Mikko Waris