450 likes | 614 Views
6. Kahden jonon rinnastus. Sekvenssitaso (DNA, proteiini): identiteetti, samankaltaisuus, homologia Aakkostotaso (DNA, proteiini): identiteetti, vastaavuus, lisäys, poisto
E N D
6. Kahden jonon rinnastus • Sekvenssitaso (DNA, proteiini):identiteetti, samankaltaisuus, homologia • Aakkostotaso (DNA, proteiini):identiteetti, vastaavuus, lisäys, poisto • Yritetään päätellään sekvenssien suhteita käyttämällä aakkostoja ja erilaisia kustannusfunktioita, joilla yritetään mallintaa evoluutiota Johdatus bioinformatiikkaan / T. Pasanen
Rinnastus Johdatus bioinformatiikkaan / T. Pasanen
Rinnastus ... ACTGC ACCGC A-CGCA-CGTC • Kaksi rinnastustaACTG-C tai ACTG-CA-CGTC AC-GTC • Kumpi rinnastuksista on oikea/parempi? • Evoluutiota ei voi arvata rinnastuksella • Lisäyksiä ja poistoja ei voi erottaa Johdatus bioinformatiikkaan / T. Pasanen
Rinnastus ... Johdatus bioinformatiikkaan / T. Pasanen
Samankaltaisuuden mitta • Ei ole yhteisesti hyväksyttyä tarkkaa tapaa mitata samankaltaisuutta • Perusoperaatiot: Identiteetti, Korvaus, Lisäys ja Poisto; yleisestimax{ (x)I (x)K (x)L (x)P} • Miten funtiot , , ja määritellään?Voivat olla monimutkaisia funktioita (positio, positioiden peräkkäisyys jne) Johdatus bioinformatiikkaan / T. Pasanen
Yksinkertaistus • Lasketaan vain Identiteetit, Korvaukset ja Aukot (gaps) eli poistot: max{ (x)I (x)K (x)A } • Identiteettien ja korvauksien arvot (“hyvyydet”) annetaan matriisimuodossa ja aukon sakkokustannus (x) tehtävän mukaan (yleensä vakio) Johdatus bioinformatiikkaan / T. Pasanen
Rinnastuksen tulokset • Rinnastuksen tuottama samankaltai-suusarvo on suurin funktion M = max{ (x)I (x)K (x)A } arvo • Samalla annetaan myös kaikki sekvenssien erilaiset rinnastukset joiden tuottama samankaltaisuusarvo on M eli voi olla useita sekvenssien rinnastuksia jotka tuottavat arvon M Johdatus bioinformatiikkaan / T. Pasanen
Korvaus-kustannus Johdatus bioinformatiikkaan / T. Pasanen
Dayhoff mutaatiomatriisit PAM = Point Accepted Mutations • Todennäköisyysmatriisit perustuvat 85% identtisiin sekvensseihin • Matriiseja kertomalla saadaan todennäköisyydet kaukaisille jonoille • Käytettävä matriisi pitäisi valita jonojen etäisyyden perusteella?, esim 250 PAM kun identiteettejä on vain 20% • Arvot on muutettu kokonaisluvuiksi Johdatus bioinformatiikkaan / T. Pasanen
Korvaus-kustannus Johdatus bioinformatiikkaan / T. Pasanen
Identtisyys ja PAM luvut • Ongelma: miten tehdä sellainen matriisi jolla tunnistetaan sekvenssien sukulaisuudet kun jonoissa on vain 20% identtisiä merkkejä? Johdatus bioinformatiikkaan / T. Pasanen
BLOSUM matriisit • BLOcks SUBstitution Matrix • Tehty BLOCKS kannan perusteella • BLOSUM X on tehty sekvenssiryppään perusteella jossa kaikki jonot ovat ainakin X% samanlaisia, esim BLOSUM 62, BLOSUM 80 jne Johdatus bioinformatiikkaan / T. Pasanen
Korvaus-kustannus Johdatus bioinformatiikkaan / T. Pasanen
Matriisien vaikutus Johdatus bioinformatiikkaan / T. Pasanen
Tilastollinen arviointi • Arvo = score ja Expect = mitä lähempänä 0:llaa sitä “todellisempi” täsmäys Johdatus bioinformatiikkaan / T. Pasanen
Globaali rinnastus • kaavassa funktio d kuvaa poiston kustannusta ja funktio s alkioiden samankaltaisuutta • erilaisia rinnastuksia 2O(n) Johdatus bioinformatiikkaan / T. Pasanen
Laskenta matriisissa Johdatus bioinformatiikkaan / T. Pasanen
Algoritmi (Gotoh 1982) S0,0 0 for i 1..n do Si,0 Si-1,0-d for j 1..m do S0,j S0,j-1-d for i 1..n do for j 1..m do Si,j max{Si-1,j - d, Si-1,j-1 + s(xi,yj), Si,j-1 - d} Johdatus bioinformatiikkaan / T. Pasanen
Merkityksiä • Ensimmäisen rivi kertoo kustannukset kun jonosta y postetaan kirjaimia alusta • Ensimmäisen sarake kertoo kustannukset kun jonosta x poistetaan kirjaimia alusta • Matriisin alkio (i, j) kertoo jonojen x1..xi ja y1..yj samankaltaisuuden eli paikasta (n, m) löydetään globaalin rinnastuksen arvo Johdatus bioinformatiikkaan / T. Pasanen
Esimerkki Johdatus bioinformatiikkaan / T. Pasanen
Esimerkki ... Johdatus bioinformatiikkaan / T. Pasanen
Alkuperäinen Needleman-Wunsch (1970) Johdatus bioinformatiikkaan / T. Pasanen
Alkuperäinen Needleman-Wunsch algoritmi ... Johdatus bioinformatiikkaan / T. Pasanen
Alkuperäinen Needleman-Wunsch algoritmi ... Johdatus bioinformatiikkaan / T. Pasanen
Alkuperäinen Needleman-Wunsch algoritmi ... Johdatus bioinformatiikkaan / T. Pasanen
Dotplot Johdatus bioinformatiikkaan / T. Pasanen
Dotplot ... Johdatus bioinformatiikkaan / T. Pasanen
Lokaali rinnastus Johdatus bioinformatiikkaan / T. Pasanen
Lokaali rinnastusalgoritmi for i 0..n do Si,0 0 for j 0..m do S0,j 0 for i 1..n do for j 1..m do Si,j max{0, Si-1,j - d, Si-1,j-1 + s(xi,yj), Si,j-1 - d} Johdatus bioinformatiikkaan / T. Pasanen
Merkitykset • Ensimmäinen nollarivi antaa anteeksi tuhotut kirjaimet jonosta y • Ensimmäinen nollasarake antaa anteeksi tuhotut kirjaimet jonosta x • 0 rekursiyhtälössä sallii uuden rinnastuksn aloittamisen mistä vain • Rinnastuksen arvo on max{(i, j)} mikä antaa anteeksi rinnastuksen xi+1..xn ja yj+1..yn Johdatus bioinformatiikkaan / T. Pasanen
Lokaali rinnastus ... Johdatus bioinformatiikkaan / T. Pasanen
Smith-Waterman rinnastus Johdatus bioinformatiikkaan / T. Pasanen
Smith-Waterman rinnastus ... • täsmäys 1.0 ja epätäsmäys -0.33 Johdatus bioinformatiikkaan / T. Pasanen
Smith-Waterman rinnastus ... Johdatus bioinformatiikkaan / T. Pasanen
Dynaaminen ohjelmointi • Edellä esitetyt algoritmit ovat esimerkkejä ns. dynaamisesta ohjelmoinnista • Ongelma voidaan hajoittaa osaongelmiin (tyypillisesti päälekkäisiä), joiden arvon tallentamisesta voidaan hyötyä myöhemmin kun niitä ei tarvitse laskea uudelleen Johdatus bioinformatiikkaan / T. Pasanen
FastA (1985) • Haetaan lyhyet samanlaiset osajonot (proteiinit 1-2, DNA 6) vrt dotplot • Yhdistellään saatuja pätkiä ja jos täsmäyksiä löytyy paljon niin käytetään dynaamista ohjelmointia Johdatus bioinformatiikkaan / T. Pasanen
BLAST (1990) P35348 • Basic Local Alignment Search Tool • Erittäin nopea, koska optimoitu rinnakkaisille UNIX koneille • Esii kaikki tietyn mittaiset yhtenäiset osajonot joiden saama samankaltai-suusarvo ylittää tietyn kynnysarvon • Näitä täsmäyksiä pidennetään tietyin ehdoin ja ne annetaann tulokseksi Johdatus bioinformatiikkaan / T. Pasanen
BLAST aukoilla • Etsitään joinoista vain alue, jonka antama samankaltaisuuarvo on korkein ja laajennetaan tätä täsmäystä dynaamisella ohjelmoinnilla • Nopeampi kuin edellinen (n. kolme kertaa) koska ei tarvitse tarkastella kaikki tarpeeksi hyviä täsmäyksiä Johdatus bioinformatiikkaan / T. Pasanen
Osittain päälekkäinen täsmäys • Hännistä ei haluta maksaa! Johdatus bioinformatiikkaan / T. Pasanen
Rekursioyhtälö • Yhtälö sama kuin globaalissa rinnastuksessa, mutta alkuarvot samat kuin lokaalissa rinnastuksessa Johdatus bioinformatiikkaan / T. Pasanen
Algoritmi for i 0..n do Si,0 0 for j 0..m do S0,j 0 for i 1..n do for j 1..m do Si,j max{Si-1,j - d, Si-1,j-1 + s(xi,yj), Si,j-1 - d} Johdatus bioinformatiikkaan / T. Pasanen
Merkitykset • Ensimmäinen nollarivi (vast. nollasarake) antaa anteeksi tuhotut kirjaimet jonosta x (vast. y) • Maksimin etsiminen alimmaiselta riviltä (vast. sarakkeelta) antaa anteeksi jonon x (vast. y) loppuosan • Rinnastuksen tulos on max{{(n, j) 1 jm}, {(i, m) 1 in}} Johdatus bioinformatiikkaan / T. Pasanen
Esimerkki Johdatus bioinformatiikkaan / T. Pasanen