340 likes | 438 Views
7. Monirinnastus. Geeni perhe: ryhmä läheisiä toisilleen sukua olevia geenejä, jotka koodaavat samankaltaisia proteiinituotteita Etsitään yhteisiä säilyneitä alueita
E N D
7. Monirinnastus • Geeni perhe: ryhmä läheisiä toisilleen sukua olevia geenejä, jotka koodaavat samankaltaisia proteiinituotteita • Etsitään yhteisiä säilyneitä alueita • Tarkastelemalla useita jonoja yhtä aikaa pyritään vähentämään yksittäisistä jonoista johtuvaa kohinaa(signaali/kohina geeni/mutaatiot) Johdatus bioinformatiikkaan / T. Pasanen
Päämäärä ja sen tarkkuus • Informaatio, minkä avulla yritetään päätellä onko uusi jono sukua vai ei tiettyyn geeniperheeseen (ennustus!) • Rinnastukset ovat vain matemaattisia ja biologisia malleja • Miten tarkasti malli toimii biologisen tiedon kuvaajana? Johdatus bioinformatiikkaan / T. Pasanen
Eri tasot monirinnastuksessa • Sekvenssi • rinnastettavat kohdat haetaan kustannusfunktioiden perusteella • kuvastaa evoluution kulkua (mut,korv) • Sekundääri- ja tertiäärirakenne • translaation jälkeiset stabiilit proteenit • rinnastettavat kohdat rakenteiden perusteella • “varmoja” oikeita esimerkkejä vähän Johdatus bioinformatiikkaan / T. Pasanen
Monirinnastuksen määritelmä • Absoluuttinen positio: tähteen paikka alkuperäisessä jonossa • Suhteellinen positio: tähteen paikka monirinnastuksessa Johdatus bioinformatiikkaan / T. Pasanen
Rekursio kolmelle jonolle F(i1, i2, i3) =max{ F(i11, i2 1, i31) + s(x1[i1], x2[i2], x3[i3]),F(i1, i2 1, i31) + s(, x2[i2], x3[i3]), …, F(i1, i2, i3 1) + s( , , x3[i3]), F(i1, i2 1, i3) + s( , x2[i2], ), F(i1 1, i2, i3) + s(x1[i1], , )} Johdatus bioinformatiikkaan / T. Pasanen
Suoran rekursion vaativuus • Matriisissa ainakin n1· n2 · · · nr = nr lokeroa kun jokaisen jonon pituus n • Laskennassa tarvitaan O(2r ·nr) päätöstä (vrt. edellinen rekursiokaava) Johdatus bioinformatiikkaan / T. Pasanen
Samankaltaisuusfunktio • DNA: s:{A,C,G,T,-}r Real • Ideaalitapauksessa riippuvainen positiosta (säilyneet alueet) ja siitä että sekvenssit eivät ole satunnaisia vaan ne voidaan yhdistää toisiinsa fylogeneetisen puun avulla (aika, toiminnallisten osien muutos evoluutiossa jne) Johdatus bioinformatiikkaan / T. Pasanen
Samankaltaisuusfunktio …yksinkertaistuksia • Ei riippuvaisuutta paikasta • Sarakkeet riippumattomia toisistaan • Monirinnastuksen pistemääräksi määritellään S(m) = G + iS(mi),missä S(mi) on sarakkeen i pisteet (score) ja G on kolojen kustannus(?) Johdatus bioinformatiikkaan / T. Pasanen
Samankaltaisuusfunktio …Lähin kirjain • Esitään kirjain joka on lähinnä kaikkia eli “lähin kirjain”, jolloin sarakkeen kustannus määritellään:S(mi) = min1 j r s(mi[ j], ) missä mi[ j] on j:s kirjain sarakkeessa i Johdatus bioinformatiikkaan / T. Pasanen
Samankaltaisuusfunktio … Entropiaan perustuva • Oletetaan riippumattomuus sekä sarake- että rivisuuntaisesti • cia merkin a esiintymien määrä (frekvenssi) rinnastuksen sarakkeessa i • sarakeen mi todennäköisyys onP(mi) = (pia)cia, missä pia on cia /r • S(mi) = a cia log pia Johdatus bioinformatiikkaan / T. Pasanen
Samankaltaisuusfunktio …Parien summa (SP) • S(mi) = 1 j<k r s(mi[ j], mi[k]) • Evoluution merkitys vääristyy! • r jonoa, kaikilla on L tietyssä paikassa • BLOSUM 50 antaa pistearvon 5r(r 1)/2 • yhteen korvataan G, s(G, L) = 4, pisteet vähenevät 9(r 1):llä • Uusi rinnastus on 18/5r huonompi kuin aikaisempi • r suurenee “virheen” painoarvo pienenee! Johdatus bioinformatiikkaan / T. Pasanen
Laskentatilan optimointi • Vähennetään laskettavia matriisin alkioita paririnnastuksien perusteella • Idea: monirinnastuksen implikoimat paririnnastukset eivät välttämättä optimaalisia Johdatus bioinformatiikkaan / T. Pasanen
Laskentatilan optimointi... • Oletetaan, että monirinnastuksen M arvo lasketaan siinä esiintyvien paririnnastuksien Mi,j arvojen summana (SP) eli S(M) = i < j S(Mi,j) • Olkoon B optimaalinen SP-rinnastus eli S(B) = maxM S(M) • Lasketaan jollain heuristiikalla “hyvä” monirinnastus, olkoon sen arvo S’;nyt S’S(B) Johdatus bioinformatiikkaan / T. Pasanen
Laskentatilan optimointi... • S’ S(B) = i < j S(Mi,j) = i jx y; i < jS(Bi,j) + S(Bx,y) i jx y; i < jS(ai, aj) + S(Bx,y)[S(ai, aj) on paririnnastuksen optimi arvo] = i < jS(ai, aj) +S(Bx,y) S(ax, ay) eliS(ax, ay) S(Bx,y) i < jS(ai, aj) S’ Johdatus bioinformatiikkaan / T. Pasanen
Laskentatilan optimointi... • Position (ix , jy) paras arvo:V(x, ix , y, iy) = S(x[1..ix1], y[1..iy1] ) + s(x[ix], y[iy]) + S(x[nx ..ix+1], y[ny ..iy+1]) • Laskentaan tarvitaan vain O(n2) aika! • Raja 2D matriisin alkioille: S(ax, ay) V(x, ix, y, iy) i < j S(ai, aj) S’ Johdatus bioinformatiikkaan / T. Pasanen
Laskentatilan optimointi... • Pareja r(r1)/2, joten laskentaan tarvitaan O(r 2 n2) työ • r-ulotteisesta matriisista käsitellään vain alkiot (i1, i2,..., ir), missä V(x, ix , y, jy) täyttää edellä esitetyn arvorajan kaikilla indeksipareilla (ix ,jy), kun 1x, y r ja x y. Johdatus bioinformatiikkaan / T. Pasanen
Tuloksen esittäminen Johdatus bioinformatiikkaan / T. Pasanen
Tuloksen esittäminen... • Profiili (painotettu keskimääräinen jono) kussakin sarakkeessa i lasketaan alkion a esiintymäkerrat cia, jonka perusteella lasketaan todennäköisyys cia/r • P = P1,..., Pn, missä Pi = (p0, p1, ..., p| |); tässä Pi[pj], 1 j, on j:nen kirjaimen esiintymän todennäköisyys sarakkeessa i ja p0 on tyhjän merkin todennäköisyys Johdatus bioinformatiikkaan / T. Pasanen
Jonon vertaaminen profiiliin • Laskenta samankaltaisesti kuten aikaisemmin käyttämällä funktiota s(Pi, a) = s(, a)Pi[] eli F(Pi, j) = max{ F(Pi1, j1) + s(, x[j])Pi[],F(Pi 1, j) + s(, )Pi[]} • Tässä profiili kiinteä Johdatus bioinformatiikkaan / T. Pasanen
Tuloksen esittäminen... • Blocks: etsitään rinnastuksesta yhtenäisiä hyvin säilyneitä tähteitä, joiden esiintymien perusteella lasketaan paikasta riippuvia pistematriiseja • Sormenjäljet: etsitään rinnastuksesta yhtenäisiä (lyhyitä) säilyneitä motiiveja, joiden avulla muodostetaan painottamattomia pistematriiseja Johdatus bioinformatiikkaan / T. Pasanen
Progressiiviset menetelmät • Dynaamisen ohjelmoinnin käyttö ei ole käytännöllistä kun jonoja paljon • Yleinen rakenne • Tehdään alkioille parittainen vertailu • Toistetaan seuraavaa kunnes jäljellä on vain yksi alkio. Rinnastetaan kaksi lähintä alkiota (voivat olla jonoja tai rinnastuksia); tämä rinnastus on kiinteä eli sitä ei enää muuteta algoritmin kuluessa. Johdatus bioinformatiikkaan / T. Pasanen
Feng-Doolittle • Laske jonojen paririnnastukset dynaamisella ohjelmoinnilla • Muodosta ryvästyksen avulla puu, minkä rakenteen mukaan jonot rinnastetaan • Rinnasta aina puun lähimmät alkiot (jonoja tai rinnastuksia) kunnes kaikki alkiot on rinnastettu; tässä järjestyksessä puu rakennettiin Johdatus bioinformatiikkaan / T. Pasanen
Opaspuun rakennus Johdatus bioinformatiikkaan / T. Pasanen
Feng-Doolittle... • Etäisyyksien laskenta ryvästyksessä: • Jono-ryhmä: ryhmän lähin jono • Ryhmä-ryhmä: ryhmien lähimmät jonot • Kolot korvataan symbolilla X minkä rinnastus ei maksa mitään; tällä paririnnastukset saadaan “yhteensopiviksi” monirinnastuksessa • periaate “once a gap, always a gap” Johdatus bioinformatiikkaan / T. Pasanen
CLUSTALW • Laske jonojen paririnnastukset dynaamisella ohjelmoinnilla • Muodosta ohjauspuu ryvästämällä aina lähimmät naapurit • Rinnasta ohjauspuussa aina lähimmät alkiot (jonoja tai profiileja) kunnes kaikki alkiot on rinnastettu Johdatus bioinformatiikkaan / T. Pasanen
CLUSTALW...Profiilien vertailu • Kahden profiilikirjaimen vertailu esim:s(P1i , P2j) = ( w|P1i[] P2j[]| ) 1/, missä w on painokerroin kirjaimelle • F(P1i , P2j) = max{ F(P1i1, P2j1) + s(P1i , P2j),F(P1i1, P2j) + s(P1i , ),F(P1i, P2j1) + s(, P2j) } • Tässä “” voi merkitä kirjainta (1,0,...) tai jonoa “ ...” (rekursion loppu) Johdatus bioinformatiikkaan / T. Pasanen
CLUSTALW ... Johdatus bioinformatiikkaan / T. Pasanen
Iteratiiviset menetelmät • Koetetaan parantaa saatua tulosta esimerkiksi seuravasti: Muodosta profiili kahdesta lähimmästä jonosta. Täydennä/laajenna profiilia lisäämällä siihen toistuvasti jäljellä olevista jonoista lähin kunnes kaikki jonot on lisätty Toista seuraavaa Poista profiilista jono xi, i = 1,..., n, ja rinnasta se uudelleen profiiliin Johdatus bioinformatiikkaan / T. Pasanen
Käsityö rinnastuksessa • Rinnastuksen biologinen merkitys • Identiteettien ja korvauksien määrä; (oikeellisuus) • Aut. rinnastus toimii huonosti kun samankaltaisuutta vähän! Johdatus bioinformatiikkaan / T. Pasanen
Monirinnastustietokannat • Automaattisesti tehtyjä • Toisissa kannoissa tuloksia on lisäksi tarkasteltu manuaalisesti; tuottavat laadukkaamman tuloksen • Luvussa 3 esimerkkejä • Kolokustannuksen pitää riippua rinnastettavien jonojen määrästä ja niiden homologisuudesta! Johdatus bioinformatiikkaan / T. Pasanen
Rinnastus hakujonona • Tietoa on “jalostettu” monirinnastuksella joten täsmäykset tietokantaan ovat “parempia” • Suoritusaika kasvaa ja tulokset vaikeammin tulkittavia • Käytetään yleensä vasta kun yhdellä jonolla etsintä tuottaa vain tiedettyjä samanlaisuuksia tai ei mitään tuloksia Johdatus bioinformatiikkaan / T. Pasanen
PSI-BLASTPosition-Specific Iterated BLAST • Motiiveihin perustuva etsintä kaikkein herkintä ja valikoidumpaa • Haetaan kannasta täsmäykset • Toistetaan seuraavaa tarpeeksi: • Tulosjoukon perusteella muodostetaan motiivit, joilla haetaan uusi tulosjoukko joka korvaa aiemman • Yksi huono jono saattaa pilata kaiken Johdatus bioinformatiikkaan / T. Pasanen