1 / 34

7. Monirinnastus

7. Monirinnastus. Geeni perhe: ryhmä läheisiä toisilleen sukua olevia geenejä, jotka koodaavat samankaltaisia proteiinituotteita Etsitään yhteisiä säilyneitä alueita

hallie
Download Presentation

7. Monirinnastus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 7. Monirinnastus • Geeni perhe: ryhmä läheisiä toisilleen sukua olevia geenejä, jotka koodaavat samankaltaisia proteiinituotteita • Etsitään yhteisiä säilyneitä alueita • Tarkastelemalla useita jonoja yhtä aikaa pyritään vähentämään yksittäisistä jonoista johtuvaa kohinaa(signaali/kohina  geeni/mutaatiot) Johdatus bioinformatiikkaan / T. Pasanen

  2. Päämäärä ja sen tarkkuus • Informaatio, minkä avulla yritetään päätellä onko uusi jono sukua vai ei tiettyyn geeniperheeseen (ennustus!) • Rinnastukset ovat vain matemaattisia ja biologisia malleja • Miten tarkasti malli toimii biologisen tiedon kuvaajana? Johdatus bioinformatiikkaan / T. Pasanen

  3. Eri tasot monirinnastuksessa • Sekvenssi • rinnastettavat kohdat haetaan kustannusfunktioiden perusteella • kuvastaa evoluution kulkua (mut,korv) • Sekundääri- ja tertiäärirakenne • translaation jälkeiset stabiilit proteenit • rinnastettavat kohdat rakenteiden perusteella • “varmoja” oikeita esimerkkejä vähän Johdatus bioinformatiikkaan / T. Pasanen

  4. Monirinnastuksen määritelmä • Absoluuttinen positio: tähteen paikka alkuperäisessä jonossa • Suhteellinen positio: tähteen paikka monirinnastuksessa Johdatus bioinformatiikkaan / T. Pasanen

  5. Rekursio kolmelle jonolle F(i1, i2, i3) =max{ F(i11, i2 1, i31) + s(x1[i1], x2[i2], x3[i3]),F(i1, i2 1, i31) + s(, x2[i2], x3[i3]), …, F(i1, i2, i3 1) + s( ,  , x3[i3]), F(i1, i2 1, i3) + s( , x2[i2], ), F(i1 1, i2, i3) + s(x1[i1],  , )} Johdatus bioinformatiikkaan / T. Pasanen

  6. Suoran rekursion vaativuus • Matriisissa ainakin n1· n2 · · · nr = nr lokeroa kun jokaisen jonon pituus n • Laskennassa tarvitaan O(2r ·nr) päätöstä (vrt. edellinen rekursiokaava) Johdatus bioinformatiikkaan / T. Pasanen

  7. Samankaltaisuusfunktio • DNA: s:{A,C,G,T,-}r Real • Ideaalitapauksessa riippuvainen positiosta (säilyneet alueet) ja siitä että sekvenssit eivät ole satunnaisia vaan ne voidaan yhdistää toisiinsa fylogeneetisen puun avulla (aika, toiminnallisten osien muutos evoluutiossa jne) Johdatus bioinformatiikkaan / T. Pasanen

  8. Samankaltaisuusfunktio …yksinkertaistuksia • Ei riippuvaisuutta paikasta • Sarakkeet riippumattomia toisistaan • Monirinnastuksen pistemääräksi määritellään S(m) = G + iS(mi),missä S(mi) on sarakkeen i pisteet (score) ja G on kolojen kustannus(?) Johdatus bioinformatiikkaan / T. Pasanen

  9. Samankaltaisuusfunktio …Lähin kirjain • Esitään kirjain joka on lähinnä kaikkia eli “lähin kirjain”, jolloin sarakkeen kustannus määritellään:S(mi) = min1 j  r s(mi[ j], ) missä mi[ j] on j:s kirjain sarakkeessa i Johdatus bioinformatiikkaan / T. Pasanen

  10. Samankaltaisuusfunktio … Entropiaan perustuva • Oletetaan riippumattomuus sekä sarake- että rivisuuntaisesti • cia merkin a esiintymien määrä (frekvenssi) rinnastuksen sarakkeessa i • sarakeen mi todennäköisyys onP(mi) =  (pia)cia, missä pia on cia /r • S(mi) = a cia log pia Johdatus bioinformatiikkaan / T. Pasanen

  11. Samankaltaisuusfunktio …Parien summa (SP) • S(mi) = 1 j<k  r s(mi[ j], mi[k]) • Evoluution merkitys vääristyy! • r jonoa, kaikilla on L tietyssä paikassa • BLOSUM 50 antaa pistearvon 5r(r 1)/2 • yhteen korvataan G, s(G, L) =  4, pisteet vähenevät 9(r 1):llä • Uusi rinnastus on 18/5r huonompi kuin aikaisempi • r suurenee  “virheen” painoarvo pienenee! Johdatus bioinformatiikkaan / T. Pasanen

  12. Laskentatilan optimointi • Vähennetään laskettavia matriisin alkioita paririnnastuksien perusteella • Idea: monirinnastuksen implikoimat paririnnastukset eivät välttämättä optimaalisia Johdatus bioinformatiikkaan / T. Pasanen

  13. Laskentatilan optimointi... • Oletetaan, että monirinnastuksen M arvo lasketaan siinä esiintyvien paririnnastuksien Mi,j arvojen summana (SP) eli S(M) = i < j S(Mi,j) • Olkoon B optimaalinen SP-rinnastus eli S(B) = maxM S(M) • Lasketaan jollain heuristiikalla “hyvä” monirinnastus, olkoon sen arvo S’;nyt S’S(B) Johdatus bioinformatiikkaan / T. Pasanen

  14. Laskentatilan optimointi... • S’ S(B) = i < j S(Mi,j) = i jx y; i < jS(Bi,j) + S(Bx,y)   i jx y; i < jS(ai, aj) + S(Bx,y)[S(ai, aj) on paririnnastuksen optimi arvo] = i < jS(ai, aj) +S(Bx,y)  S(ax, ay) eliS(ax, ay)  S(Bx,y)  i < jS(ai, aj) S’ Johdatus bioinformatiikkaan / T. Pasanen

  15. Laskentatilan optimointi... • Position (ix , jy) paras arvo:V(x, ix , y, iy) = S(x[1..ix1], y[1..iy1] ) + s(x[ix], y[iy]) + S(x[nx ..ix+1], y[ny ..iy+1]) • Laskentaan tarvitaan vain O(n2) aika! • Raja 2D matriisin alkioille: S(ax, ay)  V(x, ix, y, iy)  i < j S(ai, aj) S’ Johdatus bioinformatiikkaan / T. Pasanen

  16. Laskentatilan optimointi... • Pareja r(r1)/2, joten laskentaan tarvitaan O(r 2 n2) työ • r-ulotteisesta matriisista käsitellään vain alkiot (i1, i2,..., ir), missä V(x, ix , y, jy) täyttää edellä esitetyn arvorajan kaikilla indeksipareilla (ix ,jy), kun 1x, y  r ja x  y. Johdatus bioinformatiikkaan / T. Pasanen

  17. Tuloksen esittäminen Johdatus bioinformatiikkaan / T. Pasanen

  18. Tuloksen esittäminen... • Profiili (painotettu keskimääräinen jono) kussakin sarakkeessa i lasketaan alkion a esiintymäkerrat cia, jonka perusteella lasketaan todennäköisyys cia/r • P = P1,..., Pn, missä Pi = (p0, p1, ..., p| |); tässä Pi[pj], 1 j, on j:nen kirjaimen esiintymän todennäköisyys sarakkeessa i ja p0 on tyhjän merkin todennäköisyys Johdatus bioinformatiikkaan / T. Pasanen

  19. Jonon vertaaminen profiiliin • Laskenta samankaltaisesti kuten aikaisemmin käyttämällä funktiota s(Pi, a) = s(, a)Pi[] eli F(Pi, j) = max{ F(Pi1, j1) + s(, x[j])Pi[],F(Pi 1, j) + s(, )Pi[]} • Tässä profiili kiinteä Johdatus bioinformatiikkaan / T. Pasanen

  20. Tuloksen esittäminen... • Blocks: etsitään rinnastuksesta yhtenäisiä hyvin säilyneitä tähteitä, joiden esiintymien perusteella lasketaan paikasta riippuvia pistematriiseja • Sormenjäljet: etsitään rinnastuksesta yhtenäisiä (lyhyitä) säilyneitä motiiveja, joiden avulla muodostetaan painottamattomia pistematriiseja Johdatus bioinformatiikkaan / T. Pasanen

  21. Progressiiviset menetelmät • Dynaamisen ohjelmoinnin käyttö ei ole käytännöllistä kun jonoja paljon • Yleinen rakenne • Tehdään alkioille parittainen vertailu • Toistetaan seuraavaa kunnes jäljellä on vain yksi alkio. Rinnastetaan kaksi lähintä alkiota (voivat olla jonoja tai rinnastuksia); tämä rinnastus on kiinteä eli sitä ei enää muuteta algoritmin kuluessa. Johdatus bioinformatiikkaan / T. Pasanen

  22. Feng-Doolittle • Laske jonojen paririnnastukset dynaamisella ohjelmoinnilla • Muodosta ryvästyksen avulla puu, minkä rakenteen mukaan jonot rinnastetaan • Rinnasta aina puun lähimmät alkiot (jonoja tai rinnastuksia) kunnes kaikki alkiot on rinnastettu; tässä järjestyksessä puu rakennettiin Johdatus bioinformatiikkaan / T. Pasanen

  23. Opaspuun rakennus Johdatus bioinformatiikkaan / T. Pasanen

  24. Feng-Doolittle... • Etäisyyksien laskenta ryvästyksessä: • Jono-ryhmä: ryhmän lähin jono • Ryhmä-ryhmä: ryhmien lähimmät jonot • Kolot korvataan symbolilla X minkä rinnastus ei maksa mitään; tällä paririnnastukset saadaan “yhteensopiviksi” monirinnastuksessa • periaate “once a gap, always a gap” Johdatus bioinformatiikkaan / T. Pasanen

  25. CLUSTALW • Laske jonojen paririnnastukset dynaamisella ohjelmoinnilla • Muodosta ohjauspuu ryvästämällä aina lähimmät naapurit • Rinnasta ohjauspuussa aina lähimmät alkiot (jonoja tai profiileja) kunnes kaikki alkiot on rinnastettu Johdatus bioinformatiikkaan / T. Pasanen

  26. CLUSTALW...Profiilien vertailu • Kahden profiilikirjaimen vertailu esim:s(P1i , P2j) = ( w|P1i[] P2j[]| ) 1/, missä w on painokerroin kirjaimelle  • F(P1i , P2j) = max{ F(P1i1, P2j1) + s(P1i , P2j),F(P1i1, P2j) + s(P1i , ),F(P1i, P2j1) + s(, P2j) } • Tässä “” voi merkitä kirjainta (1,0,...) tai jonoa “  ...” (rekursion loppu) Johdatus bioinformatiikkaan / T. Pasanen

  27. CLUSTALW ... Johdatus bioinformatiikkaan / T. Pasanen

  28. Iteratiiviset menetelmät • Koetetaan parantaa saatua tulosta esimerkiksi seuravasti: Muodosta profiili kahdesta lähimmästä jonosta. Täydennä/laajenna profiilia lisäämällä siihen toistuvasti jäljellä olevista jonoista lähin kunnes kaikki jonot on lisätty Toista seuraavaa Poista profiilista jono xi, i = 1,..., n, ja rinnasta se uudelleen profiiliin Johdatus bioinformatiikkaan / T. Pasanen

  29. Käsityö rinnastuksessa • Rinnastuksen biologinen merkitys • Identiteettien ja korvauksien määrä; (oikeellisuus) • Aut. rinnastus toimii huonosti kun samankaltaisuutta vähän! Johdatus bioinformatiikkaan / T. Pasanen

  30. Monirinnastustietokannat • Automaattisesti tehtyjä • Toisissa kannoissa tuloksia on lisäksi tarkasteltu manuaalisesti; tuottavat laadukkaamman tuloksen • Luvussa 3 esimerkkejä • Kolokustannuksen pitää riippua rinnastettavien jonojen määrästä ja niiden homologisuudesta! Johdatus bioinformatiikkaan / T. Pasanen

  31. Johdatus bioinformatiikkaan / T. Pasanen

  32. Johdatus bioinformatiikkaan / T. Pasanen

  33. Rinnastus hakujonona • Tietoa on “jalostettu” monirinnastuksella joten täsmäykset tietokantaan ovat “parempia” • Suoritusaika kasvaa ja tulokset vaikeammin tulkittavia • Käytetään yleensä vasta kun yhdellä jonolla etsintä tuottaa vain tiedettyjä samanlaisuuksia tai ei mitään tuloksia Johdatus bioinformatiikkaan / T. Pasanen

  34. PSI-BLASTPosition-Specific Iterated BLAST • Motiiveihin perustuva etsintä kaikkein herkintä ja valikoidumpaa • Haetaan kannasta täsmäykset • Toistetaan seuraavaa tarpeeksi: • Tulosjoukon perusteella muodostetaan motiivit, joilla haetaan uusi tulosjoukko joka korvaa aiemman • Yksi huono jono saattaa pilata kaiken Johdatus bioinformatiikkaan / T. Pasanen

More Related