1 / 25

UNIVERSITATEA POLITEHNICA TIMIŞOARA

UNIVERSITATEA POLITEHNICA TIMIŞOARA. MASTER SIIS Sisteme Informatice în Îngrijirea Sănătății. www.medinfo.umft.ro/dim / bioinformatica.htm. BIOINFORMATICA. Prof Dr George I Mihala ş UMF Victor Babeş. CURSUL 9. ALINIEREA MULTIPLĂ MSA “MULTIPLE SEQUENCE ALIGNEMENT”.

sun
Download Presentation

UNIVERSITATEA POLITEHNICA TIMIŞOARA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UNIVERSITATEAPOLITEHNICA TIMIŞOARA MASTER SIIS Sisteme Informatice în Îngrijirea Sănătății

  2. www.medinfo.umft.ro/dim/bioinformatica.htm

  3. BIOINFORMATICA Prof Dr George I Mihalaş UMF Victor Babeş

  4. CURSUL 9

  5. ALINIEREA MULTIPLĂ MSA “MULTIPLE SEQUENCE ALIGNEMENT”

  6. Scop şi Motivaţie pentru MSA PROBLEMA: Fiind date: - un set de mai mult de 2 secvenţe - o metodă de scor pentru o aliniere, să se determine corespondenţele între secvenţe astfel încât scorul de aliniere să fie maxim.

  7. Motivaţie: • Stabilirea datelor de intrare pentru analiza filogenetică • Determinarea istoriei evolutive a unui set de secvenţe (în ce punct au apărut anumite mutaţii?) • Descoperirea unui “motiv” comun într-un set de secvenţe (ex secvenţe de ADN care leagă aceeaşi proteină) • Caracterizarea unui set de secvenţe (ex o familie de proteine) • Construcţia profilelor pentru căutarea bazelor de date de secvenţe (PSI-BLAST)

  8. Ex: Aliniere Multiplă a Domeniului SH3 • Domeniu scurt (60 AA) • Prezent în enzime (kinaze, fosfolipaze etc) • Cca 300 în genomul uman

  9. Reprezentări • Pe coloane • Cu simboluri

  10. Scoruri pentru MSA • Ipoteză: coloanele individuale ale unei alinieri sunt independente • Formulă: • Metode: • Suma perechilor (SP) • Entropia minima

  11. Suma perechilor • Calculează suma scorurilor din alinierea perechilor

  12. Exemplu • 5 secvențe ADN și matricea de substituție • Calculul sumei S(3) Notăm: S12 = s(m31, m32) S(3) = S12 + S13 + S14 + S15 + + S23 + S24 + S25 + + S34 + S35 + + S45 = = s(g,a) + s(g,a) + s(g,-) + s(g,c) + + s(a,a) + s(a,-) + s(a,c) + + s(a,-) + s(a,c) + + s(-,c) = = (-1 -1 -3 -2) + (+4 -3 -2) + (-3 -2) + (-3) = -7 -1 -5 -3 = -16

  13. Entropia Minimă (i) • Ideea de bază: încercarea de minimizare a entropiei fiecărei coloane • [sunt “bune” coloanele ce pot fi comunicate cu puţini biţi] • Teoria informaţiei: codul optim foloseşte- log2 pbiţi pentru a codifica un mesaj cu probabilitatea p.

  14. Entropia Minimă (ii) • Mesajul este considerat pe coloană • Entropia unei coloane este:

  15. Programare dinamică • Generalizare a alinierii a două secvenţe • Se consideră o matrice de dimensiune “k” pt k secvenţe • Fiecare element reprezintă scorul pentru k secvenţe (în loc de două) • Pentru k secvenţe de lungime n, complexitatea spaţiului este O(nk)

  16. Metode Euristice de Aliniere • Alinierea Progresivă: construcţia unei succesiuni de alinieri perechi: • Abordare “stea” • Abordare “arbore” (CLUSTALW) • Rafinare iterativă – dat fiind o aliniere multiplă: • Se elimină o secvenţă care se realiniază la profilul altor secvenţe • Se repetă până la convergenţă

  17. Matriceacoeficienților în alinierea progresivă • Pași în Alinierea Progresivă • se aliniază secv. X1 cu X2 (notat Y) profilul Xp2 • se aliniază profilul Xp2 cu X3 (notat Y) profilul Xp3 • se aliniază profilul Xp3 cu X4 (notat Y) profilul Xp4 … • OBS: matricea de substituție conține și“conservarea gap-urilor” • Ex: fie secvențele c g g a – t g • t g a - - t t • a c g t -

  18. Modelul “stea” • Se dau k secvenţe a fi aliniate: X1, …, Xk • Se alege o secvenţă Xc ca şi “centru” • Pentru fiecare Xi ≠ Xc se determină între Xi şi Xc o aliniere optimală • Se reunesc alinierile perechi • Rezultatul – alinierea multiplă rezultă din agregare • Alegerea centrului: • Se încearcă fiecare secvenţă ca centru, se ia cea mai bună aliniere multiplă • Se calculează toate alinierile perechi şi se alege şirul Xc care maximizează

  19. Ex: modelul “stea” (i)

  20. Ex: modelul “stea” (ii)

  21. Modelul “arbore” • Ideea de bază: se organizează alinierea folosind un “arbore ghid” (guide tree) • Frunzele reprezintă secvenţele • Nodurile interne reprezintă alinieri • Alinierile se determină pornind de la bază în sus • Alinierea multiplă rezultă la rădăcina arborelui • O variantă uzuală: CLUSTALW (Thompson, 1994)

  22. Ex: modelul arbore

  23. Alinierea Progresivă în CLUSTALW • În funcţie de nodul intern din arbore, putem avea de aliniat: • O secvenţă cu o secvenţă • O secvenţă cu un profil (aliniere parţială) • Un profil cu un profil • În toate cazurile putem folosi DP – Programarea Dinamică • Pentru cazul profilelor se recomanda scorul SP

  24. PAUZA

More Related