270 likes | 534 Views
UNIVERSITATEA POLITEHNICA TIMIŞOARA. MASTER SIIS Sisteme Informatice în Îngrijirea Sănătății. www.medinfo.umft.ro/dim/bioinformatica.htm. BIOINFORMATICA. Prof Dr George I Mihala ş UMF Victor Babeş. CURSUL 12. ANALIZA FILOGENETICA. Planul cursului.
E N D
UNIVERSITATEAPOLITEHNICA TIMIŞOARA MASTER SIIS Sisteme Informatice în Îngrijirea Sănătății
BIOINFORMATICA Prof Dr George I Mihalaş UMF Victor Babeş
Planulcursului • Introducere: terminologie, tipuri, aplicaţii • Număr de arbori • Metode de construcţie: • Metode bazate pe distanţe • Algoritmul UPGMA • Ceasul molecular, date ultrametrice • Metoda Neighbor Joining • Metode bazate pe parsimonie • Algoritmul lui Fitch • Parsimonie ponderată
Noţiuni generale (i) • Definiţie: un arbore (tree) este un graf aciclic, nedirecţionat • Structura unui arbore: • Frunze (leaves) – obiecte (ex secvenţe de proteine, gene) = noduri exterioare, de grad “1”; sunt notate: 1, …, n • Noduri (nodes) – intersecţie de ramuri; se numerotează de la n+1 în sus • Ramuri – legături între noduri; au deseori o “lungime” calculată după diverse criterii • OBS: taxon (pl: taxa) – frunze care reprezintă specii
Noţiuni generale (ii) 3. Istoric: Zuckerkandl şi Pauling (1960) 4. Tipuri: • Fără rădăcină (unrootedtrees) – specifică relaţii • Cu rădăcină (rootedtrees) – “rădăcina” este ultima ramură de la ultimul nod; se stabileşte o ierarhie (dendrogramă); calea de la rădăcină la un nod reprezintă o cale de evoluţie • Topologia arborelui – dacă ramurilor nu le sunt asociate “lungimi” 5. Inferenţă filogenetică – stabilirea unui arbore filogenetic care caracterizează linia evolutivă între specii sau gene
Noţiuni generale (iii) 6. Utilitate / motivaţie • a înţelege relaţiile evolutive a speciilor • a înţelege cum au evoluat diverse funcţii • informaţii pentru alinierea multiplă • a identifica ce este mai important / conservat in unele clase de secvenţe
Numărul de arbori posibili • Nr. Arbori Fără Rădăcină • Pornim de la arbore cu 3 frunze și incrementăm
Numărul de arbori posibili • Nr. Arbori cu Rădăcină • Pornim de la arbore cu 3 frunze și incrementăm
Date pentru construcţia arborilor • Distanţe – măsuri / estimări ale distanţelor între specii sau între gene • Caractere – aspecte morfologice (ex nr de picioare), secvenţe de ADN sau proteine • Ordinea genelor – după ordinea lineară a genelor ortoloage in genomurile date
Metode de construcţie a arborilor filogenetici • Metoda grupării – bazată pe distanţe – arborele explică distanţele evolutive estimate • Parsimonie – arborele care necesită numărul minim de “schimbări” pentru a explica datele • Asemănarea maximă – arborele care maximizează asemănarea datelor (neighbour joining)
Abordări bazate pe distanţe Punerea problemei: fiind dată o matrice M a distanţelor Mijîntre taxoniii şi j, de dimensiune n × n (n = nr de taxoni / frunze), să se construiască un arbore cu ramuri ponderate (“edge-weightedtree”) Mij.
Proprietăţile distanţelor • Date Ultrametrice: • Ipoteza Ceas ului Molecular: se presupune că divergenţa secvenţelor apare cu aceeaşi rată în orice punct din arbore – date ultrametrice • Ipoteza nu este în general valabilă – procesul de selecţie variază în diverse perioade de timp, variază cu organismul, genele unui organism sau regiunile unei gene
Metoda UPGMAUnweighted Pair Group MethodusingArithmeticAverages Ideea de bază: - se compun doi taxoni / clustere, formând un (nou) cluster - se creează un nou nod pentru noul cluster - distanţa între două clustere (distanţa între perechi de taxoni din fiecare cluster):
Algoritmul UPGMA • Se consideră fiecare taxon ca un cluster • Se defineşte o frunză pentru fiecare taxon; se plasează la înălţimea “0” pe scara distanţelor • Când sunt mai mult de două clustere: • Se aleg două clustere, i şi j, pentru care distanţa dij este minimă • Se defineşte un nou cluster Ck = CiU Cj • Se defineşe un nod k părinte al i şi j; se plasează la înălţimea dij / 2 • Se înlocuiesc clusterele i şi j cu k • Se calculează distanţa între k şi celelalte clustere • Ultimele două clustere i şi j se unesc cu o rădăcină la înălţimea dij / 2
Metoda UPMGAUnweighted Pair Group Method with Arithmetic mean
Metoda NeighborJoining Deosebiri faţă de UPGMA: - nu aplică ipoteza ceasului molecular - se creează un arbore fără rădăcină - presupune “aditivitate”: distanţa între perechi de frunze este suma lungimilor ramurilor care le conectează Algoritmul – iterativ, asemănător cu UPGMA, cu unele diferenţe (nu trebuie început cu distanţa minimă, sunt alte formule de calcul).