360 likes | 609 Views
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA. Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 10 Evoluzione Molecolare e Analisi Filogenetica. Introduzione. Problema: studio della storia evolutiva di un insieme di specie
E N D
UNIVERSITA’ DI MILANO-BICOCCALAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 10 Evoluzione Molecolare e Analisi Filogenetica
Introduzione • Problema: • studio della storia evolutiva di un insieme di specie • Struttura usata per rappresentare l’evoluzione: • albero evolutivo o filogenesi • Struttura ad albero in cui le foglie sono etichettate dalle specie esistenti, i nodi interni dalle specie progenitrici • Problema: • dato un insieme di specie costruire un albero evolutivo • In genere struttura dell’albero e specie progenitrici sono incognite
AAATGTACC AAATGTACC AAATGTGCC AAATGTGCC TAATGTGCC Albero evolutivo AAAGGTACC G T mutation A G mutation A T mutation
I passi 1. Allineamento 2. Modello di sostituzione 3. Costruzione dell’albero 4. Valutazione dell’albero
Allineamento • Scelta delle procedure di allineamento • Dipendenza dal computer nulla, parziale o completa • Richiamo della filogenia assente, a priori o ricorsivo • Stima dei parametri di allineamento a priori, dinamica o ricorsiva • Possibile allineamento rispetto a strutture superiori • Ottimizzazione matematica statistica o non statistica • Estrazione di un insieme di dati filogenetici dall’allineamento • trattamento degli indels
Modello di sostituzione • Matrici di sostituzione tra basi • Simmetriche (reversibilità nel tempo) o no • Stazionarie o no • Tassi di sostituzione tra siti eterogenei • Esempio: terzo codone più variabile dei primi due
Costruzione dell’albero filogenetico • Metodi basati sulla distanza • L’istanza del problema è un insieme di specie e delle distanze evolutive tra esse (Matrice delle distanze) • L’obiettivo è costruire un albero che rispetti le distanze date
Distanza genetica tra sequenze omologhe • Numero di sostituzioni per sito • Sono sottostimate (sostituzioni convergenti, retromutazioni) ACTGAACGTAACGC C->T->A A->T->A AATGGACGTAACGC TCTGGACGTAACGC
Unweighted Pair Group Method with Arithmetic mean (Sokal e Michener 1958) • Funziona per velocità circa costanti nelle diverse linee evolutive: relazione lineare tra distanza e tempo di divergenza • Usa un algorimo di clusterizzazione sequenziale iterativo • Collega le sequenze più vicine a un antenato comune • Sostituisce le due sequenze col padre • Itera la procedura fino ad avere un solo elemento (radice)
0.1 0.1 0.1 0.4 0.4 Problem of UPGMA UPGMA (Sokal, Michener, 1958) • Initialize • Ci = {si}, for all i. • Repeat until one cluster left: • Find two clusters Ci, Cj with mini=1,..,n;j=1,…,n dij=(dpq)/|Ci||Cj|, pCi, qCj • Define node k with i,j as children, edge weight dij • Form cluster k, remove i,j clusters.
UPGMA - Esempio A B C B dAB C dAC dBC D dAD dBD dCD Sia dAB il valore più piccolo; A e B vengono raggruppate e il punto di biforcazione posizionato alla distanza dAB/2
UPGMA - Esempio AB C C d(AB)C D d(AB)D dCD ove d(AB)C = (dAC+dBC) /2 e d(AB)D = (dAD+dBD) /2. Sia ora d(AB)C il valore più piccolo; C è raggruppata con AB con punto di biforcazione a distanza d(AB)C/2. Infine si raggruppa con D e la radice è posta a distanza d(ABC)D = [(dAD+dBD+dCD)/3] /2
UPGMA - Esempio A B dAB/2 C d(AB)C/2 D d(ABC)D /2
D A E B C Neighbor Joining (Saitou, Nei, 1987) • Ricostruisce l’albero senza radice che minimizza la somma delle lunghezze dei rami • Neighbors: coppia di sequenze, singole o composite, connesse attraverso un singolo nodo interno
Neighbor Joining (Saitou-Nei, 1987) • Initialize: • T={sequences}, L=T • Choose i,jL such that dij-ri-rj minimized. Rest similar to UPGMA with similar modification on edge weights to k. • Here, ri, rj are the average distances from i,j to other nodes in L – to compensate long edges.
Neighbor joining - Esempio Situazione iniziale:
Neighbor joining - Esempio Tra le n(n-1)/2 diverse coppie si cerca quella che minimizza la somma delle lunghezze dei rami nell’albero seguente:
Neighbor joining - Esempio Si itera la procedura sulla nuova stella con n-1 foglie ottenuta sostituendo ai due neighbors trovati la loro combinazione
Costruzione dell’albero filogenetico • Metodi basati sulle sequenze • Istanza del problema : insieme di sequenze biologiche appartenenti a diverse specie • Output: albero evolutivo (con i nodi interni etichettati dalle sequenze progenitrici) di costo minimo • Punteggio di un arco := punteggio dell’allineamento ottimale delle sequenze associate ai nodi dell’arco • Punteggio dell’albero := somma dei punteggi degli archi • Caso particolare: la struttura dell’albero viene data. Ricerca sequenze progenitrici. Anche questo caso è difficile.
Maximum parsimony (MP - Eck, Dayhoff 66) • Rasoio di Occam: La miglior spiegazione dei dati è la più semplice • Si trova l’albero che spiega le differenze osservate col minor numero di sostituzioni • Metodo qualitativo; determina la topologia dell’albero, non la lunghezza dei rami • Molto lento. Usa branch and bound
MP • Siti informativi: favoriscono alcuni alberi rispetto ad altri • In generale, contengono almeno due nucleotidi ciascuno dei quali è presente in almeno due sequenze • MP è molto usato per la sua semplicità; è inadeguato per sequenze nucleotidiche, attendibile come analisi preliminare per le proteine • Genera molti alberi equivalenti
Maximum Likelihood (ML, Felsenstein 81) • Cerca il modello evolutivo, albero compreso, che ha la massima verosimiglianza rispetto alla produzione delle sequenze osservate
Maximum Likelihood • Modello di Jukes-Cantor (1969) : uguale probabilità di sostituzione (1 parametro ) • Modello di Kimura (1980) (2 parametri): diversi tassi di sostituzione ( e ) da purina (A,G) a purina o da pirimidina (C,T,U) a pirimidina • Processo molto lento, per la necessità di eseguire una ricerca esaustiva su tutti gli alberi • Risultati migliori di MP nelle simulazioni
t1 1 a t5 5 b 2 b t2 0 a t3 3 c 6 g t6 4 d t4 ML - Esempio L = SaSbSgpa Pab(t5) Pag(t6) Pba(t1) Pbb(t2) Pgc(t3) Pgd(t4)
ML - Esempio • Problema della determinazione di Pij(t) • Necessità di considerare diverse topologie e diverse lunghezze dei rami.
Metodo dei quartetti • Per ogni quattro sequenze si costruisce un albero di 4 nodi (quartetto), ad esempio usando ML • Si costruisce poi un grande albero formato dalla (maggior parte di) questi piccoli alberi. Questo passo è NP-difficile • Un nuovo approccio: correzione dei dati
Quartetti e Correzione c a Albero originale d b c a e b c d a d a b e e b d b d a e c correzione c a e c errore d e
Il Software HyperCleaning • Per meno di 30 taxa, HyperCleaning è confrontabile con fastDNAml (che usa il punteggio di maximum likehood), e si comporta meglio di NJ. • Per più di 30 taxa, i metodi ML e MP puri richiedono giorni e producono risultati scadenti. HyperCleaning si comporta bene, con punteggi migliori.
Valutazione degli alberi: bootstrap (Efron 79) • Data la matrice di allineamento A di N sequenze lunghe L si generano n (es, n=100) allineamenti simulati : • Per j da 1 a L, si estrae un numero casuale r tra 1 e L e si pone la j-esima colonna di Ak uguale alla r-esima di A • si costruiscono gli alberi filogenetici • Si attribuisce a ogni nodo un coefficiente di significatività pari alla percentuale di simulazioni che lo supportano
Confronto tra filogenesi • Tutti i metodi visti sono NP-hard • E’ possibile costuire alberi approssimanti e confrontarli per ottenere un albero migliore
Problemi di confronto • L’istanza dei problemi di confronto è un insieme di alberi evolutivi. Esistono vari problemi di confronto • MAST • MIT
MIT • Maximum Isomorphic Subtree • L’obiettivo è individuare un sottoalbero S’ tali che gli alberi ristretti a S’ siano tutti isomorfi. • Due alberi sono isomorfi se qualunque coppia di foglie ha uguale distanza in entrambi gli alberi. • Nel caso gli alberi siano pesati si ha un nuovo problema: MWT (Maximum Weighted Subtree)
MAST • Maximum agreement subtree • L’obiettivo del problema è individuare il massimo sottoinsieme di specie S’ per cui gli alberi ristretti all’insieme S’ sono omomorfi. • Due alberi sono omomorfi se risultano isomorfi a meno di nodi di grado 1.
Complessità dei problemi di confronto • I problemi di confronto sono NP-hard già su tre alberi • Inoltre non sono facilmente trattabili per l’approssimazione
Software filogenetico • PHYLIP • PROTDIST • PROTPARS • DNADIST • DNAML • fastDNAml • PAUP