1 / 45

Biologia computazionale

Università degli studi di milano. Docente: Giulio Pavesi Istruttore: Matteo Re. C.d.l. Biotecnologie Industriali e Ambientali. Biologia computazionale. A.A. 2011-2012 semestre I. 5. Evoluzione e filogenesi - 2. Costruzione di alberi filogenetici :

clare
Download Presentation

Biologia computazionale

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Università degli studi di milano Docente: Giulio Pavesi Istruttore: Matteo Re C.d.l. Biotecnologie Industriali e Ambientali Biologia computazionale A.A. 2011-2012 semestre I 5 Evoluzione e filogenesi - 2

  2. Costruzione di alberifilogenetici: Classi di metodidisponibili Bio CS • Distanza • Massimaparsimonia (minima evoluzione) • Massimaverosimiglianza Abbiamogiàdiscusso un medotobasatosudistanze: UPGMA Metodibasatisu:

  3. Costruzione di alberifilogenetici: Classi di metodidisponibili Bio CS Abbiamo già discusso un medoto basato su distanze: UPGMA Abbiamobisogno di altri metodi?

  4. Costruzione di alberifilogenetici: problemi con UPGMA… Bio CS ? A B C D Quest’albero … implica che la distanza tra B e C ha lo stesso valore della distanza tra B e D? Ma la matrice delle distanze non conteneva valori diversi? Cosa non va in UPGMA? (rivediamol’esempio…)

  5. Costruzione di alberifilogenetici: problemi con UPGMA… Bio CS • UPGMA calcola la media delle due distanze e pone sia C che D alla medesima distanza (1.5) da B … • Cosa succede se le velocità evolutive dopo la divergenzasono diverse? .5 .5 4 2.5 1 2 A B C D NB: è un effetto dell’ipotesi dell’orologio molecolare!

  6. Costruzione di alberifilogenetici: problemi con UPGMA… Bio CS • Velocità evolutive differenti(non contemplate dall’ipotesi dell’orologio molecolare) possono causare problemi a UPGMA • Specialmente nel caso di taxa molto simili (distanze molto piccole)! TAXA MOLTO SIMILI Produce questamatrice ..che produce quest’albero Questoalbero 1 1 2 1 A B B C A C … e i due alberi sono DIVERSI !

  7. Costruzione di alberifilogenetici: Cronogrammi Bio CS Alberi ultrametrici ( cronogrammi) 1 3 1 1 3 2 1 1 1 1 a b c Le distanze (nei cronogrammi) devono obbedire a 4 regole: Non-negatività: d(a,b) ≥ 0 Distinguibilità: d(a,b) = 0 if and only if a = b Simmetria: d(a,b) = d(b,a) Disug. triangolare: d(a,c) ≤ d(a,b) + d(b,c) Inoltre devono anche soddisfare la: Condizione dei tre punti: d(a,b) ≤ max( d(a,c), d(b,c) ) 1 2 0.4 1 c b a

  8. Costruzione di alberifilogenetici: Cronogrammi Bio CS Alberi ultrametrici ( cronogrammi) 1 3 1 1 3 2 1 1 1 1 a b c Le distanze (nei cronogrammi) devono obbedire a 4 regole: Non-negatività: d(a,b) ≥ 0 Distinguibilità: d(a,b) = 0 if and only if a = b Simmetria: d(a,b) = d(b,a) Disug. triangolare: d(a,c) ≤ d(a,b) + d(b,c) Inoltre devono anche soddisfare la: Condizione dei tre punti: d(a,b) ≤ max( d(a,c), d(b,c) ) 1 2 0.4 1 c b a

  9. Costruzione di alberifilogenetici: Motivideiproblemidi UPGMA Bio CS • UPGMA è molto sensibile alla presenza di velocità evolutive differenti (assume che esse siano uguali su tutti i rami). • Il clustering funziona SOLO SEi dati sono ultrametrici • Le distanze sono ultrametriche SE soddisfano la ‘condizione dei tre punti'. Condizione dei tre punti: B A A B C C Per ogni combinazione di tre taxa, le due distanze maggioridevono essere uguali.

  10.  A  B  C  D  E  B  5  C  4  7  D  7  10  7  E  6  9  6  5  F  8  11  8  9  8 Costruzione di alberifilogenetici: Esempiodierroredi UPGMA Bio CS Velocità evolutive non costanti TOPOLOGIA ERRATA

  11.  A  B  C  D  E  B  5  C  4  7  D  7  10  7  E  6  9  6  5  F  8  11  8  9  8 Costruzione di alberifilogenetici: Esempiodierroredi UPGMA Bio CS Velocità evolutive non costanti TOPOLOGIA ERRATA Esiste un metodo chiamato Neighbor Joining che avrebbe ricostruito la topologia dell’albero in modo corretto.

  12. Costruzione di alberifilogenetici: NeighborJoining (NJ) Bio CS Neighbor Joining e costruzione di alberi additivi (filogrammi, lunghezza rami proporzionale a distanze genetiche) A C c a x b d D B A e B sono neighbors (“vicini”) poichè sono connessi da un singolo nodo interno. Anche C e D sono vicini, ma A e D non lo sono.

  13. Costruzione di alberifilogenetici: Alberiadditivi Bio CS Se l’albero è additivo, allora deve essere rispettata la: Condizione dei 4 punti A C c a x b d D B dAC + dBD = dAD + dBC = a + b + c + d + 2x = dAB + dCD + 2x dAB + dCD < dAC + dBD Condizione dei 4 punti dAB + dCD < dAD + dBC non-vicini vicini Fondamentalmente dice che la distanza tra i vicini è minore di quella tra i non-vicini.

  14. Costruzione di alberifilogenetici: Neighbor Joining (NJ) Bio CS NJ: costruzione dell’albero più corto Partiamo da una struttura a stella (nessuna struttura gerarchica) C A D B Distanze pair-wise Lunghezza dell’albero Numero di taxa

  15. Costruzione di alberifilogenetici: Neighbor Joining (NJ) Bio CS Possiamo utilizzare queste formule per calcolare la lunghezza del nuovo albero: (Saitou and Nei, 1987)

  16. Costruzione di alberifilogenetici: Neighbor Joining (NJ) Bio CS Ad ogni passo tutte le coppie di vicini vengono esaminate e viene scelta quella che produce l’albero più corto (criterio di minima evoluzione). (Saitou and Nei, 1987)

  17. Costruzione di alberifilogenetici: Neighbor Joining (NJ) Bio CS Come nel caso di UPGMA ad ogni ciclo viene aggiunto un ramointerno … ma adesso è sempre il ramo più corto possibile ! (Saitou and Nei, 1987)

  18. Costruzione di alberifilogenetici: Neighbor Joining (NJ) Bio CS Come nel caso di UPGMA ad ogni ciclo viene aggiunto un ramointerno … ma adesso è sempre il ramo più corto possibile ! Albero non radicato (Saitou and Nei, 1987)

  19. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Definizione: parsimònia s. f. [dal lat. parsimonia, der. di parcĕre «risparmiare» (supino parsum)]. – La qualità di chi è parco; moderazione, giusta misura nell’uso del denaro o di altri beni, per un senso di doverosa economia o per abituale frugalità di vita: avere, usare p.; … Principio, o legge, della p.: uno dei modi con cui viene denominato il principio (altrimenti detto legge di economia, o principio del minimo sforzo, o del minimo mezzo, o del minimo lavoro) così enunciato da G. Galilei nel «Dialogo sopra i due massimi sistemi» (Giornata seconda): la natura ... non opera con l’intervento di molte cose quel che si può fare col mez(z)o di poche, volendo significare che ogni fenomeno naturale si realizza sempre con il minimo dispendio sia di materia sia di energia. Massima parsimonia http://www.treccani.it/vocabolario/parsimonia/

  20. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS In fondo gli alberi filogenetici sono IPOTESI evolutive (come gli allineamenti utilizzati per definire le distanze tra i membri di un set di sequenze…). Quindi tra tutte le possibili ipotesi (alberi)vorremmo scegliere quella che spiega le sequenze con il minor numero di eventi evolutivi (da qui il termine parsimonia). E’ possibile applicare il concetto di parsimonia alla costruzione di alberi filogenetici? Tra tutte le possibili ipotesi in grado di spiegare i dati (sequenze) vogliamo scegliere la più SEMPLICE RASOIO DI OCCAM

  21. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Osserviamo ogni colonna di un allineamento multiplo e costruiamo un albero che la “descriva” • Costruiamo un albero consenso Massima parsimonia: atgccgca-actgccgcaggagatcaggactttcatgaatatcatcatgcgtggga-ttcag acctccatacgtgccccaggagatctggactttcacc---tggatcatgcgaccgtacctac t-atgg-t-cgtgccgcaggagatcaggactttca-gt--g-aatcatctgg-cgc--c-aa t--tcgt-ac-tgccccaggagatctggactttcaaa---ca-atcatgcgcc-g-tc-tat aattccgtacgtgccgcaggagatcaggactttcag-t--a-tatcatctgtc-ggc--tag

  22. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Cosaintendiamoquando ci riferiamo ad un albero in grado di “descrivere” (spiegare) unacolonna del multiallineamento? Ipotesi di lavoro: Costruiamotutti i possibilialberi per unacolonna del multiallineamento e poi scegliamoilmigliore PROBLEMI: • Come costruiamotutti i possibilialberiper una data colonna? • Come riconosciamol’alberomigliore? Massima parsimonia:

  23. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Come costruiamotutti i possibilialberiper una data colonna? • Come riconosciamol’alberomigliore? Ad ogninodointernodell’alberopossiamomettere A oppure G. Allefoglie, invece, dobbiamorispettare le proporzioniosservate (3A, 1G). Massima parsimonia: AGCT AACT AACT AACT ? (A or G) Topologiepossibili : 1 ? (A or G) ? (A or G) A A A G Al posto dei TAXA abbiamo i nucleotidi (osservati)

  24. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Come costruiamotutti i possibilialberiper una data colonna? • Come riconosciamol’alberomigliore? Consideriamoil nucleotide piùfrequente (A) come ancestor … Massima parsimonia: scelta: A AGCT AACT AACT AACT A 0 if A 1 if G Alberipossibili : 1 0 if A A or G A or G 0 0 if A 1 if A 0 A A A G Al posto dei TAXA abbiamo nt

  25. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Come costruiamotutti i possibilialberiper una data colonna? • Come riconosciamol’alberomigliore? Scegliamo i nucleotidiainodiinterniin modo da spiegare i taxa (ntosservati) minimizzandoilnumerototale di sostituzioni! Massima parsimonia: Alberipossibili : 1 AGCT AACT AACT AACT A Totalesostituzioni : 1 (non male…) A A 1 if A A A A G

  26. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Quando gli organismi sono 2 esiste un unico albero possibile: Come determinare tutti i possibili alberi? A B

  27. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Se gli organismi fossero 3 • Il terzo potrebbe posizionarsi … Come determinare tutti i possibili alberi? A B

  28. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • E se gli organismi fossero 4 ? • Per ognuno dei tre possibli alberi precedenti potremmo aggiungere il quarto organismo ad ognuno dei loro 4 rami (o potremmo usarlo come una nuova radice) • Il numero di possibili alberi con 4 organismi è quindi: • 3*5=15 Come determinare tutti i possibili alberi? Se partissimo da quest’albero con 3 organismi A B

  29. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Ni : n. di alberi dati i taxa • Bi : n. di rami in un albero dati i taxa • Bi=Bi-1+2, e anche i * 2-2 • Ni=Ni-1*(Bi-1+1) • + 1 a causa della potenziale nuova radice • N2= 1 • B2=2 Numero dei possibili alberi:

  30. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Ni : n. di alberi dati i taxa • Bi : n. di rami in un albero dati i taxa • Bi=Bi-1+2, e anche i x 2-2 • Ni=Ni-1*(Bi-1+1) • + 1 a causa della potenziale nuova radice • N2= 1 • B2=2 Numero dei possibili alberi: A cosaassomigliaquestotassodicrescita?

  31. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Ni : n. di alberi dati i taxa • Bi : n. di rami in un albero dati i taxa • Bi=Bi-1+2, e anche i x 2-2 • Ni=Ni-1*(Bi-1+1) • + 1 a causa della potenziale nuova radice • N2= 1 • B2=2 Numero dei possibili alberi: E’ definitodaunarelazionediricorrenza, quindi … Giusto… come al solito, esponenziale

  32. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Alberi radicati e non radicati • Ovunque sia la radice “appiattitela” Possiamo “risparmiare” qualche albero rinunciando alla radice:

  33. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Sono anch’essi biforcati • Non è possibile che 3 rami partano da uno stesso nodo Regole per alberi non radicati: A D B C

  34. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Tre alberi possibili Possibili alberi non radicati per 4 taxa: A A A D B D D B C B C C Esistonoaltrecombinazioni?

  35. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Per ognuno dei tre alberi (da 4 taxa) possiamo aggiungere un ramo ad ognuno dei 5 rami disponibili • 3*5=15 alberi Possibili alberi non radicati per 5 taxa: A D B C

  36. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Outgroup • Includere un organismo che sappiamo a priori essere più distante evolutivamente da ogni taxa rispetto ad ogni distanza tra i taxa appartenenti all’albero da radicare “Radicare” un albero: A D B C se outgroup si posiziona qui … A B C D outgroup

  37. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Ni : num. alberi dati i taxa • Bi : num. rami in un albero dati i taxa • Bi=Bi-1+2, e anche i * 2-3 • Ni=Ni-1*(Bi-1) • non serve il +1 per l’eventuale nuova radice … qui non ci sono radici • N2= 1 • B2=2 Numero di alberi non radicati:

  38. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Riduzione consistente del numero di alberi • … e nonstante questo abbiamo guadagnato un solo taxa (in termini di relazione tra num. alberi e num. taxa) Comparazione (alberi non radicati vs radicati):

  39. Costruzione di alberifilogenetici: Massimaparsimonia Bio CS • Non possiamo utilizzare la programmazione dinamica … • Il problema non è composto da sottoproblemi ripetitivi • Ogni sottoproblema è un albero … e ogni albero è unico … Come possiamo ridurre la complessità del problema? La complessità è ancoraesponenziale… EURISTICHE

  40. Costruzione di alberi filogenetici: Euristiche che evitano l’enumerazione di tutti gli alberi Bio CS • Ignorare larghi subset di possibili soluzioni • Utilizzare euristiche o metodi di predizione Ignorare questa combinazione di rami

  41. Costruzione di alberi filogenetici: euristica Branch and Bound Bio CS Poniamo un limite superiore ragionevole alla lunghezza complessiva dell’albero utilizzando un algoritmo veloce (ad es. UPGMA) Poi esploriamo le possibili soluzioni purchè non superino la lunghezza stimata inizialmente B & B dipende molto dalla qualità dei dati … e non garantisce di trovare la soluzione ottimale

  42. Costruzione di alberi filogenetici: euristica Branch and Bound Bio CS Branch and Bound ci fa “perdere” taxa nella soluzione finale? NO Ci fa perdere alcune “topologie” tra le possibili soluzioni? SI(è proprio questo il suo obiettivo … ma tra di esse potrebbe esserci la soluzione ottimale) A D B C Non preoccupiamoci di questi possibili modi di ramificare … vanno oltre la soglia di lunghezza X X X

  43. Torniamo all’algoritmo di Massima parsimonia Bio CS • In alcune colonne i simboli sono tutti uguali • Non forniscono nessuna informazione • Tutti gli alberi hanno costo minimo • In alcune colonne i simboli sono tutti diversi • Anche queste sono inutili • Colonne informative devono contenere almeno due simboli diversi ed almeno uno di essi deve essere ripetuto almeno due volte AGCT AACT AACT ACCT A 0 A 0 A 0 0 0 0 A A A A

  44. Massima Parsimonia: l’albero consenso Bio CS • Ogni colonna genera un albero • Se le topologiecoincidonol’algoritmofinisce qui • Se esistonotopologiedifferentiutilizziamo un criteriodi “maggioranza” • Se ilcampione (numerodisequenze) è troppo piccolo eseguiamo un bootstrapping : • Estraiamocasualmentesequenzedalmultiallineamento • Generiamopiùalberi • Etichettiamoirami con la percentualedioccorrenze in cui compaiono in un albero • Questeinformazionivengonoutilizzate come misuradi “ripetibilità” (più un ramo è frequente e più lo consideriamosupportatodaidati)

  45. Metodi per costruire alberi filogenetici Bio CS Metodi basati su: • Distanza • Massima parsimonia • Massima verosimiglianza Questi li abbiamo visti… Il seguito nella prossima puntata …

More Related