1.07k likes | 1.19k Views
A Brief Introduction to Molecular Systematics. David S. Horner Dip. Scienze Biomolecolari e Biotecnologie david.horner@unimi.it. Allineamento. Che Cosa è un allineamento?. E’ una serie di ipotesi di omologia posizionale. SUGAR. SUCRE. SUGAR. X. SUGR. SU C R. E. SUCRE. S U G A R -.
E N D
A Brief Introduction to Molecular Systematics David S. Horner Dip. Scienze Biomolecolari e Biotecnologie david.horner@unimi.it
Che Cosa è un allineamento? E’ una serie di ipotesi di omologia posizionale
SUGAR SUCRE
SUGAR X SUGR SUCR E SUCRE
S U G A R - S U C – R E ---------------------------- S U ? ? R ?
S U G A R - S U C – R E Z U C K E R S A K A R I S O K K E R A Z U C A R A ç U C A R
S U G - A R - S U C – - R E Z U C K E R - S O K K E R - A Z U C - A R - S A K - A R I A ç U C - A R - -------------------- - S U C(K)A R -
Possiamo Valutare un Allineamento G A T T C C G T | | | | | G A A T - C C T +2 +2 -1 +2 -2 +2-1 +2 =6 punti Match = +2 Mismatch = -1 Gap = -2
Human: W C T F G T T Mouse: W C A W G T T 11 9 0 1 6 5 5 • Si può calcolare un “punteggio di similarità” tra 2 sequenze, in base al punteggio scelto: score = 37
Saul G. Needleman – Christian D. Wunsch 1970 Allineamento ottimale di due sequenze
La formula Matrice M = (m+1)x(n+1) La posizione m(0,0) è “inizializzata” a zero Poi: m(i,j) è uguale al massimo tra tre possibilità s(xi,yj) è il costo (matrici) della sostituzione dell’i-esima lettera della sequenza X con la j-esima della sequenza Y d è il costo di una cancellazione (inserimento) Alla fine, la casella in basso a destra conterrà il punteggio dell’allineamento
Allineamento “globale” yj allineato con un “gap” Allinea carattere con carattere s(xi,yj) d d xi allineato con un “gap” While building the table, keep track of where optimal score came from, reverse arrows
“Traceback” • Segui le frecce a partire dal basso a destra • Diagonale: Lettera con lettera • Su: Gap nella sequenza sopra • Sinistra: Gap nella sequenza sotto HEAGAWGHE-E --P-AW-HEAE
Ricerca in Database “Trovami nel database le sequenze che allineate con la mia producono un buon punteggio” Nelle ricerche nei database spesso ci si “accontenta” di trovare similarità locali (domini conservati, siti attivi, ecc.) Il database è enorme: occorrono metodi “veloci” (che non compilino tutta la tabella) per confrontare la nostra sequenza ignota con migliaia di altre sequenze: FASTA, BLAST Punteggi piu alto che atessa indicono omologia
Allineamento Progressivo Inventato da Feng e Doolittle nel 1987. Essenzialmente è un metodo euristico e in quanto tale non garantisce il reperimento dell’allineamento “ottimale”. Richiede n-1+n-2+n-3...n-n+1 allineamenti a coppie di sequenze (pairwise) come punto di partenza - (n(n-1))/2 La sua implementazione più nota è Clustal (Des Higgins)
Allineamenti pairwise Partire da tutti I possibili allineamenti pairwise fra ciascuna coppia di sequenze. Ci sono (n-1)+(n-2)...(n-n+1) possibilità. Calcolare la “distanza” per ogni coppia di sequenze sulla base di questi allineamenti pairwise isolati. Generare una matrice di distanza e un albero filogenetico.
Caso in cui una terza sequenza vada allineata alla prime due: ogni volta che sia necessario introdurre un gap per migliorare l’allineamento, le due entità vengono trattate come sequenze singole. +
H D P -AW-HEAE + H E A GAWGHE-E - - P -AW-HEAE 0.5H 0.5E 0.5A ……. 0.5- 0.5- 0.5P ……. Profile H E AGAWGHE-E - - P-AW-HEAE H D P -8 -16 -24 -16 -24 -32
Progressione L’allineamento multiplo viene progressivamente costruito in questo modo: ogni passaggio è trattato come un allineamento pairwise, a volte ciascun membro del pair (coppia) rappresenta più di una sequenza.
Progressive Alignment-Minimo Locale • Problemi potenziali: • Problema del minimo locale. Se viene introdotto un errore precocemente nel processo di allineamento, non è possibile correggerlo più tardi nel corso della procedura.
Allineamento di sequenze di DNA codificanti per proteine ATGCCCCTGTTAGGG ATGCTCGTAGGG ATGCCCCT-GTTAGGG ATG---CTCGT-AGGG http://www.cbs.dtu.dk/services/RevTrans/ Non è raccomandabile allineare sequenze nucleotidiche di geni codificanti per proteine.
Allineamento di sequenze di DNA codificanti per proteine MetProLeuLeuGly ATGCCCCTGTTAGGG ATGCTCGTAGGG MetLeuValGly MPLLG M-LVG ATGCCCCTGTTAGGG ATG---CTCGTAGGG Allineare le seq. Proteiche, inserire 3 gap nelle seq. nucleotidiche per ogni gap nel’allineamento proteico
Che Cosa è un allineamento? E’ una serie di ipotesi di omologia posizionale
Allineamenti, omologia posizionale e siti allineati con segnale potenzialmente fuorviante Siamo confidenti che tutti i siti sono allineati correttamente? Possiamo escludere siti che non sono bene allineati
Esclusione di siti non bene allineati Si fa manualmente o con software come Gblocks http://molevol.ibmb.csic.es/Gblocks.html Rimuove i block con livelli basi di conservazione in modo obiettivo
Terze Posizioni di codoni Tendono essere piu saturati in termini di numero di sostituzioni, particolarmente quando le distanze genetiche sono grandi Long Branch Attraction A volte vengono escluse
Cambiamenti multipli a un singolo sito - cambiamenti nascosti Seq 1 AGCGAG Seq 2 GCCGAC Numero di cambiamenti A G T G pos 1 3 G C pos 2 1 A C C pos 3 2
Differences Substitutions
Distanze Misure di quanto differenti sono due sequenze Il numero di eventi evolutivi che sono intervenuti dopo la divergenza fra due sequenze. La distanza più semplice: p-distance = la proporzione di siti che non sono uguali (Queste non sono buone misure dovuto alla saturazione )
Modelli dell’evoluzione molecolare • un “modello del processo”: una descrizione del meccanismo di cambiamenti molecolari. • Due approcci perla costruzione di modelli. • EMPIRICAMENTE, possiamo usare proprietà stimate da confronti fra un numero alto di sequenze osservate. (valori fissi di parametri) • Con un metodo PARAMETRICO, usando valori derivati dai dataset sotto analisi
Modelli dell’evoluzione molecolare L’evoluzione molecolare è modellizzata come un processo probabilistico dipendente dal tempo. (processo stocastico). • Assunzioni “standard”: • Tutti i siti evolvono independentamente • La velocità di sostituzione è costante rispetto al tempo e in organismi diversi. • La composizione (di basi o aa) è costante fra diversi organismi (condizione stazionaria). • Le probabilità di vari tipi di sostituzioni sono uguali per tutti i siti e non cambiano nel tempo.
Correzioni per sostituzioni sovrapposte Jukes and Cantor – tutte le sostituzioni sono “uguali” Kimura 2-parameter – differenza fra transizioni e transversioni
Jukes-Cantor (1969) 1 solo parametro Composizione di basi: [1/4, 1/4, 1/4, 1/4] A Tutti i 12 tassi di sostituzioni “sono” uguali (a) T C G
Il logaritmo naturale viene usato per correggere per sostituzioni sovrapposte • Se 2 sequenze sono 95% identiche, differiscono al 5% o 0.05 (D) dei siti, quindi: • dxy = -3/4 ln (1-4/3 0.05) = 0.0517 • Comunque, Se 2 sequenze sono 50% identiche, differiscono a 50% o 0.5 (D) dei siti, quindi: • dxy = -3/4 ln (1-4/3 0.5) = 0.824
Modello di Kimura a 2 parametri (1980) 2 parametri A Composizione di basi: [1/4, 1/4, 1/4, 1/4] T C Velocità di transizione (a) Velocità di transversione(b) G
Modello Kimura 2P : • P = transizioni / numero di posizioni • Q = transversioni / numero di posizioni • D = -1/2 ln[ (1 - 2P - Q) * sqrt(1 - 2Q) ] • M. Kimura, J. Mol. Evol. 16; 111-120 (1980).
Felsenstein (1981) 3 parametri liberi composizione di basi diversa: [pA pC pG, pT] A Tutti I 12 tassi di sostituzione “sono” uguali (a) T C G
Hasegawa, Kishino and Yano (1985) composizione di basi diversa: [pA pC pG, pT] 5 parametri liberi A Velocità di transizione (a) Velocità di transversione(b) T C G
General Time Reversible (1984) 9 parametri liberi/indipendenti composizione di basi diversa: [pA pC pG, pT] A 6 tassi di sostituzione diversi T C G
Metodi di “Distanza” • I metodi di “clustering” usano algoritmi per generare alberi • UPGMA (Unweighted Pair Group Method using Arithmetic Averages): produce un albero additivo, radicato, che si conforma all’orologio molecolare • Neighbor-joining: produce un albero additivo, non radicato • Approci basati su criteri di ottimalità: least-squares, minimum evolution,...
Stimare un albero con le distanze Distanze additive: • Se potessimo calcolare accuratamente il vero numero di eventi evolutivi che sono accaduti dalla divergenza di due sequenze sulla base del numero di divergenze osservate, queste distanze sarebbero additive.
Metodi di clustering • UPGMA distanze additive e ultrametriche=> basato sull’assunzione di un orologio molecolare => molto sensibile a tassi di sostituzioni non uguali. Meglio usare altri algoritmi di clusteringe.g. Neighbor-joining