740 likes | 918 Views
Alineamientos de secuencias. ¿Para qué hace falta la compoaración de secuencias?. Bases biológicas: Muchos genes y proteínas son miembros de familias que tienen funciones biológicas similares o un origen filogenético común. Se usa para: Identificar relacciones evolutivas.
E N D
¿Para qué hace falta la compoaración de secuencias? • Bases biológicas: • Muchos genes y proteínas son miembros de familias que tienen funciones biológicas similares o un origen filogenético común. • Se usa para: • Identificar relacciones evolutivas. • Identificar patrones conservados. • en caso de secuencias con funciones desconocidas: encontrar dominios similares en otras proteinas implica una función similar.
Alineamiento de secuencias Claves: • 1- que tipo de alineamiento hay que considerar • 2- que sistema de puntuacion “scoring” hay que usar para clasificar los alineamientos • 3- que algoritmos hay que usar para encontrar la solución óptima (o buena) • 4- métodos estadisiticos necesarios para evaluar la significacion del score de los alineamientos
Tipos de comparación de secuencias • Pairwise Alignments • Alineamientos múltiples • Búsquedas en bases de datos
Pairwise Sequence Alignment • Principios de la comparación por pares de secuencias • alineamientos globales / locales • sistemas de puntuación “scoring” • penalizaciones por GAP • Métodos de pairwise sequence alignment • Basados en deslizamiento de ventanas “window-based” • programación dinámica
Pairwise Sequence Alignment • Alineamientos globales • Alineamientos locales
Alineamiento Global (Needleman & Wunsch) crea alineamientos en toda la longitud de la secuencia. Para secuencias que estan muy relaccionadas
Alineamiento Global Dos secuencias con varias regiones de similaridad 1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGTAGACCG.... 67 |||||||||||||| | | | |||| || | | | || 1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 70 Con un alineamiento local solo se obtendrá una similaridad muy baja: fragmento azul
Alineamiento Local 14 TCAGAAGCAGCTAAAGCGT 32 ||||||||| ||||||||| 42 TCAGAAGCA.CTAAAGCGT 59 1 AGGATTGGAATGCT 14 |||||||||||||| 1 AGGATTGGAATGCT 14 39 AGGATTGGAAT 49 ||||||||||| 1 AGGATTGGAAT 11 62 AGACCG 67 |||||| 66 AGACCG 71 Alineamiento local encuentra la region que tiene la mejor similaridad local.
Pairwise Sequence Alignment alfa globina humana beta-globina leghemoglobina Glutonina S-tranferasa nematodos
Parámetros a tener en cuenta en el alineamiento de secuencias • Sistemas de puntuación: • A cada par de símbolos se le asigna un valor numerico • basado en una tabla de comparación de síbolos. • Penalizaciones por Gap: • apertura: Costo de introducir un gap • Extensión: Costo de extender el gap
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Sistemas de puntuación de secuencias de nucleótidos Sequencia 1 Sequencia 2 A G C T A1 0 0 0 G 0 1 0 0 C 0 0 1 0 T 0 0 0 1 Match: 1 Mismatch: 0 Score = 5
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Sistemas de puntuación de secuencias de nucleótidos Sequencia 1 Sequencia 2 Valores negativosque penalizen los mismatches: A T C G A 5 -4 -4 -4 T -4 5 -4 -4 C -4 -4 5 -4 G -4 -4 -4 5 Matches: 5 Mismatches: 19 Score: 5 x 5 + 19 * (-4) = - 51
Sistemas de puntuación de secuencias de proteínas Sequencia 1 Sequencia 2 PTHPLASKTQILPEDLASEDLTI PTHPLAGERAIGLARLAEEDFGM C S T P A G N D. . C 9 S -1 4 T -1 1 5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2 0 6 N -3 1 0 -2 -2 0 5 D -3 0 -1 -1 -2 -1 1 6 . . C S T P A G N D. . C 9 S -1 4 T -1 1 5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2 0 6 N -3 1 0 -2 -2 0 5 D -3 0 -1 -1 -2 -1 1 6 . . Scoring matrix T:G = -2 T:T = 5 Score = 48 210 valores
Protein Scoring Systems • Amino acidos tienen diferentes propiedades bioquímicas y físicas • que pueden influenciar su capacidad de ser reemplazados en la evolución tiny P aliphatic C small S+S G G I A S V C N SH L D T hydrophobic Y M K E Q F W H R positive aromatic polar charged
Protein Scoring Systems • Las matrices reflejan • Probabilidades de substituciones mutuas • Probabilidad de ocurrencia de un aminoacido • Matrices mas usadas: • PAM • BLOSUM
PAM (Percent Accepted Mutations) matrices • Derived from global alignments of protein families . • Family members share at least 85% identity (Dayhoff et al., 1978). • Construction of phylogenetic tree and ancestral sequences of each protein family • Computation of number of replacements for each pair of amino acids
PAM (Percent Accepted Mutations) matrices • The numbers of replacements were used to compute a so-called • PAM-1 matrix. • PAM 1 significa: 1% de mutaciones aceptadas, es decir se utilizaría esta matriz cuando uno esperara un 1 % de substituciones. PAM matrices para distancias evolucionarias mas grandes se pueden extrapolar a partir de esta matriz. • PAM250 = 250 mutaciones por cada 100 residuos. • A mayor número mayor distancia evolutiva. PAM250 es muy común. a esta distancia evolutiva, 48% de los triptófanos, 41% de las cisteinas y 20% de las histidinas permanecen inalteradas pero solo 7% de las serinas
C W W -8 17 PAM 250 El valor de un par de aa idénticos representa la probabilidad de que este aa permanezca inalterado (e.g. triptófano) A R N D C Q E G H I L K M F P S T W Y V B Z A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6
BLOSUM (Blocks Substitution Matrix) • Derivada de alineamientos de dominios pertenecientes aproteinas alejadas en la evolucion (Henikoff & Henikoff,1992). • Contaron la presencia de cada • par de aa en cada columna de cada • bloque de alineamientos. • Los números obtenidos del • análisis de todos los bloques se usaron • para calcular las matrices • de tipo BLOSUM. A A C E C A A C E C A - C = 4 A - E = 2 C - E = 2 A - A = 1 C - C = 1
BLOSUM (Blocks Substitution Matrix) • Las secuencias se clusterizan dentro de un bloque de acuerdo a su grado de identidad. Clusters are counted as a single sequence. • Las matrices BLOSUM difieren en el porcentaje de identidad de secuencias usado para hacer el clustering • El número de la matriz (e.g. 62 en BLOSUM62) se refiere al porcentaje máximo de identidad entre las secuencias utilizado para crear la matriz • Mayores número significan distancias evolutivas menores.
Matrices de substitución: Log-odds Ratio Dado un par de secuencias alineadas queremos asignar una score que mida el grado de posibilidad „likelihood“, de que las secuencias estan relaccionadas x,y = amino acids (A,C......Y) P = likelyhood i = 1....n (longitud de la secuencia n) q = probabilidad P(x,y|R) =qxqy Random model (unrelated) : i i i i P(x,y|M) =pxy Match model (related) : i i i pxy pxy P(x,y|M)P(x,y|R) i i i i related unrelated i = = Odds ratio : qxqy qxqy i i i i i i i pab where :s(a,b) = log S = s(xi,yi) Log-odds ratio : qaqb i s(a,b)is the log likelyhood ratio of the residue pair (a,b) occurring as an aligned pair, as opposed to an unaligned pair.
Como escoger la matriz adecuada • Generally, BLOSUM matrices perform better than PAM matrices for local similarity searches (Henikoff & Henikoff, 1993). • When comparing closelyrelatedproteins one should use lowerPAMor higher BLOSUM matrices, for distantlyrelatedproteins higher PAM or lower BLOSUM matrices. • For database searching the commonly used matrix is BLOSUM62.
Como puntuar inserciones y delecciones A T G T A A T G C A T A T G T G G A A T G A A T G T - - A A T G C A T A T G T G G A A T G A insertion / deletion La creación de un gap se penaliza con un score negativo.
Gap Penalties • Un alineamiento optimo • maximiza el numero de matches • minimiza el número de gaps • Permitir la inserción arbitraria de muchos gaps puede dar lugar a scores altos entre secuencias no homologas. • La penalización de los gaps fuerza a los alineamientos a alcanzar los criterios optimos
Gap Penalties Linear gap penalty score: (g) = - gd Affine gap penalty score: (g) = -d - (g -1)e (g) = gap penalty score of a gap of lenght g d = gap opening penalty e = gap extension penalty g = gap lenght
A T G T T A T A C T A T G T G C G T A T A Scoring Insertions and Deletions match = 1 mismatch = 0 Total Score: 4 Total Score: 8 - 3.2 = 4.8 A T G T - - - T A T A C Gap parameters: d = 3 (gap opening) e = 0.1 (gap extension) g = 3 (gap lenght) (g) = -d - (g -1)e (g) = -3 - (3 -1) 0.1 = -3.2 T A T G T G C G T A T A insertion / deletion
Pairwise Sequence Alignment • Principios de la comparación por pares de secuencias • alineamientos globales / locales • sistemas de puntuación “scoring” • penalizaciones por GAP • Métodos de pairwise sequence alignment • Basados en deslizamiento de ventanas “window-based” • programación dinámica
Pairwise Sequence Alignment A T T C A C A T A T A C A T T A C G T A C Sequence 2 Sequence 1
Dotplot: A dotplot da una visión general del alineamiento A T T C A C A T A T A C A T T A C G T A C Sequence 2 Sequence 1
Dotplot: Cada diagonal en elgráfico corresponde a un posible alineamiento sin gap entre las dos secuencias A T T C A C A T A T A C A T T A C G T A C Sequence 2 Sequence 1 T A C A T T A C G T A C A T A C A C T T A One possible alignment:
Pairwise Sequence Alignment • Principios de la comparación por pares de secuencias • alineamientos globales / locales • sistemas de puntuación “scoring” • penalizaciones por GAP • Métodos de pairwise sequence alignment • Basados en deslizamiento de ventanas “window-based” • programación dinámica
Window-based Approaches • Word Size • Window / Stringency
Word Size Algorithm T A C G G T A T G A C A G T A T C Word Size = 3 C T A T G A C A T A C G G T A T G T A C G G T A T G A C A G T A T C T A C G G T A T G A C A G T A T C T A C G G T A T G A C A G T A T C
Window / Stringency Window = 5 / Stringency = 4 T A C G G T A T G T C A G T A T C C T A T G A CA T A C G G T A T G T A C G G T A T G T C A G T A T C T A C G G T A T G T C A G T A T C T A C G G T A T G T C A G T A T C
Considerations • The window/stringency method is more sensitive than the wordsize • method (ambiguities are permitted). • The smaller the window, the larger the weight of statistical • (unspecific) matches. • With large windows the sensitivity for short sequences is reduced. • Insertions/deletions are not treated explicitly.
Insertions / Deletions in a Dotplot T A C T G T C A T T A C T G T T C A T Sequence 2 Sequence 1 T A C T G-T C A T | | | | | | | | | T A C T G T T C A T
Dotplot (Window = 130 / Stringency = 9) Hemoglobin-chain Hemoglobin -chain
Dotplot (Window = 18 / Stringency = 10) Hemoglobin-chain Hemoglobin -chain
Pairwise Sequence Alignment • Principles of pairwise sequence comparison • global / local alignments • scoring systems • gap penalties • Methods of pairwise sequence alignment • window-based approaches • dynamic programming approaches • Needleman and Wunsch • Smith and Waterman
Dynamic Programming Procedimiento automático que encuentra el mejor alineamiento con un score óptimo dependiendo de los parámetros elegidos. Soluciones recursivas. Los problemas pequeños se solucionan primero y las soluciones se usan para resolver problemas mayores despues. Las soluciones intermedias se almacenan en matrices tabulares.
Principios básicos de la programación dinámica • Initialization of alignment matrix: the scoring model • - Stepwise calculation of score values • (creation of an alignment path matrix) • - Backtracking (evaluation of the optimal path)
Initialization of Matrix (BLOSUM 50) H E A G A W G H E E P -2 -1 -1 -2 -1 -4 -2 -2 -1 -1 A -2 -1 5 0 5 -3 0 -2 -1 -1 W -3 -3 -3 -3 -3 15 -3 -3 -3 -3 H10 0 -2 -2 -2 -3 -2 10 0 0 E 0 6 -1 -3 -1 -3 -3 0 66 A -2 -1 5 0 5 -3 0 -2 -1 -1 E 0 6 -1 -3 -1 -3 -3 0 66
Needleman and Wunsch(global alignment) Sequence 1: H E A G A W G H E E Sequence 2: P A W H E A E Scoring parameters: BLOSUM50 matrix Gap penalty: Linear gap penalty of 8
Creation of an alignment path matrix Idea:Crear un alineamiento global optimo usando soluciones precias para alineamientos optimos de subsecuencias más pequeñas. • Construct matrix Findexed by i and j (one index for each sequence) • F(i,j) es el score para el mejor alineamiento entre el segmento inicial x1...ide x hasta xiy el segmento inicial y1...jde y hasta yj • construir F(i,j) de forma recursiva empezando con F(0,0) = 0 H - E - A P G - G - H H E E - A A A W W Optimal global alignment:
Creation of an alignment path matrix F(i, j) =F(i-1, j-1) + s(xi ,yj) F(i, j) = max F(i, j) = F(i-1, j) - d F(i, j) = F(i, j-1) - d F(i-1, j-1)F(i, j-1) F(i-1,j)F(i, j) HEAGAWGHE-E --P-AW-HEAE s(xi ,yj) -d -d
Creation of an alignment path matrix • If F(i-1,j-1), F(i-1,j) and F(i,j-1) are known we can calculate F(i,j) • Three possibilities: • xiand yj are aligned, F(i,j) = F(i-1,j-1) + s(xi ,yj) • xi is aligned to a gap, F(i,j) = F(i-1,j) - d • yjis aligned to a gap, F(i,j) = F(i,j-1) - d • The best score up to (i,j) will be the largest of the three options
Creation of an alignment path matrix H E A G A W G H E E 0 P A W H E A E -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 -8 -16 -24 -32 -40 -48 -56 Boundary conditions F(i, 0) = -id F(j, 0) = -jd
F(i, j) = F(i-1, j-1) + s(xi ,yj) F(i, j) = max F(i, j) = F(i-1, j) - d F(i, j) = F(i, j-1) - d F(0,0) + s(xi ,yj) = 0 -2 = -2 F(1,1) = max F(0,1) - d = -8 -8= -16 = -2 F(1,0) - d = -8 -8= -16 F(1,0) + s(xi ,yj) = -8 -1 = -9 F(2,1) = max F(1,1) - d = -2 -8 = -10 = -9 F(2,0) - d = -16 -8= -24 -2 -1 = -3 F(2,2) = max -10 -8 = -18 = -3 -9 -8 = -17 -8 -2 = -10 F(1,2) = max -16 -8 = -24 = -10 -2 -8 = -10 Stepwise calculation of score values H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 A -16 W -24 H -32 E -40 A -48 E -56 P-H=-2 E-P=-1 H-A=-2 E-A=-1 -2 -9 -10 -3
E E Backtracking H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1 0 -8 -16 -17 -25 -20 -5 -13 -3 3 -5 1 H - E - A P G - G - H H E E - A A A W W Optimal global alignment: