1 / 72

Alineamientos de secuencias

Alineamientos de secuencias. ¿Para qué hace falta la compoaración de secuencias?. Bases biológicas: Muchos genes y proteínas son miembros de familias que tienen funciones biológicas similares o un origen filogenético común. Se usa para: Identificar relacciones evolutivas.

Download Presentation

Alineamientos de secuencias

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Alineamientos de secuencias

  2. ¿Para qué hace falta la compoaración de secuencias? • Bases biológicas: • Muchos genes y proteínas son miembros de familias que tienen funciones biológicas similares o un origen filogenético común. • Se usa para: • Identificar relacciones evolutivas. • Identificar patrones conservados. • en caso de secuencias con funciones desconocidas: encontrar dominios similares en otras proteinas implica una función similar.

  3. Alineamiento de secuencias Claves: • 1- que tipo de alineamiento hay que considerar • 2- que sistema de puntuacion “scoring” hay que usar para clasificar los alineamientos • 3- que algoritmos hay que usar para encontrar la solución óptima (o buena) • 4- métodos estadisiticos necesarios para evaluar la significacion del score de los alineamientos

  4. Tipos de comparación de secuencias • Pairwise Alignments • Alineamientos múltiples • Búsquedas en bases de datos

  5. Pairwise Sequence Alignment • Principios de la comparación por pares de secuencias • alineamientos globales / locales • sistemas de puntuación “scoring” • penalizaciones por GAP • Métodos de pairwise sequence alignment • Basados en deslizamiento de ventanas “window-based” • programación dinámica

  6. Pairwise Sequence Alignment • Alineamientos globales • Alineamientos locales

  7. Alineamiento Global (Needleman & Wunsch) crea alineamientos en toda la longitud de la secuencia. Para secuencias que estan muy relaccionadas

  8. Alineamiento Global Dos secuencias con varias regiones de similaridad 1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGTAGACCG.... 67 |||||||||||||| | | | |||| || | | | || 1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 70 Con un alineamiento local solo se obtendrá una similaridad muy baja: fragmento azul

  9. Alineamiento Local 14 TCAGAAGCAGCTAAAGCGT 32 ||||||||| ||||||||| 42 TCAGAAGCA.CTAAAGCGT 59 1 AGGATTGGAATGCT 14 |||||||||||||| 1 AGGATTGGAATGCT 14 39 AGGATTGGAAT 49 ||||||||||| 1 AGGATTGGAAT 11 62 AGACCG 67 |||||| 66 AGACCG 71 Alineamiento local encuentra la region que tiene la mejor similaridad local.

  10. Pairwise Sequence Alignment alfa globina humana beta-globina leghemoglobina Glutonina S-tranferasa nematodos

  11. Parámetros a tener en cuenta en el alineamiento de secuencias • Sistemas de puntuación: • A cada par de símbolos se le asigna un valor numerico • basado en una tabla de comparación de síbolos. • Penalizaciones por Gap: • apertura: Costo de introducir un gap • Extensión: Costo de extender el gap

  12. actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Sistemas de puntuación de secuencias de nucleótidos Sequencia 1 Sequencia 2 A G C T A1 0 0 0 G 0 1 0 0 C 0 0 1 0 T 0 0 0 1 Match: 1 Mismatch: 0 Score = 5

  13. actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Sistemas de puntuación de secuencias de nucleótidos Sequencia 1 Sequencia 2 Valores negativosque penalizen los mismatches: A T C G A 5 -4 -4 -4 T -4 5 -4 -4 C -4 -4 5 -4 G -4 -4 -4 5 Matches: 5 Mismatches: 19 Score: 5 x 5 + 19 * (-4) = - 51

  14. Sistemas de puntuación de secuencias de proteínas Sequencia 1 Sequencia 2 PTHPLASKTQILPEDLASEDLTI PTHPLAGERAIGLARLAEEDFGM C S T P A G N D. . C 9 S -1 4 T -1 1 5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2 0 6 N -3 1 0 -2 -2 0 5 D -3 0 -1 -1 -2 -1 1 6 . . C S T P A G N D. . C 9 S -1 4 T -1 1 5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2 0 6 N -3 1 0 -2 -2 0 5 D -3 0 -1 -1 -2 -1 1 6 . . Scoring matrix T:G = -2 T:T = 5 Score = 48 210 valores

  15. Protein Scoring Systems • Amino acidos tienen diferentes propiedades bioquímicas y físicas • que pueden influenciar su capacidad de ser reemplazados en la evolución tiny P aliphatic C small S+S G G I A S V C N SH L D T hydrophobic Y M K E Q F W H R positive aromatic polar charged

  16. Protein Scoring Systems • Las matrices reflejan • Probabilidades de substituciones mutuas • Probabilidad de ocurrencia de un aminoacido • Matrices mas usadas: • PAM • BLOSUM

  17. PAM (Percent Accepted Mutations) matrices • Derived from global alignments of protein families . • Family members share at least 85% identity (Dayhoff et al., 1978). • Construction of phylogenetic tree and ancestral sequences of each protein family • Computation of number of replacements for each pair of amino acids

  18. PAM (Percent Accepted Mutations) matrices • The numbers of replacements were used to compute a so-called • PAM-1 matrix. • PAM 1 significa: 1% de mutaciones aceptadas, es decir se utilizaría esta matriz cuando uno esperara un 1 % de substituciones. PAM matrices para distancias evolucionarias mas grandes se pueden extrapolar a partir de esta matriz. • PAM250 = 250 mutaciones por cada 100 residuos. • A mayor número mayor distancia evolutiva. PAM250 es muy común. a esta distancia evolutiva, 48% de los triptófanos, 41% de las cisteinas y 20% de las histidinas permanecen inalteradas pero solo 7% de las serinas

  19. C W W -8 17 PAM 250 El valor de un par de aa idénticos representa la probabilidad de que este aa permanezca inalterado (e.g. triptófano) A R N D C Q E G H I L K M F P S T W Y V B Z A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6

  20. BLOSUM (Blocks Substitution Matrix) • Derivada de alineamientos de dominios pertenecientes aproteinas alejadas en la evolucion (Henikoff & Henikoff,1992). • Contaron la presencia de cada • par de aa en cada columna de cada • bloque de alineamientos. • Los números obtenidos del • análisis de todos los bloques se usaron • para calcular las matrices • de tipo BLOSUM. A A C E C A A C E C A - C = 4 A - E = 2 C - E = 2 A - A = 1 C - C = 1

  21. BLOSUM (Blocks Substitution Matrix) • Las secuencias se clusterizan dentro de un bloque de acuerdo a su grado de identidad. Clusters are counted as a single sequence. • Las matrices BLOSUM difieren en el porcentaje de identidad de secuencias usado para hacer el clustering • El número de la matriz (e.g. 62 en BLOSUM62) se refiere al porcentaje máximo de identidad entre las secuencias utilizado para crear la matriz • Mayores número significan distancias evolutivas menores.

  22. Matrices de substitución: Log-odds Ratio Dado un par de secuencias alineadas queremos asignar una score que mida el grado de posibilidad „likelihood“, de que las secuencias estan relaccionadas x,y = amino acids (A,C......Y) P = likelyhood i = 1....n (longitud de la secuencia n) q = probabilidad P(x,y|R) =qxqy Random model (unrelated) : i i i i P(x,y|M) =pxy Match model (related) : i i i pxy pxy P(x,y|M)P(x,y|R)  i i i i related unrelated i = = Odds ratio : qxqy qxqy i i i i i i i pab  where :s(a,b) = log S = s(xi,yi) Log-odds ratio : qaqb i s(a,b)is the log likelyhood ratio of the residue pair (a,b) occurring as an aligned pair, as opposed to an unaligned pair.

  23. Como escoger la matriz adecuada • Generally, BLOSUM matrices perform better than PAM matrices for local similarity searches (Henikoff & Henikoff, 1993). • When comparing closelyrelatedproteins one should use lowerPAMor higher BLOSUM matrices, for distantlyrelatedproteins higher PAM or lower BLOSUM matrices. • For database searching the commonly used matrix is BLOSUM62.

  24. Como puntuar inserciones y delecciones A T G T A A T G C A T A T G T G G A A T G A A T G T - - A A T G C A T A T G T G G A A T G A insertion / deletion La creación de un gap se penaliza con un score negativo.

  25. Gap Penalties • Un alineamiento optimo • maximiza el numero de matches • minimiza el número de gaps • Permitir la inserción arbitraria de muchos gaps puede dar lugar a scores altos entre secuencias no homologas. • La penalización de los gaps fuerza a los alineamientos a alcanzar los criterios optimos

  26. Gap Penalties Linear gap penalty score: (g) = - gd Affine gap penalty score: (g) = -d - (g -1)e (g) = gap penalty score of a gap of lenght g d = gap opening penalty e = gap extension penalty g = gap lenght

  27. A T G T T A T A C T A T G T G C G T A T A Scoring Insertions and Deletions match = 1 mismatch = 0 Total Score: 4 Total Score: 8 - 3.2 = 4.8 A T G T - - - T A T A C Gap parameters: d = 3 (gap opening) e = 0.1 (gap extension) g = 3 (gap lenght) (g) = -d - (g -1)e (g) = -3 - (3 -1) 0.1 = -3.2 T A T G T G C G T A T A insertion / deletion

  28. Pairwise Sequence Alignment • Principios de la comparación por pares de secuencias • alineamientos globales / locales • sistemas de puntuación “scoring” • penalizaciones por GAP • Métodos de pairwise sequence alignment • Basados en deslizamiento de ventanas “window-based” • programación dinámica

  29. Pairwise Sequence Alignment A T T C A C A T A T A C A T T A C G T A C Sequence 2 Sequence 1

  30. Dotplot: A dotplot da una visión general del alineamiento A  T  T  C A  C A  T  A  T A C A T T A C G T A C Sequence 2 Sequence 1

  31. Dotplot: Cada diagonal en elgráfico corresponde a un posible alineamiento sin gap entre las dos secuencias A   T   T   C  A   C  A   T   A    T A C A T T A C G T A C Sequence 2 Sequence 1 T A C A T T A C G T A C A T A C A C T T A One possible alignment:

  32. Pairwise Sequence Alignment • Principios de la comparación por pares de secuencias • alineamientos globales / locales • sistemas de puntuación “scoring” • penalizaciones por GAP • Métodos de pairwise sequence alignment • Basados en deslizamiento de ventanas “window-based” • programación dinámica

  33. Window-based Approaches • Word Size • Window / Stringency

  34. Word Size Algorithm T A C G G T A T G A C A G T A T C Word Size = 3 C T A T G A C A T A C G G T A T G T A C G G T A T G A C A G T A T C T A C G G T A T G A C A G T A T C T A C G G T A T G A C A G T A T C 

  35. Window / Stringency Window = 5 / Stringency = 4 T A C G G T A T G T C A G T A T C C T A T G A CA T A C G G T A T G T A C G G T A T G T C A G T A T C  T A C G G T A T G T C A G T A T C  T A C G G T A T G T C A G T A T C 

  36. Considerations • The window/stringency method is more sensitive than the wordsize • method (ambiguities are permitted). • The smaller the window, the larger the weight of statistical • (unspecific) matches. • With large windows the sensitivity for short sequences is reduced. • Insertions/deletions are not treated explicitly.

  37. Insertions / Deletions in a Dotplot T A C T G T C A T T A C T G T T C A T Sequence 2 Sequence 1 T A C T G-T C A T | | | | | | | | | T A C T G T T C A T

  38. Dotplot (Window = 130 / Stringency = 9) Hemoglobin-chain Hemoglobin -chain

  39. Dotplot (Window = 18 / Stringency = 10) Hemoglobin-chain Hemoglobin -chain

  40. Pairwise Sequence Alignment • Principles of pairwise sequence comparison • global / local alignments • scoring systems • gap penalties • Methods of pairwise sequence alignment • window-based approaches • dynamic programming approaches • Needleman and Wunsch • Smith and Waterman

  41. Dynamic Programming Procedimiento automático que encuentra el mejor alineamiento con un score óptimo dependiendo de los parámetros elegidos. Soluciones recursivas. Los problemas pequeños se solucionan primero y las soluciones se usan para resolver problemas mayores despues. Las soluciones intermedias se almacenan en matrices tabulares.

  42. Principios básicos de la programación dinámica • Initialization of alignment matrix: the scoring model • - Stepwise calculation of score values • (creation of an alignment path matrix) • - Backtracking (evaluation of the optimal path)

  43. Initialization of Matrix (BLOSUM 50) H E A G A W G H E E P -2 -1 -1 -2 -1 -4 -2 -2 -1 -1 A -2 -1 5 0 5 -3 0 -2 -1 -1 W -3 -3 -3 -3 -3 15 -3 -3 -3 -3 H10 0 -2 -2 -2 -3 -2 10 0 0 E 0 6 -1 -3 -1 -3 -3 0 66 A -2 -1 5 0 5 -3 0 -2 -1 -1 E 0 6 -1 -3 -1 -3 -3 0 66

  44. Needleman and Wunsch(global alignment) Sequence 1: H E A G A W G H E E Sequence 2: P A W H E A E Scoring parameters: BLOSUM50 matrix Gap penalty: Linear gap penalty of 8

  45. Creation of an alignment path matrix Idea:Crear un alineamiento global optimo usando soluciones precias para alineamientos optimos de subsecuencias más pequeñas. • Construct matrix Findexed by i and j (one index for each sequence) • F(i,j) es el score para el mejor alineamiento entre el segmento inicial x1...ide x hasta xiy el segmento inicial y1...jde y hasta yj • construir F(i,j) de forma recursiva empezando con F(0,0) = 0 H - E - A P G - G - H H E E - A A A W W Optimal global alignment:

  46. Creation of an alignment path matrix F(i, j) =F(i-1, j-1) + s(xi ,yj) F(i, j) = max F(i, j) = F(i-1, j) - d F(i, j) = F(i, j-1) - d F(i-1, j-1)F(i, j-1) F(i-1,j)F(i, j) HEAGAWGHE-E --P-AW-HEAE s(xi ,yj) -d -d

  47. Creation of an alignment path matrix • If F(i-1,j-1), F(i-1,j) and F(i,j-1) are known we can calculate F(i,j) • Three possibilities: • xiand yj are aligned, F(i,j) = F(i-1,j-1) + s(xi ,yj) • xi is aligned to a gap, F(i,j) = F(i-1,j) - d • yjis aligned to a gap, F(i,j) = F(i,j-1) - d • The best score up to (i,j) will be the largest of the three options

  48. Creation of an alignment path matrix H E A G A W G H E E 0 P A W H E A E -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 -8 -16 -24 -32 -40 -48 -56 Boundary conditions F(i, 0) = -id F(j, 0) = -jd

  49. F(i, j) = F(i-1, j-1) + s(xi ,yj) F(i, j) = max F(i, j) = F(i-1, j) - d F(i, j) = F(i, j-1) - d F(0,0) + s(xi ,yj) = 0 -2 = -2 F(1,1) = max F(0,1) - d = -8 -8= -16 = -2 F(1,0) - d = -8 -8= -16 F(1,0) + s(xi ,yj) = -8 -1 = -9 F(2,1) = max F(1,1) - d = -2 -8 = -10 = -9 F(2,0) - d = -16 -8= -24 -2 -1 = -3 F(2,2) = max -10 -8 = -18 = -3 -9 -8 = -17 -8 -2 = -10 F(1,2) = max -16 -8 = -24 = -10 -2 -8 = -10 Stepwise calculation of score values H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 A -16 W -24 H -32 E -40 A -48 E -56 P-H=-2 E-P=-1 H-A=-2 E-A=-1 -2 -9 -10 -3

  50. E E Backtracking H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1 0 -8 -16 -17 -25 -20 -5 -13 -3 3 -5 1 H - E - A P G - G - H H E E - A A A W W Optimal global alignment:

More Related