1 / 30

El sistema de puntuación

Para saber cuál es el mejor alineamiento entre dos secuencias es necesario establecer un sistema de puntuación . Cada uno de los posibles alineamientos recibe una puntuación y se considera alineamiento óptimo aquél que consigue la puntuación más elevada.

hewitt
Download Presentation

El sistema de puntuación

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Para saber cuál es el mejor alineamiento entre dos secuencias es necesario establecer un sistema de puntuación. Cada uno de los posibles alineamientos recibe una puntuación y se considera alineamiento óptimo aquél que consigue la puntuación más elevada. El sistema de puntuación consta de dos componentes: (1) una matriz de sustitución que asigna una puntuación a cada una de las sustituciones posibles y (2) una penalización por la introducción de indels. La puntuación del alineamiento resulta de sumar las puntuaciones de cada posición, en función de que los residuos coincidan, sean distintos o haya indels. El sistema de puntuación

  2. Matrices de sustitución

  3. Margaret Dayhoff (1925 – 1983) Matrices PAM (aminoácidos)

  4. PAM 250

  5. Ventajas e inconvenientes de PAM

  6. Gonnet recalculó la matriz PAM en 1992

  7. Gonnet PAM250

  8. (BLOcks SUbstitution Matrix) PROSITEDatabase of protein families and domains Steven y Jorja Henikoff

  9. small hydrophylic acid hydrophylic basic small hydrophobic aromatic BLOSUM 62

  10. Ventajas e inconvenientes de BLOSUM

  11. Based on an explicit evolutionary model • Derived from small, closely related proteins with ~15% divergence • Higher PAM numbers to detect more remote sequence similarities • Errors in PAM 1 are scaled 250X in PAM 250 • Based on empirical frequencies • Uses much larger, more diverse set of protein sequences (30-90% ID) • Lower BLOSUM numbers to detect more remote sequence similarities • Errors in BLOSUM arise from errors in alignment PAM vs. BLOSUM (1)

  12. Built from local alignments • Built from vast amount of data • Counting based on groups of related sequences counted as one • Useful in finding local alignments • Lower BLOSUM series means more divergence • Designed to find conserved domains of proteins • Built from global alignments • Built from small amount of data • Counting is based on minimum replacement or maximum parsimony • Useful in finding global alignments and remote homologs • Higher PAM series means more divergence • Designed to track evolutionary origins of proteins PAM vs. BLOSUM (2)

  13. ¿PAM o BLOSUM?

  14. Otras matrices

  15. Matriz de identidad

  16. Matriz de sustitución de codones

  17. Cadenas laterales de los aminoácidos

  18. Matriz de hidrofobicidad User matrix Otros tipos de matrices

  19. Matrices PAM (nucleótidos)

  20. A G T C A 0.99 G 0.00333 0.99 T 0.00333 0.00333 0.99 C 0.00333 0.00333 0.00333 0.99 Mutation probability matrix (PAM-1) Modelo de Jukes-Cantor (uniforme)

  21. A G T C A 0.99 G 0.006 0.99 T 0.002 0.002 0.99 C 0.002 0.002 0.006 0.99 Mutation probability matrix (PAM-1) Transition (A↔G) (C↔T) (purina↔purina) (pirimidina↔pirimidina) (purina↔pirimidina) (pirimidina↔purina) Transversion (A↔T) (A↔C) (G↔T) (G↔C) Modelo de Kimura (sesgado)

  22. Gap penalties

  23. A veces no me interesa que haya indels en el alineamiento (regiones muy conservadas y con funciones muy delicadas que no tolerarían ningún cambio). Puedo usar un programa que no admita indels o, alternativamente, colocar una penalización infinita a los indels. ¿Indels? No, gracias

  24. Suele ser un valor negativo muy elevado (G = -11; G = -). En la práctica, evita la introducción de indels en el alineamiento. La penalización se contabiliza sólo una vez (cuando se abre el indel) y es independiente de su tamaño. Penalización constante

  25. Se puede aplicar una penalización lineal. Cada posición ocupada por un indel sufre una penalización, que es siempre la misma. G = - n  go Penalización lineal

  26. Desde un punto de vista evolutivo, es más realista suponer que la naturaleza ha insertado/eliminado fragmentos en la secuencia de una sola vez. Por eso se introduce una penalización para la inclusión de un indel (gap open penalty) y otra penalización (menos costosa) que dependa de la longitud del indel (gap extension penalty). La inserción/eliminación es mucho menos probable que cualquier sustitución de aa, por radical que ésta sea. Por tanto, la go debe estar muy penalizada para que se introduzcan indels donde sea preciso, y no por toda la secuencia Una vez que se ha introducido un indel en un punto de la secuencia, su extensión (ge) es mucho más probable y debe estar mucho menos penalizada. Penalización afín

  27. Modelo lineal Modelo convexo Dos modelos de penalización afín (1)

  28. En la penalización afín hay dos maneras distintas de penalizar la extensión del indel : Modelo lineal: Para todo n >1, p(n+1) - p(n) = p(n) - p(n-1) (La penalización es proporcional a la longitud del indel) G = go + (n-1)ge G = go + nge Modelo convexo: Para todo n>1, p(n+1) - p(n) < p(n) - p(n-1) (Cada tramo adicional del indel penaliza menos que el anterior. Es el modelo que más se ajusta a la realidad, pero desde el punto de vista computacional es muy difícil incluirlo en el algoritmo ) G = go + k log (n) Dos modelos de penalización afín (2)

  29. Matriz gap opening gap extension BLOSUM 62 -12 - 3 / -12 BLOSUM 50 -15 - 8 / -15 PAM 250 -15 - 5 / - 15 Es importante seleccionar una penalización apropiada en función de la matriz de puntuación elegida para que no se excluyan los indels, pero que tampoco se propaguen por todo el alineamiento. No hay una mecanismo formal para calcular el valor de la penalización. La mayor parte de los programas hacen sus propias recomendaciones, que están basadas en métodos de ensayo y error y no garantizan que para tu caso concreto sean las más adecuadas. Deberás hacer varias pruebas. Algunos valores típicos: Algunas recomendaciones

More Related