1 / 55

Comparación de secuencias (Sequence comparison)

Comparación de secuencias (Sequence comparison). Objetivo. Aprovechar información funcional y/o estructural identificando homología entre secuencias Diferencia entre Homología e identidad Dos secuencias se consideran homólogas cuando: Tienen el mismo origen evolutivo

vail
Download Presentation

Comparación de secuencias (Sequence comparison)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Comparación de secuencias(Sequence comparison)

  2. Objetivo • Aprovechar información funcional y/o estructural identificando homología entre secuencias • Diferencia entre Homología e identidad • Dos secuencias se consideran homólogas cuando: • Tienen el mismo origen evolutivo • Tienen función y estructura similares

  3. • Homologous sequences - sequences that share a common evolutionary ancestry • Similar sequences - sequences that have a high percentage of aligned residues with similar physicochemical properties (e.g., size, hydrophobicity, charge) IMPORTANT: • Sequence homology: • An inference about a common ancestral relationship, drawn when two sequences share a high enough degree of sequence similarity • Homology is qualitative • Sequence similarity: • The direct result of observation from a sequence alignment • Similarity is quantitative; can be described using percentages

  4. Ejercicio

  5. Proteínas posibles de 50 Aminoácidos ? Nuestras proteínas son una minoría • MALRTGGPAL VVLLAFWVAL GPCHLQGTDP GASADAEGPQ CPVACTCSHD • MRCAPTAGAA LVLCAATAGL LSAQGRPAQP EPPRFASWDE MNLLAHGLLQ • 5020: 100000000000000000000000000000000 proteínas posibles • Proteínas distintas que existen en la naturaleza: unas 200.000 • Porcentaje de reales sobre posibles: 0.0000000000000000000000002% (o sea nada, prácticamente)

  6. Más definiciones • Orthologs: secuencias que corresponden exactamente a la misma función/estructura en organismos distintos • Paralogs: secuencias producto de duplicaciones en un mismo organismo. Normalmente implican cambios de función.

  7. orthologs paralogs ORTHOLOGS AND PARALOGS INTO LOCUS ß FROM GLOBINS

  8. Homology and prediction • Very divergent protein sequences may suport similar structures • Similar protein structures will probably have related or similar functions

  9. 3D STRUCTURE VERSUS SEQUENCE Sequence alignment between human myoglobin,  and globins from hemoglobin

  10. Comparison of 3D structures of human myoglobin,  and globins from hemoglobin -globin myoglobin -globin

  11. Comparison of 3D structures of human myoglobin,  and globins from hemoglobin -globin myoglobin -globin

  12. Homology and prediction • La comparación de secuencias es el método más simple para identificar la existencia de homología. • Identidad > 30% en proteína implica homología • Identidad > 80-90% es normal en ortólogos de especies cercanas • Identidad 10-30%. Si existe homología, es indetectable (“twilight zone”)

  13. ¿DNA o proteína? • Ambas proporcionan información sobre homología • DNA: Solamente la identidad entre bases es relevante • Proteína: Existen equivalencia funcional entre aminoácidos

  14. Apareamientos canónicos (Watson-Crick) Unicamente la identidad es relevante

  15. Mismatch costs are not usually used in aligning DNA or RNA sequences, because no substitution is "better" than any other (in general)

  16. Degeneración en la tercera posición XYC = XYU XYA ~ XYG • Código genético • Trp, Met (1) • Leu, Ser, Arg (6) • resto (2) • Iniciación AUG • Stop (3)

  17. Aminoácidos “equivalentes” • Hidrofóbicos • Ala (A), Val (V), Met (M), Leu (L), Ile (I), Phe (F), Trp (W), Tyr (Y) • Pequeños • Gly (G), Ala (A), Ser (S) • Polares • Ser (S), Thr (T), Asn (N), Gln (Q), Tyr (Y) • En la superficie de la proteína polares y cargados son equivalentes • Cargados • Asp (D), Glu (E) / Lys (K), Arg (R) • Dificilmente sustituibles • Gly (G), Pro (P), Cys (C), His (H)

  18. 3D visualization of some conserved residues in globin family (Myoglobin structure) Prolin in a turn Histidin For the hemo coordination bonds 2 conserved glycines in 2 separate helix crossing each other

  19. La secuencia de DNA diverge más rápidamente • mutación o recombinación altera el DNA pero debe mantener la función/estructura • La comparación de proteínas permite localizar homologías más lejanas

  20. Alineamiento de secuencias • Medir la homología entre secuencias requiere un “alineamiento” Homología alta: AWTRRATVHDGLMEDEFAA AWTRRATVHDGLCEDEFAA Homología baja: AWTKLATAVVVFEGLCEDEWGG AWTRRAT---VHDGLMEDEFAA

  21. Tipos alineamiento • “pairwise” • Dos secuencias • Multiple • Más de dos secuencias • Global • Toda la secuencia se considera • Local • Unicamente se alinean regiones parecidas

  22. EstrategiasDepende del objetivo • Comparación de secuencias • Objetivo: medir homología, identificar aminoácidos equivalentes • global, ”pairwise”/múltiple • Búsqueda en bases de datos • Objetivo: Identificar homólogos en un conjunto grande de secuencias • Local, “pairwise”

  23. Alineamiento manual proteína • Requiere “oficio” • Conocer propiedades de aminoácidos • Conocer la proteína • Permite incorporar información adicional • Aminoácidos funcionales • Aminoácidos necesarios para mantener la estructura • … • Es lento y poco reproducible

  24. Alineamiento automático (problema de optimización) • Requiere • un método objetivo de comparar aminoácidos o bases para “puntuar” el alineamiento (matrices de comparación) • algoritmo para encontrar el alineamiento con la máxima puntuación • Es reproducible y rápido • No permite, en general, introducir información adicional

  25. Tipos de matrices • Identidad • Propiedades físico-químicas • Genéticas (sustitución de codones) • Evolutivas

  26. La aplicación sucesiva de la matriz PAM permite simular varias generaciones • PAM 40, PAM 100, PAM 250 • Evolutionary distance considered is constant • Bigger number bigger divergence. Less stringent

  27. Evolutionary distances considered are variable More modern than PAM but similar results. Smaller is n bigger divergence. Less stringency

  28. Blosum 62 Small positive score for changes in similar aminoacids Small positive score for commonaminoacids Infrequente aminoacids have high score High Penalty for very different aminoacids

  29. ¿Which matrix to use?? • No clear answer • All matrix evaluate functional equivalence between aminoacids in the light of evolution and conservation: la equivalencia funcional entre aminoácidos

  30. Choice of a Matrix! BLOSUM90 PAM30 BLOSUM80 PAM120 BLOSUM62 PAM180 BLOSUM45 PAM240 Rat versus mouse protein Rat versus bacterial protein

  31. PAM Point Accepted Mutatiton

  32. Gaps (inserciones/delecciones) • Normalmente localizados en loops AWTKLATAVVVFEGLCEDEWGG AWTRRAT---VHDGLMEDEFAA

  33. Gaps (inserciones/delecciones) • Esquemas de puntuación: • Dependiendo de estructura 2ª • Valor constante • Función lineal go + n.gl

  34. Global versus local alignment • Global alignment • Finds best possible alignment across entire length of 2 sequences • Aligned sequences assumed to be generally similar over entire length • Local alignment • Finds local regions with highest similarity between 2 sequences • Aligns these without regard for rest of sequence • Sequences are not assumed to be similar over entire length

  35. Global or Local ? • 1. Searching for conserved motifs in DNA or protein sequences? • 2. Aligning two closely related sequences with similar lengths? • 3. Aligning highly divergent sequences? • 4. Generating an extended alignment of closely related sequences? • 5. Generating an extended alignment of closely related sequences with very different lengths?

  36. Local vs. Global Alignment (cont’d) • Global Alignment • Local Alignment—better alignment to find conserved segment --T—-CC-C-AGT—-TATGT-CAGGGGACACG—A-GCATGCAGA-GAC | || | || | | | ||| || | | | | |||| | AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG—T-CAGAT--C tccCAGTTATGTCAGgggacacgagcatgcagagac |||||||||||| aattgccgccgtcgttttcagCAGTTATGTCAGatc

  37. Comparación de secuencias contra bases de datos Base de datos De secuencias AGLM...WTKR TCGGLMN..HICG WRKCPGL ... Secuencia incógnita ATTVG...LMN Requiere algoritmos de comparación muy rápidos

  38. Diasdvantages from global alignment Global alignment server • Slow • Scores whole sequence • Do not recognize multidomain proteins A B C A C’ B D

  39. Alineamiento local • 10 – 100x más rápidos • Reconocen dominios individuales • No proporcionan necesariamente el mejor alineamiento! • BLAST, FASTA

  40. Basic Local Alignment Search ToolBlast NCBI

  41. Basic Local Alignment Search Tool Blast NCBI The Basic Local Alignment Search Tool (BLAST) finds regions of local similarity between sequences. The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance of matches. BLAST can be used to infer functional and evolutionary relationships between sequences as well as help identify members of gene families.

  42. Formatos entrada

  43. E parameter (Expected threshold) • ExpectThe Expect value (E) is a parameter that describes the number of hits one can "expect" to see just by chance when searching a database of a particular size. It decreases exponentially with the Score (S) that is assigned to a match between two sequences. Essentially, the E value describes the random background noise that exists for matches between sequences. For example, an E value of 1 assigned to a hit can be interpreted as meaning that in a database of the current size one might expect to see 1 match with a similar score simply by chance. This means that the lower the E-value, or the closer it is to "0" the more "significant" the match is. However, keep in mind that searches with short sequences, can be virtually indentical and have relatively high EValue. This is because the calculation of the E-value also takes into account the length of the Query sequence. This is because shorter sequences have a high probability of occuring in the database purely by chance.

More Related