210 likes | 404 Views
Curso Teórico-Práctico de Posgrado Herramientas informáticas para el análisis estructural de ácidos nucleicos y proteínas. ALINEAMIENTO MÚLTIPLE DE SECUENCIAS CONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOS. 2006. Nancy I. López. ALINEAMIENTO DE SECUENCIAS.
E N D
Curso Teórico-Práctico de Posgrado Herramientas informáticas para el análisis estructural de ácidos nucleicos y proteínas ALINEAMIENTO MÚLTIPLE DE SECUENCIAS CONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOS 2006 Nancy I. López
ALINEAMIENTO DE SECUENCIAS Comparación alineamiento de a pares. Alineamiento múltiple comparando varias secuencias relacionadas Utilidad . Destacar regiones de similitud, divergencia o mutaciones . Motivos, estructura y función en proteínas. Resaltar errores en la predicción de la secuencia de proteínas o en la secuencia misma . Seleccionar primers de una familia de genes. . Realizar análisis evolutivos (filogenia) árboles filogenéticos • Cómo obtener los mejores alineamientos • Homología. • Fragmentos que compartan regiones comunes o secuencia completa. Estructura / Secuencia? • Editar manualmente.
Alineamientos múltiples • La premisa básica de un alineamiento múltiple es que para cada columna en el alineamiento cada residuo de cada secuencia es homólogo. Esto significa que ha evolucionado desde la misma posición en una secuencia ancestral común sin inserción ni deleción. • información sobre estructura y función de proteínas • modo de evolución • filogenia. En el caso de la filogenia molecular el resultado del análisis dependerá del alineamiento previo. Inspeccionar cuidadosamente ese alineamiento para ver que se incluye y que no. En caso de utilizar genes que codifican proteínas: usar secuencia de proteínas o de DNA.
Métodos utilizados para realizar alineamientos Agrupación (clustering) es uno de los más utilizados. Alineamientos óptimos requieren programas de computación. Programa CLUSTAL alineamiento global para un conjunto de secuencias Las secuencias son alineadas de a pares y los pares con puntaje (score) más alto son luego agrupados con otras secuencias y los grupos (clusters) son armados de acuerdo a la similitud. Árbol guía no da información filogenética. Secuencias similares más cercanas en el árbol (archivo.dnd) Alineamiento múltiple constituye un paso fundamental. Hasta 1989 alineamientos a mano. ClustalW –ClustalX BioEdit
ALINEAMIENTO MÚLTIPLE DE SECUENCIAS UTILIZANDO EL PROGRAMA CLUSTALW 1. Secuencias en un archivo común en un formato compatible. Nombre >abc Formato FASTA Genebank 2. Pegar archivo 3. Seleccionar opciones Matrices DNA identity matrix Gonnet 250
Resultados del alineamiento múltiple de 4 proteínas Árbol guía
Archivo de datos >s1GCTCGGTATGTTGGTCGGCGCCATTGTCGATCAACGGCGCCATTGTCGATCAACGGCGCCATTGTCGATCAAA...............>s2GAcACTGCCCTCCCGATGCAGGGAAAAATCGGCGCCATTGTCGATCAATGAGCAGTAACGAACAAAATGC................>s3GCAAAGCgCacTTcAaATCaGGGCTCGACATCATCaCATAGCCCAccACGTCGTAAATgCCCGGCTTGACCAG.....
Construcción de árboles filogenéticos Filogenia es la ciencia de estimar el pasado evolutivo. Filogenia molecular basada en comparación de secuencias de proteínas o de DNA. Árbol filogenético 1° alineamiento múltiple. Árbol obtenido dependiente de este alineamiento. Árbol estructura matemática que se usa para modelar la historia evolutiva de un grupo de secuencias o de organismos. Árboles . se pueden graficar de cualquier manera . complejidad rotación (todas las ramas pueden rotar alrededor del plano de sus nodos árboles =) .crecen de izquierda a derecha . etiquetas son horizontales.
Construcción de árboles filogenéticos • 1. Definir conjunto de secuencias a analizar (DNA, RNA o proteínas) provenientes de distintos microorganismos • 2. Alinear correctamente esas secuencias • 3. Aplicar métodos adecuados para la construcción de árboles filogenéticos • 4. Evaluar estadísticamente el árbol filogenético obtenido
Nodos Ramas Nodos terminales: OTUs (Datos) Nodos internos: antecesores hipotéticos Raiz: nodo del cual los otros descienden. Da dirección Patrón de ramificación:topología
Number of Taxa Number of unrooted trees Number of rooted trees 3 1 3 4 3 15 5 15 105 6 105 945 7 945 10395 8 10395 135135 9 135135 2027025 10 2027025 34459425 Nr=(2n-3)!/[2n-2*(n-2)!], n ≥2 Nu=(2n-5)!/[2n-3*(n-3)!], n ≥3 Nr para n = Nu para n+1
Cladograma: es el modelo básico y simplemente muestra la distancia al antecesor común en términos relativos. Las ramas son de igual longitud por lo cual no indican el tiempo evolutivo. Filograma: contiene información adicional dada por la longitud de las ramas. Los números asociados con cada rama corresponden a un atributo de las secuencias, tal como cantidad de cambio evolutivo. Es aditivo. Métricos. Dendrograma: tipo especial de árbol aditivo en el cual los extremos del árbol son equidistantes de la raíz y son proporcionales al tiempo de divergencia. Ultramétricos.
Métodos para la construcción de árboles filogenéticos Métodos de distancia Utilizan matrices de distancia • UPGMA: Unweighted Pair Group Method with Arithmetic Mean. • NJ-Neighbour Joining. Vecino más cercano • Minimum evolution. Utiliza el método de cuadrados mínimos. Métodos discretos Operan directamente con las secuencias • Parsimonia: usa un carácter. Criterio: buscar el menor número de cambios evolutivos requeridos • Máxima verosimilitud (Maximum likelihood): utiliza el estado del carácter y la distancia
Matriz de distancias Sitios 1 2 3 4 5 6 7 1 T T A T T A A 2 A A T T T A A Distancias 1 0 2 3 0 3 5 4 0 4 5 4 2 0 ___________ 1 2 3 4 3 A A A A A T A 4 A A A A A A T Secuencias Diferencia o divergencia entre las secuencias .- Rápidos .- información restringida al árbol
Métodos discretos • Analizan cada columna dentro del alineamiento y construyen el mejor árbol que se ajusta a esa condición .- lentos .- ricos en información. Hipótesis para cada columna dentro del alineamiento. Puede obtenerse información sobre evolución de sitios específicos en la molécula (Ej.: sitios catalíticos o regiones regulatorias).
Cómo comparar diferentes métodos de construcción de árboles? • Eficiencia : rapidez • “potencia”: número de datos requeridos para obtener resultados razonables • Consistencia • Robustez: sensibilidad a desviaciones • Información sobre si los supuestos son violados. METODO IDEAL DEBERIA CUMPLIR LOS 5 CRITERIOS PERO NO EXISTE Probar árboles con más de un método
4. Evaluación estadística del árbol filogenético obtenido • El test más simple para probar si el conjunto de datos “soportan” el árbol obtenido es el del bootstrap. Es un método estadístico que puede estimar las distribuciones por creación repetida y análisis de conjuntos de datos artificiales. Una forma de medir el error de muestreo es tomar muchas muestras de la población estudiada y compararlas. Bootstrap simula esto pero en lugar de muestrear de una población “remuestrea” los datos originando pseudorréplicas.
Valores de bootstrap ( %). > 50 %.
Programas • ClustalW Alineamiento Graficar con Treeview, Phylodraw NJ-Plot PHYLIP MEGA 3.1 Es el más fácil de manejar PAUP* (POP STAR). Es el más sofisticado y versátil
TRABAJO PRÁCTICO 1. Tutorial de ClustalW • Secuencias simples • Alineamiento múltiple. Analizar. Observar árbol guía. • ClustalW para construir el árbol. Modificar opciones en la ventana “Phylogenetic tree”. Método utilizado por el programa es el del NJ-Vecino más cercano (Neighbour Joining). Elegir entre los posibles formatos de árbol (Neighbour, Phylip, Distance) • Con el archivo obtenido del CLustalW (. ph)entrar en el programa Treeview y graficar el árbol. Observar distintos tipos de árboles. Definir el outgroup