1 / 41

HERRAMIENTA PARA INFERENCIA FILOGENÉTICA CON EL MÉTODO DE MAXIMIZACIÓN ESTRUCTURAL DE LA ESPERANZA Y MODELOS OCULTOS DE

HERRAMIENTA PARA INFERENCIA FILOGENÉTICA CON EL MÉTODO DE MAXIMIZACIÓN ESTRUCTURAL DE LA ESPERANZA Y MODELOS OCULTOS DE MARKOV. José Gómer González Hernández Director: Ing. Luis Fernando Niño Depto. de Ing. de Sistemas e Industrial Universidad Nacional de Colombia 2003. Agenda.

chailyn
Download Presentation

HERRAMIENTA PARA INFERENCIA FILOGENÉTICA CON EL MÉTODO DE MAXIMIZACIÓN ESTRUCTURAL DE LA ESPERANZA Y MODELOS OCULTOS DE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. HERRAMIENTA PARA INFERENCIA FILOGENÉTICA CON EL MÉTODO DE MAXIMIZACIÓN ESTRUCTURAL DE LA ESPERANZA Y MODELOS OCULTOS DE MARKOV José Gómer González HernándezDirector: Ing. Luis Fernando NiñoDepto. de Ing. de Sistemas e IndustrialUniversidad Nacional de Colombia2003

  2. Agenda • Introducción a la Inferencia Filogenética • Métodos existentes • Simplificaciones comunes • El método EM (expectation maximization) • Modelo de tasas evolutivas • Aplicación del método SEM (structural EM) • Resultados experimentales (demo) • Conclusiones

  3. Introducción:El problema de interés Estudiar las relaciones evolutivas entre un conjunto de objetos y representar tal historia mediante un árbol evolutivo.La construcción de este tipo de árboles (árboles filogenéticos) se conoce como inferencia filogenética.Via ADN se puede comparar cualquier grupode organismos (bacterias, plantas y animales), dada la existencia de los nucleótidos (A,C,G,T).

  4. Introducción:Supuestos fundamentales Concepto Darwiniano (el origen de las especies - 1859): Las especies están relacionadas por ascendencia compartiendo un ancestro común.Las especies sujetas a "presión evolutiva" se someten a procesos de especiación a través de mutaciones: Un objeto se convierte en dos objetos distintos con el tiempo.

  5. Introducción:Árboles Filogenéticos I Una filogenia describe el patrón de divergencia entre un conjunto de especies(objetos en general).Los objetos cuyas secuencias son conocidas se ubican en sus hojas. Sus ancestros (desconocidos) se representan en los nodos interiores del árbol.

  6. Introducción:Árboles Filogenéticos II Tal “patrón de divergencia" se denomina topología (T).La rama que separa dos nodos adyacentes i, j expresa una distancia genética.La parametrización de una topología T es un vector t=(tij) tal que i, jT. (T,t) se denomina árbol filogenético.

  7. Introducción:Árboles Filogenéticos III Topologías cuyos nodos interiores tienen grado 3, se llaman topologías de bifurcación. La mayoría de métodos infieren filogenias con topologías de bifurcación (cada nodo interno tendrá dos hijos y un padre). No especifican cuál nodo es la raíz. Si la raíz es necesaria deberá ser localizada mediante el uso de información extrínseca.

  8. Introducción:Modelo evolutivo La causa principal de la evolución es el cambio mutacional de los genes.Una mutación es cualquier cambio heredable en una secuencia de ADN.Modelo evolutivo: descripción sistemática cómo una secuencia biológica cambia debido a mutación.Por sencillez se hacen supuestos restrictivos y que simplifican la realidad evolutiva para obtener un modelo matemático tratable.

  9. Introducción:Un problema complejo Un problema interesante pero de inherente complejidad: • Carencia de comprensión completa acerca del proceso evolutivo en los seres vivos. • Dificultad en la construcción de un modelo matemático lo suficientemente expresivo (apegado a una realidad biológica). • Complejidad computacional de los algoritmos en cuanto a tiempo de ejecución y consumo de recursos.

  10. Introducción:Aplicaciones generales Complementar clasificaciones taxonómicas.Hipótesis acerca del origen de las poblaciones.Establecer relaciones entre organismos al parecer evolutivamente distantes. Aportes para el diseño de farmacéuticos: control o cura de enfermedades.

  11. Métodos de inferencia:Basados en distancia I Su modelo de evolución se encuentra implícito en la matriz de distancias (estimada en forma externa al método).Tal matriz cuantifica “genéticamente” la cercanía o lejanía entre cada par de especies.En general son métodos voraces y rápidos, pero su precisión es cuestionable.Métodos conocidos: UPGMA y NJ (Neighbor-Joining)

  12. Métodos de inferencia:Basados en distancia II Ejemplo usando la distancia de Hamming (cuenta el número de bases que difieren entre un par de secuencias dadas).

  13. Métodos de inferencia:Basados en distancia III Este es el árbol propuesto de acuerdo a la matriz de distancias: Esta filogenia refleja las distancias de la matriz: La distancia entre un par de secuencias es la suma de las ramas en el camino que las une.

  14. Métodos de inferencia:Basados en secuencia Trabajan en forma directa con las secuencias biológicas.Los cálculos se basan en la observación de los diferentes nucleótidos a lo largo de las posiciones. De mayor acogida por ser su precisión y robustez. Uso de funciones objetivo  optimización. Métodos conocidos: máxima parsimonia y máxima verosimilitud (maximum likelihood - ML)

  15. Métodos de inferencia:Inferencia filogenética ML (I) El proceso evolutivo y el problema de inferencia es de carácter netamente estocástico.Procedimiento iterativo de optimización de una función probabilística: máxima verosimilitud. El modelo de evolución es una descripción probabilística de cómo cambia un símbolo por otro (un modelo de sustitución). Símbolos: nucleótidos, codones, aminoácidos, etc.

  16. Métodos de inferencia:Inferencia filogenética ML (II) El modelo de sustitución define la probabilidad de que el símbolo a se convierta en b en un periodo de tiempo t: Mab(t).Conjunto D compuesto por M observaciones para cada uno de los N objetos estudiados (alineamiento múltiple).Encontrar la filogenia que más probablemente haya generado los datos observados: buscar (T,t) que maximiza el valor de Pr{D|T,t}.

  17. Simplificaciones comunes:El fenómeno de la mutación • El ADN mutante se origina por: • sustitución de nucleótidos • recombinación • inserciones/borrados • conversión de genes Sólo se tiene en cuenta el tipo de mutación más frecuente: la sustitución (el cambio de un nucleótido por otro).

  18. Simplificaciones comunes: Independencia de sitios El cambio en una secuencia equivale a la evolución por separado de cada uno de los caracteres que la componen.El nucleótido observado en cierta posición está allí por la influencia del nucleótido que se encontraba en tal posición en la secuencia ancestral inmediata.Probabilísticamente: M procesos independientes que evolucionan en forma paralela.

  19. Simplificaciones comunes: Tasas evolutivas uniformes A lo largo de las secuencias, cada una de las posiciones evoluciona a una misma velocidad.Probabilísticamente: El valor esperado del número de sustituciones es igual para todas las posiciones durante un mismo lapso de tiempo.¿Cómo modelar hechos como la existencia de zonas altamente conservadas en los genomas de diferentes especies, o regiones que simplemente son muy variables?.

  20. El método EM:¿Qué es? EM(maximización de la esperanza): estrategia de optimización de una función probabilística aplicada a problemas paramétricos.Procedimiento en búsqueda de un vector de parámetros * correspondiente a un máximo local de una función probabilística en un problema de datos incompletos.Identificar: Yobs Conjunto de datos observadosYmis Conjunto de datos faltantes Parámetros del modelo

  21. El método EM:Problema que resuelve Maximizar Pr{Yobs,}.Optimización equivalente a la de log Pr{Yobs|} porque log Pr{Yobs,} = log Pr{Yobs|} + log Pr{}considerando los  equiprobables.El proceso consta de dos pasos que se repiten en forma iterativa hasta la convergencia.Paso E: expectation, paso M: maximization.

  22. El método EM:Algoritmo Paso E: calcular la esperanza condicional del logaritmo de la probabilidad de interés (asumiendo datos completos), dados los datos observados y la estimación de parámetros actual:Q( : t) = E[log Pr{Yobs,Ymis|} | Yobs,t]Paso M: encontrar una nueva estimación de parámetros al maximizar Q( : t):t+1 = arg maxQ( : t)t es la estimación actual de los parámetros.

  23. Modelo de tasas evolutivas:Significado de una tasa • Si una posición evoluciona a una tasa z  0, se sigue que: • si z=0, la posición es invariable (no hay cambio) • si z=1, evoluciona bajo condiciones normales • si z=2, cambia al doble de la “velocidad” normalEste efecto se puede simular incrementando virtualmente los tamaños de las ramas: una rama de largo t será estudiada como si tuviese zt de longitud.

  24. Modelo de tasas evolutivas:El proceso "oculto" Suponer que hay un proceso oculto que le asigna su tasa a cada posición.Las tasas que se asignan pertenecen a un conjunto discreto y finito de valores, los cuales son inferidos externamente.Existe una distribución estacionaria sobre el conjunto de las tasas.Hay cierta correlación entre tasas adyacentes.

  25. Modelo de tasas evolutivas:Representación markoviana El proceso de asignación se describe por una cadena de Markov. : vector con las probabilidades de equilibrio.: es el factor de correlación. Matriz de transición:

  26. Aplicación del método SEM:Utilizando EM (I) Se conocen los datos observados: Se desconocen las secuencias en los nodos internos: No se sabe la secuencia seguida por la cadena de Markov: La secuencia R define el orden en que son emitidos los valores pertenecientes al espacio de tasas Z={z1,z2,...}.El camino aleatorio es:

  27. Aplicación del método SEM:Utilizando EM (II) El logaritmo de la probabilidad asumiendo datos completos es La importancia de la expresión radica en la dependencia sobre (T,t).

  28. Aplicación del método SEM:Utilizando EM (III) El logaritmo de la probabilidad con datos completos se puede reexpresar como: donde:

  29. Aplicación del método SEM:Utilizando EM (IV) El paso E requiere calcular: usando (T’,t’) como la estimación actual de la filogenia. El paso M requiere calcular , entonces la optimización se puede hacer rama a rama: Este procedimiento permite encontrar la parametrización óptima t (T permanece fija).

  30. Aplicación del método SEM:La variante "estructural" I SEM (structural EM): técnica derivada del método EM. Sugiere la siguiente modificación al paso M: calcular los (todas las parejas se incluyen, no sólo ijT) A este punto se tienen los tamaños óptimos de las ramas para cualquiertopología:

  31. Aplicación del método SEM:La variante "estructural" II Escoger "algunos" tij* conformando T* de modo que se maximiza el valor de Solución: Construir un grafo cuyas aristas son los valores de y hallar un árbol de máxima expansión tal que su forma coincida con una topología de bifurcación.¡El problema se reduce a aplicar el algoritmo de MST!. Bajo estas condiciones, está en O(N2).

  32. Resultados experimentales:El software Herramienta llamada FILOGENETIKA: • Desarrollada en JavaTM • Interfaz gráfica no provista por herramientas actuales (basadas en consola). • Interacción más cómoda y una visualización de resultados más adecuada. • Sólo ADN: 4 modelos de sustitución. • Mecanismo de estimación de tasas evolutivas. Un vistazo a FILOGENETIKA!

  33. Resultados experimentales:Medidas de evaluación Evaluación centrada en precisión, robustez y escalabilidad.Software contemporáneo como patrón de comparación: • PHYLIP: Popular y tradicional (ML). 4 modelos de sustitución para ADN. Tasas uniformes. • SEMPHY: Desarrolla las ideas de SEM. 1 modelo para ADN, varios para aminoácidos. Tasas uniformes. • TREEPUZZLE: Basado en cuartetos (estimación de parámetros con ML). Diversos modelos. ADN y aminoácidos. Mecanismo de variación de tasas.

  34. Resultados experimentales:Escenario de tasas uniformes FILOGENETIKA presenta desempeño superior a los demás: puntajes mayores (log L) para casi todos los conjuntos de datos usados.Tiempos de corrida aceptables (orden de minutos) en comparación de TREEPUZZLE y PHYLIP (varias horas sobre conjuntos de datos muy grandes).Supera SEMPHY por estrecha diferencia: causada seguramente por la estimación de  (tasa media de sustitución), parámetro común en todos los modelos de sustitución.

  35. Resultados experimentales:Tasas heterogéneas Usando variación de tasas FILOGENETIKA siempre logra mejorar los puntajes con relación al escenario de tasas uniformes.TREEPUZZLE mejora igualmente sus puntajes pero siguen aún por debajo de FILOGENETIKA.Para ambos, los tiempos de corrida aumentan en proporción cuadrática al número de tasas usadas.Un conjunto de tasas pequeño arroja buenos resultados.

  36. Resultados experimentales:Gráficas comparativas I Mejores desempeños obtenidos para los juegos de datos pequeños (izquierda: tasas uniformes, derecha: tasas heterogéneas).

  37. Resultados experimentales:Caso: marsupial extinto El origen de Thylacinus es desconocido. FILOGENETIKA HIPÓTESIS Cada herramienta obtuvo una topología distinta: FILOGENETIKA arrojó una filogenia muy similar a la hipótesis (Wilson, 1989).

  38. Conclusiones:(Desempeño general) Bajos tiempos de corrida obtenidos: la búsqueda "simultánea" sobre todo el espacio de topologías constituye la mayor ventaja sobre ML.Los tiempos pequeños tienen su contraparte en consumo de espacio.Número de especies: el factor con más peso en la complejidad computacional.En la mayoría de casos se obtuvieron puntajes más sobresalientes en comparación con las otras herramientas.

  39. Conclusiones:Estimación de parámetros Resultados positivos a pesar del sesgo introducido por el principio de parsimonia (mecanismo con el cual se hizo la estimación del conjunto de tasas).En una minoría de casos no se puede estimar el conjunto de las tasas evolutivas.La filogenia inferida no es muy sensible a cambios en los parámetros evolutivos.La topología no parece ser sensible con respecto al tipo de modelo de sustitución aplicado.

  40. Conclusiones:Futuras Direcciones El método es sobresaliente: hereda la precisión y robustez de los métodos ML presentando ganancias en tiempo. Puede ser popularizado.Inconveniente: estancamiento local. Inclusión de una estrategia de búsqueda aleatorizada.Estimación más precisa de parámetros (tasa de sustitución) mediante el uso de una técnica ML.Inclusión del tratamiento de aminoácidos y codones.

  41. Referencias bibliográficas FELSENSTEIN, J. Taking variation of evolutionary rates between sites into account in inferring phylogenies. Journal of Molecular Evolution. Vol. 53, No. 1 (2001). FELSENSTEIN, J. y CHURCHILL, G. A hidden Markov model approach to variation among sites in rate of evolution. Journal of Molecular Evolution. Vol. 13, No. 1 (1995). FRIEDMAN, N. et al. A structural EM algorithm for phylogenetic inference. Journal of computational biology. Vol. 9, No. 2 (2002). PEARL, D.; WANG, Q. y SALTER. L. Estimation of evolutionary model parameters and phylogeny. Ohio University (2002). WILSON, A. et al. DNA phylogeny of the extinct marsupial wolf. Nature. Vol. 340, No. 1 (1989). YANG, Z. ML estimation on large phylogenies and analysis of adaptive evolution in human influenza virus. Journal of molecular evolution. Vol. 51, No. 1 (2000). YANG, Z. y KUMAR, S. Approximate methods for estimating the pattern of nucleotide substitution an the variation of substitution rates among sites. Journal of molecular evolution. Vol. 13, No. 1 (1996).

More Related