1 / 29

Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Bioinformática ::Identificar genes en una Interfaz gráfica vía web para la comparación de genomas. Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta. ÍNDICE. Introducción Estado del Arte Objetivos Estrategias Dificultades Demo Conclusiones.

ronan-tyson
Download Presentation

Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bioinformática::Identificar genes en una Interfazgráficavía web para la comparación de genomas Ivan Babitsch Soler Dirigido: Jordi Gonzàlez SabatéCo-Dirigido: Mario Huerta

  2. ÍNDICE • Introducción • Estado del Arte • Objetivos • Estrategias • Dificultades • Demo • Conclusiones

  3. Introducción • Tener identificados los genes del ADN y las proteínas que codifican nos ofrece la información necesaria para el estudio del metabolismo de una célula, y por tanto del organismo en sí al que pertenece. • El genoma de un organismo contiene toda la información genética que define a ese organismo.

  4. Introducción • Grupos clasificación organismos vivos: Arquea, Bacteria y Eucariota.

  5. Estado del Arte • Mediante la comparación de genomas se busca la detección de los rasgos(genes) comunes que se han mantenido en los organismos vivos, herencia de un ancestro común que hayan compartido a lo largo de su historia evolutiva.

  6. Estado del Arte • Una de las estructuras de datos que se utilizan para la comparación de genomas son: • MUMs (Maximal Unique Matching, secuencia correlativa de bases máxima y única encontrada en ambos genomas) • SuperMUMs (agrupación de MUMs mediante ApproximateString Matching). ..taggcATGGCACAATAGaacCGATAAGCTACActttaggcATATGCACAATAGa.. ..gtataATGGCACAATAGgtaCGATAAGCTACAtaacctgGATAACACGGTATAt..

  7. Estado del Arte • Una de las estructuras de datos que se utilizan para la comparación de genomas son: • MUMs (Maximal Unique Matching, secuencia correlativa de bases máxima y única encontrada en ambos genomas) • SuperMUMs (agrupación de MUMs mediante ApproximateString Matching). ..taggcATGGCACAATAGaacCGATAAGCTACActttaggcATATGCACAATAGa.. MUM Directo MUM Directo MUM Inverso ..gtataATGGCACAATAGgtaCGATAAGCTACAtaacctgGATAACACGGTATAt..

  8. Estado del Arte • Una de las estructuras de datos que se utilizan para la comparación de genomas son: • MUMs (Maximal Unique Matching, secuencia correlativa de bases máxima y única encontrada en ambos genomas) • SuperMUMs (agrupación de MUMs mediante ApproximateString Matching). ..taggcATGGCACAATAGaacCGATAAGCTACActttaggcATATGCACAATAGa.. MUM Directo MUM Directo MUM Inverso SuperMUM Directo ..gtataATGGCACAATAGgtaCGATAAGCTACAtaacctgGATAACACGGTATAt..

  9. Estado del Arte • MALGEN (2003)

  10. Estado del Arte Complejidad en la comparación de genomas: • Recopilación y ensamblaje de la información disponible de los genomas secuenciados. • Altísimo coste computacional en tiempo y memoria para su proceso. • Visualización interactiva del gran volumen de datos obtenidos.

  11. Objetivos • Comparación genomas, subdivisión del problema. Servidor de aplicaciones

  12. Objetivos • Subdivisión del problema FTP NCBI Servidor de aplicaciones

  13. Objetivos • Subdivisión del problema FTP NCBI Servidor de aplicaciones MUMs

  14. Objetivos • Subdivisión del problema FTP NCBI Servidor de aplicaciones MUMs SuperMUMs

  15. Objetivos • Subdivisión del problema FTP NCBI Servidor de aplicaciones MUMs SuperMUMs Genes

  16. Objetivos • Subdivisión del problema FTP NCBI Servidor de aplicaciones MUMs SuperMUMs Genes Info.Estadística

  17. Objetivos • Subdivisión del problema FTP NCBI Servidor Web Servidor de aplicaciones MUMs SuperMUMs Genes Info.Estadística

  18. Objetivos • Subdivisión del problema FTP NCBI Servidor Web Servidor de aplicaciones MUMs SuperMUMs Genes Info.Estadística Pre-Proceso

  19. Objetivos • Subdivisión del problema FTP NCBI Servidor Web Servidor de aplicaciones MUMs SuperMUMs Genes Info.Estadística Pre-Proceso Exploración de datos Interfaz de Exploración

  20. Objetivos • Subdivisión del problema FTP NCBI Servidor Web Servidor de aplicaciones MUMs SuperMUMs Genes Info.Estadística Pre-Proceso Exploración de datos Interfaz de Exploración

  21. Objetivos • Subdivisión del problema FTP NCBI Servidor Web Servidor de aplicaciones MUMs SuperMUMs Genes Info.Estadística Pre-Proceso Exploración de datos Interfaz de Exploración

  22. Objetivos • Crear una interfaz web que mediante el uso de MUMs y SuperMUMs permita comparar genomas completos. • Exploración flexible potenciando usabilidad. • Múltiples genomas. • Representar los genes y permitir su interacción. • Crear aplicación de pre-proceso para recuperar, procesar y ensamblar la información relativa a los genes. • Ajuste aplicaciones de pre-proceso para poder trabajar con genomas grandes. • Permitir explorar genomas grandes.

  23. Objetivos Contexto de la aplicación Mummy-Tree Mummy

  24. Estrategias • Uso de las últimas herramientas y soluciones disponibles (Flex Builder, PureMVC, Biojava,…). • Análisis de una sesión de trabajo de un investigador a fin de maximizar su usabilidad. • Potenciar el pre-computo de datos a fin de aligerar el proceso de exploración. • Múltiples técnicas de optimización de la representación visual. • Modo automático de selección de datos a representar ajustado a la capacidad de computo de la máquina cliente.

  25. Principales dificultades • Límites del Flash Player: • Limites de computo a 15-60 segundos. • Máximo de 16.000 símbolos. • Memoria máxima y bug. • Filtro y ordenación de datos: • Pre-computo. • Búsqueda dicotómica. • Transiciones de exploración: • Resolución interna / suavizado. • Modo Auto. • Ensamblaje de genes. • Computo de Eucariotas utilizados como datos de estudio.

  26. Demo • Local Bacterias • Local Eucariota • Mummy-Tree • RevResearch

  27. Conclusiones • Objetivos marcados. • Cualquier etapa del proceso de la comparación de genomas es no trivial. • Simplificar al investigador final la comparación de genomas, accesible desde una interfaz web es un logro relevante. • Se estima que la versión actual resulta útil hasta Eucariotas de tamaño medio.

  28. Conclusiones • Mejoras • Tiempos de carga y límites de memoria • Carga de datos relegada una vez establecido orden y tipo de genomas a comparar. • Serialización de datos en formato nativo. • Paginación de datos.

  29. Bibliography • http://revolutionresearch.uab.es : web server for the comparison of all known genomes. • Mario Huerta . Suffix Tree Construction with slide nodes . technical report LSI-02-63-R Universitat Politècnica de Catalunya (2002). • Mario Huerta , Xavier Messeguer . Efficient Space and Time multicomparision of Genomes. Technical report LSI-02-64-R. Dep. Llenguatge i Sistemes Informàtics, Universitat Politècnica de Catalunya.(2002). • Domènec Farré, Romà Roset, Mario Huerta, José E. Adsuara, Llorenç Roselló, M. Mar Albà, Xavier Messeguer. Identification of patterns in biological sequences at the ALGGEN server. PROMO and MALGEN. Nucleic Acids Research 31(13): 3651-3653 (2003).

More Related