290 likes | 451 Views
Bioinformática ::Identificar genes en una Interfaz gráfica vía web para la comparación de genomas. Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta. ÍNDICE. Introducción Estado del Arte Objetivos Estrategias Dificultades Demo Conclusiones.
E N D
Bioinformática::Identificar genes en una Interfazgráficavía web para la comparación de genomas Ivan Babitsch Soler Dirigido: Jordi Gonzàlez SabatéCo-Dirigido: Mario Huerta
ÍNDICE • Introducción • Estado del Arte • Objetivos • Estrategias • Dificultades • Demo • Conclusiones
Introducción • Tener identificados los genes del ADN y las proteínas que codifican nos ofrece la información necesaria para el estudio del metabolismo de una célula, y por tanto del organismo en sí al que pertenece. • El genoma de un organismo contiene toda la información genética que define a ese organismo.
Introducción • Grupos clasificación organismos vivos: Arquea, Bacteria y Eucariota.
Estado del Arte • Mediante la comparación de genomas se busca la detección de los rasgos(genes) comunes que se han mantenido en los organismos vivos, herencia de un ancestro común que hayan compartido a lo largo de su historia evolutiva.
Estado del Arte • Una de las estructuras de datos que se utilizan para la comparación de genomas son: • MUMs (Maximal Unique Matching, secuencia correlativa de bases máxima y única encontrada en ambos genomas) • SuperMUMs (agrupación de MUMs mediante ApproximateString Matching). ..taggcATGGCACAATAGaacCGATAAGCTACActttaggcATATGCACAATAGa.. ..gtataATGGCACAATAGgtaCGATAAGCTACAtaacctgGATAACACGGTATAt..
Estado del Arte • Una de las estructuras de datos que se utilizan para la comparación de genomas son: • MUMs (Maximal Unique Matching, secuencia correlativa de bases máxima y única encontrada en ambos genomas) • SuperMUMs (agrupación de MUMs mediante ApproximateString Matching). ..taggcATGGCACAATAGaacCGATAAGCTACActttaggcATATGCACAATAGa.. MUM Directo MUM Directo MUM Inverso ..gtataATGGCACAATAGgtaCGATAAGCTACAtaacctgGATAACACGGTATAt..
Estado del Arte • Una de las estructuras de datos que se utilizan para la comparación de genomas son: • MUMs (Maximal Unique Matching, secuencia correlativa de bases máxima y única encontrada en ambos genomas) • SuperMUMs (agrupación de MUMs mediante ApproximateString Matching). ..taggcATGGCACAATAGaacCGATAAGCTACActttaggcATATGCACAATAGa.. MUM Directo MUM Directo MUM Inverso SuperMUM Directo ..gtataATGGCACAATAGgtaCGATAAGCTACAtaacctgGATAACACGGTATAt..
Estado del Arte • MALGEN (2003)
Estado del Arte Complejidad en la comparación de genomas: • Recopilación y ensamblaje de la información disponible de los genomas secuenciados. • Altísimo coste computacional en tiempo y memoria para su proceso. • Visualización interactiva del gran volumen de datos obtenidos.
Objetivos • Comparación genomas, subdivisión del problema. Servidor de aplicaciones
Objetivos • Subdivisión del problema FTP NCBI Servidor de aplicaciones
Objetivos • Subdivisión del problema FTP NCBI Servidor de aplicaciones MUMs
Objetivos • Subdivisión del problema FTP NCBI Servidor de aplicaciones MUMs SuperMUMs
Objetivos • Subdivisión del problema FTP NCBI Servidor de aplicaciones MUMs SuperMUMs Genes
Objetivos • Subdivisión del problema FTP NCBI Servidor de aplicaciones MUMs SuperMUMs Genes Info.Estadística
Objetivos • Subdivisión del problema FTP NCBI Servidor Web Servidor de aplicaciones MUMs SuperMUMs Genes Info.Estadística
Objetivos • Subdivisión del problema FTP NCBI Servidor Web Servidor de aplicaciones MUMs SuperMUMs Genes Info.Estadística Pre-Proceso
Objetivos • Subdivisión del problema FTP NCBI Servidor Web Servidor de aplicaciones MUMs SuperMUMs Genes Info.Estadística Pre-Proceso Exploración de datos Interfaz de Exploración
Objetivos • Subdivisión del problema FTP NCBI Servidor Web Servidor de aplicaciones MUMs SuperMUMs Genes Info.Estadística Pre-Proceso Exploración de datos Interfaz de Exploración
Objetivos • Subdivisión del problema FTP NCBI Servidor Web Servidor de aplicaciones MUMs SuperMUMs Genes Info.Estadística Pre-Proceso Exploración de datos Interfaz de Exploración
Objetivos • Crear una interfaz web que mediante el uso de MUMs y SuperMUMs permita comparar genomas completos. • Exploración flexible potenciando usabilidad. • Múltiples genomas. • Representar los genes y permitir su interacción. • Crear aplicación de pre-proceso para recuperar, procesar y ensamblar la información relativa a los genes. • Ajuste aplicaciones de pre-proceso para poder trabajar con genomas grandes. • Permitir explorar genomas grandes.
Objetivos Contexto de la aplicación Mummy-Tree Mummy
Estrategias • Uso de las últimas herramientas y soluciones disponibles (Flex Builder, PureMVC, Biojava,…). • Análisis de una sesión de trabajo de un investigador a fin de maximizar su usabilidad. • Potenciar el pre-computo de datos a fin de aligerar el proceso de exploración. • Múltiples técnicas de optimización de la representación visual. • Modo automático de selección de datos a representar ajustado a la capacidad de computo de la máquina cliente.
Principales dificultades • Límites del Flash Player: • Limites de computo a 15-60 segundos. • Máximo de 16.000 símbolos. • Memoria máxima y bug. • Filtro y ordenación de datos: • Pre-computo. • Búsqueda dicotómica. • Transiciones de exploración: • Resolución interna / suavizado. • Modo Auto. • Ensamblaje de genes. • Computo de Eucariotas utilizados como datos de estudio.
Demo • Local Bacterias • Local Eucariota • Mummy-Tree • RevResearch
Conclusiones • Objetivos marcados. • Cualquier etapa del proceso de la comparación de genomas es no trivial. • Simplificar al investigador final la comparación de genomas, accesible desde una interfaz web es un logro relevante. • Se estima que la versión actual resulta útil hasta Eucariotas de tamaño medio.
Conclusiones • Mejoras • Tiempos de carga y límites de memoria • Carga de datos relegada una vez establecido orden y tipo de genomas a comparar. • Serialización de datos en formato nativo. • Paginación de datos.
Bibliography • http://revolutionresearch.uab.es : web server for the comparison of all known genomes. • Mario Huerta . Suffix Tree Construction with slide nodes . technical report LSI-02-63-R Universitat Politècnica de Catalunya (2002). • Mario Huerta , Xavier Messeguer . Efficient Space and Time multicomparision of Genomes. Technical report LSI-02-64-R. Dep. Llenguatge i Sistemes Informàtics, Universitat Politècnica de Catalunya.(2002). • Domènec Farré, Romà Roset, Mario Huerta, José E. Adsuara, Llorenç Roselló, M. Mar Albà, Xavier Messeguer. Identification of patterns in biological sequences at the ALGGEN server. PROMO and MALGEN. Nucleic Acids Research 31(13): 3651-3653 (2003).