1 / 30

Gene finding: Software de predicción de genes

Gene finding: Software de predicción de genes. Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB. Gene finding. INTRODUCCIÓN. Secuenciación de cada vez mas Genomas 809 genomas completos en mayo del 2008 53 archeas, 662 bacterias, 94 ecuariotas

lydie
Download Presentation

Gene finding: Software de predicción de genes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gene finding: • Software de predicción de genes Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  2. Gene finding INTRODUCCIÓN • Secuenciación de cada vez mas Genomas 809 genomas completos en mayo del 2008 53 archeas, 662 bacterias, 94 ecuariotas (GOLD: Genomes OnLine Database) • Diferenciar entre: secuencia funcional  funcionalidad de un gen o producto génico Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  3. Gene finding INTRODUCCIÓN POSTomics PREomics Experimental: • Cultivos • Hibridaciones • Recombinación y Mapas Genéticos Regiones Concretas Organismos Concretos Genes Concretos • Computacional: • Grandes bases de datos • Algoritmos de búsqueda • Automatización • Regiones grandes (Genomas) • Muchos organismos • Muchos (posibles) genes Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  4. Gene finding INTRODUCCIÓN POSTomics Experimental: • Cultivos • Hibridaciones • Recombinación y Mapas Genéticos Regiones Concretas Organismos Concretos Genes Concretos • Computacional: • Grandes bases de datos • Algoritmos de búsqueda • Automatización • Regiones grandes (Genomas) • Muchos organismos • Muchos (posibles) genes + Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  5. Gene finding ESTRATEGIAS ACTUALES • Métodos de similaridad • Métodos Ab Initio • Genómica Comparativa Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  6. Gene finding ESTRATEGIAS ACTUALES • Métodos de similaridad ( Lookup , Evidence based or Extrinsec Methods ) • Comparación de Secuencia y Búsquedas por similaridad (Blast, CLUSTAL) • Alineamiento con Proteínas • Alineamiento con mRNA/cDNA • Alineamiento con ESTs • Comparación Intra-genómica • Comparación Inter-genomica (Genómica Comparativa) Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  7. Gene finding ESTRATEGIAS ACTUALES • Métodos de similaridad Nucleic Acids Res. 30:4103-4117, 2002. Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  8. Gene finding ESTRATEGIAS ACTUALES • Métodos de similaridad ✗ • Capacidad limitada para encontrar nuevos genes, se estima que se pueden Encontrar el 50% de genes. “Nada será encontrado si la base de datos no contiene suficientes secuéncias similares” • ESTs solo dan información parcial ya que solo reflejan una parte de un mRNA • Exones pequeños no son detectados (problema también en ab initio) ✓ • Resultados bastante sólidos al estar basados en evidencia • Comparaciones intra-genómicas aportan información de genes parecidos (familias génicas) • ESTs / cDNAs dan mucha información sobre divisiones Exon/Intron, y exones usados o no en splicing alternativo Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  9. Gene finding ESTRATEGIAS ACTUALES • Métodos de similaridad • Métodos Ab Initio • Genómica Comparativa Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  10. Gene finding ESTRATEGIAS ACTUALES • Métodos Ab Initio ( Intrinsec, Signal , Template Search ) Métodos totalmente computacionales basados en la busca de patrones o secuencias consenso. El “Gene Prediction” real. • Típos de software: - Predicción de estructura - Detección de Exones/Intrones - Detección de lugares de splicing - Detección de otras senyales • Estratégias: - Secuencias consenso y ORFs - Estadísticos (Codon Bias) y Matrices de puntuación - Arboles de decisión (HMM - Hiden Marcov Models) - Otros… Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  11. Gene finding ESTRATEGIAS ACTUALES • Métodos Ab Initio Secuencias consenso y ORFs Tipos de Señales: • Señales Promotoras • Señales Inicio de Transcripción • Lugares de Splicing (Intrones/Exones) • Lugares de poli(A) • Sitios de unión de TFs www.cbs.dtu.dk Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  12. Gene finding ESTRATEGIAS ACTUALES • Métodos Ab Initio Secuencias consenso y ORFs ✗ • Métodos muy útiles en procariotas, pero no tanto en eucariotas con estructuras de genes complejas (ejemplo ORFs) • Incluso en procariotas, podemos encontrar genes solapando con otros genes • Secuencias consenso , por si solas no son 100% fiables en todas las bases ✓ • Aproximación muy rápida, que puede definir posteriores procesos • Paso previo de ORFs necesario Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  13. Gene finding ESTRATEGIAS ACTUALES • Métodos Ab Initio Estadísticos y Matrices Estadísticos: • Codon Bias • K-meros: Hexameros, etc… • Otros… ✓ • Puntuaciones, índices, valores…de fácil tratamiento computacional • Codon Bias puede ser muy indicativo para separar regiones codificantes del resto ✗ Las matrices y estadísticos provienen de datos previos, se deben de optimizar. Se puede hacer a partir de los datos propios pero requiere iteraciones • Trainig Sets (matrices, codones, secuencias señal…) Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  14. Gene finding ESTRATEGIAS ACTUALES • Métodos Ab Initio HMM – Hidden Markov Models • Método estadístico (bayesiano  demostrar hipotesis cierta ) • No se conoce previamente el estado de un grupo de elementos observado (Hidden state) • Mediante arboles de decisiones, se intenta inferir el estado del elemento a partir de lo observado ✓ • (Muy) Usado en eucariotas, donde las señales consenso no están tan claramente definidas ✗ • Cualquier algoritmo de este tipo necesita de datos previos para poder tener un “criterio” y poder hacer decisiones. Resultan necesarios mecanismos de autoaprendizaje Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  15. Gene finding ESTRATEGIAS ACTUALES • Métodos Ab Initio Otras Aproximaciones • Autoaprendizaje (SPV – Suport Vector Machines) • Redes Neurales • Estructuras secundarias del mRNA • … Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  16. Gene finding ESTRATEGIAS ACTUALES • Métodos Ab Initio • Autoaprendizaje (SPV – Suport Vector Machines) • Redes Neurales • Estructuras secundarias del mRNA • … Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  17. Gene finding ESTRATEGIAS ACTUALES • Métodos de similaridad • Métodos Ab Initio • Genómica Comparativa Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  18. Gene finding ESTRATEGIAS ACTUALES • Genómica Comparativa • Algún software especializado (Rosetta para Humano y Ratón, SPG1 para Vertebrados y Angiospermas) • Aproximación Mixta: (intentar buscar genes representativos del grupo de organismos estudiado) 1- Usar evidencia experimental (por homologia) · Protein Coding cDNA · Similaridad con proteinas 2- Predicción ab Initio 3- Filtro de los resultados para descartar redundancia, pseudogeneso errores 4- Ampliar con otras fuentes de evidencia (ESTs,…) Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  19. Gene finding ESTRATEGIAS ACTUALES • Software principalmente centrado en regiones que codifican para proteina Por el momento otras secuencias que transcriben son poco tratadas. • Definido a priori que un gen es la región que transcribe entre señal de inicio y final • Poco consenso entre los desarrolladores, falta de standards definidos (GFF – General Feature Format). Programas confusos para el usuario • Detalles a mejorar su detección: • Genes solapantes (por extremo 3’ o genes dentro de intrones) • Genes Policistrónicos (varios genes codificados en un mRNA) • Frameshifts (perdida de nucleótidos en la secuenciación o bases de datos) • Intrones en secciones no codificantes / Exones no traducidos • Exones pequeños (estructuras secundarias) • Sitios de splicing no canonicos • Procesados alternativos: • Otros inicios de transcripción • Splicing alternativo • Sitios de Poly(A) diferentes • Otros inicios de traducción: AUG alternativos / no-AUG (poca consideración a casos “menores”) ✗ Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  20. Gene finding ESTRATEGIAS ACTUALES ✓ • Combinación de métodos ofrece resultados más fiables • Puede facilitar pasos previos a la experimentación • Imprescindible para genomas que , quizás, NUNCA serán estudiados experimentalmente Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  21. Gene finding TEST DE SOFTWARE Programas a prueba: • GenMark-hmm • GENSCAN • GeneID • Genscan se usó en el Proyecto Genoma Humano y en el Genoma del Ratón • Genscan y GenMark-hmm tienen las mejores valoraciones en pruebas de este tipo de software • Los tres tienen interface web Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  22. Gene finding TEST DE SOFTWARE • GenMark-hmm • Desde 1993 • Instituto tecnológico de Georgia, patrocinado por IBM • Varios programas: Procariotas, Eucariotas, Heuristicos, EST y cDNA … GenMark-hmm : Usa Hidden Markov Models y selftraining Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  23. Gene finding TEST DE SOFTWARE • GENSCAN • Desde 1997 • Dep. Matemáticas de la Universidad De Stanford • (web) Vertebrados, arabidopsis, maíz. Usa Hidden Markov Models y se basa en información de doble cadena Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  24. Gene finding TEST DE SOFTWARE • GENEID • Desde 2000 (paper en Drosophila) • Universitat Pompeu Fabra / CRG • Datos para varios organismos, van publicando nuevos sets periodicamente • Permite añadir datos externos (GFF) • Opcion de output en formato GFF - Web muy explicativa Usa 3 passos: • Deteccion de señales: Splicing, start-stop codons, matrices de puntuación • Usa los datos anteriores en un modelo HMM • Integrar todo en una predicción de la estructura Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  25. Gene finding TEST DE SOFTWARE • BRCA1 (Pan troglodytes) • Cromosoma 17 • Splicing alternativo • 85 kb • 24 exons (22 coding) Exon 11 3427 bp El resto entre 37-311bp - Proteina 1863 aa Evolution of the tumor suppressor BRCA1 locus in primates: implications for cancer predisposition Adam Pavlicek, Vladimir N. Noskov et alt. Human Molecular Genetics 2004 13(22):2737-2751; doi:10.1093/hmg/ddh301 Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  26. Gene finding TEST DE SOFTWARE Output GeneMark-hmm 2 genes (4 y 7 exones) Gen 1: 1246aa Gen 2: 350aa Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  27. Gene finding TEST DE SOFTWARE Output GENSCAN 1 gen ( 16 exones ) 1707aa 2 genes (4 y 7 exones) Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  28. Gene finding TEST DE SOFTWARE Output GENSCAN 2 genes (3 y 6 exones) Gen 1: 1229 aa Gen 2: 323 aa Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  29. Gene finding INFORMACIÓN COMPLEMENTARIA http://www.genefinding.org/ http://www.nslij-genetics.org/gene/programs.html Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

  30. Gene finding REFERENCIAS Evaluation of gene prediction software using genomic dataset: application to Arabidopsis thaliana sequences . Pavy N, Rombauts S et alt. Bioinformatics Vol 15 no 11 1999. 887-899 Evaluation of Gene-Finding Programs on Mammalian Sequences Sanja Rogic, Alan K. Mackworth and Francis B.F. Ouellette . Genome Res. 2001 11: 817-832 Current methods of gene prediction, their strengths and weaknesses Catherine Mathé, Marie-France Sagot, Thomas Schiex and Pierre Rouzé. Nucleic Acids Res. 30:4103-4117, 2002. In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists. Yvan Saeys, Pierre Rouze and Yves Van de Peer. Vol. 23 no. 4 2007, pages 414–420 doi:10.1093/bioinformatics/btl639 Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

More Related