300 likes | 459 Views
Gene finding: Software de predicción de genes. Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB. Gene finding. INTRODUCCIÓN. Secuenciación de cada vez mas Genomas 809 genomas completos en mayo del 2008 53 archeas, 662 bacterias, 94 ecuariotas
E N D
Gene finding: • Software de predicción de genes Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding INTRODUCCIÓN • Secuenciación de cada vez mas Genomas 809 genomas completos en mayo del 2008 53 archeas, 662 bacterias, 94 ecuariotas (GOLD: Genomes OnLine Database) • Diferenciar entre: secuencia funcional funcionalidad de un gen o producto génico Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding INTRODUCCIÓN POSTomics PREomics Experimental: • Cultivos • Hibridaciones • Recombinación y Mapas Genéticos Regiones Concretas Organismos Concretos Genes Concretos • Computacional: • Grandes bases de datos • Algoritmos de búsqueda • Automatización • Regiones grandes (Genomas) • Muchos organismos • Muchos (posibles) genes Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding INTRODUCCIÓN POSTomics Experimental: • Cultivos • Hibridaciones • Recombinación y Mapas Genéticos Regiones Concretas Organismos Concretos Genes Concretos • Computacional: • Grandes bases de datos • Algoritmos de búsqueda • Automatización • Regiones grandes (Genomas) • Muchos organismos • Muchos (posibles) genes + Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Métodos de similaridad • Métodos Ab Initio • Genómica Comparativa Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Métodos de similaridad ( Lookup , Evidence based or Extrinsec Methods ) • Comparación de Secuencia y Búsquedas por similaridad (Blast, CLUSTAL) • Alineamiento con Proteínas • Alineamiento con mRNA/cDNA • Alineamiento con ESTs • Comparación Intra-genómica • Comparación Inter-genomica (Genómica Comparativa) Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Métodos de similaridad Nucleic Acids Res. 30:4103-4117, 2002. Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Métodos de similaridad ✗ • Capacidad limitada para encontrar nuevos genes, se estima que se pueden Encontrar el 50% de genes. “Nada será encontrado si la base de datos no contiene suficientes secuéncias similares” • ESTs solo dan información parcial ya que solo reflejan una parte de un mRNA • Exones pequeños no son detectados (problema también en ab initio) ✓ • Resultados bastante sólidos al estar basados en evidencia • Comparaciones intra-genómicas aportan información de genes parecidos (familias génicas) • ESTs / cDNAs dan mucha información sobre divisiones Exon/Intron, y exones usados o no en splicing alternativo Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Métodos de similaridad • Métodos Ab Initio • Genómica Comparativa Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Métodos Ab Initio ( Intrinsec, Signal , Template Search ) Métodos totalmente computacionales basados en la busca de patrones o secuencias consenso. El “Gene Prediction” real. • Típos de software: - Predicción de estructura - Detección de Exones/Intrones - Detección de lugares de splicing - Detección de otras senyales • Estratégias: - Secuencias consenso y ORFs - Estadísticos (Codon Bias) y Matrices de puntuación - Arboles de decisión (HMM - Hiden Marcov Models) - Otros… Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Métodos Ab Initio Secuencias consenso y ORFs Tipos de Señales: • Señales Promotoras • Señales Inicio de Transcripción • Lugares de Splicing (Intrones/Exones) • Lugares de poli(A) • Sitios de unión de TFs www.cbs.dtu.dk Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Métodos Ab Initio Secuencias consenso y ORFs ✗ • Métodos muy útiles en procariotas, pero no tanto en eucariotas con estructuras de genes complejas (ejemplo ORFs) • Incluso en procariotas, podemos encontrar genes solapando con otros genes • Secuencias consenso , por si solas no son 100% fiables en todas las bases ✓ • Aproximación muy rápida, que puede definir posteriores procesos • Paso previo de ORFs necesario Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Métodos Ab Initio Estadísticos y Matrices Estadísticos: • Codon Bias • K-meros: Hexameros, etc… • Otros… ✓ • Puntuaciones, índices, valores…de fácil tratamiento computacional • Codon Bias puede ser muy indicativo para separar regiones codificantes del resto ✗ Las matrices y estadísticos provienen de datos previos, se deben de optimizar. Se puede hacer a partir de los datos propios pero requiere iteraciones • Trainig Sets (matrices, codones, secuencias señal…) Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Métodos Ab Initio HMM – Hidden Markov Models • Método estadístico (bayesiano demostrar hipotesis cierta ) • No se conoce previamente el estado de un grupo de elementos observado (Hidden state) • Mediante arboles de decisiones, se intenta inferir el estado del elemento a partir de lo observado ✓ • (Muy) Usado en eucariotas, donde las señales consenso no están tan claramente definidas ✗ • Cualquier algoritmo de este tipo necesita de datos previos para poder tener un “criterio” y poder hacer decisiones. Resultan necesarios mecanismos de autoaprendizaje Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Métodos Ab Initio Otras Aproximaciones • Autoaprendizaje (SPV – Suport Vector Machines) • Redes Neurales • Estructuras secundarias del mRNA • … Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Métodos Ab Initio • Autoaprendizaje (SPV – Suport Vector Machines) • Redes Neurales • Estructuras secundarias del mRNA • … Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Métodos de similaridad • Métodos Ab Initio • Genómica Comparativa Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Genómica Comparativa • Algún software especializado (Rosetta para Humano y Ratón, SPG1 para Vertebrados y Angiospermas) • Aproximación Mixta: (intentar buscar genes representativos del grupo de organismos estudiado) 1- Usar evidencia experimental (por homologia) · Protein Coding cDNA · Similaridad con proteinas 2- Predicción ab Initio 3- Filtro de los resultados para descartar redundancia, pseudogeneso errores 4- Ampliar con otras fuentes de evidencia (ESTs,…) Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES • Software principalmente centrado en regiones que codifican para proteina Por el momento otras secuencias que transcriben son poco tratadas. • Definido a priori que un gen es la región que transcribe entre señal de inicio y final • Poco consenso entre los desarrolladores, falta de standards definidos (GFF – General Feature Format). Programas confusos para el usuario • Detalles a mejorar su detección: • Genes solapantes (por extremo 3’ o genes dentro de intrones) • Genes Policistrónicos (varios genes codificados en un mRNA) • Frameshifts (perdida de nucleótidos en la secuenciación o bases de datos) • Intrones en secciones no codificantes / Exones no traducidos • Exones pequeños (estructuras secundarias) • Sitios de splicing no canonicos • Procesados alternativos: • Otros inicios de transcripción • Splicing alternativo • Sitios de Poly(A) diferentes • Otros inicios de traducción: AUG alternativos / no-AUG (poca consideración a casos “menores”) ✗ Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding ESTRATEGIAS ACTUALES ✓ • Combinación de métodos ofrece resultados más fiables • Puede facilitar pasos previos a la experimentación • Imprescindible para genomas que , quizás, NUNCA serán estudiados experimentalmente Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding TEST DE SOFTWARE Programas a prueba: • GenMark-hmm • GENSCAN • GeneID • Genscan se usó en el Proyecto Genoma Humano y en el Genoma del Ratón • Genscan y GenMark-hmm tienen las mejores valoraciones en pruebas de este tipo de software • Los tres tienen interface web Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding TEST DE SOFTWARE • GenMark-hmm • Desde 1993 • Instituto tecnológico de Georgia, patrocinado por IBM • Varios programas: Procariotas, Eucariotas, Heuristicos, EST y cDNA … GenMark-hmm : Usa Hidden Markov Models y selftraining Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding TEST DE SOFTWARE • GENSCAN • Desde 1997 • Dep. Matemáticas de la Universidad De Stanford • (web) Vertebrados, arabidopsis, maíz. Usa Hidden Markov Models y se basa en información de doble cadena Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding TEST DE SOFTWARE • GENEID • Desde 2000 (paper en Drosophila) • Universitat Pompeu Fabra / CRG • Datos para varios organismos, van publicando nuevos sets periodicamente • Permite añadir datos externos (GFF) • Opcion de output en formato GFF - Web muy explicativa Usa 3 passos: • Deteccion de señales: Splicing, start-stop codons, matrices de puntuación • Usa los datos anteriores en un modelo HMM • Integrar todo en una predicción de la estructura Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding TEST DE SOFTWARE • BRCA1 (Pan troglodytes) • Cromosoma 17 • Splicing alternativo • 85 kb • 24 exons (22 coding) Exon 11 3427 bp El resto entre 37-311bp - Proteina 1863 aa Evolution of the tumor suppressor BRCA1 locus in primates: implications for cancer predisposition Adam Pavlicek, Vladimir N. Noskov et alt. Human Molecular Genetics 2004 13(22):2737-2751; doi:10.1093/hmg/ddh301 Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding TEST DE SOFTWARE Output GeneMark-hmm 2 genes (4 y 7 exones) Gen 1: 1246aa Gen 2: 350aa Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding TEST DE SOFTWARE Output GENSCAN 1 gen ( 16 exones ) 1707aa 2 genes (4 y 7 exones) Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding TEST DE SOFTWARE Output GENSCAN 2 genes (3 y 6 exones) Gen 1: 1229 aa Gen 2: 323 aa Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding INFORMACIÓN COMPLEMENTARIA http://www.genefinding.org/ http://www.nslij-genetics.org/gene/programs.html Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding REFERENCIAS Evaluation of gene prediction software using genomic dataset: application to Arabidopsis thaliana sequences . Pavy N, Rombauts S et alt. Bioinformatics Vol 15 no 11 1999. 887-899 Evaluation of Gene-Finding Programs on Mammalian Sequences Sanja Rogic, Alan K. Mackworth and Francis B.F. Ouellette . Genome Res. 2001 11: 817-832 Current methods of gene prediction, their strengths and weaknesses Catherine Mathé, Marie-France Sagot, Thomas Schiex and Pierre Rouzé. Nucleic Acids Res. 30:4103-4117, 2002. In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists. Yvan Saeys, Pierre Rouze and Yves Van de Peer. Vol. 23 no. 4 2007, pages 414–420 doi:10.1093/bioinformatics/btl639 Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB