240 likes | 522 Views
Genómica Estructural Asignatura de Genómica Vegetal Máster del IBMCP Curso 2009-2010. 1. 2. Predicción de genes. 3. Elementos reguladores en cis. 4. Motivos en proteína. 5. Función hipotética. Análisis de secuencias. Secuencia “cruda”. Algoritmos.
E N D
Genómica EstructuralAsignatura de Genómica VegetalMáster del IBMCPCurso 2009-2010
1 2 Predicción de genes 3 Elementos reguladores en cis 4 Motivos en proteína 5 Función hipotética Análisis de secuencias Secuencia “cruda”
Algoritmos • Genscan (http://genes.mit.edu/GENSCAN.html) • GeneMark (http://opal.biology.gatech.edu/GeneMark/) Fuentes de información • Secuencias consenso de procesamiento • Similitud de secuencia Refinado estructura exones / intrones • Secuencias de inicio transcripción • Secuencias de poliadenilación Predicción de genes
El algoritmo GENESCAN • Se basa en un modelo probabilístico. • Tiene en cuenta el sesgo de uso de codones en regiones codificantes, codones de inicio y parada, tamaños típicos de exones, presencia de promotores, presencia de genes en las dos cadenas…) • No usa búsquedas de similitudes para predecir genes • No tiene en cuenta el procesamiento alternativo • Podría combinar dos exones de genes consecutivos.
Predicción de genes (fiabilidad) Parámetros Exones correctos Exones correctos (Sensibilidad) Sn= (Especificidad) Sp= Exones reales Exones predichos ME=Exones que faltan: anotados, pero no predichos WE=Exones equivocados: predichos, pero no reales CE=Exones correctos: predichos, y reales ME WE CE Realidad Predición
A favor •El número de genes predichos es correcto • Funciona bien para genes simples En contra • El diseño de los algoritmos es bueno para vertebrados • Exones iniciales y finales son más difíciles de predecir correctamente Predicción de genes (valoración)
Características •Los programas infieren los criterios de búsqueda basándose en la “experiencia” Ejemplos • NNDP (Neural Network Promoter Predictor) (http://www.fruitfly.org/seq_tools/promoter.html) • GRAIL (http://compbio.ornl.gov/tools/index.shtm) Protocolos de “inteligencia artificial” Algoritmos Neural Networks - Hidden Markov Models - Stochastic context-free grammars
Objetivo •Dar “nombre” a la secuencia. Atribuirle una función hipotética ¿Con qué respuesta nos conformamos? Procedimientos • Búsqueda de genes parecidos, ya presentes en las Bases de Datos (FASTA, BLAST,…) • Búsqueda de motivos en la proteína y en el promotor Anotación de las secuencias
FASTA vs BLAST •FASTA es más sensible que BLAST para búsquedas basadas en secuencias de nucleótidos • BLAST es bueno para encontrar homologías “locales” en secuencias de aminoácidos Búsqueda de homologías en Bases de Datos
Parámetros importantes Tipos de búsqueda •Código genético a emplear •Filtro de complejidad •P value Blastn Blastp Blastx Tblastn Tblastx Sec fav: nuc prot nuc (tr) nuc (tr) prot DB: nuc prot prot nuc (tr) nuc (tr) BLAST
Sequences producing High-scoring Segment Pairs: Score P(N) sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) (... 1191 7.7e-160 sp|P01014|OVAY_CHICK GENE Y PROTEIN (OVALBUMIN-RELATED). 949 7.0e-127 sp|P01012|OVAL_CHICK OVALBUMIN (PLAKALBUMIN). 645 3.4e-100 sp|P19104|OVAL_COTJA OVALBUMIN. 626 1.2e-96 sp|P05619|ILEU_HORSE LEUKOCYTE ELASTASE INHIBITOR (LEI). 216 3.7e-71 sp|P80229|ILEU_PIG LEUKOCYTE ELASTASE INHIBITOR (LEI) (... 325 4.0e-71 sp|P29508|SCCA_HUMAN SQUAMOUS CELL CARCINOMA ANTIGEN (SCC... 439 3.5e-70 sp|P30740|ILEU_HUMAN LEUKOCYTE ELASTASE INHIBITOR (LEI) (... 211 1.3e-66 sp|P05120|PAI2_HUMAN PLASMINOGEN ACTIVATOR INHIBITOR-2, P... 176 1.8e-65 sp|P35237|PTI_HUMAN PLACENTAL THROMBIN INHIBITOR. 473 1.3e-61 sp|P29524|PAI2_RAT PLASMINOGEN ACTIVATOR INHIBITOR-2, T... 183 9.4e-61 sp|P12388|PAI2_MOUSE PLASMINOGEN ACTIVATOR INHIBITOR-2, M... 179 1.8e-60 sp|P36952|MASP_HUMAN MASPIN PRECURSOR. 198 2.6e-58 sp|P32261|ANT3_MOUSE ANTITHROMBIN-III PRECURSOR (ATIII). 142 4.0e-48 sp|P01008|ANT3_HUMAN ANTITHROMBIN-III PRECURSOR (ATIII). 122 7.5e-48 BLAST
Resultado gene 117519..121391 /gene="At5g01290" /note="T10O8.2; F7J8.270; mRNA capping enzyme (HCE), Homo sapiens, EMBL:AF025654" CDS join(117519..117617,117741..117858,117932..118050, 118141..118242,118329..118391,118521..118655, 118748..118954,119354..119473,119876..119965, 120119..120259,120425..120532,120626..120712, 120863..121171,121266..121391) /gene="At5g01290" /codon_start=1 Anotación de las secuencias •Gen con función conocida •Gen parecido a uno con función conocida •Gen parecido a uno sin función conocida •Gen sin parecido a otros
TATA box GCBP2 … GTGGGCCCG … CAAT box … CAAT … DOF core … AAAG … Búsqueda de elementos reguladores •PLACE (Database of Plant Cis-Acting Regulatory DNA Elements) (http://www.dna.affrc.go.jp/htdocs/PLACE/signalscan.html) •PlantCARE (Plant Cis-Acting regulatory Elements) (http://sphinx.rug.ac.be:8080/PlantCARE/)
Búsqueda de elementos reguladores •Promomer (http://www.bar.utoronto.ca/ntools/cgi-bin/BAR_Promomer.cgi)
Nt Ct Myb (Unión al DNA) NLS (Transporte al núcleo) Desconocido Cremallera de leucinas (Interacción Prot-prot) Búsqueda de motivos en proteínas •TargetP, ChloroP (http://www.cbs.dtu.dk/services) •MetaPredict (http://dodo.bioc.columbia.edu/predictprotein/) •Pattern Matching (http://www.arabidopsis.org/cgi-bin/patmatch/)
Nt Ct Nt Ct Nt Ct … DGMNEHLEKKDVACA … Búsqueda en Bases de Datos Búsqueda de motivos en proteínas •Pattern Matching (http://www.arabidopsis.org/cgi-bin/patmatch/) •Protein Families Database of Alignments (PFAM) (http://www.sanger.ac.uk/software/pfam)
Ejemplo: Ler vs. Col, 56,670 polimorfismos 37,344 SNPs 18,759 InDels 747 InDels grandes http://www.arabidopsis.org/Cereon/index.html Aplicaciones Identificación de variedades Establecimiento de mapas Asistencia a la clonación Diagnóstico RFLPs, CAPS, dCAPS AFLPs chips de SNPs Análisis de polimorfismos •La secuencia de nucleótidos varía ligeramente en variedades de una misma especie
Cleaved Amplified Polymorphic Sequences DNA genómico Landsberg Heterozigoto Columbia EcoRI EcoRI EcoRI EcoRI EcoRI EcoRI CAPS
Var1 …GTGGAAGAAGCTCGATGAGGCTTTGGGG… Var2 …GTGGAAGAAGCTCGATGAGGCTTTGAGG… Bsl I CCNNNNNNNGG Primer dCAP GTGGAAGAAGCTCGACCAGGCTTTG Var1 Digestión Bsl I PCR (dCAP + Pr2) Var2 dCAPS Derived-CAPS
DNA genómico Digestión (frec+rara) Ligación adaptadores Amplificación por PCR AFLP fingerprint AFLP Amplified Fragments Length Polymorphisms