390 likes | 510 Views
Anotación de Genomas con ESTs. Eduardo Eyras Bioinformática UPF – Marzo 2006. Objetivos: Conocer un poco más sobre como se anotan genomas automáticamente Y el uso de ESTs para anotar genomas. Objetivo. Localización en el genoma de genes conocidos (known). Proteínas conocidas.
E N D
Anotación de Genomas con ESTs Eduardo Eyras Bioinformática UPF – Marzo 2006
Objetivos: • Conocer un poco más sobre como se anotan genomas automáticamente • Y el uso de ESTs para anotar genomas
Localización en el genoma de genes conocidos (known) Proteínas conocidas Secuencias de mRNAs
Alineamiento de proteínas/mRNAs al genoma en dos pasos 1 BLAST proteína/mRNA “query” contra genoma 2 Realinea proteína/mRNA “query” contra región genómica Resultado: estructura exónica
Alineando mRNAs al genoma mRNA “query” . . . GCCGCACCTGAAGAGGGAAAAGC . . . 404 : CAGCCGCACCTGAAGAGG >>>> Target Intron 2 >>>> GAAAAGC : 428 ||||||||||||||||||++ 792 bp ++||||||| 27250191 : CAGCCGCACCTGAAGAGGgt.........................agGAAAAGC : 27251007 Secuencia genómica Programas: Exonerate, Blat, Sim4, Spidey
Alineando Proteínas al genoma Proteína “query” DCUP_HUMAN . . . RFPLDAAIIFSDILVVPQALGMEVTM . . . DCUP_HUMAN 75 RFPLDAAIIFSDILVVPQ ALGMEVTM RF LDAAIIFSDILVVPQ ALGMEVTM RFLLDAAIIFSDILVVPQ ALGMEVTM HS307871 2141 ctccgggaattgacggccGTACCCA Intron 4 CAGgcgaggaa gtttacctttcattttca<0-----[2195 : 2433]-0>ctgtatct cctgttcctccccttacg agcgggcg La traducción de la secuencia genómica Secuencia genómica partida en codones Programas: GeneWise, Exonerate
Combinando proteinas y mRNAs Proteína alineada al genoma mRNA alineado en el mismo locus Anotación de un tránscrito con CDS y UTR
Como encontrar más genes(novel) Programas de predicción de genes: e.g. Genscan, Geneid, SGP2, Twinscan, etc… Predicción Comparamos con bases de datos (Proteínas, mRNAs, ESTs, etc) Tránscrito 1 Tránscrito 2 Contruimos tráncritos a partir de predicciones con evidencia
Anotación Funcional Anotación (predicción a partir de proteína o mRNA) Comparación con Bases de Datos con información Funcional
A la caza de genes • Consorcio Público (HGP): Secuenciación del Genoma Inciativa privada (Craig Venter): Secuenciación de ESTs
ESTs (Expressed Sequence Tags) Traducción: Etiquetas de secuencias expresadas? Son fragmentos de secuencia obtenidos a partir de clones de cDNA Tiene una longitud de 300-600 bases Pueden contener parte del CDS y/o UTR
Obtención de cDNA mRNA extraído de células de un determinado tejido, estado de enfermedad y desarrollo.
ESTs 5’ 3’ AAAAAA Clone cDNA into a vector TTTTTT 3’ 5’ 5’ EST Single-pass sequence reads Multiple cDNA clones 3’ EST
Muestreando el Transcriptoma con ESTs Genoma Tránscrito primario Splicing Variantes de splicing oligo-dT primer Transcriptasa Reversa Clones de cDNA Secuencias de ESTs (una única lectura) 5’ 3’ 5’ 3’
Longitud de los ESTs ~ 450 bp Distribución de longitudes para ESTs de human (dbEST)
Alineamiento de ESTs al genoma para anotar genes EST AG GT AG GT • El alineamiento define exones e intrones
dbEST: Más de 7 MILLONES de ESTs de humano Alineamiento al genoma humano ~ 3 Gigabases
Bioinformática como una Tecnología Desarrollo de software specializado: Programas que mejoran en rapidez sin perder en calidad en los alineamientos. Desarrollo de tecnología especializada: Computación en paralelo con más de 2000 CPUs
Alineamiento de ESTs al genoma Pueden contener colas polyA/polyT del cDNA: tenemos que cortarlas Pueden contener contaminación del vector: tenemos que filtrarlos. Pueden contener intrones no procesados (clones de tránscritos no maduros): damos preferencia a ESTs que alineen con 1 ó más intrones, con dinucleótidos consenso: GT—AG, AT—AC, GC—AG Es secuenciación de baja calidad (1 única pasada): Solo aceptamos “matches” casi exactos al genoma (coverage >= 97%, percent id>= 95%)
Alineamiento de ESTs al genoma EST Stop PolyA * AAAA Pseudogene procesado AG GT AG GT Mejor alineamiento en todo el genoma Parálogo
Alineamiento de ESTs al genoma EST quimérico Trozo de gen A Trozo de gen B Thomson et al.. Fusion of the human gene for the polyubiquitination coeffector UEV1 with Kua, anewly identified gene.Genome Res. 2000 Nov;10(11):1743-56 Parra et al. Tandem chimerism as a means to increase protein complexity in the human genome.Genome Res. 2006 Jan;16(1):37-44
ESTs dan información sobre variantes de splicing ESTs Genoma ¿Cuales son los tránscritos representados por este set de ESTs alienados al genoma? ¿podemos averiguar el conjunto de mRNAs en este locus del genoma que supuestamente han dado lugar ha estos ESTs?
Compatibilidades entre distintos ESTs 2 ESTs pueden tener estructura exónicas redundantes: x z x + z z es redundante con x -> es suficiente quedarnos con x
Extensión de la estructura exónica Consider 2 ESTs in a Genomic Cluster with more ESTS x y x + y y extiende x, podemos asumir que provienen del mismo mRNA
Extensión de la estructura exónica El resultado depende de la representación de exones en los ESTs. Sin embargo, ESTs suelen representar mayormente regiones 3’y 5’. x z w ESTs como z no son muy frecuentes, por lo que tendremos fragmentación
Complejidad de las estructuras exónicas x z w x + z z + w En un grupo de ESTs pueden existir redundancias y extensiones. Todas pueden ser importantes: w es compatible con z pero no con x, mantenemos z a pesar de ser redundante con x, para obtener z + w
Predicción de tránscritos a partir de ESTs ESTs Predicciones Podemos obtener predicciones de mRNAs teniendo en cuenta las compatibilidades entre ESTs. Eyras et al. Genome Research 2004
Secuenciación de ESTs a gran escala en paralelo a la secuenciación de un genoma
Sistema Anatómico Tipo de Célula Patología Estado de Desarrollo ESTs proporcionan información sobre la expresión de genes Ontologías eVOC http://www.sanbi.ac.za/evoc/ El tejido, órgano o sistema anatómico en el que se ha preparado la muestra. Por ejemplo: digestivo, pulmón, retina. El tipo de célula en el que se ha preparado la muestra.Ejemplo: Linfocitos B, Fibroblasto. El estado patológico del tejido en el que se preparó la muestra. Por ejemplo: normal, linfoma. El estadio en el desarrollo del organismo en el cual se preparó la muestra. Por ejemplo: embrión, feto, adulto.
ESTs proporcionan información sobre la expresión de genes Ontologías eVOChttp://www.sanbi.ac.za/evoc/ Sistema Anatómico Estado de Desarrollo Tipo de Célula Patología … nervioso cerebro cerebelo … Librería 1 Librería 2 … ESTs ESTs
Como conectar el vocabulario de expressión con los genes previamente anotados ESTs Genes V Curwen et al. Genome Research (2004)
CONCLUSIONES • La anotación de genomas requiere software especializado. • ESTs (muestreo parcial de mRNAs) son útiles para anotar genomas. En particular:, para obtener información sobre splicing alternativo y sobre el contexto de la expresión. • La producción de ESTs es rápida y barata pero los datos necesitan bastante procesamiento. • Los ESTs solo dan información sobre los tránscritos expresados por la célula. Para estudia regiones reguladoras necesitamos el genoma.