680 likes | 909 Views
Ejemplos de problemas Biológicos que pueden ser resueltos mediante un enfoque Bioinformático. Conceptos básicos. Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) Uso preferencial de codones, CAI y expresividad
E N D
Ejemplos de problemas Biológicos que pueden ser resueltos mediante un enfoque Bioinformático
Conceptos básicos • Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) • Uso preferencial de codones, CAI y expresividad • Microarreglos y aproximaciones estadísticas para su análisis
Descripción de programas existentes • BLAST (Comparación apareada de secuencias) • MEME/MAST (Identificación de motivos sobre-representados)
Planteamiento de problemas para resolver • Grupo mínimo de genes para la vida • Predicción de operones bacterianos • Expresividad en unidades transcripcionales • Conservación de expresividad entre organismos • Identificación de genes transferidos horizontalmente H. pylori • Regulación por glucosa en E. coli y B. subtilis
Predicción de operones bacterianos • En organismos bacterianos, genes funcionalmente relacionados, ya sea porque participan en una misma vía metabolica o en el mismo proceso celular, son transcritos en una misma unidad transcripcional (operon). • El operón de lactosa de Escherichia coli, es uno de los primeros operones descritos para explicar la regulación coordinada de un conjunto de genes.
Predicción de operones bacterianos • Los métodos más comúnmente utilizados para predecir operones se basan en: • Dirección de la transcripción de los genes • Distancias intergénicas.
Otros parámetros importantes en la predicción de operones bacterianos son: • Relación funcional de los genes • Co-ocurrencia de genes en genomas • Vecindad genómica • Co-expresividad
T Datos de complejos proteicos y predicción de operones
Coeficientes de interacción von Mering et al., Nucleic Acids Research, 2005
COG0147Anthranilate/para-aminobenzoate synthases component I
Coeficientes de interacciónCOG.links.v7.1.txt • COG0001 COG0002 296 • COG0001 COG0006 217 • COG0001 COG0007 770 • COG0001 COG0008 168 • COG0001 COG0009 168 • COG0001 COG0012 168 • COG0001 COG0013 168 • COG0001 COG0014 209 • COG0001 COG0016 168 • COG0001 COG0017 173 • COG0001 COG0020 317 • COG0001 COG0026 175 • COG0001 COG0028 278 • COG0001 COG0029 165 • COG0001 COG0035 173 • COG0001 COG0037 217 • COG0001 COG0038 524
Identificación de ortólogos mediante el mejor hit bidireccional BDBH OrganismoA OrganismoB OrganismoA OrganismoB OrganismoA OrganismoB dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . . BsuNNNN dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . . yaaK dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . . BsuNNNN Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . . BsuNNNN Para evitar que el hit solamente sea entre dominios de las proteínas, se puede introducir un criterio de longitud. Por ejemplo que el hit cubra a más del 50% de la secuencia de menor tamaño.
COGs. Cluster of Orthologous Groups of Proteins SCIENCE. VOL. 278: 631-637
No hay línea porque son parálogos COGs. Cluster of Orthologous Groups of Proteins Bacterias Gram-negativa: Escherichia coli y Haemophilus influenzae Bacterias Gram-positiva: Mycoplasma genitalium y M. pneumoniae Cianobacteria: Synechocystis sp. Aequeobacteria (Euryarchaeota): Methanocous jannaschii Eucariota (hongos):Saccharomyces cerevisiae
Archivo de datos SUPERLIST 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Gene Position Strand GI Common b_number db_refs Category COG Kategory KOG KEGG GO1 GO2 GO3 Function Product sp_id sp_ac CDS 337..2799 F 16127996 thrA B0002 protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtK E COG0460,COG0527 - - KEGG:00260,KEGG:00300 GO:0016597,GO:0016301,GO:0003824,GO:0004412 GO:0009067,GO:0008652,GO:0008152,GO:0009088 - enzyme; Amino acid biosynthesis: Threonine fused aspartokinase I and homoserine dehydrogenase I - -
Predicción de operones bacterianos Lectura de datos COG.links Lectura del primer registro del archivo SUPERLIST Diagrama general de subrutinas Proceso cíclico de lectura y análisis de los demás registros del archivo SUPERLIST
Subrutina de lectura de datos COG.links campos <- split(registro de archivo) indice_COGs {COG1} {COG2} <- indice COG1 <- campo 0 indice <- campo 2 COG2 <- campo 1 Para cada renglon del archivo COG.links ¿Es indice > 500? SI
Archivo de datos SUPERLIST 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Gene Position Strand GI Common b_number db_refs Category COG Kategory KOG KEGG GO1 GO2 GO3 Function Product sp_id sp_ac CDS 337..2799 F 16127996 thrA B0002 protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtK E COG0460,COG0527 - - KEGG:00260,KEGG:00300 GO:0016597,GO:0016301,GO:0003824,GO:0004412 GO:0009067,GO:0008652,GO:0008152,GO:0009088 - enzyme; Amino acid biosynthesis: Threonine fused aspartokinase I and homoserine dehydrogenase I - -
Subrutina Distancias intergenicas # gene position strand GI common CDS 190..255 F 16127995 thrL CDS 337..2799 F 16127996 thrA CDS 2801..3733 F 16127997 thrB CDS 3734..5020 F 16127998 thrC CDS 5234..5530 F 16127999 yaaX CDS 5683..6459 R 16128000 yaaA CDS 6529..7959 R 16128001 yaaJ CDS 8238..9191 F 16128002 talB CDS 9306..9893 F 16128003 mog CDS 9928..10494 R 16128004 yaaH CDS 10643..11356 R 16128005 yaaW 190 2801 3733 thrL thrA thrB thrC yaaX yaaA yaaJ talB mog yaaH yaaW 337 2799 3734 5020 337 255 Distancia intergenica 337-255=82 pb
Subrutina de lectura de datos SUPERLIST campos <- split(registro de archivo) cog{gi} <- campo 9 gi <- campo 3 strand{gi} <- campo 2 gene{gi} <- campo 4 (inicio{gi},final{gi}) <- split(campo 2) gi_anterior <- gi Lectura del primer registro (condición borde inicial) Proceso cíclico de lectura y análisis de los demás registros
Subrutina de lectura de datos SUPERLIST campos <- split(registro de archivo) cog{gi} <- campo 9 gi <- campo 3 strand{gi} <- campo 2 gene{gi} <- campo 4 (inicio{gi},final{gi}) <- split(campo 2) dist_inter{gi} <-inicio{gi} - final{gi_anterior} indice_string{gi} <-indice {COG{ gi}} {COG{gi_anterior}} gi and gi_anterior pertenecen al mismo operon gi_anterior <- gi Para cada renglon del archivo SUPERLIST strand{gi} eq strand{gi_anterior} indice_string{gi} > 500 ordist_inter{gi} < 100 SI
Predicción de operones bacterianoshttp://www.microbesonline.org/operons/OperonList.html • G_1 G_2 Bnum1 Bnum2 Ge1 Ge2 Bop pOp • 14146 14147 b0001 b0002 thrL thrA FALSE 0.115 • 14147 14148 b0002 b0003 thrA thrB TRUE 0.998 • 14148 14149 b0003 b0004 thrB thrC TRUE 0.999 • 14149 14150 b0004 b0005 thrC yaaX FALSE 0.088 • 14151 14152 b0006 b0007 yaaA yaaJ TRUE 0.675 • 14153 14154 b0008 b0009 talB mog FALSE 0.31 • 14155 14156 b0010 b0011 yaaH yaaW FALSE 0.309 • 14159 14160 b0014 b0015 dnaK dnaJ TRUE 0.989 • 14160 14161 b0015 b0016 dnaJ insL-1 FALSE 0.139 Comparar resultados con las predicciones depositadas en archivo PREDICCION_OPERONES.zip ¿ Qué porcentaje de las predicciones coinciden? ¿Qué características tienen las predicciones incorrectas ?
CAI and the most biased genes Zinovyev Andrei Institut des Hautes Études Scientifiques
El código genético estándar exhibe redundancia • Esta flexibilidad en el nivel de DNA de la codificación no es utilizada aleatoriamente por todos los genes de todos los genomas. • Los patrones del uso de codones varían extensamente en y entre la especie • El uso preferencial de codones de un gene correlaciona con los niveles con los cuales éste se traduce a la proteína • El uso preferencial de codones también de un gene también está ligado a la exactitud del proceso de traducción
Overall codon usage Highly expressed genes Uso Preferencial de Codones en E. coli
Diferent tipos de codon bias • Traduccional (principalmente en fast-growing bacteria) • Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos • Influencia de la cadena codificante (leading o lagging) • Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos
Diferent tipos de codon bias • Traduccional (principalmente en fast-growing bacteria) • Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos • Influencia de la cadena codificante (leading o lagging) • Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos
Relación de CAI y el contenido de GC en la tercera posición del codon
Estudio cuantitativo del Uso Preferencial de Codones • Podemos describir cada gene por la frecuencia de sus codones – vector with 64 componentes (59 son interesting por ser codificantes) • PCA (Principal Component Analysis) y CA (Correspondence Analysis) son las técnicas más comúnmente empleadas para estudiar el uso de codones • Cada gene es representado por un punto. Los puntos. Genes con un uso similar de codones son agrupados
Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) Patrones del Uso Preferencial de Codones en bacterias de rápido crecimiento I III II IV
Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) Ejemplo del UPC en un bacteriano de rápido crecimiento:Bacillus subtilis
Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) Ejemplo del UPC en un bacteriano de rápido crecimiento:Escherichia coli
Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) Ejemplo del UPC en un Organismo eucariote unicelular:Saccharomyces cerevisiae
Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) Ejemplo del UPC en un Organismo eucariote complejo:Caenorhabditis elegans
Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) UPC en Organismo bacteriano de lento crecimiento:Helicobacter pylori
UPC en Organismo bacteriano de lento crecimiento:Borrelia burgdorferi Leading strand Lagging strand