1 / 68

Ejemplos de problemas Biológicos que pueden ser resueltos mediante un enfoque Bioinformático

Ejemplos de problemas Biológicos que pueden ser resueltos mediante un enfoque Bioinformático. Conceptos básicos. Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) Uso preferencial de codones, CAI y expresividad

moesha
Download Presentation

Ejemplos de problemas Biológicos que pueden ser resueltos mediante un enfoque Bioinformático

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ejemplos de problemas Biológicos que pueden ser resueltos mediante un enfoque Bioinformático

  2. Conceptos básicos • Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) • Uso preferencial de codones, CAI y expresividad • Microarreglos y aproximaciones estadísticas para su análisis

  3. Descripción de programas existentes • BLAST (Comparación apareada de secuencias) • MEME/MAST (Identificación de motivos sobre-representados)

  4. Planteamiento de problemas para resolver • Grupo mínimo de genes para la vida • Predicción de operones bacterianos • Expresividad en unidades transcripcionales • Conservación de expresividad entre organismos • Identificación de genes transferidos horizontalmente H. pylori • Regulación por glucosa en E. coli y B. subtilis

  5. Predicción de operones bacterianos • En organismos bacterianos, genes funcionalmente relacionados, ya sea porque participan en una misma vía metabolica o en el mismo proceso celular, son transcritos en una misma unidad transcripcional (operon). • El operón de lactosa de Escherichia coli, es uno de los primeros operones descritos para explicar la regulación coordinada de un conjunto de genes.

  6. Predicción de operones bacterianos • Los métodos más comúnmente utilizados para predecir operones se basan en: • Dirección de la transcripción de los genes • Distancias intergénicas.

  7. Otros parámetros importantes en la predicción de operones bacterianos son: • Relación funcional de los genes • Co-ocurrencia de genes en genomas • Vecindad genómica • Co-expresividad

  8. The STRING databasehttp://string.embl.de/

  9. Fusión de genes y predicción de operones

  10. Vecindad genómica y predicción de operones

  11. Co-ocurrencia de genesproteicos y predicción de operones

  12. Conocimiento publicado y predicción de operones

  13. T Datos de complejos proteicos y predicción de operones

  14. Coeficientes de interacción von Mering et al., Nucleic Acids Research, 2005

  15. COG0147Anthranilate/para-aminobenzoate synthases component I

  16. Saccharomyces cerevisiae exosome complex

  17. Coeficientes de interacciónCOG.links.v7.1.txt • COG0001 COG0002 296 • COG0001 COG0006 217 • COG0001 COG0007 770 • COG0001 COG0008 168 • COG0001 COG0009 168 • COG0001 COG0012 168 • COG0001 COG0013 168 • COG0001 COG0014 209 • COG0001 COG0016 168 • COG0001 COG0017 173 • COG0001 COG0020 317 • COG0001 COG0026 175 • COG0001 COG0028 278 • COG0001 COG0029 165 • COG0001 COG0035 173 • COG0001 COG0037 217 • COG0001 COG0038 524

  18. Identificación de ortólogos mediante el mejor hit bidireccional BDBH OrganismoA OrganismoB OrganismoA OrganismoB OrganismoA OrganismoB dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . . BsuNNNN dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . . yaaK dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . . BsuNNNN Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . . BsuNNNN Para evitar que el hit solamente sea entre dominios de las proteínas, se puede introducir un criterio de longitud. Por ejemplo que el hit cubra a más del 50% de la secuencia de menor tamaño.

  19. COGs. Cluster of Orthologous Groups of Proteins SCIENCE. VOL. 278: 631-637

  20. No hay línea porque son parálogos COGs. Cluster of Orthologous Groups of Proteins Bacterias Gram-negativa: Escherichia coli y Haemophilus influenzae Bacterias Gram-positiva: Mycoplasma genitalium y M. pneumoniae Cianobacteria: Synechocystis sp. Aequeobacteria (Euryarchaeota): Methanocous jannaschii Eucariota (hongos):Saccharomyces cerevisiae

  21. Archivo de datos SUPERLIST 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Gene Position Strand GI Common b_number db_refs Category COG Kategory KOG KEGG GO1 GO2 GO3 Function Product sp_id sp_ac CDS 337..2799 F 16127996 thrA B0002 protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtK E COG0460,COG0527 - - KEGG:00260,KEGG:00300 GO:0016597,GO:0016301,GO:0003824,GO:0004412 GO:0009067,GO:0008652,GO:0008152,GO:0009088 - enzyme; Amino acid biosynthesis: Threonine fused aspartokinase I and homoserine dehydrogenase I - -

  22. Predicción de operones bacterianos Lectura de datos COG.links Lectura del primer registro del archivo SUPERLIST Diagrama general de subrutinas Proceso cíclico de lectura y análisis de los demás registros del archivo SUPERLIST

  23. Subrutina de lectura de datos COG.links campos <- split(registro de archivo) indice_COGs {COG1} {COG2} <- indice COG1 <- campo 0 indice <- campo 2 COG2 <- campo 1 Para cada renglon del archivo COG.links ¿Es indice > 500? SI

  24. Archivo de datos SUPERLIST 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Gene Position Strand GI Common b_number db_refs Category COG Kategory KOG KEGG GO1 GO2 GO3 Function Product sp_id sp_ac CDS 337..2799 F 16127996 thrA B0002 protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtK E COG0460,COG0527 - - KEGG:00260,KEGG:00300 GO:0016597,GO:0016301,GO:0003824,GO:0004412 GO:0009067,GO:0008652,GO:0008152,GO:0009088 - enzyme; Amino acid biosynthesis: Threonine fused aspartokinase I and homoserine dehydrogenase I - -

  25. Subrutina Distancias intergenicas # gene position strand GI common CDS 190..255 F 16127995 thrL CDS 337..2799 F 16127996 thrA CDS 2801..3733 F 16127997 thrB CDS 3734..5020 F 16127998 thrC CDS 5234..5530 F 16127999 yaaX CDS 5683..6459 R 16128000 yaaA CDS 6529..7959 R 16128001 yaaJ CDS 8238..9191 F 16128002 talB CDS 9306..9893 F 16128003 mog CDS 9928..10494 R 16128004 yaaH CDS 10643..11356 R 16128005 yaaW 190 2801 3733 thrL thrA thrB thrC yaaX yaaA yaaJ talB mog yaaH yaaW 337 2799 3734 5020 337 255 Distancia intergenica 337-255=82 pb

  26. Subrutina de lectura de datos SUPERLIST campos <- split(registro de archivo) cog{gi} <- campo 9 gi <- campo 3 strand{gi} <- campo 2 gene{gi} <- campo 4 (inicio{gi},final{gi}) <- split(campo 2) gi_anterior <- gi Lectura del primer registro (condición borde inicial) Proceso cíclico de lectura y análisis de los demás registros

  27. Subrutina de lectura de datos SUPERLIST campos <- split(registro de archivo) cog{gi} <- campo 9 gi <- campo 3 strand{gi} <- campo 2 gene{gi} <- campo 4 (inicio{gi},final{gi}) <- split(campo 2) dist_inter{gi} <-inicio{gi} - final{gi_anterior} indice_string{gi} <-indice {COG{ gi}} {COG{gi_anterior}} gi and gi_anterior pertenecen al mismo operon gi_anterior <- gi Para cada renglon del archivo SUPERLIST strand{gi} eq strand{gi_anterior} indice_string{gi} > 500 ordist_inter{gi} < 100 SI

  28. Predicción de operones bacterianoshttp://www.microbesonline.org/operons/OperonList.html • G_1 G_2 Bnum1 Bnum2 Ge1 Ge2 Bop pOp • 14146 14147 b0001 b0002 thrL thrA FALSE 0.115 • 14147 14148 b0002 b0003 thrA thrB TRUE 0.998 • 14148 14149 b0003 b0004 thrB thrC TRUE 0.999 • 14149 14150 b0004 b0005 thrC yaaX FALSE 0.088 • 14151 14152 b0006 b0007 yaaA yaaJ TRUE 0.675 • 14153 14154 b0008 b0009 talB mog FALSE 0.31 • 14155 14156 b0010 b0011 yaaH yaaW FALSE 0.309 • 14159 14160 b0014 b0015 dnaK dnaJ TRUE 0.989 • 14160 14161 b0015 b0016 dnaJ insL-1 FALSE 0.139 Comparar resultados con las predicciones depositadas en archivo PREDICCION_OPERONES.zip ¿ Qué porcentaje de las predicciones coinciden? ¿Qué características tienen las predicciones incorrectas ?

  29. CAI and the most biased genes Zinovyev Andrei Institut des Hautes Études Scientifiques

  30. El código genético estándar exhibe redundancia • Esta flexibilidad en el nivel de DNA de la codificación no es utilizada aleatoriamente por todos los genes de todos los genomas. • Los patrones del uso de codones varían extensamente en y entre la especie • El uso preferencial de codones de un gene correlaciona con los niveles con los cuales éste se traduce a la proteína • El uso preferencial de codones también de un gene también está ligado a la exactitud del proceso de traducción

  31. Overall codon usage Highly expressed genes Uso Preferencial de Codones en E. coli

  32. Diferent tipos de codon bias • Traduccional (principalmente en fast-growing bacteria) • Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos • Influencia de la cadena codificante (leading o lagging) • Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos

  33. Relación de CAI y traducibilidad

  34. Diferent tipos de codon bias • Traduccional (principalmente en fast-growing bacteria) • Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos • Influencia de la cadena codificante (leading o lagging) • Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos

  35. Relación de CAI y el contenido de GC en la tercera posición del codon

  36. Estudio cuantitativo del Uso Preferencial de Codones • Podemos describir cada gene por la frecuencia de sus codones – vector with 64 componentes (59 son interesting por ser codificantes) • PCA (Principal Component Analysis) y CA (Correspondence Analysis) son las técnicas más comúnmente empleadas para estudiar el uso de codones • Cada gene es representado por un punto. Los puntos. Genes con un uso similar de codones son agrupados

  37. Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) Patrones del Uso Preferencial de Codones en bacterias de rápido crecimiento I III II IV

  38. Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) Ejemplo del UPC en un bacteriano de rápido crecimiento:Bacillus subtilis

  39. Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) Ejemplo del UPC en un bacteriano de rápido crecimiento:Escherichia coli

  40. Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) Ejemplo del UPC en un Organismo eucariote unicelular:Saccharomyces cerevisiae

  41. Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) Ejemplo del UPC en un Organismo eucariote complejo:Caenorhabditis elegans

  42. Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) UPC en Organismo bacteriano de lento crecimiento:Helicobacter pylori

  43. UPC en Organismo bacteriano de lento crecimiento:Borrelia burgdorferi Leading strand Lagging strand

More Related