590 likes | 876 Views
Ejemplos de problemas Biológicos que pueden ser resueltos mediante un enfoque Bioinformático. Conceptos básicos Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) Uso preferencial de codones, CAI y expresividad
E N D
Ejemplos de problemas Biológicos que pueden ser resueltos mediante un enfoque Bioinformático
Conceptos básicos • Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) • Uso preferencial de codones, CAI y expresividad • Microarreglos y aproximaciones estadísticas para su análisis
Descripción de programas existentes • BLAST (Comparación apareada de secuencias) • MEME/MAST (Identificación de motivos sobre-representados)
Planteamiento de problemas para resolver Grupo mínimo de genes para la vida Predicción de operones bacterianos Expresividad en unidades transcripcionales Conservación de expresividad entre organismos Identificación de genes transferidos horizontalmente H. pylori Regulación por glucosa en E. coli y B. subtilis
Conceptos básicos: Homología y otras relaciones evolutivas Actualmente se han secuenciado más de 600 genomas
Conceptos básicos: Homología y otras relaciones evolutivas Se tienen genomas de los tres reinos, bacterias, arqueas y eucarias
Conceptos básicos: Homología y otras relaciones evolutivas Incluyendo la secuencia del genoma humano
Conceptos básicos: Homología y otras relaciones evolutivas ¿Cuál es el interés de secuenciar tantos genomas? ¿Que clase de información podemos obtener de la comparación de secuencias?
Conceptos básicos: Homología y otras relaciones evolutivas Identificar elementos del genoma (genes) Comparación de secuencias Inferir sus posibles funcionesbioquímicas
Glass, John I. et al. (2006) Proc. Natl. Acad. Sci. USA 103, 425-430
Conceptos básicos: Homología y otras relaciones evolutivas ¿Cuál es la base de dichos supuestos? Evolución
Conceptos básicos: Homología y otras relaciones evolutivas 2,000,000,000 years Las proteínas homólogas comparten un ancestro común
Conceptos básicos: Homología y otras relaciones evolutivas Las secuencias polipeptídicas cambian en el tiempo
Conceptos básicos: Homología y otras relaciones evolutivas Supuestos básicos Dos proteínas tienen la misma función si sus secuencias son idénticas Dos proteínas tienen funciones equivalentes si sus secuencias son similares Pero… ?Que tan similares? y ?Que tan equivalentes pueden ser sus funciones?
Conceptos básicos: Homología y otras relaciones evolutivas Se puede predecir homología a partir de la similitud de sus secuencias
Conceptos básicos: Homología y otras relaciones evolutivas Las proteínas homólogas tiene un mismo plegamiento tridimensional Bovine chymotrypsin (1chg) E()<10-32 42% 233/245 S. griseus trypsin (1sgt) E()10-19 34% 228/259 S. griseus protease A (1sgc) E()<66 23% 197/297 Endochitinase (2baa) E()<4.2 26% 134/372
Conceptos básicos: Homología y otras relaciones evolutivas Organismos Gene ancestral Especiación Tiempo Ortólogos Duplicación Parálogos Transferencia horizontal Xenólogo Xenologs Ortólogs–homólogos relacionados por especiación Parálogos–homólogos relacionados por duplicación Xenólogos–homólogos relacionados por transferencia horizontal
Conceptos básicos: Homología y otras relaciones evolutivas Las existencia de proteínas parálogas dificulta la asignación de funciones
Conceptos básicos: Homología y otras relaciones evolutivas Para establecer el parecido de dos proteínas se requiere alinearlas • Alinear secuencias consiste en juiciosamente introducirles espacios para destacar su parecido. Sec-1 AEGKIVTAGGIDTHIHW-ICPQQAEEALVSGVTTMVGGGTGPAAGTHATTCTPGPWYISR Sec-2 -------MHLFDTHCHLDALPYESDHEDVQAVFRQAGVKKALVVG----TNLP-----E- :*** * * :::. *..* .* .. ..* * * . Sec-1 MLQAADSLPVNIGLLGKGNVSQPDALREQVAAGVIGLKIHEDWGATPAAIDCALTVADEM Sec-2 -SQQAQELAR----------EYPDLY---AAIGVHPLDVQEDSEDAEALLEQA---ADPK * *:.*. . ** .* ** *.::** : * :: * ** Sec-1 DSQAMGRVGEVILRTWQVAHRMKVQRGALAEETGDNDNFRVKRYIAKYTINPALTHGIAH Sec-2 KNAEKLRE---ALRQIPLERLLVETDSPYLAPVP----FRGKRNEPEYVR--HVAEAIAE .. * ** : : : .. . ** ** .:*. ::..**. Sec-1 EVGSIEVGKLADLVVWS-PAFFGVKPATVIKGGMIAIAPMGDINASIPTPQPVHYRPMFG Sec-2 LKG-VPLEEIAQATTENAKRLFRI------------------------------------ * : : ::*: .. . :* :
Conceptos básicos: Homología y otras relaciones evolutivas Secuencia Cadena lineal finita y ordenada de símbolos pertenecientes a un alfabeto. El número de símbolos de la cadena representa su longitud. Alfabeto Conjunto de símbolos diferentes para representar secuencias. ADN A={a,c,g,t} ProteínasA={a,c,d,e,f,g,h,i,k,l,m,n,p,q,r,s,t,v,w,y}
Conceptos básicos: Homología y otras relaciones evolutivas Mecanismos de puntuación • matriz de puntuación • asume que la tasa de mutación para proteínas muy relacionadas se puede extrapolar a otras menos relacionadas. Matrices PAM. Dayhoff (1972) Matrices BLOSUM. Altschul (1991)
Conceptos básicos: Homología y otras relaciones evolutivas Mecanismos de puntuación A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 27 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1
Conceptos básicos: Homología y otras relaciones evolutivas Las comparaciones de secuencias pueden ser locales o globales Global. Incluye toda la proteína Local. Solamente la zona de mayor similitud entre las secuencias es considerada
Descripción de programas existentes: BLAST BLAST(Basic Local Alignment Search Tools) es programa rápido y eficiente para buscar homólogos en una base de datos secuencias • BLASTbusca la mejorsimilitudlocal entre dos secuencias. • Se puedeutilizardesdeutilizandosusitio web en NCBI • http://www.ncbi.nlm.nih.gov/BLAST/
Descripción de programas existentes: BLAST • Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990) “Basic local alignment search tool.” J. Mol. Biol. 215:403-410. • Altschul SF, Madden TL, Schaeffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ (1997) “Gapped BLAST and PSI-BLAST: a new generation of protein database search programs.” NAR 25:3389-3402.
Descripción de programas existentes: BLAST Neighborhood Words Query Word (W = 3) Query: GSQSLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEAFVED PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12 etc. Neighborhood Words Neighborhood Score Threshold (T = 13)
Descripción de programas existentes: BLAST High-Scoring Segment Pairs PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12 etc. Query: 325 SLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEA 365 +LA++L TPGR++ +W+ P+ D + ER + A Sbjct: 290 TLASVLDCTVTPMGSRMLKRWLHMPVRDTRVLLERQQTIGA 330
Conceptos básicos: Homología y otras relaciones evolutivas Algunasproteínas pueden estar formadas por más de un dominio COG0784:FOG: CheY-like receiver COG2202:FOG: PAS/PAC domain COG0642:Signal transduction histidine kinase
Descripción de programas existentes: BLAST Se puede utilizar desde utilizando su sitio web en NCBI http://www.ncbi.nlm.nih.gov/BLAST/
Descripción de programas existentes: BLAST [blastall] Realiza búsquedas tipo BLAST utilizando alguno de los cinco programas BLAST programs: blastp, blastn, blastx, tblastn, or tblastx [blastpgp] Realiza búsquedas reiterativas utilizando PSI-BLAST o PHI-BLAST [bl2seq] Realiza el alineamiento local entre dos secuencias [formatdb] Convierte secuencias en formato FASTA en una base indexada tipo BLAST
Descripción de programas existentes: BLAST blastp Query: Secuencia de Proteína Base de datos: Sequencia de Proteína blastn Query: Secuencia nucleotídica Base de datos: Secuancia nucleotídica blastx Query: Secuencia nucleotídica traducida en todas sus seis fases de lectura Base de datos: Secuencia de Proteína tblastn Query: Secuencia de Proteína Base de datos: Secuencia nucleotídica dinámicamente traducida en todas sus seis fases de lectura tblastx Query: Secuencia nucleotídica traducida en todas sus seis fases de lectura Base de datos: Secuencia nucleotídica dinámicamente traducida en todas sus seis fases de lectura Diferentes versiones del programa BLASTALL
Descripción de programas existentes: BLAST ProgramqueryDatabase 1 blastnDNADNA 1 blastpproteinprotein 6 blastxDNAprotein 6 tblastnproteinDNA 36 tblastxDNADNA
Descripción de programas existentes: BLAST blastall --help Argumentos del programa blastall -pProgram Name [String] -dDatabase [String] default = nr -iQuery File [File In] default = stdin -eExpectation value (E) [Real] default = 10.0 -malignment view options: 0 = pairwise, 1 = query-anchored showing identities, 2 = query-anchored no identities, 3 = flat query-anchored, show identities, 4 = flat query-anchored, no identities, 5 = query-anchored no identities and blunt ends, 6 = flat query-anchored, no identities and blunt ends, 7 = XML Blast output, 8 = tabular, 9 tabular with comment lines
Descripción de programas existentes: BLAST blastall -p blastp -d E_coli_prot -i mi_secuencia.faa -e .0000001 -F F -a 2 –m 8 –o salida -o BLAST report Output File [File Out] Optional default = stdout -F Filter query sequence (DUST with blastn, SEG with others) [String] default = T -G Cost to open a gap (zero invokes default behavior) [Integer] default = 0 -E Cost to extend a gap (zero invokes default behavior) [Integer] default = 0 -X X dropoff value for gapped alignment (in bits) (zero invokes default behavior) blastn 30, megablast 20, tblastx 0, all others 15 [Integer] default = 0 -I Show GI's in deflines [T/F] default = F -q Penalty for a nucleotide mismatch (blastn only) [Integer] default = -3 -r Reward for a nucleotide match (blastn only) [Integer] default = 1 -v Number of database sequences to show one-line descriptions for (V) [Integer] default = 500 -b Number of database sequence to show alignments for (B) [Integer] default = 250 -f Threshold for extending hits, default if zero blastp 11, blastn 0, blastx 12, tblastn 13 tblastx 13, megablast 0 [Integer] default = 0 -g Perform gapped alignment (not available with tblastx) [T/F] default = T -Q Query Genetic code to use [Integer] default = 1 -D DB Genetic code (for tblast[nx] only) [Integer] default = 1 -a Number of processors to use [Integer] default = 1 -O SeqAlign file [File Out] Optional -J Believe the query defline [T/F] default = F -M Matrix [String] default = BLOSUM62 -W Word size, default if zero (blastn 11, megablast 28, all others 3) [Integer] default = 0 -z Effective length of the database (use zero for the real size) [Real] default = 0 -K Number of best hits from a region to keep (off by default, if used a value of 100 is recommended) [Integer] default = 0 -P 0 for multiple hit, 1 for single hit (does not apply to blastn) [Integer] default = 0 -Y Effective length of the search space (use zero for the real size) [Real] default = 0 -S Query strands to search against database (for blast[nx], and tblastx) 3 is both, 1 is top, 2 is bottom [Integer] default = 3 -T Produce HTML output [T/F] default = F -l Restrict search of database to list of GI's [String] Optional -U Use lower case filtering of FASTA sequence [T/F] Optional -y X dropoff value for ungapped extensions in bits (0.0 invokes default behavior) blastn 20, megablast 10, all others 7 [Real] default = 0.0 -Z X dropoff value for final gapped alignment in bits (0.0 invokes default behavior) blastn/megablast 50, tblastx 0, all others 25 [Integer] default = 0 -R PSI-TBLASTN checkpoint file [File In] Optional -n MegaBlast search [T/F] default = F -L Location on query sequence [String] Optional -A Multiple Hits window size, default if zero (blastn/megablast 0, all others 40 [Integer] default = 0 -w Frame shift penalty (OOF algorithm for blastx) [Integer] default = 0 -t Length of the largest intron allowed in a translated nucleotide sequence when linking multiple distinct alignments. [Integer] default = 0 -B Number of concatenated queries, for blastn and tblastn [Integer] Optional default = 0 Argumentos del programa blastall
Descripción de programas existentes: BLAST -b ASN.1 database in binary mode T - binary, F - text mode. default = F -e Input is a Seq-entry [T/F] Optional default = F -n Base name for BLAST files [String] Optional -v Database volume size in millions of letters [Integer] Optional default = 0 range from 0 to <NULL> -s Create indexes limited only to accessions - sparse [T/F] Optional default = F -V Verbose: check for non-unique string ids in the database [T/F] Optional default = F -L Create an alias file with this name use the gifile arg (below) if set to calculate db size use the BLAST db specified with -i (above) [File Out] Optional -F Gifile (file containing list of gi's) [File In] Optional -B Binary Gifile produced from the Gifile specified above [File Out] Optional formatdb -i ecoli.faa -p T -o F formatdb 2.2.10 arguments: -t Title for database file [String] Optional -i Input file(s) for formatting [File In] Optional -l Logfile name: [File Out] Optional default = formatdb.log -p Type of file T - protein F - nucleotide [T/F] Optional default = T -o Parse options T - True: Parse SeqId and create indexes. F - False: Do not parse SeqId. Do not create indexes [T/F] Optional default = F -a Input file is database in ASN.1 format (otherwise FASTA is expected) T - True, F - False. [T/F] Optional default = F
Conceptos básicos: Homología y otras relaciones evolutivas Organismos Gene ancestral Especiación Tiempo Ortólogos Duplicación Parálogos Transferencia horizontal Xenólogo Xenologs Ortólogs–homólogos relacionados por especiación Parálogos–homólogos relacionados por duplicación Xenólogos–homólogos relacionados por transferencia horizontal
Planteamiento de problemas para resolver: Grupo mínimo de genes para la vida Identificación de ortólogos mediante el mejor hit bidireccional BDBH OrganismoA OrganismoB OrganismoA OrganismoB OrganismoA OrganismoB dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . . BsuNNNN dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . . yaaK dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . . BsuNNNN Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . . BsuNNNN Para evitar que el hit solamente sea entre dominios de las proteínas, se puede introducir un criterio de longitud. Por ejemplo que el hit cubra a más del 50% de la secuencia de menor tamaño.
Planteamiento de problemas para resolver: Grupo mínimo de genes para la vida The ‘minimal gene set for cellular life’ has been constructed using the complete protein lists of the first two fully sequenced bacterial genomes, Haemophilus influenzae and Mycoplasma genitalium
Planteamiento de problemas para resolver: Grupo mínimo de genes para la vida Haemophilus influenzae 1703 coding genes Gram negative Micoplasma genitalium “the smallest among known cellular life forms 468 coding genes Gram positive Minimal set of genes requeridos para la vida
Planteamiento de problemas para resolver: Grupo mínimo de genes para la vida 22 genes con desplazamiento no-ortólogo 262 genes en común 6 genes parásito-específicos 256 genes considerados como el conjunto mínimo Utilizando el la definición funcional de BDBH, existen 214 genes ortólogos
Planteamiento de problemas para resolver: Grupo mínimo de genes para la vida Posiblemente el último ancestro común antes de la división de los tres reinos contenía estas proteínas. “It is unlikely that any genes, except those that are indispensable for cell function, could have been conserved through the 1.5 billion years or more separating H. influenzae and M. genitalium from their last common ancestor, given that the evolution in both lineages has been replete with gene elimination”
Planteamiento de problemas para resolver: Grupo mínimo de genes para la vida La mayoría de ellos se encuentra también en eucariontes y arqueas (con excepción de proteínas de replicación)
Planteamiento de problemas para resolver: Grupo mínimo de genes para la vida Después de más de diez años y 600 genomas secuenciados ¿Que nuevas relaciones podemos encontrar?
Planteamiento de problemas para resolver: Grupo mínimo de genes para la vida Encuentre cuales son los genes que existen en común entre los diferentes grupos filogenéticos a) Bacterias Gram-negativa: Escherichia coli y Haemophilus influenzae b) Bacterias Gram-positiva: Mycoplasma genitalium y Bacillus subtilis c) Cianobacteria: Synechocystis sp. d) Arqueobacteria: Methanocous jannaschii e) Eucariota:Saccharomyces cerevisiae
Planteamiento de problemas para resolver: Grupo mínimo de genes para la vida Gram-negativas Gram-positivas Escherichia coli Mycoplasmagenitalium Haemophilus influenzae Bacillus subtilis Gram-positivas Gram-negativas
Planteamiento de problemas para resolver: Grupo mínimo de genes para la vida Solo Bacterias Solo Cianobacteria Bacterias y Cianobacteria Bacterias, Cianobacteria y Arqueobacteria Bacterias y Arqueobacteria Cianobacteria y Arqueobacteria Solo Arqueobacteria
Planteamiento de problemas para resolver: Grupo mínimo de genes para la vida Solo Eucariota Bacterias yEucariota Solo Bacterias Bacterias, Cianobacteria yEucariota Solo Cianobacteria Cianobacteria yEucariota Bacterias y Cianobacteria Bacterias, Cianobacteria, Arqueobacteria yEucariota Bacterias y Arqueobacteria Bacterias, Cianobacteria y Arqueobacteria Cianobacteria, Arqueobacteria yEucariota Cianobacteria y Arqueobacteria Arqueobacteria yEucariota Solo Arqueobacteria