310 likes | 491 Views
LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB). Aristotle (-2400 years). Linnaeus (-300 years). Mayr & Simpson (-50 years ). genus species. kingdom class order genus species. kingdom
E N D
LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)
Aristotle (-2400 years) Linnaeus (-300 years) Mayr & Simpson (-50 years) genus species kingdom class order genus species kingdom phylum subphylum superclass class infraclass cohort superorder order infraorder superfamily family subfamily tribe subtribe genus subgenus species subspecies La idea de unidad taxonómica surge de la suposición de una creación divina ►un solo sistema ►toda la diversidad (MONISMO) ►de categorias respuesta anuevas clasificaciones! ► El sistema ES artificial Rosselló-Mora 2005, J.Bacteriol. 187:6255-6257
(Bergey) (Watson & Crieg) (Woese) (Venter) La definición de unidad va mejorando con el desarrollo tecnológico 60’s Descubrimiento del DNA hibridaciones DNA-DNA Análisis del GC 90’s use del RNAr como cronómetro molecular >00’s Genómica y metagenómica < 60’s Identificación fenotípica
¿qué es una especie? El concepto de especie en TAXONOMÍA
¿qué es una especie? CONCEPTO ESPECIE (concepto filo-fenético) “es una categoría que circunscribe (preferentemente) grupos genómicos coherentes y monofiléticos de aislados/cepas individuales que comparten un elevado grado de similitud en (muchos) caracteres independientes, comparados utilizando métodos estandarizados” Rosselló-Mora & Amann 2001, FEMS Rev. 25:39-67
phenotypic coherence 50% 60% 70% phylogenetic coherence genomic coherence 80% 100% metabolismo quimiotaxonomía Espectrometría (Maldi-Tof; ICR-FT/MS) 70-50% 70% RNAr 16S Genes funcionales (MLSA) Análisis genómicos Reasociación DNA-DNA G+C, AFLP, MLSA Comparaciones genómicas (ANI; AAI) ¿qué es una especie? DEFINICIÓN PARÁMETROS PARA CIRCUNSCRIBIR ESPECIES (no se pueden tomar como valores absolutos) RNAr 16S ≥ 97% Hibridación DNA-DNA ≥ 70% ANI ≥ 94% MLSA ??? Fenotipo = coherencia en muchos carácteres
El gen del RNAr 16S permite reconstruir filogenias El RNAr 16S se ha convertido en la molécula de referencia para reconstruir la genealogía construir el sistema de clasificación indentificar diversidad ambiental
one species with genomic and phylogenetic heterogeneity one species with 7 genomovars ∆Tm 0 - 10°C - 16S rRNA 98 - 99.9% Proteus vulgaris Pseudomonas stutzeri Rahnella aquatilis Pseudomonas aeruginosa one species with 3 genomospecies RBR 40 - 100% - 16S rRNA 97.8 - 100% Mycobacterium tuberculosis Staphylococcus aureus Amycolatopsis methanolica Staphylococcus piscifermentans Amycolatopsis thermoflava Staphylococcus carnosus two species Staphylococcus condimenti RBR 21% - 16S rRNA 98.8% three species RBR 51 - 58% - 16S rRNA 98.9 - 99.9% 10% Archaea several species with identical or nearly identical 16S rRNA ¿qué es una especie? Se pretende asumir el filotipo como especie basada en 16S RNAr En general dos organismos con <97% identidad pertenecen a especies distintas Lo contrario no es cierto
even extreme cases where a single strain may contain different 16S rRNA genes even below 97% similarity!!!! one strain with three 16S rRNA operons with 94% similarity Haloarcula marismortui two species Haloferax denitrificans RBR 68% - 16S rRNA 97.3% Haloferax mediterranei Thermococcus barophilus "Thermococcus litoralis" Natronobacterium tibetense Natronobacterium bangense two species RBR 35% - 16S rRNA 95.2% 10% Bacteria a good correlation!!! ¿qué es una especie? Se pretende asumir el filotipo como especie basada en 16S RNAr En general dos organismos con <97% identidad pertenecen a especies distintas Lo contrario no es cierto
100% 100% reconditioning 99% 98% 97% Identificación de organismos (DNA / RNA) no cultivados ► filotipos de RNAr 16S Librerías de clones gran variedad de filotipos errores en la amplificación agrupaciones por % identidad 97% por especie? Filotipos ≠ especies OPU (operational phylogenetic unit) Se puede determinar a grandes rasgos la identidad de los organismos presentes a Acinas et al., 2004 Nature 430:551-554
BASES DE DATOS 1.443.326 16S rRNA 756.668 > 300 bases 324.342 > 900 bases 50% mala calidad 20% buena calidad 5% (10%) cultivados
El crecimiento de la base de datos es exponencial BASES DE DATOS 95% de las secuencias son ambientales 5% de las secuencias son de organismos cultivados 1% de las secuencias se corresponden con especies conocidas
La calidad de las secuencias aumenta con el tamaño de fragmento secuenciado rojo (secuencias totales) negro (buena calidad) El gen está conservado de distinta forma en distintos sectores. Las secuencias cortas pierden información relevante Son las más abundates en la base de datos No es recomendable reconstruir filogenias
La identidad basada en RNAr 16S ambiental, muy probablemente se limite a filotipos 4 filos concentran el 87% de los taxones descritos La mayor parte de origen clínico Yarza et al. 2008 System Appl Microbiol 31: 241-250 Identificación de un DNA ambiental a nivel de especie poco probable hay 4 grupos que tienen la mayoria de aislados información metabólica información genética otros filos => difícil especular Hugenholz et al. 2002 AEM 18: 4765-4774 Una secuencia no garantiza identificar el metabolismo y genética
El concepto de genoma de una especie Genes “auxiliares” no presentes en todos las poblaciones y con poca señal filogenética Genes “core” esenciales y con señal filogenética Genes “específicos” de población y sin señal filogenética Lan and Reeves. 2000 TRENDS Microbiol 8: 396-401
Otras moléculas con señal filogenética Características de una molecula como reloj molecular universalmente representada Solo 34 genes ortólogos universales (Huynen & Bork, PNAS, 1998. 95:5849-5856) Se pueden seleccionar genes específicos de grupo (e.g. filo) y no universales constancia funcional conservación en la secuencia suficiente para la reconstrucción suficiente complejidad para tener señal filogenética Marcadores que dan soporte a la filogenia global RNAr 16S RNAr 23S EF-Tu (algunos filos son parafiléticos e.g. Actinobacteria y Streptomyces) RNA polimerasa rpoB (algunos filos parafiléticos e.g. Epsilonproteobacteria y resto Proteobacteria) Heat Shock Hsp60 (Bacteria: GroEL, Archaea: Tf-55; tambien algunos parafiléticos) Aminoacyl tRNA sintetasas Marcadores que NO dan soporte a la filogenia global ATPasas DNA girasas Hsp70 RecA De todos modos, si tienen señal a niveles más concretos y pueden dar una idea de la identidad Ludwig and Schleifer. 2005 Microbial phylogeny and evolution (Sapp) 70-98. (Oxford University Press)
La filogenia de Salinibacter ruber • Filogenia con genes funcionales de S. ruber cepa M8 • 22 ortólogos seleccionados ► Filogenias individuales (ileS, pyrG, rpsC, S5, rpoC, rpoB, gyrB, thrS, mfd, ftsY, tuf, uvrA-2, ffh, glyA, recN, ruvB, recG, rho, groEL, recA, uvrA, valS) • 22secuencias concatenated ►10.757 posiciones • 74 ortólogos seleccionados automáticamente ►17.149 posiciones 3 posibles filogenias Of all 22 analyzed genes: 57 % Bacteroidetes 27 % Chlorobi 18 % Chlorobi- Bacteroidetes Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-179
De los 29 genes analizados: 31% Chlorobi 38% Bacteroidetes 10% Chlorobi- Bacteroidetes 21% other reconstructions
Árboles concatenados: misma topología que 16S rRNA resolución similar confima la divergencia temprana mayor robustez Mucho más complejo para el mismo resultado 16S ►aproximación más parsimoniosa 22genes / 10.757posiciones 74genes / 17.149posiciones Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-179
DDH es el estándar para circunscribir especies Selecciones al azar de22genes ► checking branching robustness ► 12genes give theminimalreliability ► el diseño de cebadores no es siempre fácil 50-70% genome similarity • MLSA (multilocus sequence analysis) • 5-10secuencias completas/parciales • house keeping genes • dificultades en el diseño de cebadores • biases en la selección de genes • más trabajoso (Stackebrandt et al. 2002. IJSEM. 52:1043-1047) DDHserá menos preciso peromás parsimonioso El valor de los análisis multilocus (MLSA) Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-179
El problema de la pérdida de identidad por transferencia horizontal de genes (HGT) DOS ESCUELAS Las incongruencias filogenéticas hacen pensar en una transferencia horizontal exagerada que desdibuja la filogenia de los organismos Doolittle y otros Las incongruencias filogenéticas Se pueden explicar por ► eventos de duplicaciones (paralogías) y pérdida de genes (hidden paralogy) ► falsa asignación de ortologías ► artefactos en los alineamientos La solución es siendo más estricto en la selección de genes y en la asignación de ortologías Soria-Carrasco & Castresana, 2008. Mol. Biol. Evol. 25: 2319-2329 Kurland. 2005. Bioessays 27:741-747 Kunin et al. 2005. Genome Res. 15:954-959
Proteorhodopsins Xanthorhodopsins Halorhodopsins Sensory rhodopsins Bacteriorhodopsins El problema de la pérdida de identidad por transferencia horizontal de genes (HGT) A medida que se van secuenciando DNA ambientales aparecen más y más proteorhodopsinas (hasta en euriarcheotas) que se atribuyen a una enorme tasa de HGT McCarren & DeLong, Environ. Microbiol. 9:846-858 (2007) Salinibacter M8 & M31 encode for 4 rhodopsins Si los 3 tipos de proteorhodopsinas se consideraran distintos genes (como el resto), probablemente se hablaría de un ancestro común y no de HGT
www.sorcerer2expedition.org • 200 l agua de mar • 2 millones de secuencias (media de 800 bases) • 1.2 millones de genes • 1400 ≠ 16S rRNA • 600 ≠ recA • 800 proteorhodopsinas nuevas Venter et al., 2004. Science 304:66-74 • 200 l agua de mar / estación • 41 puntos de muestreo • 44,000 – 420,000 clones/estación • 7,700,000 lecturas • total 6,250,000 genes (3,081,849 contigs) • 4,125 ≠ 16S rRNA (>5000 recA!) • 811 ≠ ribotipos (97%) (50% novel) • Alfaproteobacteria (SAR11) más abundante Incremento en información entre ambos estudios 41 muestras 3.9x secuenciaciones 5.1x número de genes 2.9x número de RNAr 16S ≠ Rusch et al., 2007. PLoS Biol. 5:398-431
La probabilidad de encontrar un gen con señal filogenética Venter: Global Ocean Sampling (Rusch et al., 2007. PLoS Biol. 5:398-431) random sequencing 6,250,944 ORFs 6,413 16S ≠ Ξ 0.1% (1/1000) fósmido ►100 orfs Ξ 10% contendrá un RNAr 16S (o marcador filogenético) cósmido ►40 orfs Ξ 4% contendrá un RNAr 16S (o marcador filogenético) Valores semejantes se obtendrán para otros genes con pocos parálogos Si hay 34 ortólogos universales Ξ 3.5% de los genes (29/1000) Aumentan mucho las posibilidades de encontrar un gen con señal en un fósmido Asignación por tetranucleótidos (Teeling et al., 2004 Environ Microbiol. 6:938-947) targeted metagenome libraries si un genoma tiene 4 Mb fósmido ►100 orfs Ξ 10% contendrá un RNAr 16S (o marcador filogenético) cósmido ►40 orfs Ξ 4% contendrá un RNAr 16S (o marcador filogenético) Ambas aproximaciones concuerdan con una media de genoma de 4Mb La precisión en la identificación depende de lo extensa que sea la base de datos
Si el fragmento de metagenoma no contiene marcador filogenético SIGNATURAS DEL GENOMA Contenido G+C ►poco informativo Codon usage ► equivalente a trinucleotidos ► mayor información Tetranucleótidos (penta-, hexa-…) ►mayor información, pero mayor coste de cálculo Variaciones de tetranucleótidos: 44 = 256
Se puede realizar la regresión de las frecuencias de uso de tetranucleótidos Índice de regresión dos genomas semejantes tienen frecuencias semejantes (buena correlación; e.g. 0.89) dos genomas distintos tienen frecuencias distintas (mala regresión; e.g. 0.45)
Se puede realizar la regresión de las frecuencias de uso de tetranucleótidos Probablemente de un mismo genoma u organismo En un grupo de clones de metagenoma se puede observar cuáles pueden ser asignados a un mismo genoma o de organismos muy semejantes Teeling et al., 2004 Environ Microbiol. 6:938-947
Dos poblaciones de una misma especie pueden no compartir orfs Si los fragmentos de DNA no compartidos tienen una misma frecuencia de uso, se puede hipotetizar una identidad semejante Peña et al., manuscrito en preparación
La identidad de un fragmento de DNA si se encuentra un gen codificante para 16S rRNA ► buena precisión > 300,000 secuencias en bases de datos otros marcadores universales: 23S ► precisión adecuada > 12,506 secuencias en bases de datos otros genes esenciales ► poco precisa por falta de entradas en bases de datos otros marcadores no universales: depende del grupo y la exhaustividad en el estudio ► Proteobacteria vs Acidobacteria no marcadores ►la signatura de tetranucleótidos puede dar una idea (depende del número de genomas secuenciados) La identidad depende de haber clasificado anteriormente el organismo; sólo 8000 especies descritas Una hipótesis sobre genética/metabolismo/ecología depende de los conocimientos previos del grupo (i.e. aislados estudiados, información sobre autoecología…)
El problema de la pérdida de identidad por transferencia horizontal de genes (HGT) Numbers of total existing species is very controversial Some Slava Epstein believe <40.000 Others Carles Pedrós-Alió believe >109 And even others Dykhuizen believe>1018 a Pedrós-Alió, 2006 TRENDS Microbiol 14:257-263