180 likes | 303 Views
Perspectiva genómica de las familias de proteínas. Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional. Origen de la vida. Ideas principales: Subdivisiones en dominios Evolución a partir de un gen ancestro
E N D
Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional
Origen de la vida • Ideas principales: • Subdivisiones en dominios • Evolución a partir de un gen ancestro Secuenciación de genomas Agrupamientos naturales
Relación de los genomas • Familias homólogas: • Ortólogos: • Especiación • Conservan la función (normalmente) • Parálogos: • Duplicación • Evolucionan con nuevas funciones
Formación de COGs COG: grupo de ortólogos o grupo ortólogo de parálogos • Buscar los BeTs • BeT: Mejor acierto en otro genoma • Necesarios al menos 3 BeTs para formar un COG • Representar con líneas continuas las relaciones simétricas (ortólogos) • Representar con líneas discontinuas las relaciones asimétricas (parálogos)
Formación de COGs (II) • Agrupar triángulos con lado común hasta que no haya ninguno nuevo
ANÁLISIS DE RESULTADOS • Los COGs no suplantan métodos tradicionales de análisis filogenéticos, sino más bien, proveen del material apropiado para comenzar esos métodos. • El análisis descrito obtuvo un total de 720 COGs que incluyen 6814 proteínas y distintos dominos y multidominios de proteínas.
ANÁLISIS DE RESULTADOS • Muchos de los COGs son grupos de proteínas relativamente pequeños. Un tercio de los COGs (240 COGs con 1406 proteínas) contienen un representante de cada una de las especies incluidas, y 192 COGs más incluyen parálogos de una sola especie. • El número medio de proteínas por COGs aumenta según el número de genes de un genoma, de 1.2 para el M. genitalium a 2.9 para la levadura.
ANÁLISIS DE RESULTADOS • Un aspecto notable es que es típico que uno de los parálogos muestre consistentemente una alta similitud a los ortólogos en una o muchas de las otras especies (Figura 1, B y C). Así, para numerosos parálogos de la levadura, particularmente componentes del equipo de traducción, la causa subyacente es obvia: el gen cuyo producto es más similar a los ortólogos bacterianos es de origen mitocondrial (Fig. 1B). • Se han encontrado 549 proteínas en 302 COGs cuyos parálogos han mostrado consistentemente una baja similitud con otros miembros del COG (rápida evolución).
ANÁLISIS DE RESULTADOS En esta figura podemos ver el análisis de los COGs en función de las funciones definidas y las especies. Para la mayor parte de los COGs, la función de la proteína se obtiene directamente de los experimentos, principalmente de E.Coli o levadura, o puede ser inferida de secuencias significativas similares a proteínas caracterizadas funcionalmente de otras especies
ANÁLISIS DE RESULTADOS • En la figura podemos observar la falta de proteínas de la bacteria patogénica (H. influenzae (H) y particularmente los mycoplasmas (G y P) ) en muchos COGs en cada una de las otras categorías funcionales que traducen y trascriben, pero especialmente en las clases con funcionalidad metabólica. • En cambio, la congruencia entre las dos bacterias sin parásitos, E. coli (E) y Synechocystis sp.(C), se mantienen para todos las clases funcionales.
ANÁLISIS DE RESULTADOS • Fracción de proteinas pertenecientes a COGs: • 70% M.genitalium • 40% E.Coli • 26% Levadura • Como vemos esta fracción es muy alta cuando trabajamos con genomas pequeños de micoplasmas y mucho más baja en grandes genomas como el E.Coli o la levadura. • Estos resultados se corresponden con lo esperado en las familias conservadas, asociadas con la administración de las funciones celulares.
ANÁLISIS DE RESULTADOS • La distribución filogenética de los miembros de un COG puede ser convenientemente presentada en términos de patrones filogenéticos los cuales muestran la presencia o ausencia de cada especie analizada
ANÁLISIS DE RESULTADOS • Los dos patrones más abundantes pueden ser fácilmente predichos: • Todas las especies (Ehgpcmy) • Todas las especies excepto los micoplasmas (Eh__cmy). • Lo que parece mucho menos trivial es que estos patrones juntos abarcan sólo un tercio de todos los COGs. Este hecho enfatiza la gran fluidez de la evolución de los genomas, revelada a pesar del análisis concentrado de familias antiguas conservadas. • Múltiples soluciones para la misma función celular parecen ser más una regla que una excepción, al menos cuando se consideran especies filogenéticamente distantes. Por otro lado, los 8 patrones más frecuentes que juntos componen el 85% de los COGs, incluyen tanto a E.coli como a Synechoscystis, enfatizando la congruencia entre estos genomas.
ANÁLISIS DE RESULTADOS • Resaltar el alto orden de distribución de los COGs por los tres dominios de vida, donde sólo el 45% de los COGs incluyen representantes de Bacteria, Archaea, y Eucarya. Esto es otra manifestación de la dinámica de las familias de genes en la evolución (Fig. 3). • Se espera que el dibujo pueda convertirse en algo más complejo, y la fracción de COGs de los tres dominios probablemente disminuirá, pero los COGs sólo de eucariotas, sólo de archaea y el conjunto de archaea-eucariota, emergerán con la acumulación de secuencias del genoma.
Conectar y Expandir COGs • Conectar COGs en super-familias • Usamos PSI-BLAST • Dos COGs están conectados si dos proteínas de un COG están en otro COG • Expandir COGs • Hay proteínas distantes • Usamos los motivos de las super-familias y PSI-BLAST para conectarlas con COGs
Predicción de Funciones de Proteínas con el Sistema COG • El sistema COG permite la anotación automática funcional y filogenética de un gen • Para conectar una proteína con un COG • Se realiza un análisis de la proteína con el sistema • La proteína se conecta con aquellos COGs en los que se hayan dado dos o mas BeTs
Conclusiones y Perspectiva • Con los COGs podemos: • comparar genomas • clasificar proteínas, predicción funcional (con algunos problemas) • Cuando se aumente el número de genomas el sistema mejorará • Es un gran marco de trabajo, tanto funcional como evolutivo, para los nuevos genomas