610 likes | 1.01k Views
BMP 5762 – Bioinformática Aplicada ao Estudo de Doenças Parasitárias Prof Dr Arthur Gruber Instituto de Ciências Biológicas. Metagenômica. Carla Bartels Francisco M Ulloa Stanojlovic Luis Fábio Batista.
E N D
BMP 5762 – BioinformáticaAplicadaaoEstudo de DoençasParasitárias Prof Dr Arthur Gruber Instituto de CiênciasBiológicas Metagenômica Carla Bartels Francisco M UlloaStanojlovic Luis Fábio Batista
O termoMetagenômicafoiusadoprimeiramenteem 1998 por Jo Handelsman (Universidade de Wiscosin – EUA) Dr. Anand Kumar & Dr. R. A. Siddique
Introdução METAGENOMA É o genoma coletivo da microbiota total, encontrada em um determinado habitat. METAGENOMA É o genoma coletivo da microbiota total, encontrada em um determinado habitat METAGENÔMICA É a análise genômica das comunidades de microrganismos de um determinado ambiente por técnicas independentes de cultivo. Dr. Anand Kumar & Dr. R. A. Siddique
Metagenômica Fornece a informação da capacidade metabólica e funcional da comunidade microbiana Metatranscritoma Permite a identificação de genes que estão ou não sendo expressos Metaproteômica Permite uma melhor caracterização funcional da comunidade microbiana Dr. Anand Kumar & Dr. R. A. Siddique
Metagenômicaaplicada Dr. Anand Kumar & Dr. R. A. Siddique
Metagenômicafornece Thomas et al, 2012
Binning Thomas et al, 2012
Amostragem • Isolar o DNA • Depende do tipo de amostras • Clonar DNA • Inserirdentro de um vetor (plasmídio, cosmídio, BAC) • Biblioteca • Screening e sequenciamento Daniel, 2005 em Prentice Hall, 2005
Amostragem {desafios} • Amostrasdevemrepresentar a população→ Quantasamostrassãonecessárias? Curvas de raridadeparaestimarfração de espéciessequenciadas. (Abundância x Complexidade). • Presença de populaçõesdominantesafetaanálises → representaçãomaior e maior chance de montarcontigs. • Quantomaismetadadosforemcoletadosmaisdetalhadasserão as inferências das condiçõesambientais. Ex.: dados geográficos, bioquímicos, data de coleta, métodos de extração do DNA. Bruno MalveiraPeixoto 2011
Sequenciamento – Shotgun Genomacompleto Hierárquico Commins, Toft, Fares, 2009
Montagem • Fatores a seremconsiderados: • Tamanho das leituras de sequenciamentousadasparacriar a base de dados de metagenômica • São necessáriassequênciasmaislongasparaanotação? • A base de dados estámontadaparareduzirosrequerimentos de processamento de dados?
Montagem Montagem baseada em referência: MIRA: AnAutomatedGenomeand Assembler • Algoritmos rápidos rodam em laptop em 2h; • Regiões divergentes não são cobertas – inserções, deleções ou polimorfirmos. Montagem “de novo”: Velvet Meta-IDBA MetaVelvet • Baseados em gráficos de Bruijn • Requer grandes recursos computacionais • Requer milhares de gigabytes – dias. • Meta-IDBA e MetaVelvet – não clonalidade de populações naturais - subgráficos de Bruijn - N50 e tam. contig Thomas, Gilbert e Meyer, 2011
Montagem {limitações} • Amostragemincompleta – genomasparcialmenteamostrados • Formação de quimeras – sequências de espéciesdiferentes • Dificuldadeemmontaramostrasricasemespécies (solo). Bruno MalveiraPeixoto 2011
Métodos de Discriminação • Pontosimportantesa considerar: • Tipo de dado de entradadisponível • Existência de training datasets adequadosougenomas de referência • Algumasferramentascombinamosdoisapproachs – PhymmBl, MetaCluster Thomas et al, 2012; Liu, 2012
ClassificaçãoComposicional • Genomastêmcomposição de nucleotídeosconservada e istoserárefletidonosfragmentos de sequência dos genomas • Conteúdo de GC • Uso de códons • Sítios de reconhecimento – 5S ou 16S rRNA • Bioinfo tools: • Phylopythia • S-GSCM • TACAO • Nãofuncionabem com leiturascurtaspornãocontereminformaçõessuficientes Thomas et al, 2012; Liu, 2012
Conteúdo GC • Karlin & Burge, 1995 • A distribuição de nucleotídeosérelativamenteconstantedentro do genoma, mas varia entre genomas. • A razão de possibilidades (odds ratio) de frequência de conteúdo C+G éessencialmente a mesmanamaioria dos organismosparatodo o DNA versus o DNA codificante e também a mesmapara as frações de DNA das diferentessequências. • Talvezexistamfatoresqueimponhamlimitesàsvariaçõescomposicionais e estruturais de um genoma e que o conjunto de valores das odds ratios do dinucleotídeosejaumaassinaturagenômica. • Diferençassignificativas entre procariotos e eucariotos, entre vírus e seushospedeiros. • Pxy = fxy / fxfy Karlin, 1995; Liu, 2012
Uso de códons Karlin, 1998; Ikemura, 1985
Similaridade • Comparaleiturascurtas contra sequênciascodificadoras de bases de dados públicas de genes usandoBlastX e entãodesignapara o seu ancestral comummaistardio (LCA) de um organismoalvo • Bioinfo tools • IGG/M • MG-RAST • MEGAN • CARMA • Sort-ITEMS • MetaPhyler Thomas et al, 2012; Liu, 2012
Classificação {Bioinfo} • Análise de similaridade: IMG/M, MG-RAST, MEGAN, CARMA, Sort-ITEMS, MetaPhyler • Análise composicional: Phylopythia, S-GSOM, PCAHIER, TACAO • Similaridade e composicional: PhymmBL e MetaCluster Necessidade de sequências de referência* (marcador de RNAr) para fechar o alinhamento para sequenciamentos de leitura curta. * Base de dados escassas e tendenciosas para apenas três filos Proteobacteria, Firmicutes e Actinobacteria Bruno Malveira Peixoto 2011 Thomas, Gilbert e Meyer, 2011
ANÁLISES DOS DADOS • Dados de metagenômica cada vez mais abundantes necessitam de banco de dados para cobrir as informações taxonômicas e funcionais • Plataforma computacional robusta, combinado com programas de pesquisa de similaridade adaptados a esses dados.
Anotação • Contigs longos ≥ 30.000 pb: RAST ou IMG • Contigs curtos • Fase 1: identificação dos genes: FragGeneScan (FGS) 1-2% erro, MetaGeneMark (MGM), MetaGeneAnotator (MGA), Metagene e Orphelia • Fase 2: identificação atribuição de função e agrupamento taxonômico
Pipelines Sistema aberto que processa automaticamente as sequências de metagenomas, faz comparações com bases de dados existentes, computa reconstruções filogenéticas e classifica funcionalmente potenciais genes. • Usa FGS, Greengenes , RDP e similaridade por RNAr • Usa bases de dados funcionais de ontologia GO (KEGG, eggNOG, COG/KOG, PFAM e TIGRFAM). Thomas, Gilbert e Meyer, 2011
Pipelines • Usa FGS, MGA e taxonomia baseada em 16S RNAr • Usa bases de dados funcionais de ontologia GO (KEGG, eggNOG, COG e SEED). Thomas, Gilbert e Meyer, 2011
Pipelines • Usa FGA e MGA • Oferece esquema de anotação mais flexível • Requer o uso do mesmo workflow para análise Thomas, Gilbert e Meyer, 2011
Pipelines MEGAN
Aplicações • Identificar genes funcionais e/ou novas vias metabólicas • Estimar a diversidade microbiana; permitindo o estudo dos genomas em uma comunidade como um todo • Compreender a dinâmica da população de uma comunidade inteira.
BIOPROSPECÇÃO FUNCIONAL SEQUÊNCIAS
ESTUDOS ECOLÓGICOS Primeiros estudos • Mar de Sargaços • Comunidade complexa • Genes desconhecidos • Filotipos novos • Impossibilidade de sequenciar todos os genomas presentes na amostra
Projetos recentes • Global Ocean Sampling (GOS) Fonte: http://camera.calit2.net/about/gos.shtm
Microorganismos representam mais de 90% da biomassa do oceano, mediam todos os ciclos bioquímicos nos oceanos e são responsáveis por 98% da produção primária no mar.Metagenômica é uma abordagem inovadora de sequenciação para examinar as espécies microbianas de espaço aberto sem a necessidade de isolamento e cultura de laboratório de espécies individuais. Alves, 2007
Fluxograma comparativo de projetos genoma tradicionais e metagenômicos