1 / 65

Introdução à Montagem de Genomas

Introdução à Montagem de Genomas. Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br. Histórico. 1995, Haemophilus influenzae 1996, Methanococcus jannaschii 1997 , Saccharomyces cerevisiae 1997, Escherichia coli 1998, Caenorhabditis elegans 2000, Drosophila melanogaster

nerita
Download Presentation

Introdução à Montagem de Genomas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

  2. Histórico • 1995, Haemophilus influenzae • 1996, Methanococcus jannaschii • 1997, Saccharomyces cerevisiae • 1997, Escherichia coli • 1998, Caenorhabditis elegans • 2000, Drosophila melanogaster • 2000, Arabidopsis thaliana • 2001, Homo sapiens • 2002, Schizosaccharomyces pombe • 2002, Oryza sativa • 2002, Mus musculus • 2005, Pan troglodites

  3. Onde sequenciar seu genoma • Illumina (www.everygenome.com) • $9500 por indivíduo • $7500 para grupos de 5 • Serviço contratado sempre através do médico do paciente • O médico recebe um notebook com um navegador genômico carregado com os dados do paciente

  4. Onde sequenciar seu genoma • DNAVision (www.dnavision.com)

  5. Onde sequenciar seu genoma • Complete Genomics (www.completegenomics.com) • Para grandes lotes, preço por genoma pode chegar a $5000 • Serviço voltado para empresas e instituições acadêmicas

  6. Montagem de genomas

  7. Whole Genome Shotgun (WGS) • Quebrar o DNA original em fragmentos aleatórios e selecionar os fragmentos de determinado tamanho (Ex: 2Kbp) Não sabemos a posição de cada fragmento no genoma

  8. Whole Genome Shotgun (WGS) • Sequenciar as pontas de cada fragmento

  9. Whole Genome Shotgun - Montagem DNA original singlet gap

  10. Montagem de genomas (ab initio) • Reconstruir a sequência do genoma, dados vários (potencialmente milhões) fragmentos curtos de sequência (os reads) • Os reads têm tamanho entre 35-800 bp • Os reads podem conter erros de sequenciamento (mismatches ou indels) • A orientação (5`3` ou 3`5`) de cada read é desconhecida

  11. TAMANHO DOS GENOMAS

  12. Tamanho do genoma 3,4 Gbp Homo sapiens 680 Gbp Amoeba dubia 15 Gbp Allium cepa

  13. 1pg ~ 1Gbp

  14. Cobertura • Total de pares de bases em reads dividido pelo tamanho do genoma • Ex: Genoma de 1Mbp • 5 milhões de reads de 50bp • Cobertura = (5000000 * 50) / 1000000 = 25X • Na prática, corresponde a quantas vezes, em média, cada base do genoma foi sequenciada

  15. Cobertura • É preciso ter várias coberturas para conseguir montar contigs grandes (oversampling) • Sanger: 8X a 10X • 454 Titanium (pirosequenciamento): 15X • Solexa: > 50X

  16. Modelo de Lander-Waterman L = tamanho do read T = overlap mínimo G = tamanho do genoma N = número de reads c = cobertura (NL / G) σ = 1 – T/L E(#clusters) = Ne-cσ E(tamanho do cluster) = L((ecσ – 1) / c + 1 – σ) cluster = contig ou singlet

  17. Exemplo Genome size: 1 Mbp L= 600 T= 40

  18. Modelo de Lander waterman

  19. Medidas para avaliar uma montagem • Número de contigs • Tamanho médio dos contigs • Tamanho do maior contig • N50: maior N tal que 50% do total de pares de base do genoma esteja contida em contigs >= N bp

  20. Cálculo do N50 • Seja uma montagem de um genoma de 300 bp que produziu 8 contigs de tamanho (3, 3, 15, 24, 39, 45, 54 e 117) • Ordenar os contigs em ordem decrescente de tamanho e ir somando um por um • Quando a soma ultrapassar 150 (300/2), o tamanho do contig da vez é o N50 • Os dois maiores contigs (117+54=171) ultrapassam 150. Logo N50=54 (tamanho do segundo maior contig)

  21. Glossário de montagem • Read: fragmento sequenciado • Contig: Pedaço contíguo de sequência formado a partir da sobreposição dos reads • Singlet: read sem sobreposição com nenhum outro • Gap: região do genoma não capturada por nenhum read • Cobertura: Total de bases sequenciadas dividido pelo tamanho do genoma

  22. Paradigmas de montagem • Guloso (Greedy) • Overlap – Layout – Consensus (OLC) • Grafo de De Bruijn (DBG)

  23. I - Guloso (Greedy) • Phrap, TIGR assembler, CAP3 • Guloso • Criação de uma tabela de sobreposições • Pegue a sobreposição de melhor score • Junte os fragmentos • Repita até que não possa ser feita mais nenhuma junção

  24. I - Guloso (Greedy) • Phrap, TIGR assembler, CAP3 • Mesmo paradigma, diferentes resultados • Cada programa usa uma série de heurísticas próprias, pré e pós processamentos • Cap3: montagem de ESTs (transcritos) • Phrap e TIGR: genomas (pequenos e simples) • Nenhum deles funciona bem com reads curtos (Illumina/Solid)

  25. II - Overlap – Layout – Consensus (OLC) • Overlap: alinhamento par a par entre todos os reads sequenciados para detectar sobreposições • Layout: ordenação/orientação dos reads de acordo com os overlaps • Consensus: reconstrução da sequência do genoma através do alinhamento múltiplo dos reads (obedecendo ao layout)

  26. II - Overlap – Layout - Consensus • Montadores OLC usam uma estrutura de dados chamada grafo de overlap • Celera Assembler • Arachne • Mira • Newbler

  27. O que é um grafo? Informalmente, um grafo é um conjunto de vérticesconectadospor um conjunto de arestas Grafo direcionado Grafo não direcionado 1 2 3 1 3 2 4 4 5 6 5 6

  28. II - Overlap-Layout-ConsensusGrafo de overlaps Vértices: reads Arestas: overlaps Overlap graph for a bacterial genome.  The thick edges in the picture on the left (a Hamiltonian cycle) correspond to the correct layout of the reads along the genome (figure on the right).  The remaining edges represent false overlaps induced by repeats (exemplified by the red lines in the figure on the right) Fonte: http://www.cbcb.umd.edu/research/assembly_primer.shtml

  29. III - Grafo de De Bruijn (DBG) - Definição • É uma representação de uma sequência (ou conjunto de sequências) através de sua decomposição em subsequências de tamanho K (K-mer) • Os vértices são sequências de k-1 caracteres • Arestas são inseridas entre pares de vértices (u,v) em que o sufixo de tamanho k-2 de u é igual ao prefixo de tamanho k-2 de v • k=7, k-1=6, k-2=5 • O k-mer ou aresta é ACCTGAT

  30. Construção de um grafo de De Bruijn Reads= (GTGC,ATGT,GCCG,CGCA,TGCC) k=3 CC CG GT CA AT TG GC

  31. Grafo de De Bruijn K=8 Fonte: http://www.homolog.us/blogs/2011/07/28/de-bruijn-graphs-i/

  32. Grafo de De Bruijn GENOMA E se o genoma fosse desconhecido? Vamos ver como ficaria o grafo de De Bruijn construído a partir dos reads Cada read é decomposto em subsequências de tamanho K (K-mers) e inserimos todos os K-mers no grafo de uma vez

  33. Grafo de De Bruijn

  34. Grafo de De Bruijn • Sem erros de sequenciamento e com cobertura alta • DBG do genoma ~ DBG dos reads • A sequência do genoma pode ser recomposta através de um caminho euleriano no DBG • Caminho euleriano: caminho que passa por todas as arestas do grafo exatamente uma vez • Se o DBG não for euleriano, tenta-se simplificá-lo ao máximo e encontrar subgrafos eulerianos

  35. Grafo de De Bruijn • Erros de sequenciamento tipicamente geram topologias características no DBG

  36. Grafo de De Bruijn • Repeats também induzem topologias características

  37. Grafo de De Bruijn • Repeats também induzem topologias características

  38. Reconstituição do genoma com o DBG Reads= (GTGC,ATGT,GCCG,CGCA,TGCC) k=3 • Reconstruir a sequência do genoma é encontrar um caminho euleriano (caminho que passa por cada aresta uma unica vez) CC CG GT CA AT TG GC

  39. Reconstrução da sequência (De Bruijn)

  40. Reconstrução da sequência (De Bruijn)

  41. Reconstrução da sequência (De Bruijn)

  42. Reconstrução da sequência (De Bruijn)

  43. Reconstrução da sequência (De Bruijn)

  44. Reconstrução da sequência (De Bruijn)

  45. Montagem - De Bruijn (Velvet, Euler-USR, Abyss) • Escolha um valor de K, menor que o tamanho do read • K grande: mais especificidade • K pequeno: mais sensibilidade • Inicie um grafo G vazio • Para cada read sequenciado, divida-o em palavras de tamanho k (k-mers), com passo de 1, e insira os k-mers no grafo G • Simplifique o grafo G (remova tips e bubbles) • Busque caminhos eulerianos • Se não houver, busque subgrafos eulerianos

  46. Montagem - De Bruijn (Velvet, Euler-USR, Abyss) • Os montadores DBG conseguem gerenciar quantidades massivas de sequência • Não precisa alinhar todo mundo contra todo mundo • Construção do grafo em tempo linear • Erros de sequenciamento -> grafo maior -> muita, muita memória

  47. O problema dos repeats • Trechos de sequência repetidos ao longo do genoma • Em procariotos: pouco frequente • Em fungos: média quantidade • Em algumas plantas e em vertebrados compõem a maior parte do genoma • Desafio para qualquer software, independente do paradigma usado

  48. A B C D E F G H I J K L 1 2 3 4 5 6 7 8 9 10 11 12

More Related