1 / 24

Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br

Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp. Resumo. Introdução Processamento de reads (revisão) DNA ESTs Pipeline de montagem Computando os overlaps

baka
Download Presentation

Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

  2. Resumo • Introdução • Processamento de reads (revisão) • DNA • ESTs • Pipeline de montagem • Computando os overlaps • Formando os contigs e singlets • Gerando sequência consensu • Analisando a montagem • PHRAP x CAP3

  3. Introdução • Ordenação dos trechos de DNA sequenciados para a obtenção da sequência original • Melhoria da qualidade de sequências de interesse • Expressão gênica em biblioteca de cDNA

  4. Processamento de reads (revisão) - O pipeline de um projeto genoma - Após base calling temos : >Unknown sequences #1 5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50 ...

  5. Identificar regiões de baixa qualidade Identificar regiões de vetores Eliminar sequências formadas apenas por vetores Cortar regiões de baixa qualidade e vetor

  6. - Possíveis combinações de regiões com qualidade ruim e vetores Bioinformatics 17 (2001), n. 122001, 1093-1104

  7. - Para cDNA : Ribossomais podem atrapalhar a montagem Mascarando o vetor Corte de poly-A Corte em qualidade Remoção de sequências curtas GMB 24 (2001), 17-23

  8. Pipeline de montagem - Algoritmo Input Consensus Sequences Seeded Clustering Clustering Assembly Assembled Clusters

  9. 1. Encontra sobreposições dos reads 2. Alinha os pares de reads formando os contigs 3. Encontra a sequência consensu ..ACGATTACAATAGGTT..

  10. T GA TACA | || || TAGA TAGT Encontrando os overlaps • Sort all k-mers in reads (k ~ 10) • Find pairs of reads sharing a k-mer • Extend to full alignment TAGATTACACAGATTAC ||||||||||||||||| TAGATTACACAGATTAC • Para uma montagem um alinhamento é considerado válido se tiver : • Overlap >= 40 pb • 90% de identidade Bioinformatics 20 (2004), 2973

  11. Formando os contigs e singlets - Cria um alinhamento múltiplo local para alinhar todos os reads TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA TAG TTACACAGATTATTGA TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA TAG TTACACAGATTATTGA TAGATTACACAGATTACTGA contig

  12. Encontra a sequência consensu TAGATTACACAGATTACTGA TTGATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGCGTAAACTA TAG TTACACAGATTATTGACTTCATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGGGTAA CTA TAGATTACACAGATTACTGACTTGATGGCGTAA CTA • No caso de discrepâncias a escolha da base pode depender : • Da nota phred das sequências discrepantes • Da quantidade de relativa de bases discrepantes

  13. Visualizando a montagem

  14. Erros de montagem devido as regiões repetitivas

  15. Sequência consensu (DNA original) reads Marca de um possível erro de sequenciamento causado por regiões repetitivas

  16. Montagem com vínculos de forward e reverse • Assembly WITHforward-reverse constraints Repeat Repeat • Assembly WITHOUTforward-reverse constraints Repeat Misassembled fragment… …leaves a singleton

  17. PHRAP x CAP3 - Pipeline CAP3 Genome Research 9 (1999), 868

  18. - Performance do CAP3 e PHRAP na montagem de DNA genômico (BACs) • PHRAP produz contigs maiores • CAP3 produz menos erros internos (regiões com sobreposição) • CAP3 produz mais erros externos (nas pontas do consensu)

  19. - Performance do CAP3 e PHRAP na montagem de ESTs - Para ESTs o CAP3 é melhor que o PHRAP Nucleic Acid Research 28 (2000), 3657

  20. END

  21. Outline of phrap assembly: 0) Read in sequence & quality data, trim off any near-homopolymer runs at ends of reads, construct read complements. 1) Find pairs of reads with matching words. Eliminate exact duplicate reads. Do swat comparisons of pairs of reads which have matching words, compute (complexity-adjusted) swat score. 2) Find probable vector matches and mark so they aren't used in assembly. 3) Find near duplicate reads.

  22. 4) Find reads with self-matches. 5) Find matching read pairs that are "node-rejected" i.e. do not have "solid" matching segments. 6) Use pairwise matches to identify confirmed parts of reads; use these to compute revised quality values. 7) Compute LLR scores for each match (based on qualities of discrepant and matching bases). (Iterate above two steps). 8) Find best alignment for each matching pair of reads that have more than one significant alignment in a given region (highest LLR-scores among several overlapping).

  23. 9) Identify probable chimeric and deletion reads (the latter are withheld from assembly). 10) Construct contig layouts, using consistent pairwise matches in decreasing score order (greedy algorithm). Consistency of layout is checked at pairwise comparison level. 11) Construct contig sequence as a mosaic of the highest quality parts of the reads. 12) Align reads to contig; tabulate inconsistencies (read / contig discrepancies) & possible sites of misassembly. Adjust LLR-scores of contig sequence.

More Related