650 likes | 763 Views
Genômica e Proteômica. Montagem de genomas. Introdução. Queremos conhecer a seqüência de parte ou de todo o DNA de um organismo A tecnologia disponível só recupera pequenas seqüências de DNA. No máximo 700-800 pb. Em média 450 pb
E N D
Genômica e Proteômica Montagem de genomas
Introdução • Queremos conhecer a seqüência de parte ou de todo o DNA de um organismo • A tecnologia disponível só recupera pequenas seqüências de DNA. No máximo 700-800 pb. Em média 450 pb • Se queremos pedaços maiores de DNA, temos que a partir destas pequenas seqüências, montar um “quebra-cabeças” LABINFO – LNCC / MCT
Introdução • Um tipo diferente de quebra-cabeças. Temos as peças, mas não sabemos o resultado final • Freqüentemente, nem temos todas as peças • É um problema computacional complexo! • Como ? LABINFO – LNCC / MCT
Introdução • Definir a estratégia de seqüenciamento • Gerar as seqüências • Construção e validação de bibliotecas • Seqüênciar • Montar • Finalizar a seqüência genômica LABINFO – LNCC / MCT
Estratégia de seqüenciamento • Clone-by-clone (“Primeiro mapear, depois seqüênciar”) • Whole-genome shotgun sequencing • Hybrid shotgun sequencing • Expressed Sequence Tag - EST LABINFO – LNCC / MCT
Clone-by-clone e Whole-genome shotgun sequencing LABINFO – LNCC / MCT
Whole-genome shotgun sequencing LABINFO – LNCC / MCT
Whole-genome shotgun sequencing LABINFO – LNCC / MCT
Hybrid shotgun sequencing LABINFO – LNCC / MCT
B1 B2 C1 C2 C3 A1 A2 A3 genoma Mensagem (ou transcrito) gene Splices alternativos do mesmo gene A1 A3 A1 A2 EST Expressed Sequence Tag LABINFO – LNCC / MCT
Bibliotecas • Em qualquer estratégia temos que construir bibliotecas de seqüências de DNA • As bibliotecas devem ser validadas. Garantir: • Que as seqüências tenham o tamanho esperado • Que não exista contaminação e presença excessiva de vetores • Que a distribuição das seqüências seja a esperada • Para EST as bibliotecas podem ser de diferentes tecidos LABINFO – LNCC / MCT
Bibliotecas LABINFO – LNCC / MCT
Administração e gerência • No caso de redes de seqüenciamento, recepcionar os cromatogramas • Armazenar os cromatogramas • Gerar relatórios sobre o seqüenciamento • Divulgação de estatísticas sobre o desenvolvimento do projeto LABINFO – LNCC / MCT
Administração e gerência LABINFO – LNCC / MCT
Administração e gerência LABINFO – LNCC / MCT
Administração e gerência LABINFO – LNCC / MCT
Estratégia híbrida • Leitura dos cromatogramas converter os dados provenientes de seqüenciadores (reads) em seqüências de nucleotídeos, associando a cada um o seu respectivo valor de qualidade • Montagem comparar as seqüências, utilizando também os valores de qualidade, para encontrar a sobreposição entre elas e gerar as seqüências de consenso, chamadas contigs • Objetivo: Um contig !!! LABINFO – LNCC / MCT
Estratégia híbrida • Analisar a montagem • Acompanhar a evolução do número de contigs Determinar quando se deve parar o seqüenciamento de bibliotecas e/ou iniciar o processo de finalização do genoma • Identificar problemas de montagem. Ex.: Presença de repetições gerando montagens erradas LABINFO – LNCC / MCT
Estratégia híbrida • Finalizar o genoma • Ordenar e orientar os contigs (scaffold) • Utilizar os clones de shotgun e de outras bibliotecas (cosmídoes, bacs etc) para construir os scaffolds • Definir estratégias específicas para fechar “gaps” – espaços entre contigs – no genoma • Garantir que todas as bases tenham um valor mínimo de qualidade, para que tenhamos no máximo uma base errada em um milhão. LABINFO – LNCC / MCT
Leitura dos cromatogramas • A leitura dos cromatogramas é a realizada pelo programa phred • O phred nomeia cada base e atribue um valor de qualidade para cada base lida • A qualidade está relacionada a probabilidade que tenha ocorrido um erro na nomeação da base LABINFO – LNCC / MCT
Leitura dos cromatogramas • Q = -10 log10( Pe ) • Q Qualidade e Pe Probabilidade de erro • Ex.: 1 erro em 100 bases • Q = -10 log10(1/100) Q = 20 • Ex.: 1 erro em 10000 bases • Q = -10 log10(1/10000) Q = 40 • Ex.: 1 erro em 1000000 bases • Q = -10 log10(1/1000000) Q = 60 LABINFO – LNCC / MCT
Leitura dos cromatogramas LABINFO – LNCC / MCT
Leitura dos cromatogramas LABINFO – LNCC / MCT
Leitura dos cromatogramas • O phred gera um arquivo contendo as bases e as respectivas qualidades LABINFO – LNCC / MCT
Filtragem de vetores • Trechos de seqüências de DNA correspondentes a vetores devem ser filtradas • Utiliza-se um programa (cross_match) de alinhamento de seqüências para procurar na seqüência de cada fragmento a presença do vetor • O trecho correspondente tem cada uma de suas base substituídas por “x” LABINFO – LNCC / MCT
Filtragem de vetores LABINFO – LNCC / MCT
Fragmento ATAGACCCAT GACCCAT ATGCATGCCATA CCAT GACTGCCATA CCATGCATG Alinhamento ATAGACCCAT ---GACCCAT --------ATGCATGCCATA ------CCAT ----------GACTGCCATA ------CCATGCATG ATAGACCCATGCATGCC Consenso Montagem • Determinar a ordem e orientação de uma coleção de fragmentos de um mesmo DNA LABINFO – LNCC / MCT
Montagem LABINFO – LNCC / MCT
Programas / pacotes de montagem • Assembler (www.tigr.org) • Bambus – Programa para gerar scaffold • CAP3 (genome.cs.mtu.edu) • phred/phrap/consed (www.phrap.org) • Staden (www.mrc-lmb.cam.ac.uk) – GAP4 • Pode utilizar o CAP3 ou o phrap LABINFO – LNCC / MCT
CAP3 • Identificação e remoção de regiões de baixa qualidade, no início e no fim dos reads • Alinhamento entre reads para identificação de sobreposição • Identificação e remoção de falsos alinhamentos LABINFO – LNCC / MCT
CAP3 • Formaçãodoscontigsatravésdajunçãodosreadsemordemdecrescentedapontuaçãodosalinhamentos • Correção nos contigs através da validação forward-reverse • Alinhamento múltiplo dos reads para a construção da seqüência de consenso • Geração dos arquivos de saída (links, ace etc) LABINFO – LNCC / MCT
phrap • Tratamento das seqüências • Conversão de trechos de bases iguais, no início e no fim dos reads em “N” • Identificação e exclusão de reads iguais • Exclusão de regiões, provavelmente não filtradas, de vetores do alinhamento • Determinação dos singlets (reads que não tem alinhamento com nenhum outro read) LABINFO – LNCC / MCT
phrap • Identificação de sobreposição • Formação dos contigs • Determinação do consenso • Determinação dos links entre contigs e do scaffold • Geração dos arquivos de saída (log, ace, contigs etc) LABINFO – LNCC / MCT
Entrada: cromatogramas Base-calling (phred) – phd_file Pipeline da montagem Conversão (phd2fasta) phd_files multifasta e multifasta.qual Montagem (phrap / cap3) Filtragem (cross_match) de vetores e repetições multifasta.screen Arquivo de * Clones (formcon) multifasta.screen.con LABINFO – LNCC / MCT * Somente para o CAP3
Análise da montagem LABINFO – LNCC / MCT
Contig 5 Contig 1 Contig 4 bP10g bP9 g bP1 g bP8 g bP7 g bP4 g bP12g bP6 g bP11g bP3 g bP5g bP2 g bC6 g bC4 g bC7 g b C2 g bC5 g bC1 g b C3g Análise da montagem LABINFO – LNCC / MCT
Análise da montagem LABINFO – LNCC / MCT
Análise da montagem LABINFO – LNCC / MCT
Identificação de repetições • Repetição trechos de DNA ao longo do(s) cromossomo(s) • Se a repetição tiver um tamanho próximo ou maior que a média do tamanha dos reads, o programa de montagem pode colocá-lo em uma região errada LABINFO – LNCC / MCT
D C B A D B C A Identificação de repetições • Repetições ambíguas LABINFO – LNCC / MCT
B A C B A C Identificação de repetições • Repetições colapsadas LABINFO – LNCC / MCT
Identificação de repetições • Como identificar: • Regiões de contigs que “empilham” reads • Regiõe(s) que têm match com outras regiõe(s) • Regiões que apresentam links de pontas de clones inconsistentes • Regiões em que existem mais de um read com bases discrepantes em relação ao consenso LABINFO – LNCC / MCT
Identificação de repeats • Regiões que “empilham” reads LABINFO – LNCC / MCT
Identificação de repeats • Regiõe(s)quetêmmatchcomoutrasregiõe(s) LABINFO – LNCC / MCT
Identificação de repeats • Regiõe(s)quetêmmatchcomoutrasregiõe(s) LABINFO – LNCC / MCT
Identificação de repeats • Regiões que apresentam links de pontas de clones inconsistentes LABINFO – LNCC / MCT
Identificação de repeats • Regiões em que existem mais de um read com bases discrepantes em relação ao consenso LABINFO – LNCC / MCT
Problemas nos contigs • Low Consensus Quality(LCQ) É uma região do consenso, cujas bases possuem qualidade menor ou igual a 25. Indica uma região que está coberta por reads de baixa qualidade. • High Quality Discrepancies (HQD) São bases de um read que estão discrepantes em relação ao consenso e são de qualidade superior a 40. • Positions not Confirmed on both Strands (NCBS) Posições no consenso que não estão confirmadas nas duas fitas. • Reads quiméricos LABINFO – LNCC / MCT
Problemas nos contigs - LCQ LABINFO – LNCC / MCT
Problemas nos contigs - HQD LABINFO – LNCC / MCT