250 likes | 376 Views
Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST. Candidato: Christian Baudet Orientador: Zanoni Dias. Tópicos da Apresentação. Motivação Trimagem Verificação de contaminação Clusterização Proposta Cronograma. Motivação.
E N D
Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST Candidato: Christian Baudet Orientador: Zanoni Dias
Tópicos da Apresentação • Motivação • Trimagem • Verificação de contaminação • Clusterização • Proposta • Cronograma
Motivação • Importância dos projetos de seqüenciamento • Projetos EST no Brasil • Ausência de metodologia padrão utilizada pelos diferentes projetos • Possibilidade de identificação de melhorias a serem feitas nos processos existentes
Trimagem • Seqüências EST possuem altas taxas de erros • Remoção de regiões de: • baixa qualidade • vetores • adaptadores • trechos de baixa complexidade
Seqüência de bases 1NCTGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAAAATGGGTGAAGGAACCTTCGGGCAGGT 481 TTTGGAATGCTGGGATCGTGAGAGGAGAGAAATGGGACGCNTTAGAGTTGGGCGGGGGAT 541 CCACAAATGTCGGGCCGCTGCTGGGGTGGACAGTGGGGCGCGTGGCGAAGGGGGAGGGGG 601 GGGGGAGGGGGGGGGGGCCGCGCCGCGGCGGGGCGCGGGCCGCATACGCGGGGAGGGGGG 661 GGGGAGGCGGGGGGCGGGGGGGCGGGCGGGGCCGGAGAGGGAGCGGACGGGGGGGGGGCG 721 CGGGGCGGCGGGGGGCGGGGCGGTAGCGGGGGGGGGGAGGGGGGCCGCGCGGGGGGGGGA 781 GAGAGGATGCCGGGCACCCGGGGGGAGGGGGGNCGGGGGGCCGGGGGGCGGGGGCGCGCC 841 GCGGTGGCCGGCGCGAGGCGCCGCCCGGACCGCCGAGAGCGGAGGAGGGCG
Baixa Qualidade Alta Qualidade Qualidades das bases 1NCTGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAAAATGGGTGAAGGAACCTTCGGGCAGGT 481 TTTGGAATGCTGGGATCGTGAGAGGAGAGAAATGGGACGCNTTAGAGTTGGGCGGGGGAT 541 CCACAAATGTCGGGCCGCTGCTGGGGTGGACAGTGGGGCGCGTGGCGAAGGGGGAGGGGG 601 GGGGGAGGGGGGGGGGGCCGCGCCGCGGCGGGGCGCGGGCCGCATACGCGGGGAGGGGGG 661 GGGGAGGCGGGGGGCGGGGGGGCGGGCGGGGCCGGAGAGGGAGCGGACGGGGGGGGGGCG 721 CGGGGCGGCGGGGGGCGGGGCGGTAGCGGGGGGGGGGAGGGGGGCCGCGCGGGGGGGGGA 781 GAGAGGATGCCGGGCACCCGGGGGGAGGGGGGNCGGGGGGCCGGGGGGCGGGGGCGCGCC 841 GCGGTGGCCGGCGCGAGGCGCCGCCCGGACCGCCGAGAGCGGAGGAGGGCG
Baixa Qualidade Alta Qualidade Baixa qualidade 1XXXGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Baixa Qualidade Alta Qualidade Vetor 1XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Baixa Qualidade Alta Qualidade Adaptador 1XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Baixa Qualidade Alta Qualidade Seqüência trimada 1XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Baixa Qualidade Alta Qualidade Problemas – Trimagem 1XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Baixa Qualidade Alta Qualidade Problemas – Trimagem 1XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTXXXXXXXXXXXXXXXXXXXTGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Verificação de contaminação • Seqüências EST comumente sofrem contaminação de diferentes tipos • Identificação e remoção de seqüências contaminadas são necessárias para que não sejam geradas informações inválidas sobre o organismo em estudo • Métodos de detecção de contaminação: • Similaridade • Conjunto de características
Seqüências de organismos Contaminantes Seqüências contaminadas Seqüências a serem verificadas BLAST Seqüências não contaminadas Similaridade Contaminação Determinada por critério pré-definido Exemplo: similaridade de 98% e cobertura mínima de 75 bases
Extratores de características Extratores de características Extratores de características Seqüências de organismos contaminantes Seqüências pertencentes ao organismo Assinatura Assinatura Assinatura Seqüências a serem analisadas Seqüências contaminadas Comparação Comparação Seqüências conhecidas do organismo alvo Outras seqüências Conjunto de características
Clusterização • Necessária para eliminação de redundância e identificação de genes • Exemplo: • 1 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTTAGTTTGAGTT • 2 GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTT • 3 GAAAAGGATCTTTCTGATTCTCGAAGAATGAGGGGCAAGGGGATTGATCGA • 4 TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATC • 5 CGTTAATTGACGACTCTGATATTTACTAAGTTTGAGTTATGGACGA • 6 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATG • 7 CAAGTAGCTTTGGTAATCTTCTCAGTACAACCGACCCACCGTTTCAATCTTTGTA • 8 TTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGA
Clusterização Cluster 1 – Tamanho 5 C GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGACGA 2 GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTT 6 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATG 1 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTTAGTTTGAGTT 8 TTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGA 5 CGTTAATTGACGACTC*TGATATTTACTAAGTTTGAGTTATGGACGA Cluster 2 – Tamanho 2 C TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATCTTTGTA 4 TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATC 7 CAAGTAGCTTTGGTAA*TCTTCTCAGTACAACCGACCCACCGTTTCAA*TCTTTGTA Singleton 3 GAAAAGGATCTTTCTGATTCTCGAAGAATGAGGGGCAAGGGGATTGATCGA
Clusterização • Existência de diversos programas de clusterização: • TGICL • Phrap • TIGR Assembler • CAP3 • Validação dos resultados obtidos nos processos de trimagem e verificação de contaminação
Proposta – Trimagem • Estudos de possíveis melhorias nos processos de trimagem existentes • Criação de um conjunto de procedimentos padrões • Realização de testes para validação do conjunto de procedimentos
Proposta – Contaminação • Estudo de possíveis melhorias nos critérios de verificação de contaminação existentes • Integração entre os métodos de detecção por similaridade e por conjunto de características • Definição de um critério que melhor se aplique ao contexto de projetos EST • Realização de testes para validação da metodologia
Proposta – Clusterização • Análise de programas de clusterização e de seus parâmetros • Testes para identificação do melhor programa • Utilização da clusterização para validação dos métodos desenvolvidos para trimagem e verificação de contaminação
Cronograma 1 – Trimagem: • I – Estudo e identificação de melhorias • II – Testes • III – Escrita dos resultados obtidos no testes
Cronograma 2 – Verificação de contaminação: • IV – Estudo e identificação de melhorias • V – Testes • VI – Escrita dos resultados obtidos nos testes
Cronograma 3 – Clusterização: • VII – Escolha dos programas • VIII – Avaliação dos valores de parâmetros • IX – Testes • X – Escrita dos resultados obtidos nos testes
Cronograma 4 – Dissertação: • XI – Revisão final do texto • XII – Defesa