330 likes | 436 Views
Uma abordagem para detecção e remoção de artefatos em seqüências ESTs. Christian Baudet Zanoni Dias (Orientador). Instituto de Computação – Unicamp Campinas, 01 de Dezembro de 2006. Roteiro. Motivação Conceitos Nova estratégia de detecção de artefatos Detecção e remoção de derrapagem
E N D
Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) • Instituto de Computação – Unicamp • Campinas, 01 de Dezembro de 2006
Roteiro • Motivação • Conceitos • Nova estratégia de detecção de artefatos • Detecção e remoção de derrapagem • Detecção e remoção de baixa qualidade • Novo conjunto de procedimentos de detecção e remoção de artefatos • Conclusões e trabalhos futuros
Motivação • Importância da pesquisa genômica • Identificação de genes pode trazer: • Descoberta da cura de doenças • Descoberta de características de interesses comerciais • Conhecimento sobre evolução dos organismos • Necessidade de dados confiáveis
O que são ESTs? • EST – Expressed Sequence Tags • Adams et al, 1991 – “Complementary DNA sequencing: expressed sequence tags and the human genome project” • Transcrição • Gene transcrito para mRNA • Produção de cDNA • Enzima transcriptase reversa
E o que são artefatos? • Artefatos são trechos que: • Não pertencem ao organismo alvo do estudo • Baixa qualidade ou baixa complexidade • Remoção necessária • Podem influenciar negativamente a análise dos dados
Detecção e remoçãode artefatos • Conjuntos de procedimentos variam muito de projeto para projeto • Os conjuntos normalmente são formados por várias etapas • As etapas são dependentes entre si • Execução é feita seqüencialmente • Cada etapa depende do resultado da etapa anterior
Nova Estratégia • Detecções de diferentes artefatos • Etapas independentes • Cada etapa analisa a seqüência original • Etapa final • Combina todos os artefatos encontrados • Identifica a região do inserto
Avaliação da Nova Estratégia • Processamento das seqüências do projeto Cattle EST (Bos taurus) • Procedimentos baseados no trabalho de Telles e da Silva, 2001 – “Trimming and clustering sugarcane ESTs” • Simplificação dos métodos de detecção de vetor e de caudas poli-A/T • Detecção de adaptador separada da detecção de vetor • Algoritmo de subseqüência máxima para detecção de baixa qualidade • Sem detecção de derrapagem
Avaliação da Nova Estratégia • Todos os tipos de artefatos foram detectados • Análise dos artefatos produzidos mostrou: • 2,46% de um total de 12.520 seqüências possuíam artefatos que não seriam identificados caso as etapas não fossem independentes • Remoção de seqüências ribossomais também aplicável a mamíferos • Clustering com maior grau de agrupamento de seqüências • Menor número de singletons e clusters
Derrapagem • Artefato de seqüenciamento • Regiões ricas em grupos ecoados • Trabalho de Telles e da Silva único na literatura • Três novos métodos • Média Aritmética • Média Geométrica • Cobertura por Ecos • Duas estratégias • Sufixo • Subseqüência
Avaliação dos Métodos • Testes • Variação de parâmetros • Processamento de seqüências do projeto SUCEST (291.689 ESTs) • Melhor estratégia: Subseqüência • Encontra artefatos na porção inicial da seqüência • Melhor método: Cobertura por Ecos • Menor perda de hits de BLAST
Baixa Qualidade • Avaliação de dois algoritmos • Janela deslizante • Subseqüência máxima • Variação exaustiva dos parâmetros • Análise de 1950 execuções distintas • Critério de seleção de alternativas • 2,5% de erro médio (25 bases 5’) • 5,0% de erro médio (25 bases 3’) • 80,0% de preservação média do BLAST hit
Baixa Qualidade • Adição de procedimento para detecção de ilhas de baixa qualidade • Janela deslizante • Tamanho: 10 bases • Erro médio de 20,0% no mínimo • Reprocessamento dos fragmentos • Melhor algoritmo: Subseqüência máxima • Qualidade mínima 11 • Procedimento de detecção de ilhas
Novo conjunto de procedimentos • Combinação dos resultados dos estudos realizados • Nova estratégia • Simplificação de métodos • Adoção das decisões dos estudos de derrapagem e baixa qualidade • Realização de testes com o conjunto completo de ESTs do projeto SUCEST
SUCEST x Novo Conjunto • Produção de clustering: 145.845 seqüências • SUCEST: 118.991 seqüências • 20.202 singletons e 16.394 contigs (36.596) • Novo conjunto: 126.988 seqüências • 22.479 singletons e 17.486 contigs (39.965) • Melhores consistências interna e externa • Menor redundância • Redução do número de hits Full-Length • Diminuição de SNPs e aumento de INDELs
Conclusão • Nova estratégia apresenta bons resultados • Novas alternativas para detecção de derrapagem • Estudo de baixa qualidade • Análise aprofundada • Adição de procedimento para detecção de ilhas de baixa qualidade • Novo conjunto de procedimentos
Trabalhos Futuros • Estudo mais detalhados dos demais artefatos • Estudo de outras variações de parâmetros dos algoritmos para detecção de derrapagem • Estudo do efeito da variação de exigência da qualidade média sobre a construção de clusterings • Aperfeiçoamento de algoritmos de clusterização de seqüências (Projeto de Doutorado)
Trabalhos Publicados • Novaestratégia • C. Baudet and Z. Dias, “New EST trimming strategy”. In J.C. Setubal and S. Verjovski-Almeida, editors, Lectures Notes on Bioinformatics, volume 3594, pages 206-209. Springer-Verlag Berlin Heildelberg, July 2005. Brazilian Symposium on Bioinformatics 2005 (BSB2005), extended abstract. • C. Baudet and Z. Dias, “New EST trimming strategy”, Technical Report: IC-05-09, Institute of Computing – University of Campinas, May 2005.
Trabalhos Publicados • Derrapagem • C. Baudet and Z. Dias, “Analysis of slipped sequences in EST projects”. Genetics and Molecular Research, 5(1):169-181, 2006. • C. Baudet and Z. Dias, “Analysis of slipped sequences in EST projects”. X-Meeting 2005, Caxambu – MG, October 2005, poster.
Trabalhos Publicados • Baixaqualidade • C. Baudet and Z. Dias, “Low quality trimming on SUCEST ESTs”. X-Meeting 2006, Fortaleza – CE, August 2006, poster. • Novoconjuntodeprocedimentos • C. Baudet and Z. Dias, “New EST trimming procedure applied to SUCEST sequences”. 14th Annual International Conference On Intelligent Systems For Molecular Biology (ISMB2006), Fortaleza – CE, August 2006, poster.