1 / 41

Uma abordagem computacional para a determinação de polimorfismos de base única

Uma abordagem computacional para a determinação de polimorfismos de base única. Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006. Roteiro. Conceitos B ásicos Motivação Objetivos Alinhamento de seqüências Detecção de SNPs e confiabilidade Correlação de SNPs Conclusão.

Download Presentation

Uma abordagem computacional para a determinação de polimorfismos de base única

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

  2. Roteiro • Conceitos Básicos • Motivação • Objetivos • Alinhamento de seqüências • Detecção de SNPs e confiabilidade • Correlação de SNPs • Conclusão

  3. Processo básico de tradução genética • A informação genética dos seres vivos é armazenada em cadeias de nucleotídeos • Bases A, C, G e T • Proteínas são geradas a partir da leitura da cadeia de nucleotídeos • Processo de tradução • Proteína = cadeia de aminoácidos • 1 aminoácido = 3 nucleotídeos = 1 códon

  4. Tradução

  5. Polimorfismos e SNP • Polimorfismo: dois ou mais alelos diferentes em indivíduos da mesma espécie • Deve aparecer em pelo menos 1% da população • SNP: polimorfismo que ocorre em apenas uma base da seqüência • SNP sinônimo: não modifica o aminoácido • SNP não sinônimo: modifica o aminoácido

  6. Porque estudar SNPs? • Correspondem a mais de 90% dos polimorfismos nos seres humanos • Causa de grande parte das doenças com base genética • Grande interesse das industrias farmacêuticas • Criação de terapias específicas • Marcadores para mapeamento fino do genoma

  7. Objetivos do trabalho • Estudar 3 etapas distintas no processo de detecção e análise de SNPs: • Alinhamento de ESTs com DNA genômico • Detecção de SNPs por análise de cromatograma • Correlação de SNPs

  8. Alinhamento de DNA com ESTs

  9. Alinhamento de sequências • Inserção de espaços em duas seqüências de forma a que elas tenham o mesmo tamanho e possam ser comparadas • Exemplo: AGCTCGTTTG e ACCTTCGTTTTG AGC-TCGTTT-G ACCTTCGTTTTG • Pontuação permite avaliar o alinhamento • Problema de otimização: obter o alinhamento de melhor pontuação

  10. Algoritmos clássicos de alinhamento • Estratégias de alinhamento • Global • Semi-global • Local • Sistemas de pontuação • Simples: match, mismatch, gap • Linear: match, mismatch e gap(k) = g + hk

  11. Porque estudar alinhamento de mRNA com DNA?

  12. Objetivos desta etapa Determinar uma estratégia clássica e um conjunto de parâmetros que permitam obter bons alinhamentos entre DNA genômico e mRNA

  13. Metodologia • Desenvolvimento de um alinhador em Java usando algoritmo de Miller e Myers • Criação de uma base de testes • Definição de um conjunto de parâmetros de alinhamento • Execução de alinhamentos de mRNAs com genes de origem • Nosso alinhador, sim4, est_genome e Spidey • Definição de métricas para avaliação dos alinhamentos obtidos

  14. Conjunto de dados • 64 genes do cromossomo Y humano com menos de 100.000 bases • 40 genes completos do cromossomo Y humano com menos de 100.000 bases • 7376 genes completos do genoma humano com menos de 10.000 bases • 4930 ESTs artificiais do cromossomo 6 com erros aleatórios de 1% a 10%

  15. Resultados obtidos - Conjunto 3

  16. Resultados obtidos - Conjunto 4

  17. Resultados obtidos - Conjunto 4

  18. Resultados obtidos • O alinhador semi-global com esquemas de pontuação (1,-2,-1,0) e (1,-2,-10,0) produzem resultados extremamente satisfatórios • O esquema (1,-2,-10,0) tende a gerar blocos de introns maiores • Sim4, est_genome e Spidey são mais regulares com ESTs com erros

  19. Detecção de SNPs

  20. Base-calling e sequenciamento

  21. Porque estudar base-calling? • Pacote phred ignora sinais secundários no cromatograma • Apenas uma base por posição • SNPs podem gerar sinais secundários • PolyBayes e PolyPhred não produzem resultados satisfatórios com HIV

  22. Objetivos desta etapa • Detecção de SNPs em cromatogramas de seqüências de HIV • Estudo de métodos para determinação de confiabilidade dos resultados

  23. Metodologia • Definir algoritmos para análise e correção de cromatograma • Executar os algoritmos com diversos parâmetros, para análise preliminar • Determinação de dois algoritmos para tunning • Determinação do melhor algoritmo e do melhor conjunto de parâmetros

  24. Conjunto de dados • Sequências genéticas de HIV • 1302 bp • Região bem conservada • 35 lotes de amostras de indivíduos soropositivos • 6 leituras • 1 seqüência validada, com SNPs anotados manualmente • Sequência de referência de HIV

  25. Algoritmos de correção • Relação das Áreas • Relação das Médias das Alturas • Limite Variável • Pico Único por Janela • Eliminação de Picos Ruins • Pico Mais Baixo

  26. Relação das Áreas

  27. Relação das Médias das Alturas

  28. Resultados obtidos

  29. Confiabilidade Estatística • Comparação de dois métodos de confiablidade estatística para SNPs: • PolyBayes: estatística bayesiana • MSASNP: qualidades das bases • Conjunto de teste: SNPs anotados do SUCEST • MSASNP gera muitos falsos positivos e acerta menos posições que o PolyBayes

  30. Correlação de SNPs

  31. Linkage Disequilibrium • Associação não aleatória entre alelos • Informações sobre um alelo fornece informações sobre o outro • Medidas para quantificar LDs • D’ = 1, chamado de LD completo • r2  1/3, chamado de LD útil • LD múltiplo: conjunto de SNPs em LD dois a dois

  32. Porque estudar LDs? • Doenças genéticas podem ser influenciadas por vários SNPs correlacionados • LD permite efetuar mapeamento fino do genoma humano • Técnica tradicional: definição de 1 a 2cM • LD: definição de 0.1cM

  33. Objetivos desta etapa • Estudar LDs múltiplos • Analisar o efeito do uso das medidas D’ e r2

  34. Metodologia • Pré-processamento do conjunto de dados • Definição de uma heurística para busca de cliques em grafos • Problema NP-Difícil • Executar a busca por LDs múltiplos nos dados utilizando medidas D’ e r2

  35. LDs múltiplos

  36. LDs múltiplos (j, f, i, e, g, m, n) (k, l, h)

  37. Conjunto de dados • ESTs clusterizados de cana-de-açúcar do projeto SUCEST, com SNPs anotados • Genes do genoma humano obtidos do NCBI: • HLA-A, HLA-B e HLA-DOB • Genes do complexo MHC • Região com alta densidade de SNPs anotados

  38. Resultados • Bons resultados obtidos com tempo de busca de 5 segundos por clique • D’ apresenta resultados melhores • Maior capacidade de agrupamento • Menor tendência de isolamento de SNPs • r2 gera grafos com menos arestas

  39. Considerações finais • Foram estudadas 3 etapas distintas relacionadas a SNPs • Resultados bastante satisfatórios, tendo em vista o tipo de problema analisado • Seria interessante implementar um fluxo de trabalho único unindo estas etapas

  40. Trabalhos publicados • Alinhamento • M. Galves e Z. Dias, "Comparison of genomic DNA to cDNA alignment methods“.Lecture Notes on Bioinformatics, 2005. Springer-Verlag Berlin Heildelberg. Apresentado no BSB 2005, Porto Alegre - RS. • Detecção de SNPs • M. Galves, J. A. A. Quitzau e Z. Dias, "New strategy to detect single nucleotide polymorphisms", Genetics and Molecular Research, 2006.Apresentado no X-Meeting 2005, Caxambu - MG.

  41. Relatórios técnicos • LDs múltiplos • A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo para identificação de correlações múltiplas de polimorfismos” (IC-06-14), Setembro 2006. • Confiabilidade Estatística • C. Baudet, M. Galves e Z. Dias,“Comparação de métodos para determinação de SNPs com medidas de confiabilidade” (IC-06-15), Setembro 2006.

More Related