410 likes | 508 Views
Uma abordagem computacional para a determinação de polimorfismos de base única. Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006. Roteiro. Conceitos B ásicos Motivação Objetivos Alinhamento de seqüências Detecção de SNPs e confiabilidade Correlação de SNPs Conclusão.
E N D
Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006
Roteiro • Conceitos Básicos • Motivação • Objetivos • Alinhamento de seqüências • Detecção de SNPs e confiabilidade • Correlação de SNPs • Conclusão
Processo básico de tradução genética • A informação genética dos seres vivos é armazenada em cadeias de nucleotídeos • Bases A, C, G e T • Proteínas são geradas a partir da leitura da cadeia de nucleotídeos • Processo de tradução • Proteína = cadeia de aminoácidos • 1 aminoácido = 3 nucleotídeos = 1 códon
Polimorfismos e SNP • Polimorfismo: dois ou mais alelos diferentes em indivíduos da mesma espécie • Deve aparecer em pelo menos 1% da população • SNP: polimorfismo que ocorre em apenas uma base da seqüência • SNP sinônimo: não modifica o aminoácido • SNP não sinônimo: modifica o aminoácido
Porque estudar SNPs? • Correspondem a mais de 90% dos polimorfismos nos seres humanos • Causa de grande parte das doenças com base genética • Grande interesse das industrias farmacêuticas • Criação de terapias específicas • Marcadores para mapeamento fino do genoma
Objetivos do trabalho • Estudar 3 etapas distintas no processo de detecção e análise de SNPs: • Alinhamento de ESTs com DNA genômico • Detecção de SNPs por análise de cromatograma • Correlação de SNPs
Alinhamento de sequências • Inserção de espaços em duas seqüências de forma a que elas tenham o mesmo tamanho e possam ser comparadas • Exemplo: AGCTCGTTTG e ACCTTCGTTTTG AGC-TCGTTT-G ACCTTCGTTTTG • Pontuação permite avaliar o alinhamento • Problema de otimização: obter o alinhamento de melhor pontuação
Algoritmos clássicos de alinhamento • Estratégias de alinhamento • Global • Semi-global • Local • Sistemas de pontuação • Simples: match, mismatch, gap • Linear: match, mismatch e gap(k) = g + hk
Objetivos desta etapa Determinar uma estratégia clássica e um conjunto de parâmetros que permitam obter bons alinhamentos entre DNA genômico e mRNA
Metodologia • Desenvolvimento de um alinhador em Java usando algoritmo de Miller e Myers • Criação de uma base de testes • Definição de um conjunto de parâmetros de alinhamento • Execução de alinhamentos de mRNAs com genes de origem • Nosso alinhador, sim4, est_genome e Spidey • Definição de métricas para avaliação dos alinhamentos obtidos
Conjunto de dados • 64 genes do cromossomo Y humano com menos de 100.000 bases • 40 genes completos do cromossomo Y humano com menos de 100.000 bases • 7376 genes completos do genoma humano com menos de 10.000 bases • 4930 ESTs artificiais do cromossomo 6 com erros aleatórios de 1% a 10%
Resultados obtidos • O alinhador semi-global com esquemas de pontuação (1,-2,-1,0) e (1,-2,-10,0) produzem resultados extremamente satisfatórios • O esquema (1,-2,-10,0) tende a gerar blocos de introns maiores • Sim4, est_genome e Spidey são mais regulares com ESTs com erros
Porque estudar base-calling? • Pacote phred ignora sinais secundários no cromatograma • Apenas uma base por posição • SNPs podem gerar sinais secundários • PolyBayes e PolyPhred não produzem resultados satisfatórios com HIV
Objetivos desta etapa • Detecção de SNPs em cromatogramas de seqüências de HIV • Estudo de métodos para determinação de confiabilidade dos resultados
Metodologia • Definir algoritmos para análise e correção de cromatograma • Executar os algoritmos com diversos parâmetros, para análise preliminar • Determinação de dois algoritmos para tunning • Determinação do melhor algoritmo e do melhor conjunto de parâmetros
Conjunto de dados • Sequências genéticas de HIV • 1302 bp • Região bem conservada • 35 lotes de amostras de indivíduos soropositivos • 6 leituras • 1 seqüência validada, com SNPs anotados manualmente • Sequência de referência de HIV
Algoritmos de correção • Relação das Áreas • Relação das Médias das Alturas • Limite Variável • Pico Único por Janela • Eliminação de Picos Ruins • Pico Mais Baixo
Confiabilidade Estatística • Comparação de dois métodos de confiablidade estatística para SNPs: • PolyBayes: estatística bayesiana • MSASNP: qualidades das bases • Conjunto de teste: SNPs anotados do SUCEST • MSASNP gera muitos falsos positivos e acerta menos posições que o PolyBayes
Linkage Disequilibrium • Associação não aleatória entre alelos • Informações sobre um alelo fornece informações sobre o outro • Medidas para quantificar LDs • D’ = 1, chamado de LD completo • r2 1/3, chamado de LD útil • LD múltiplo: conjunto de SNPs em LD dois a dois
Porque estudar LDs? • Doenças genéticas podem ser influenciadas por vários SNPs correlacionados • LD permite efetuar mapeamento fino do genoma humano • Técnica tradicional: definição de 1 a 2cM • LD: definição de 0.1cM
Objetivos desta etapa • Estudar LDs múltiplos • Analisar o efeito do uso das medidas D’ e r2
Metodologia • Pré-processamento do conjunto de dados • Definição de uma heurística para busca de cliques em grafos • Problema NP-Difícil • Executar a busca por LDs múltiplos nos dados utilizando medidas D’ e r2
LDs múltiplos (j, f, i, e, g, m, n) (k, l, h)
Conjunto de dados • ESTs clusterizados de cana-de-açúcar do projeto SUCEST, com SNPs anotados • Genes do genoma humano obtidos do NCBI: • HLA-A, HLA-B e HLA-DOB • Genes do complexo MHC • Região com alta densidade de SNPs anotados
Resultados • Bons resultados obtidos com tempo de busca de 5 segundos por clique • D’ apresenta resultados melhores • Maior capacidade de agrupamento • Menor tendência de isolamento de SNPs • r2 gera grafos com menos arestas
Considerações finais • Foram estudadas 3 etapas distintas relacionadas a SNPs • Resultados bastante satisfatórios, tendo em vista o tipo de problema analisado • Seria interessante implementar um fluxo de trabalho único unindo estas etapas
Trabalhos publicados • Alinhamento • M. Galves e Z. Dias, "Comparison of genomic DNA to cDNA alignment methods“.Lecture Notes on Bioinformatics, 2005. Springer-Verlag Berlin Heildelberg. Apresentado no BSB 2005, Porto Alegre - RS. • Detecção de SNPs • M. Galves, J. A. A. Quitzau e Z. Dias, "New strategy to detect single nucleotide polymorphisms", Genetics and Molecular Research, 2006.Apresentado no X-Meeting 2005, Caxambu - MG.
Relatórios técnicos • LDs múltiplos • A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo para identificação de correlações múltiplas de polimorfismos” (IC-06-14), Setembro 2006. • Confiabilidade Estatística • C. Baudet, M. Galves e Z. Dias,“Comparação de métodos para determinação de SNPs com medidas de confiabilidade” (IC-06-15), Setembro 2006.