1 / 42

MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA

MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA. O banco de dados. O banco de dados foi obtido no instituto NCBI, (National Center for Biotechnology Information) em ftp://ncbi.nih.gov/genomes/H_sapiens e também em ftp://ftp.genome.jp/pub/kegg

hali
Download Presentation

MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA

  2. O banco de dados O banco de dados foi obtido no instituto NCBI, (National Center for Biotechnology Information) em ftp://ncbi.nih.gov/genomes/H_sapiens e também em ftp://ftp.genome.jp/pub/kegg que conduz pesquisas na área de biologia computacional. O banco consistia de arquivos com as bases nitrogenadas que formam a seqüência de DNA do genoma humano, para cada um dos 22 pares de cromossomos existentes. Dentro de cada arquivo (ou cromossomo), existia a subdivisão em genes. Foi usada a amostragem de 100.000 bases nitrogenadas (em alguns casos chega a milhões de bases).

  3. Alfabeto O filamento de DNA de cada um dos genes é formado por duas seqüências de bases nitrogenadas ligadas umas as outras. São essas bases: • Adenina =A • Citosina = C • Guanina = G • Timina = T O arquivo continha dados de apenas um lado da seqüência, já que o outro pode ser obtido observando como as bases se ligam. A se liga exclusivamente a T, C se liga exclusivamente a G, e vice versa para os dois casos

  4. EMV para probabilidades de Transição em Cadeias de Markov A função de verossimilhança para uma cadeia de Markov de ordem 1 é dada por: Então, o EMV para cada uma das probabilidades de transição é dado por

  5. Cadeias de Markov de ordem K • P(Xt = Xt / X0 = x0, X1= x1, ... , Xt-1= xt-1) = P(Xt = xt / Xt-1= xt-1, Xt-2= xt-2,... , Xt-k= xt-k) Se a ordem da cadeia é K devemos olhar k passos no passado para definir a probabilidade de ir para um estado no presente.

  6. Crescimento exponencial do número de parâmetros com a ordem da cadeia • Seja  o número fixo de parâmetros (estados) da cadeia de Markov, observe na tabela abaixo, considerando como exemplo  = 4, como o número de parâmetros livres cresce quando aumentamos sua ordem.

  7. Seleção de modelos via BIC A idéia do BIC para selecionar modelos é penalizar a Verossimilhança pelo número K, onde K é número de parâmetros independentes a serem estimados. onde é o espaço paramétrico correspondente ao modelo com K parâmetros.

  8. Resultados via Cadeias de Markov Observa-se que apenas para o cromossomo 6, houve coincidência da ordem estimada pelo BIC para os genes. A melhor ordem ajustada foi a ordem 2. Para o cromossomo 10 observou-se ordem diferentes para os genes, sendo que um deles foi melhor ajustado pelo modelo de ordem 3. No caso do cromossomo 11, em um dos genes não foi possível calcular o EMV e não foi possível estimar o BIC. Isso porque algumas probabilidades de transição da matriz apresentaram o valor zero, o que comprometeu uma análise da verossimilhança.

  9. Ordem estimada para enzimas responsáveis pelo paladar

  10. Ordem estimada para enzimas responsáveis pelo Olfato

  11. Ordem estimada para enzimas do metabolismo da cafeína

  12. Modelo selecionado pelo BIC • Observou-se que para todos os grupos de proteínas a melhor ordem apontada pelo BIC é a ordem 1. • Observou-se também que as matrizes de probabilidade de transição estimadas eram muito semelhantes.

  13. Teste da Razão de Verossimilhança para comparação das matrizes de transição

  14. TRV para comparação de matrizes de transição do grupo 1: paladar (24-12)=12 graus de liberdade, o que nos dá um valor crítico de 23,33 a 5%.

  15. TRV para comparação de matrizes de transição do grupo 2: olfato

  16. TRV para comparação de matrizes de transição do grupo 4: metabolismo da cafeína

  17. Conclusões • Adotando-se o TRV como método de comparação conclui-se que as proteínas dentro de um mesmo grupo podem possuir a mesma lei de formação, já que para nenhum dos grupos, em nenhuma das comparações foi rejeitada a hipótese nula de que as probabilidades de transições são iguais para todas as entradas das matrizes.

  18. Dizemos que o processo é uma Cadeia com Memória de Alcance Variável ( VLMC ou PCT) se as probabilidades de transição satisfazem à seguinte propriedade: Cadeias com Memória de Alcance Variável Se l = 0 para todo t, o processo é ndependente.

  19. Contexto • Para estimar o estado da cadeia não consideramos todo o seu passado, e sim apenas parte do passado que é relevante na estimação do estado presente, que chamamos contexto. Representamos o contexto observado por

  20. Árvore de contextos • O conjunto de todos os contextos pode ser representado como uma árvore. O presente é representado pela raiz. Os galhos são os passados, quanto mais longe da raiz é o nó mais distante é o passado. Cada nó tem no máximo  arestas, que é o tamanho do espaço de estados da cadeia.

  21. Representação gráfica de uma Arvore de Contextos (PCT)

  22. Exemplo de uma árvore de contextos para uma Cadeia de Markov de ordem 2:

  23. Estimação das Árvores Alguns algoritmos tem sido apresentadas na literatura para estimar uma árvore probabilística de contexto(PCT ou VLMC) e também as probabilidades de transição. Uma lista incompleta inclui Ron et al. (1996), Buhlmann e Wyner (1999)(VLMC) e Galves et al. (2009). Uma abordagem diferente é proposta Csiszar e Talata (2006). Eles mostraram que uma árvore probabilística de contexto pode ser consistentemente estimada em um tempo linear usando o Critério de Informação Bayesiana (BIC)(1995).

  24. Estimação das árvores de contexto • Em Galves, Galves, Garcia e Leonardi (2009) é introduzido o critério do menor maximizador (smallest maximizer criterion) para estimar uma VLMC ou PCT, como vem sido chamado. Este critério seleciona a árvore na classe das campeãs estimadas pelo BIC, para cada valor da constante de penalização. Este algoritmo é chamado de G3L. Onde é a verossimilhança da árvore dada a amostra e denota o número de graus de liberdade do modelo correspondente da árvore de contexto .

  25. A ordem do modelo VLMC para o primeiro gene do cromossomo 6 encontrado é 5, com um número de contextos igual a 28

  26. Gene Cr10g3 :A ordem para o modelo VLMC para o terceiro gene do cromossomo 10 encontrado é 2, com um número de contextos igual a 16.

  27. Gene Cr11g1 : • A ordem máxima do modelo para o primeiro gene do cromossomo 11 não pôde ser encontrada, por limitações computacionais, pois esse gene possui uma cadeia com praticamente todos os contextos em suas ordens. Com uma ordem 4 (máxima ordem visível) obteve-se um número de contextos igual a 240, sendo inviável a reprodução de sua árvore de contextos aqui.

  28. Gene Cr11g2 :A ordem do modelo encontrado é 3, com um número de contextos igual a 25.

  29. Gene Cr11g3 :A ordem do modelo encontrado é 3, com um número de contextos igual a 22.

  30. Gene CR6g1

  31. Gene Cr6g2 : A ordem do modelo VLMC para o segundo gene do cromossomo 6 encontrado é 4, com um número de contextos igual a 36.

  32. Gene Cr6g3: A ordem do modelo VLMC para o terceiro gene do cromossomo 6 encontrado é 5, com um número de contextos igual a 48.

  33. Comparação: CM x VLMC Estimação via Cadeia de Markov Estimação via Cadeia com Memória de Alcance Variável

  34. Muito obrigada!

More Related