420 likes | 528 Views
MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA. O banco de dados. O banco de dados foi obtido no instituto NCBI, (National Center for Biotechnology Information) em ftp://ncbi.nih.gov/genomes/H_sapiens e também em ftp://ftp.genome.jp/pub/kegg
E N D
O banco de dados O banco de dados foi obtido no instituto NCBI, (National Center for Biotechnology Information) em ftp://ncbi.nih.gov/genomes/H_sapiens e também em ftp://ftp.genome.jp/pub/kegg que conduz pesquisas na área de biologia computacional. O banco consistia de arquivos com as bases nitrogenadas que formam a seqüência de DNA do genoma humano, para cada um dos 22 pares de cromossomos existentes. Dentro de cada arquivo (ou cromossomo), existia a subdivisão em genes. Foi usada a amostragem de 100.000 bases nitrogenadas (em alguns casos chega a milhões de bases).
Alfabeto O filamento de DNA de cada um dos genes é formado por duas seqüências de bases nitrogenadas ligadas umas as outras. São essas bases: • Adenina =A • Citosina = C • Guanina = G • Timina = T O arquivo continha dados de apenas um lado da seqüência, já que o outro pode ser obtido observando como as bases se ligam. A se liga exclusivamente a T, C se liga exclusivamente a G, e vice versa para os dois casos
EMV para probabilidades de Transição em Cadeias de Markov A função de verossimilhança para uma cadeia de Markov de ordem 1 é dada por: Então, o EMV para cada uma das probabilidades de transição é dado por
Cadeias de Markov de ordem K • P(Xt = Xt / X0 = x0, X1= x1, ... , Xt-1= xt-1) = P(Xt = xt / Xt-1= xt-1, Xt-2= xt-2,... , Xt-k= xt-k) Se a ordem da cadeia é K devemos olhar k passos no passado para definir a probabilidade de ir para um estado no presente.
Crescimento exponencial do número de parâmetros com a ordem da cadeia • Seja o número fixo de parâmetros (estados) da cadeia de Markov, observe na tabela abaixo, considerando como exemplo = 4, como o número de parâmetros livres cresce quando aumentamos sua ordem.
Seleção de modelos via BIC A idéia do BIC para selecionar modelos é penalizar a Verossimilhança pelo número K, onde K é número de parâmetros independentes a serem estimados. onde é o espaço paramétrico correspondente ao modelo com K parâmetros.
Resultados via Cadeias de Markov Observa-se que apenas para o cromossomo 6, houve coincidência da ordem estimada pelo BIC para os genes. A melhor ordem ajustada foi a ordem 2. Para o cromossomo 10 observou-se ordem diferentes para os genes, sendo que um deles foi melhor ajustado pelo modelo de ordem 3. No caso do cromossomo 11, em um dos genes não foi possível calcular o EMV e não foi possível estimar o BIC. Isso porque algumas probabilidades de transição da matriz apresentaram o valor zero, o que comprometeu uma análise da verossimilhança.
Modelo selecionado pelo BIC • Observou-se que para todos os grupos de proteínas a melhor ordem apontada pelo BIC é a ordem 1. • Observou-se também que as matrizes de probabilidade de transição estimadas eram muito semelhantes.
Teste da Razão de Verossimilhança para comparação das matrizes de transição
TRV para comparação de matrizes de transição do grupo 1: paladar (24-12)=12 graus de liberdade, o que nos dá um valor crítico de 23,33 a 5%.
TRV para comparação de matrizes de transição do grupo 2: olfato
TRV para comparação de matrizes de transição do grupo 4: metabolismo da cafeína
Conclusões • Adotando-se o TRV como método de comparação conclui-se que as proteínas dentro de um mesmo grupo podem possuir a mesma lei de formação, já que para nenhum dos grupos, em nenhuma das comparações foi rejeitada a hipótese nula de que as probabilidades de transições são iguais para todas as entradas das matrizes.
Dizemos que o processo é uma Cadeia com Memória de Alcance Variável ( VLMC ou PCT) se as probabilidades de transição satisfazem à seguinte propriedade: Cadeias com Memória de Alcance Variável Se l = 0 para todo t, o processo é ndependente.
Contexto • Para estimar o estado da cadeia não consideramos todo o seu passado, e sim apenas parte do passado que é relevante na estimação do estado presente, que chamamos contexto. Representamos o contexto observado por
Árvore de contextos • O conjunto de todos os contextos pode ser representado como uma árvore. O presente é representado pela raiz. Os galhos são os passados, quanto mais longe da raiz é o nó mais distante é o passado. Cada nó tem no máximo arestas, que é o tamanho do espaço de estados da cadeia.
Exemplo de uma árvore de contextos para uma Cadeia de Markov de ordem 2:
Estimação das Árvores Alguns algoritmos tem sido apresentadas na literatura para estimar uma árvore probabilística de contexto(PCT ou VLMC) e também as probabilidades de transição. Uma lista incompleta inclui Ron et al. (1996), Buhlmann e Wyner (1999)(VLMC) e Galves et al. (2009). Uma abordagem diferente é proposta Csiszar e Talata (2006). Eles mostraram que uma árvore probabilística de contexto pode ser consistentemente estimada em um tempo linear usando o Critério de Informação Bayesiana (BIC)(1995).
Estimação das árvores de contexto • Em Galves, Galves, Garcia e Leonardi (2009) é introduzido o critério do menor maximizador (smallest maximizer criterion) para estimar uma VLMC ou PCT, como vem sido chamado. Este critério seleciona a árvore na classe das campeãs estimadas pelo BIC, para cada valor da constante de penalização. Este algoritmo é chamado de G3L. Onde é a verossimilhança da árvore dada a amostra e denota o número de graus de liberdade do modelo correspondente da árvore de contexto .
A ordem do modelo VLMC para o primeiro gene do cromossomo 6 encontrado é 5, com um número de contextos igual a 28
Gene Cr10g3 :A ordem para o modelo VLMC para o terceiro gene do cromossomo 10 encontrado é 2, com um número de contextos igual a 16.
Gene Cr11g1 : • A ordem máxima do modelo para o primeiro gene do cromossomo 11 não pôde ser encontrada, por limitações computacionais, pois esse gene possui uma cadeia com praticamente todos os contextos em suas ordens. Com uma ordem 4 (máxima ordem visível) obteve-se um número de contextos igual a 240, sendo inviável a reprodução de sua árvore de contextos aqui.
Gene Cr11g2 :A ordem do modelo encontrado é 3, com um número de contextos igual a 25.
Gene Cr11g3 :A ordem do modelo encontrado é 3, com um número de contextos igual a 22.
Gene Cr6g2 : A ordem do modelo VLMC para o segundo gene do cromossomo 6 encontrado é 4, com um número de contextos igual a 36.
Gene Cr6g3: A ordem do modelo VLMC para o terceiro gene do cromossomo 6 encontrado é 5, com um número de contextos igual a 48.
Comparação: CM x VLMC Estimação via Cadeia de Markov Estimação via Cadeia com Memória de Alcance Variável