260 likes | 416 Views
Seleção de modelos e miscelânea. Almir R. Pepato. Modelos de substitição da família GTR. a. G. A. Jukes-Cantor. b. b. b. b. C. T. a. K2P. Felsenstein. HKY. GTR . Duas estratégias. Verossimilhança:. Bayesiana:
E N D
Seleção de modelos e miscelânea Almir R. Pepato
Modelos de substitição da família GTR a G A Jukes-Cantor b b b b C T a K2P Felsenstein HKY GTR
Duas estratégias Verossimilhança: Bayesiana: Obtêm-se a probabilidade marginal dos dados dado apenas o modelo, integrando-se as árvores, comprimentos de ramo e parâmetros dos modelos de substituição: árvores Probabilidades conjuntas Nesse caso, deve-se levar em conta parâmetros que não são de interesse imediato. Uma forma de contornar o problema é estimar os valores desses parâmetros que maximizam L. Comprimentos dos ramos Na verdade a forma é um cubo n-dimensional. Probabilidades marginais
hLRTs: “Hierarquicallikelihoodratiotests” Hipótese nula: Máxima verossimilhança do modelo mais simples Se os modelos são aninhados, pode ser interpretado como um teste de X2, com os graus de liberdade dado pela diferença no número de parâmetros entre os dois modelos. Hipótese alternativa: Máxima verossimilhança do modelo mais complexo Quantos parâmetros livres tem um modelo? Parâmetros relacionados às taxas de substituição: r(AC), r(AG), r(AT), r(CG), e r(CT), com r(GT) = 1: 5 parâmetros livres. Frequência dos nucleotídeos: π A, π C, π G, com π T = 1 – (π A + π C + π G): 3 parâmetros livres.
hLRTs: Desvantagens 1- Nas aplicações práticas os modelos devem ser aninhados. 2-Pode ser influenciado pela ordem em que as comparações são feitas 3-Tende a escolher modelos mais parametrizados.
AIC: “AkaikeInformationCriteria” Mede quanta “informação” se perde em utilizar um modelo ao aproximar o fenômeno real. O modelo com o menor AIC possível é preferido. K é o número de parâmetros livres do modelo e ramos na árvore (T-3)
Fatores Bayesianos Pode ser estimado a partir da média harmônica da lnL na fase estacionária da cadeia de Markov (o MrBayes dá esse valor automaticamente). Não necessita que os modelos sejam aninhados.
BIC: “BayesianInformationCriterion” e DT: “Performance-basedselection) BIC: Os fatores Bayesianos podem ser difíceis de estimar. Uma maneira aproximada é utilizar o BIC DT: Seleciona os modelos baseado na sua capacidade de estimar corretamente os comprimentos de ramo.
Levando em conta a incerteza dos modelos na incerteza das inferências A vantagem de métodos como AIC, BIC e DT é que podemos ranquear os modelos, ao invés de compará-los dois a dois, como fazemos com os fatores Bayesianos e hLRTs. Assim podemos estimar o quanto podemos confiar na nossa escolha: Menor valor de AIC para os modelos examinados Podemos utilizar esses valores para calcular o “peso relativo” dos modelos e inclusive combinar eles em um intervalo de confiança. Podemos usar essa abordagem para tirar uma “média” ponderada dos parâmetros dos modelos .
E se der errado??? Árvore obtida por Naylor & Brown, 1998 a partir de todos os genes codificantes de proteínas dos genomas mitocondrias das espécies estudadas.
Pré-Processamento 1- Faça o BLAST das sequências suspeitas subdivididas em fragmentos menores. 2- Verifique se não houve erros de edição durante o alinhamento.
Pré-processamento 3- Você têm certeza de que os genes são todos ortólogos? 4- Uma árvore bifurcante é um modelo adequado para os dados?
Artefatos por atração de ramos longos Como detectar: 1- O clado produzido pelo artefato de atração de ramos longos não é recuperado com o emprego de métodos estatísticos. 2- A topologia muda ao retirar-se o grupo externo. Como resolver: 1- Amostrar mais espécies. 2- Amostrar genes que evoluíram de maneira distinta. 3-Excluir ramos longos.
Artefatos causados por desvio na composição de nucleotídeos
Artefatos causados por desvio na composição de nucleotídeos Como detectar: 1- Testes de X2 para a hipótese de homogeneidade (TREE-PUZZLE, PAUP*). 2-hLRT para um modelo que preveja não estacionalidade da frequência de nucleotídeos. Como resolver: 1- Recodificar os nucleotídeos com Y e R (pirimidinas e purinas) 2-Utilizar o método de distâncias LogDet 3-Utilizar um modelo que não tenha por premissa a estacionalidade na frequência de nucleotídeos.
Os dados são informativos? “Likelihood-mappingAnalysis” Sinal em forma de árvore: 1,2,3 Sinal em forma de rede (parcialmente resolvido): 4,5,6. Sinal em estrela: 7
Os dados são informativos? No estudo citado, a maior parte dos pontos está próximo ao centro dos triângulos, mostrando que os dados são incapazes de resolver o problema.
Escolha do grupo externo “Sugerimos uma abordagem que empregue um critério múltiplo para a seleção do grupo externo com base: (1) taxa de substituição lenta, (2) composição nucleotídoca (conteúdo de G + C) similar ao do grupo interno, (3) uma nova estimativa de viés na composição das cadeias , (4) a habilidade do grupo externo de evitar um “efeito por derivação aleatória” e (5) proximidade evolutiva em relação ao grupo interno.
Escolha do grupo externo O trabalho lidou com dois fenômenos: 1- Existe uma deficiência nos artrópodes em reparar inserções errôneas de A’s durante a duplicação. 2-Um viés devido ao fato que a deaminação(que converte A em G e C em T) tem mais oportunidade de ocorrer na cadeia retardatária e que essa cadeia pode mudar devido à mutações na região reguladora. Fenômeno parecido ocorre com humanos, temos 40% de pares GC, mas apenas 5% de G na cadeia codificante.
Lacunas na matriz de caracteres Trigonotarbida Ricinulei Phalangiotarbida Um possível critério: a presença de apomorfias que ligam o táxon com muitos dados faltantes a um dos táxos mais completos.
Partições de dados são incongruentes Para obter a significância: (1) Criam-se partições do mesmo tamanho das originais, mas através do sorteio das várias matrizes simultaneamente, (2) Calcula-se a soma das árvores mais parcimoniosas de cada uma dessas réplicas, produzindo uma distribuição, (3) Calcula-se a probabilidade de que a soma dos comprimentos originais caia dentro dessa distribuição: uma baixa probabilidade implica em incongruência.