170 likes | 404 Views
Maximum likelihood : B úsqueda heurística. Datos: Alineamiento de secuencias. Parámetros del modelo: Frecuencias nucleot ídicas , tasas de sustituci ón nucleotídica, topología del árbol, largo de ramas. Se elige un valor inicial para todos los par ámetros y se computa su likelihood.
E N D
Maximum likelihood : Búsqueda heurística • Datos: • Alineamiento de secuencias. • Parámetros del modelo: • Frecuencias nucleotídicas, tasas de sustitución nucleotídica, topología del árbol, largo de ramas. Se elige un valor inicial para todos los parámetros y se computa su likelihood. Cambie los parametros levemente de modo de maximizar la likelihood. Repetir hasta encontrar un máximo.
Selección del modelo? Medición del ajuste entre el modelo y los datos (ej., SSE, likelihood, etc.) Cómo podemos comparar distintos tipos de modelos? y = 1.24x - 0.56
Sobre-ajuste: la adición de más parámetros siempre resulta e un mejor ajuste de los datos, pero no siempre en una mejor descripción y = ax + b Modelo de dos parámetros Buena descripción, pobre ajuste y = ax6+bx5+cx4+dx3+ex2+fx+g Modelo de siete parámetros Pobre descripción, buen ajuste
Seleccionando el mejor modelo: the likelihood ratio test • El ajuste entre dos modelos puede ser comparado utilizandola razón de sus verosimiltudes ( la razón de sus likelihoods, LRT): LR = P(Datos | M1) = L,M1 P(Datos | M2) L,M2 • Note que LR > 1 si el modelo 1 tiene la mayor likelihood. • Para modelos anidados se puede demostrar que = 2*ln(LR) = 2* (lnL,M1 - lnL,M2) sigue un distribución de2 con grados de libertad igual al número de parámetros extras en el modelo más complejo. Esto hace posible determinar que modelo describe mejor los datos.
Respondiendo preguntas biológicas en utilizando LRT • Ajuste dos alternativas, anidamiento de los datos. • Registre la likelihood y el número de parámetros de cada modelo. • Evalue si un modelo alternativo (con más parámetros) es significantivamente mejor que el modelo nulo, dado el número de parámetros extra (nextra): • Compute = 2 x (lnLAlternativo - lnLNulo) • Compare utilizando una distribución de2con nextra grados de libertad. • Dependiendo del modelo, distintos tipos de preguntas pueden ser establecidas (existencia de reloj molecular, presencia de selección positiva, etc).
Likelihood ratio test : Que modelo se ajusta mejor a los datos: JC or K2P? Modelo de Jukes and Cantor (JC): Todos los nucleótidos tienen la misma frecuencia Todas las sustituciones tienen la misma tasa Modelo de Kimura de 2 parámetros (K2P): Todos los nucleótidos tienen la misma frecuencia Transiciones y transversiones tiene distinta tasa => K2P tiene un parámetro extra comparado con JC
Likelihood ratio test : Que modelo se ajusta mejor a los datos: JC or K2P? • Punto de partida: grupo de secuencias de DNAmt, • calcule las likelihoods de los modelos JC and K2P para los datos, • JC: lnL = -2034.3 • K2P: lnL = -2031.2 K2P tiene un mejor ajuste que JC: lnLK2P > lnLJC Evalue si K2P es significantivamente mejor • = 2 x (lnLAlternative - lnLNull) = 2 x (-2031.2 - -2034.3) = 6.2 Grados de libertad = 1 (K2P tiene un parámetro extra comparado con JC)
Likelihood ratio test : Que modelo se ajusta mejor a los datos: JC or K2P? • = 2 x (lnLAlternativo - lnLNulo) = 6.2 Grados de libertad = 1 • Valor Crítico (5% level) = 3.8415 • Estadístico = 6.2 • => 1% < p < 5% • Diferencia es significativa • K2P es significantivamente una mejor descripción de los datos en comparación a JC
Otras opciones Akaike Information Criteria (AIC) • La idea es encontrar un modelo que minimize la distancia (Kullback–Leibler distance) con el modelo“verdadero”. AIC esta basado en el valor de MV y el número de parámetros del modelo. El AIC para un modelo i es calculado como • Donde corresponde a la Max. Verosimilitud y p es el número de parámetros libres del modelo.
Una variante bayesiana de AIC es BIC. donde nes el número de observaciones. TANTO PARA AIC COMO BIC.- • El primer término se refiere a los costos de usar un modelo muy simple…la ML va a ser baja para modelos que fallan al excluir parámetros importantes. • El segundo término se asocia a los costos del sobreajuste (overfitting). Se favorecen modelos más parsimoniosos.
Otras opciones • Bayes Factor (BF).- Sigue la misma lógica que LRT, valores mayores a 1 muestran que M1 es mejor que M2 y menores a 1 , indican que se debería elegir M2. Donde X denota el número de observaciones.
¿Cuál es el modelo a usar que sugiere Modeltest? 137 publicaciones del 2004, publicados en 43 journals.