1 / 27

Distribucion del maximo de N scores de matching de secuencias random independientes

Ditribución del valor extremo. Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor valor observado es pequeña, luego el score es significativo

colton
Download Presentation

Distribucion del maximo de N scores de matching de secuencias random independientes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ditribución del valor extremo • Distribucion del maximo de N scores de matching de secuencias random independientes • Si la probabilidad de este maximo de ser mayor que el mejor valor observado es pequeña, luego el score es significativo • La distribucion del maximo de N variables aleatorias normales e independientes es conocida Nota: Ver cap. 11 de Durbin

  2. Alineamiento Global (Alg. Needleman-Wunsch)

  3. Alineamiento Local - Motivación • Si el mejor alineamiento hasta un punto determinado tiene un score negativo es mejor empezar otro nuevo • Los alineamientos pueden terminar en cualquier lugar de la matriz no en (n,m) • Para el mejor alineamiento, empezamos buscando el mejor F(i,j) de toda la matriz y empezamos la traza inversa desde alli • La traza termina al llegar al score 0 • Esperamos que el score de un matching aleatorio sea negativo, sino: • largos alineamientos incorrectos parecidos al global

  4. Global: encontrar el mejor alineamiento, tal vez a expensas de zonas de mayor similaridad Son estas secuencias en general similares? Local: encontrar zonas con el mejor alineamiento, inclusive a expensas del score general Contienen estas secuencias subsecuencias con alta similaridad?

  5. Alineamiento Local (Alg. Smith-Waterman)

  6. Alineamientos repetidos • Encuentra una o + copias, significativas a nivel T, de secciones de una secuencia en otra (y en x) • Significación T: Score_alineamiento -T > 0 • F(i,0) muestra las no coincidencias y los fines de matching (score >T) • F(i,j) muestra los comienzos de matching y las extensiones, F(i,0) reemplaza el 0 local por el grado de coincidencia de la seccion anterior

  7. Alineamientos repetidos (continuación) • Alineamiento global • Alin. Dependiente de T (grado de significación) • La traza comienza en (n+1,0), si es igual a 0 no hubo matchings

  8. Alineamientos solapados o anidados • Se busca un alineamiento global sin restricciones • La traza se realiza a partir del mayor score • Comienza en el borde superior o izquierdo y termina en el inferior o derecho

  9. Otros ejemplos • Secuencia repetitiva y en “tandem” sin gaps • Match que comience en (0,0) y termine en cualquier lado Cuando se busca la similaridad de una secuencia secuencia debemos pensar el tipo de matching o coincidencia deseado y buscar el algoritmo mas apropiado

  10. Alineamientos con costo de gap variable (affine)

  11. Automatas de estado mas complejos • Los scores s(a,b) y t(a,b) pueden representar regiones de mayor fidelidad sin gaps (A) y de menor con gaps (B) • Valores probabilisticos en los ejes caracterizarian a un modelo de Markov

  12. Cadenas de Markov • Dada una secuencia , podemos decidir si viene de una isla CG? • Uso de cadenas de Markov para discriminacion/clasificacion • Dado un conjunto de entrenamiento, aprendemos un modelo que nos permite discriminar futuras secuencias no observadas

  13. Aplicando P(X,Y)=P(X/Y) P(Y) mujchas veces, y la propiedad que un estado Markoviano depende solo del anterior

  14. ¿Qué significa Aprendizaje? Decimos que un agente o un programa de computación aprende de la experiencia E con respecto a cierta clase de tareas T con la medida de performance P, si su performance en la tarea T, medida por P, mejora con respecto a la experiencia E Tarea: Reconocer y clasificar palabras manuscritas Medida de Performance: Porcentaje de palabras bien reconocidas o clasificadas Experiencia de Entrenamiento: Una base de datos de palabras manuscritas reconocidas o clasificadas previamente

  15. Que se aprende? Estructura, parametros, ajustes (identificacion de sistemas) • No solo el orden caracteriza a los algoritmos, tambien el sesgo de aprendizaje • Generalizacion • Sobreaprendizaje

  16. Modelos Hidden Markov Como podemos encontrar islas CG en una secuencia no observada? • Distinguir entre: • Sucesion de estados, la probabilidad de un estado depende del anterior (k,k-1) • Sucesion de simbolos, la probabilidad de observar el carácter b en el estado k (depende de la distrib. De simbolos, i.e., no es necesario asociar un estado a un simbolo).

  17. Algoritmo de Viterbi (Camino mas probable) Aplicando el algoritmo “predictivo” encontramos los limites de las islas CG o de los estados de los dados (casino)

  18. Estimación de los parametros • Cuando, dado un conjunto de entrenamiento conozco los caminos • Akl=numero de transiciones de k a l • Akl’=numero de tranciciones a otros estado • akl=Akl/SUMA(Akl’) • Ek(b)=numero de emisiones de b en k • ek(b)=Ek(b)/SUMA(E(b’)) • Cuando no conozco los caminos • Algoritmos de optimizacion de funciones continuas

  19. Alineamiento de a pares usando HMMs Tal como los HMM estándar generan una secuencia, estos generan un par de secuencias alineadas

  20. Estados iniciales y finales mas complejos (ver diferencias para alin. Locales y globales) • El estado M tiene una probabilidad de emision Pab, de emitir el alineamiento a:b • X, Qa de emitir el simbolo a:gap (idem Y)

  21. Alineamiento multiple empleando HMM • Emplear un metodo de alineaminto previo (gradual) en base a un conjunto de entrenamiento (e.g. Clustal W) • Aplicar HMM http://www.cse.ucsc.edu/research/compbio/sam.html

  22. Importante: el mundo no es lineal, euclideo y deterministico • Dado un Problema, existen varios Modelos para representarlos, y posibles Soluciones a dicho Modelo (P->M->S) • Existen distintas formas de obtener dichas Ss (Soluciones exactas, heuristicas, metaheuristicas, etc.) • Conocer cual es la mas adecuada depende de varios factores, ej. Orden del algoritmo, Sesgo, tipo de modelo (lineal, estocastico, etc.), dependencia de los parametros, condicionamientos del metodo, etc. • Los algoritmos no necesariamente estan involucrados con el dominio del problema. Muchas soluciones se obtienen reinterpretando soluciones correspondientes a otros problemas (RN y física, tecnologia del habla -HMM, etc.)

More Related