1 / 38

Heurística

Heurística. Un poco de historia. PNAS (1988) 85, 2444-2448. FASTA. Mayor velocidad de computación. Menor consumo de memoria. Mayor sensibilidad = menos FN. Mayor selectividad = menos FP. Las ventajas de FASTA. Etapa nº 1: Identidad. Query sequence. Sequence in data base.

Download Presentation

Heurística

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Heurística

  2. Un poco de historia

  3. PNAS (1988) 85, 2444-2448 FASTA

  4. Mayor velocidad de computación Menor consumo de memoria Mayor sensibilidad = menos FN Mayor selectividad = menos FP Las ventajas de FASTA

  5. Etapa nº 1: Identidad

  6. Query sequence Sequence in data base 6 for DNA = 4096 k-tuples 2 for proteins = 400 k-tuples A partir de la secuencia problema se obtienen todos los k-tuplos posibles mediante el método de la ventana deslizante. Se comparan con los de las secuencias de la BD. Las regiones idénticas aparecen como una diagonal. Se agrupan las diagonales que estén a una cierta distancia una de otra y, para cada secuencia de la BD se localizan las 10 regiones con más densidad de k-tuplos idénticos. IDENTIDAD Etapa nº 1: Localizar k-tuplos idénticos (top ten)

  7. Etapa nº 2: Similitud (limitada al top ten)

  8. Se vuelven a puntuar las 10 regiones seleccionadas en la etapa anterior, esta vez utilizando una matriz de similitud (PAM o BLOSUM). De las 10 diagonales, una logrará la mayor puntuación (init1). Es la que aparece en la imagen marcada con un asterisco. SIMILITUD Etapa nº 2: Volver a puntuar los top ten (init1)

  9. Etapa nº 3: Unión de las diagonales con mayor puntuación

  10. FASTA intenta unir las diagonales cuya puntuación es mayor que un determinado cutoff. Se vuelven a puntuar las diagonales unidas y a cada una se le otorga una puntuación (initn). Se hace unrankingcon las secuencias de la base de datos en función de initn. Las secuencias que superen cierto umbral de puntuación initn pasan a la siguiente etapa Etapa nº 3: Unir diagonales y volver a puntuar (initn)

  11. Etapa nº 4: Optimización

  12. Se utiliza un algoritmo de PD modificado (SW bandeado) para alinear la secuencia problema con cada secuencia de la BD. El alineamiento se limita a una estrecha banda centrada en el segmento init1 y que engloba a las diagonales de mayor puntuación. La puntuación de este alineamiento es el parámetro opt, con el que se hace un ranking de alineamientos. También se determina su significación estadística (E-value). Etapa nº 4: Alineamiento óptimo “bandeado” (opt)

  13. Operación Resultado Etapa nº 1 IDENTIDAD Los 10 mejores Etapa nº 2 SIMILITUD init1 Etapa nº 3 UNIÓN + PD initn Etapa nº 4 opt + E-value PD bandeada Las cuatro etapas de FASTA

  14. http://www.ebi.ac.uk/Tools/sss/fasta/

  15. http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml

  16. BLAST1 J. Mol. Biol. (1990), 403-410

  17. Aplicaciones de BLAST

  18. Procesamiento previo de la secuencia problema

  19. Mediante el método de la “ventana deslizante” se descompone la secuencia problema en “palabras”. El parámetro W (word size) determina el número de caracteres de las palabras. Habitualmente, para proteínas W = 3 y para ADN W = 11 Etapa nº 1: descomponer la secuencia en “palabras”

  20. Con cada palabra se elabora una lista de “palabras parecidas”. Se puntúa cada palabra aplicando una matriz de sustitución. Sólo se tendrán en cuenta las palabras cuya puntuación supere un valor T. Etapa nº 1: listas de “palabras parecidas” (neighbors)

  21. Búsqueda de coincidencias en las secuencias de la BD

  22. Etapa nº 2: búsqueda de “coincidencias” en la BD

  23. Un valor de W pequeño aumenta la sensibilidad pero disminuye la velocidad. Un valor de T elevado disminuye la sensibilidad (se reduce le número de “hits” y se puede perder algún alineamiento significativo) pero aumenta la velocidad. Una selección adecuada de W, T y la matriz de puntuación permite controlar de manera eficaz la sensibilidad y la rapidez del algoritmo Los parámetros W (word size) y T (threshold)

  24. BLAST1 intenta extender el alineamiento a ambos lados de cada coincidencia (sin dejar huecos), utilizando una variante del algoritmo de Smith-Waterman. Etapa nº 3: extensión de las “coincidencias” (hits)

  25. Caída (X) = 5 (se para y retrocede hasta el valor máximo) Máximo = 9 Caída (X) = 2 (sigue) La extensión tiene un límite: el parámetro X

  26. Etapa nº 4: ranking de HSP (en función del valor E)

  27. El valor E

  28. BLAST2 Nucleic Acids Res. 25:3389-3402 (1997)

  29. BLAST-2 utiliza el algoritmo de la doble coincidencia (two-hit algorithm): una palabra sólo se extiende (sin huecos) si existe otra en la misma diagonal a una distancia menor que A. El valor del parámetro A lo establece el usuario. Esta extensión genera una serie de alineamientos con una puntuación elevada (HSP, high scoring pairs) Este requisito reduce la sensibilidad del método (se extienden menos palabras). Esta circunstancia se puede compensar disminuyendo el parámetro T que se utiliza en la primera etapa (el umbral de puntuación para generar la lista de “palabras parecidas”). Etapa nº 3: algoritmo de la “doble coincidencia”

  30. Etapa nº 4: generación de alineamiento con huecos

  31. Se seleccionan los HSP que han superado un umbral de puntuación y que forman un grupo consistente para hacer un alineamiento local con huecos Subsecuencia del HSP de 11 caracteres con la máxima puntuación Residuo central donde comienza, en ambas direcciones, el alineamiento local con huecos Inicio del alineamiento con huecos

  32. El alineamiento local con huecos se lleva a cabo en ambas direcciones siempre y cuando la máxima puntuación alcanzada no se reduzca en un valor superior a Xg. Los alineamientos se muestran en función del valor E (ordenados de menor a mayor). El valor E indica el número de veces que uno esperaría encontrar por puro azar un alineamiento con una puntuación igual o mayor en una base de datos de igual tamaño y composición. Fin del alineamiento con huecos

  33. http://blast.ncbi.nlm.nih.gov/Blast.cgi NCBI-BLAST

  34. http://www.ebi.ac.uk/Tools/sss/wublast/ WU-BLAST

More Related