1 / 26

Introducción al Biclustering

Introducción al Biclustering. Domingo Savio Rodríguez Baena Bioinformatics Research Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad de Sevilla. CLUSTERING vs BICLUSTERING.

calvin
Download Presentation

Introducción al Biclustering

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introducción al Biclustering Domingo Savio Rodríguez Baena Bioinformatics Research Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad de Sevilla

  2. CLUSTERING vs BICLUSTERING • Objetivos Clustering: crear conjunto de elementos los cuales tengan alguna característica común. • Crear conjuntos de genes según su expresión bajo condiciones experimentales. • Crear conjuntos de condiciones según la expresión de los genes de un genoma. PROBLEMA: el Clustering solo actúa bajo una dimensión. LOS EXPERIMENTOS DEMUESTRAN QUE: en muchas ocasiones, un subconjunto de genes se co-expresan bajo un subconjunto de condiciones experimentales, mientras que con respecto a otras condiciones se pueden comportar de forma independiente.

  3. BICLUSTERING Objetivo: buscar un subconjunto de genes que se co-expresen bajo un subconjunto de condiciones  SUBMATRIZ.

  4. Clasificación Técnicas Biclustering • Clasificación según varios criterios: • Tipo de biclusters que se puede encontrar • Estructura de los biclusters • Tipo de técnica algorítmica • Tipo de evaluación de los resultados • Ámbito de aplicación

  5. BICLUSTERING Hay distintos tipos de Biclusters:  FORMADO POR VALORES CONSTANTES

  6. BICLUSTERING  FORMADO POR VALORES CONSTANTES EN FILAS O COLUMNAS:

  7. BICLUSTERING  FORMADO POR VALORES COHERENTES: Modelo aditivo Modelo multiplicativo

  8. BICLUSTERING  FORMADO POR VALORES DE EVOLUCIÓN COHERENTE:

  9. BICLUSTERING Nuestro objetivo puede variar en función de la estructura que queramos encontrar:

  10. TÉCNICAS DE BICLUSTERING Existen técnicas muy variadas: - Divide y Vencerás. - Combinación de Clustering sobre filas y columnas - Búsqueda voraz iterativa - Búsqueda exhaustiva - Identificación de parámetros de distribución - Búsqueda estocástica

  11. Cheng & Church Y. Cheng and G. Church. Biclustering of expression data. In Proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology (ISMB’00), pages 93–103, 2000. Primer algoritmo, propiamente dicho, de Biclustering. Parten de la suposición de que para que un subgrupo de genes y condiciones sea un bicluster, sus valores han de evolucionar al unísono, y esta característica estaba representada por un valor estadístico: The Mean Squared Residue (MSR). Técnica de búsqueda voraz iterativa.

  12. Cheng & Church. Definiciones I En una submatriz matriz A el residuo de un elemento aij es definido como: Donde: = nivel de expresión del gen i en la condición j = media de la fila i = media de la fila j = media de los elementos de A

  13. Cheng & Church. Definiciones II • El Mean Squared Residue de una submatriz (I,J) es: • Este valor global H nos indica cómo se interrelacionan los datos de la matriz, es decir, si existe alguna coherencia en la evolución de sus valores o son aleatorios. • Un valor alto de H significa que los datos no están correlacionados. • Un valor bajo de H implica que la matriz está correlacionada. • Si H(I,J)= 0 significaría que los datos de la matriz fluctúan al unísono.

  14. 1 2 3 4 5 6 7 8 9 10 11 12 Cheng & Church. Ejemplo I Matrix (M) Avg. = 6.5 R(1) = 1- 2 - 5.4 + 6.5 = 0.1 R(2) = 2 - 2 - 6.4 + 6.5 = 0.1 : : : : R(12) = 12 - 11 -7.4 + 6.5 = 0.1 H (M) = (0.01x12)/12 = 0.01 Col Avg. 5.4 6.4 7.4 Si el 5 fuera reemplazado por 3, entonces la puntuación cambiaría a: H(M2) = 2.06 Si la matriz fuera generada aleatóriamente, entonces la puntuación sería aproximádamente: H(M3) = sqr(12-1)/12 = 10.08

  15. Cheng & Church. Ejemplo II

  16. Cheng & Church. Ejemplo III

  17. Cheng & Church. Algoritmo I Parámetros de entrada: - Valor umbral de residuo, δ. - Coeficiente de borrado múltiple, α. - Número de biclusters a generar. - Rango para la generación de números aleatorios. Pre-procesamiento de los datos: los huecos se rellenan con números aleatorios

  18. Cheng & Church. Algoritmo II Algoritmo iterativo formado por tres fases: Fase 1): Borrado múltiple de nodos: se borran todas aquellas filas y columnas cuyo valor de MSR sea mayor que α * δ. Fase 2): Borrado simple de nodos: se borra la fila o columna con el mayor valor de MSR. Fase 3): Adición de nodos: se añaden aquellas filas o columnas cuyo MSR sea menor que δ. Al finalizar, se genera un solo bicluster. Para crear el siguiente, se sustituye el bicluster encontrado por números aleatorios en la matriz de entrada y a empezar de nuevo.

  19. Cheng & Church. Algoritmo III

  20. PROBLEMAS MSR I Efectos posibles en el comportamiento de los genes: • SHIFTING PATTERN

  21. PROBLEMAS MSR II • SCALING PATTERN.

  22. J. Aguilar. Shifting and scaling patterns from gene expression data. Bioinformatics, 21:3840–3845, 2005. En este trabajo se demuestra de forma matemática que el residuo de Cheng y Church es altamente dependiente de la varianza del factor de escalado, lo que hace posible que un algoritmo basado en el MSR no tenga en cuenta este fenómeno cuando la varianza de los valores de expresión de los genes es demasiado alta.

  23. PROBLEMÁTICA BICLUSTERING  No existe una metodología clara para detectar los patrones de comportamiento en las bases de datos de expresión genética.  Las bases de datos son voluminosas.  Gran complejidad del problema planteado.  Métodos de evaluación de los biclusters obtenidos.

  24. APLICACIONES BICLUSTERING • EXPRESION GENETICA ANTE SUSTANCIAS TOXICAS • DIAGNOSTICO DE ENFERMEDADES • ESTUDIO DE ENFERMEDADES GENETICAS COMPLEJAS • FISIOLOGIA CELULAR • DETECTAR POLIMORFISMOS Y MUTACIONES • COMPORTAMIENTO DE LA CELULA ANTE FARMACOS • ESTUDIO DE LA EXPRESION GENETICA EN EL • DESARROLLO • …

  25. FIN

More Related