1 / 50

Algoritmos para Biclustering (parte 2)

Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs. Algoritmos para Biclustering (parte 2). Recife, 20 de Dezembro de 2007. Roteiro. Introdução Biclustering SAMBA Spectral Biclustering Plaid Models Discussão. Introdução - Biclustering.

gilon
Download Presentation

Algoritmos para Biclustering (parte 2)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs Algoritmos para Biclustering(parte 2) Recife, 20 de Dezembro de 2007

  2. Roteiro • Introdução • Biclustering • SAMBA • Spectral Biclustering • Plaid Models • Discussão

  3. Introdução - Biclustering • Dado um conjunto de perfis de expressões gênicas, organizadas juntas como uma matriz com linhas correspondente a genes e colunas correspondendo a condições

  4. Introdução - Biclustering • Bicluster é definido como uma submatriz "amarrada" a um conjunto de genes e um conjunto de amostras

  5. SAMBA • Identifica Biclusters através: • Modelagem probabilística dos dados • Técnicas da teoria dos grafos • Dados modelados como grafos bipartidos: … Genes G = (U,V,E) Expressões Condições …

  6. SAMBA • Pares de vértices possuem pesos: • Modelo probabilístico • Problema: • Busca pelo subgrafo com maior peso Genes Expressões H = (U ’,V ‘, E’) Condições

  7. SAMBA • Três “módulos”: • Modelagem estatística dos dados • Algoritmo de busca • Algoritmo completo

  8. SAMBA – Modelagem estatística dos dados • Acoplado ao grafo existe um modelo de probabilidade proporcional: • Pesos aos pares de vértices • Peso de um subgrafo: • Soma dos pesos dos pares gene-condição

  9. SAMBA – Modelagem estatística dos dados • Null Model • A ocorrência de cada aresta (u,v) é uma variável independente de Bernoulli com parâmetro (probabilidade de um subgrafo possuir (u,v) ) Função de Probabilidade Distribuição de Bernoulli

  10. SAMBA – Modelagem estatística dos dados • Probabilidade estimada através do processo Monte Carlo • Capturar características de diferentes genes e condições nos dados

  11. SAMBA – Modelagem estatística dos dados • Alternative Model • Cada aresta ocorre com uma probabilidade constante e alta

  12. SAMBA – Modelagem estatística dos dados • Utilizando o peso de cada aresta (u,v) igual a e de cada não-aresta (u,v) igual a o score de H seria seu peso • Modelo assume que biclusters representam relações aproximadamente uniformes entre seus elementos

  13. SAMBA – Algoritmo de Busca • Encontrar melhor subgrafo • NP-Hard • SAMBA utiliza heurística • Bicliques como sementes • Algoritmo para encontrar sementes

  14. SAMBA – Algoritmo de Busca

  15. SAMBA – Algoritmo de Busca • Grau de cada gene limitado por d • N(v) = conjunto de vértices adjacentes a v

  16. SAMBA – Algoritmo Completo • Duas fases • Grafo bipartido formado e pesos computados • Subgrafos ótimos procurados • Segunda fase realizada com uso de sementes e expansões através de buscas locais

  17. SAMBA – Algoritmo Completo

  18. SAMBA – Algoritmo Completo

  19. Spectral Biclustering • Análise global de níveis de expressão de RNA são úteis pra classificação de genes e fenótipos • Problemas de classificação estão ligados a encontrar "marker genes" que são diferentemente expressados em conjuntos particulares de condições

  20. Spectral Biclustering • Spectral Biclustering é baseado na observação de estruturas de "checkerboard", em matrizes de expressão os dados podem ser encontrados em autovetores correspondentes a padrões de expressão

  21. Spectral Biclustering

  22. Spectral Biclustering • Além disso, esses autovetores podem ser prontamente identificados como abordagens comumente utilizadas em algebra linear, em particular o "singular value decomposition" (SVD), em conjunto com passos de normalização

  23. Spectral Biclustering

  24. Spectral Biclustering – SVD • Decompõe-se: E = A∆BT, • ∆ é uma matriz diagonal • A e B são matrizes ortogonais

  25. Spectral Biclustering – SVD • As colunas de A e de B são autovetores de EET e ETE, respectivamente • As entradas de ∆ são raizes quadradas dos autovalores correspondentes

  26. Spectral Biclustering – SVD • Então, os pares de autovetores são obtidos pegando, para cada i a i-ésima coluna de A e B, e o autovetor correspondente é ∆ii2

  27. Spectral Biclustering • Para cada par de vetores pode-se verificar se cada um dos vetores pode ser aproximado usando um vetor "piecewise constant” • Kluger et al. utilizou um algoritmo de k-means unidimencional para testar isso • A estrutura de blocos dos autovetores apontam a estrutura de blocos das linhas e colunas de E

  28. Spectral Biclustering • Em geral, as linhas e colunas de E são ordenadas arbitráriamente, e a estrutura de "checkerboard", se E tem uma, está escondida • Para revelar essa estrutura pode-se computar o SVD de E e analizar os autovetores de EET e ETE

  29. Spectral Biclustering • A estrutura se manifestará na existencia de um par de autovetores (um de cada matriz) com o mesmo autovalor, que são aproximadamente "piecewise constant"

  30. Spectral Biclustering - Normalização • Kluger et al. distute também sobre o problema de normalizar a matriz de expressão de genes para revelar as estruturas de "checkerboard" que estão obscuras (e.g. por diferenças nas médias dos níveis de expressão de genes ou condições)

  31. Spectral Biclustering - Normalização • A normalização é feita utilizando duas matrizes: • R, uma matriz diagonal com a média da linha i na i-ésima posição • C, uma matriz diagonal com a média da coluna j na j-ésima posição

  32. Spectral Biclustering - Normalização • A estrutura de blocos de E é refletida em pares de autovetores com o mesmo autovalor das matrizes normalizadas M = R-1EC-1ET e Mt • Esses pares podem ser deduzidos computando o SVD de R-1/2EC-1/2 • Por causa da normalização, o primeiro par de autovetores é constante e pode ser descartado

  33. Spectral Biclustering

  34. Spectral Biclustering

  35. Plaid Models Plaid models é uma abordagem desenvolvida por Lazzeroni e Owen para a análise de dados de gene expression

  36. Plaid Models A idéia básica do algoritmo é representar a matriz genes-condições como uma sobreposição de layers, correspondendo a biclusters em nossa terminologia, onde cada layer é um subconjunto de linhas e colunas com um determinado valor

  37. Plaid Models Diferentes valores na matriz de expressão são vistos como diferentes cores Intensidades de cores em vez de nível de expressão As cores das linhas verticais e horizontais na matriz correspondem a uma camada

  38. Plaid Models

  39. Plaid Models

  40. Plaid Models O modelo assume que o nível de entradas da matriz é a soma de um background uniforme e de k biclusters, cada um colorindo uma submatriz em particular

  41. Plaid Models Mas precisamente a matriz de expressão é representada pela formula:

  42. Plaid Models Quando o bicluster forma uma partição k dos genes e uma correspondente partição k das amostras, as disjointness constraints onde biclusters não podem se sobrepor podem ser formuladas como:

  43. Plaid Models Substituindo <= por = exigiria a atribuição de cada linha ou coluna a exatamente um bicluster. Generalizando para permitir sobreposição de bicluster significa simplesmente remover as disjointness constraints

  44. Plaid Models Estimando Parâmetros Inicialização e Regras de Parada

  45. Discussões • Model and Score • Cada método define um esquema de score para garantia de qualidade dos biclusters candidatos • Cheng e Church Algorithm, Plaid Models, SAMBA • Restrições que determinam quais sub-matrizes representam um comportamento de bicluster significante • ISA, CTWC, Spectral Algorithm

  46. Discussões • Abordagens Algorítmicas • Fases de Otimização de genes e condições alternadas • ISA, CTWC • Álgebra Linear ou Agoritmos de Otimização para sub-problemas • Plaid Models, Spectral Biclustering • Hill Climbing • Algoritmo de Cheng e Church e SAMBA

  47. Discussão • Uma área recente se comparada com Clustering • Grande potencial para significantes contribuições a biologia e outros campos • Herdou algumas dificuldades presentes em Clustering

  48. Links • http://acgt.cs.tau.ac.il/expander/

  49. Referências • [1] Livro Texto, capítulo 26 – Biclustering Algorithms: A Survey • [2] L. Lazzeroni and A. Owen. Plaid Models • [3] http://arep.med.harvard.edu/biclustering • [4] http://ctwc.weizmann.ac.il • [5] http://barkai-serv.weizmann.ac.il/GroupPage

  50. Algoritmos para Biclustering Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs Recife, 18 de Dezembro de 2007

More Related