500 likes | 611 Views
Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs. Algoritmos para Biclustering (parte 2). Recife, 20 de Dezembro de 2007. Roteiro. Introdução Biclustering SAMBA Spectral Biclustering Plaid Models Discussão. Introdução - Biclustering.
E N D
Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs Algoritmos para Biclustering(parte 2) Recife, 20 de Dezembro de 2007
Roteiro • Introdução • Biclustering • SAMBA • Spectral Biclustering • Plaid Models • Discussão
Introdução - Biclustering • Dado um conjunto de perfis de expressões gênicas, organizadas juntas como uma matriz com linhas correspondente a genes e colunas correspondendo a condições
Introdução - Biclustering • Bicluster é definido como uma submatriz "amarrada" a um conjunto de genes e um conjunto de amostras
SAMBA • Identifica Biclusters através: • Modelagem probabilística dos dados • Técnicas da teoria dos grafos • Dados modelados como grafos bipartidos: … Genes G = (U,V,E) Expressões Condições …
SAMBA • Pares de vértices possuem pesos: • Modelo probabilístico • Problema: • Busca pelo subgrafo com maior peso Genes Expressões H = (U ’,V ‘, E’) Condições
SAMBA • Três “módulos”: • Modelagem estatística dos dados • Algoritmo de busca • Algoritmo completo
SAMBA – Modelagem estatística dos dados • Acoplado ao grafo existe um modelo de probabilidade proporcional: • Pesos aos pares de vértices • Peso de um subgrafo: • Soma dos pesos dos pares gene-condição
SAMBA – Modelagem estatística dos dados • Null Model • A ocorrência de cada aresta (u,v) é uma variável independente de Bernoulli com parâmetro (probabilidade de um subgrafo possuir (u,v) ) Função de Probabilidade Distribuição de Bernoulli
SAMBA – Modelagem estatística dos dados • Probabilidade estimada através do processo Monte Carlo • Capturar características de diferentes genes e condições nos dados
SAMBA – Modelagem estatística dos dados • Alternative Model • Cada aresta ocorre com uma probabilidade constante e alta
SAMBA – Modelagem estatística dos dados • Utilizando o peso de cada aresta (u,v) igual a e de cada não-aresta (u,v) igual a o score de H seria seu peso • Modelo assume que biclusters representam relações aproximadamente uniformes entre seus elementos
SAMBA – Algoritmo de Busca • Encontrar melhor subgrafo • NP-Hard • SAMBA utiliza heurística • Bicliques como sementes • Algoritmo para encontrar sementes
SAMBA – Algoritmo de Busca • Grau de cada gene limitado por d • N(v) = conjunto de vértices adjacentes a v
SAMBA – Algoritmo Completo • Duas fases • Grafo bipartido formado e pesos computados • Subgrafos ótimos procurados • Segunda fase realizada com uso de sementes e expansões através de buscas locais
Spectral Biclustering • Análise global de níveis de expressão de RNA são úteis pra classificação de genes e fenótipos • Problemas de classificação estão ligados a encontrar "marker genes" que são diferentemente expressados em conjuntos particulares de condições
Spectral Biclustering • Spectral Biclustering é baseado na observação de estruturas de "checkerboard", em matrizes de expressão os dados podem ser encontrados em autovetores correspondentes a padrões de expressão
Spectral Biclustering • Além disso, esses autovetores podem ser prontamente identificados como abordagens comumente utilizadas em algebra linear, em particular o "singular value decomposition" (SVD), em conjunto com passos de normalização
Spectral Biclustering – SVD • Decompõe-se: E = A∆BT, • ∆ é uma matriz diagonal • A e B são matrizes ortogonais
Spectral Biclustering – SVD • As colunas de A e de B são autovetores de EET e ETE, respectivamente • As entradas de ∆ são raizes quadradas dos autovalores correspondentes
Spectral Biclustering – SVD • Então, os pares de autovetores são obtidos pegando, para cada i a i-ésima coluna de A e B, e o autovetor correspondente é ∆ii2
Spectral Biclustering • Para cada par de vetores pode-se verificar se cada um dos vetores pode ser aproximado usando um vetor "piecewise constant” • Kluger et al. utilizou um algoritmo de k-means unidimencional para testar isso • A estrutura de blocos dos autovetores apontam a estrutura de blocos das linhas e colunas de E
Spectral Biclustering • Em geral, as linhas e colunas de E são ordenadas arbitráriamente, e a estrutura de "checkerboard", se E tem uma, está escondida • Para revelar essa estrutura pode-se computar o SVD de E e analizar os autovetores de EET e ETE
Spectral Biclustering • A estrutura se manifestará na existencia de um par de autovetores (um de cada matriz) com o mesmo autovalor, que são aproximadamente "piecewise constant"
Spectral Biclustering - Normalização • Kluger et al. distute também sobre o problema de normalizar a matriz de expressão de genes para revelar as estruturas de "checkerboard" que estão obscuras (e.g. por diferenças nas médias dos níveis de expressão de genes ou condições)
Spectral Biclustering - Normalização • A normalização é feita utilizando duas matrizes: • R, uma matriz diagonal com a média da linha i na i-ésima posição • C, uma matriz diagonal com a média da coluna j na j-ésima posição
Spectral Biclustering - Normalização • A estrutura de blocos de E é refletida em pares de autovetores com o mesmo autovalor das matrizes normalizadas M = R-1EC-1ET e Mt • Esses pares podem ser deduzidos computando o SVD de R-1/2EC-1/2 • Por causa da normalização, o primeiro par de autovetores é constante e pode ser descartado
Plaid Models Plaid models é uma abordagem desenvolvida por Lazzeroni e Owen para a análise de dados de gene expression
Plaid Models A idéia básica do algoritmo é representar a matriz genes-condições como uma sobreposição de layers, correspondendo a biclusters em nossa terminologia, onde cada layer é um subconjunto de linhas e colunas com um determinado valor
Plaid Models Diferentes valores na matriz de expressão são vistos como diferentes cores Intensidades de cores em vez de nível de expressão As cores das linhas verticais e horizontais na matriz correspondem a uma camada
Plaid Models O modelo assume que o nível de entradas da matriz é a soma de um background uniforme e de k biclusters, cada um colorindo uma submatriz em particular
Plaid Models Mas precisamente a matriz de expressão é representada pela formula:
Plaid Models Quando o bicluster forma uma partição k dos genes e uma correspondente partição k das amostras, as disjointness constraints onde biclusters não podem se sobrepor podem ser formuladas como:
Plaid Models Substituindo <= por = exigiria a atribuição de cada linha ou coluna a exatamente um bicluster. Generalizando para permitir sobreposição de bicluster significa simplesmente remover as disjointness constraints
Plaid Models Estimando Parâmetros Inicialização e Regras de Parada
Discussões • Model and Score • Cada método define um esquema de score para garantia de qualidade dos biclusters candidatos • Cheng e Church Algorithm, Plaid Models, SAMBA • Restrições que determinam quais sub-matrizes representam um comportamento de bicluster significante • ISA, CTWC, Spectral Algorithm
Discussões • Abordagens Algorítmicas • Fases de Otimização de genes e condições alternadas • ISA, CTWC • Álgebra Linear ou Agoritmos de Otimização para sub-problemas • Plaid Models, Spectral Biclustering • Hill Climbing • Algoritmo de Cheng e Church e SAMBA
Discussão • Uma área recente se comparada com Clustering • Grande potencial para significantes contribuições a biologia e outros campos • Herdou algumas dificuldades presentes em Clustering
Links • http://acgt.cs.tau.ac.il/expander/
Referências • [1] Livro Texto, capítulo 26 – Biclustering Algorithms: A Survey • [2] L. Lazzeroni and A. Owen. Plaid Models • [3] http://arep.med.harvard.edu/biclustering • [4] http://ctwc.weizmann.ac.il • [5] http://barkai-serv.weizmann.ac.il/GroupPage
Algoritmos para Biclustering Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs Recife, 18 de Dezembro de 2007