Algoritmos para Biclustering (parte 2)

Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs Algoritmos para Biclustering(parte 2) Recife, 20 de Dezembro de 2007

Roteiro • Introdução • Biclustering • SAMBA • Spectral Biclustering • Plaid Models • Discussão

Introdução - Biclustering • Dado um conjunto de perfis de expressões gênicas, organizadas juntas como uma matriz com linhas correspondente a genes e colunas correspondendo a condições

Introdução - Biclustering • Bicluster é definido como uma submatriz "amarrada" a um conjunto de genes e um conjunto de amostras

SAMBA • Identifica Biclusters através: • Modelagem probabilística dos dados • Técnicas da teoria dos grafos • Dados modelados como grafos bipartidos: … Genes G = (U,V,E) Expressões Condições …

SAMBA • Pares de vértices possuem pesos: • Modelo probabilístico • Problema: • Busca pelo subgrafo com maior peso Genes Expressões H = (U ’,V ‘, E’) Condições

SAMBA • Três “módulos”: • Modelagem estatística dos dados • Algoritmo de busca • Algoritmo completo

SAMBA – Modelagem estatística dos dados • Acoplado ao grafo existe um modelo de probabilidade proporcional: • Pesos aos pares de vértices • Peso de um subgrafo: • Soma dos pesos dos pares gene-condição

SAMBA – Modelagem estatística dos dados • Null Model • A ocorrência de cada aresta (u,v) é uma variável independente de Bernoulli com parâmetro (probabilidade de um subgrafo possuir (u,v) ) Função de Probabilidade Distribuição de Bernoulli

SAMBA – Modelagem estatística dos dados • Probabilidade estimada através do processo Monte Carlo • Capturar características de diferentes genes e condições nos dados

SAMBA – Modelagem estatística dos dados • Alternative Model • Cada aresta ocorre com uma probabilidade constante e alta

SAMBA – Modelagem estatística dos dados • Utilizando o peso de cada aresta (u,v) igual a e de cada não-aresta (u,v) igual a o score de H seria seu peso • Modelo assume que biclusters representam relações aproximadamente uniformes entre seus elementos

SAMBA – Algoritmo de Busca • Encontrar melhor subgrafo • NP-Hard • SAMBA utiliza heurística • Bicliques como sementes • Algoritmo para encontrar sementes

SAMBA – Algoritmo de Busca

SAMBA – Algoritmo de Busca • Grau de cada gene limitado por d • N(v) = conjunto de vértices adjacentes a v

SAMBA – Algoritmo Completo • Duas fases • Grafo bipartido formado e pesos computados • Subgrafos ótimos procurados • Segunda fase realizada com uso de sementes e expansões através de buscas locais

SAMBA – Algoritmo Completo

Spectral Biclustering • Análise global de níveis de expressão de RNA são úteis pra classificação de genes e fenótipos • Problemas de classificação estão ligados a encontrar "marker genes" que são diferentemente expressados em conjuntos particulares de condições

Spectral Biclustering • Spectral Biclustering é baseado na observação de estruturas de "checkerboard", em matrizes de expressão os dados podem ser encontrados em autovetores correspondentes a padrões de expressão

Spectral Biclustering

Spectral Biclustering • Além disso, esses autovetores podem ser prontamente identificados como abordagens comumente utilizadas em algebra linear, em particular o "singular value decomposition" (SVD), em conjunto com passos de normalização

Spectral Biclustering – SVD • Decompõe-se: E = A∆BT, • ∆ é uma matriz diagonal • A e B são matrizes ortogonais

Spectral Biclustering – SVD • As colunas de A e de B são autovetores de EET e ETE, respectivamente • As entradas de ∆ são raizes quadradas dos autovalores correspondentes

Spectral Biclustering – SVD • Então, os pares de autovetores são obtidos pegando, para cada i a i-ésima coluna de A e B, e o autovetor correspondente é ∆ii2

Spectral Biclustering • Para cada par de vetores pode-se verificar se cada um dos vetores pode ser aproximado usando um vetor "piecewise constant” • Kluger et al. utilizou um algoritmo de k-means unidimencional para testar isso • A estrutura de blocos dos autovetores apontam a estrutura de blocos das linhas e colunas de E

Spectral Biclustering • Em geral, as linhas e colunas de E são ordenadas arbitráriamente, e a estrutura de "checkerboard", se E tem uma, está escondida • Para revelar essa estrutura pode-se computar o SVD de E e analizar os autovetores de EET e ETE

Spectral Biclustering • A estrutura se manifestará na existencia de um par de autovetores (um de cada matriz) com o mesmo autovalor, que são aproximadamente "piecewise constant"

Spectral Biclustering - Normalização • Kluger et al. distute também sobre o problema de normalizar a matriz de expressão de genes para revelar as estruturas de "checkerboard" que estão obscuras (e.g. por diferenças nas médias dos níveis de expressão de genes ou condições)

Spectral Biclustering - Normalização • A normalização é feita utilizando duas matrizes: • R, uma matriz diagonal com a média da linha i na i-ésima posição • C, uma matriz diagonal com a média da coluna j na j-ésima posição

Spectral Biclustering - Normalização • A estrutura de blocos de E é refletida em pares de autovetores com o mesmo autovalor das matrizes normalizadas M = R-1EC-1ET e Mt • Esses pares podem ser deduzidos computando o SVD de R-1/2EC-1/2 • Por causa da normalização, o primeiro par de autovetores é constante e pode ser descartado

Plaid Models Plaid models é uma abordagem desenvolvida por Lazzeroni e Owen para a análise de dados de gene expression

Plaid Models A idéia básica do algoritmo é representar a matriz genes-condições como uma sobreposição de layers, correspondendo a biclusters em nossa terminologia, onde cada layer é um subconjunto de linhas e colunas com um determinado valor

Plaid Models Diferentes valores na matriz de expressão são vistos como diferentes cores Intensidades de cores em vez de nível de expressão As cores das linhas verticais e horizontais na matriz correspondem a uma camada

Plaid Models

Plaid Models O modelo assume que o nível de entradas da matriz é a soma de um background uniforme e de k biclusters, cada um colorindo uma submatriz em particular

Plaid Models Mas precisamente a matriz de expressão é representada pela formula:

Plaid Models Quando o bicluster forma uma partição k dos genes e uma correspondente partição k das amostras, as disjointness constraints onde biclusters não podem se sobrepor podem ser formuladas como:

Plaid Models Substituindo <= por = exigiria a atribuição de cada linha ou coluna a exatamente um bicluster. Generalizando para permitir sobreposição de bicluster significa simplesmente remover as disjointness constraints

Plaid Models Estimando Parâmetros Inicialização e Regras de Parada

Discussões • Model and Score • Cada método define um esquema de score para garantia de qualidade dos biclusters candidatos • Cheng e Church Algorithm, Plaid Models, SAMBA • Restrições que determinam quais sub-matrizes representam um comportamento de bicluster significante • ISA, CTWC, Spectral Algorithm

Discussões • Abordagens Algorítmicas • Fases de Otimização de genes e condições alternadas • ISA, CTWC • Álgebra Linear ou Agoritmos de Otimização para sub-problemas • Plaid Models, Spectral Biclustering • Hill Climbing • Algoritmo de Cheng e Church e SAMBA

Discussão • Uma área recente se comparada com Clustering • Grande potencial para significantes contribuições a biologia e outros campos • Herdou algumas dificuldades presentes em Clustering

Links • http://acgt.cs.tau.ac.il/expander/

Referências • [1] Livro Texto, capítulo 26 – Biclustering Algorithms: A Survey • [2] L. Lazzeroni and A. Owen. Plaid Models • [3] http://arep.med.harvard.edu/biclustering • [4] http://ctwc.weizmann.ac.il • [5] http://barkai-serv.weizmann.ac.il/GroupPage

Algoritmos para Biclustering Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs Recife, 18 de Dezembro de 2007

Algoritmos para Biclustering (parte 2)

Algoritmos para Biclustering (parte 2)

Presentation Transcript

Algoritmos de búsqueda Fill Zone

Algoritmos em Grafos

Espanhol para Graduação em Humanidades Nível 1

Análise de ALGORITMOS – PARTE 2

Para el viernes

Associação: algoritmos (parte 2) prof. Luis Otavio Alvares INE/UFSC

Introducción al Biclustering

Algoritmos em Grafos

Algoritmos para Projeção eliminando Duplicatas

Algoritmos para Ordenar datos

Algoritmos de Busca Parte II

Parte II. Algorítmica. 1. Análisis de algoritmos. 2. Divide y vencerás. 3. Algoritmos voraces.

Algoritmos para Seleção Simples

Laboratorio Análisis y Diseño de Algoritmos 2

Parte II. Algorítmica. 1. Análisis de algoritmos. 2. Divide y vencerás. 3. Algoritmos voraces.

Envolvente convexa Parte 1: Algoritmos

Curso Básico de Algoritmos

Actividad 3 Algoritmos Genéticos

Algoritmos para Operações Binárias entre blocos SQL

Para el lunes

Heurísticas, algoritmos gulosos e aproximações

Projeto e Análise de Algoritmos