280 likes | 400 Views
Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo. Christian Baudet Zanoni Dias (Orientador). Instituto de Computação – Unicamp Campinas, 05 de Setembro de 2008. Roteiro. Motivação Conceitos Descrição do Projeto
E N D
Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador) • Instituto de Computação – Unicamp • Campinas, 05 de Setembro de 2008
Roteiro • Motivação • Conceitos • Descrição do Projeto • Estágio no Exterior • Cronograma de Atividades
Motivação • Importância da pesquisa genômica • Rearranjo de genomas • Mecanismos de evolução
Rearranjo de Genomas • Eventos de rearranjos • Transformam o genoma das espécies • Grande influência na evolução • Espécies próximas • Diferenças na ordem dos genes • Reversões • Transposições • Translocações
Reversões • Inversão na direção de um trecho do cromossomo:
Reversões • Permutações não orientadas • Problema NP-Completo (Caprara, 1999) • Berman, Hannehalli e Karpinski, 2002 • Algoritmo de aproximação com fator 1.375 • Permutações orientadas • Tempo polinomial • O(n4) – Hannenhalli e Pevzner, 1995 • O(n2) – Bergeron, 2001 • Apenas cálculo de d() • O(n) – Bader, Moret e Yan, 2001
Transposições • Troca de posições entre dois blocos consecutivos no cromossomo:
Transposições • Ordenação por transposições • Problema em aberto • Bafna e Pevzner, 1995 • Primeiro algortimo de aproximação • O(n2) e fator 1.5 • Christie, 1996 • Block-interchange – Algoritmo O(n2) • Elias e Hartman, 2005 • Algoritmo de aproximação com fator 1.375
Translocações • Trocas entre prefixos/sufixos de dois cromossomos diferentes:
Translocações • Permutações não orientadas • Problema em aberto • Kececioglu e Ravi, 1995 • Algoritmo de aproximação com fator 2 • Permutações orientadas • O(n3) – Hannehalli, 1996 • O(n2) – Wang et al., 2005 • Apenas cálculo de distância de translocação • O(n) – Li et al., 2002
Enumeração de Soluções de Distância de Reversão • Braga et al. • The Solution Space of Sorting by Reversals (2007) • Exploring the Solution Space of Sorting by Reversals, with Experiments and an Application to Evolution (2008) • Enumeração de todas as soluções • Utilização do conceito de traces
Traces • Relação de equivalência • Se ρ e θ são reversões e não se sobrepõem, então ρθe são θρequivalentes • Classes de equivalências • Relação acima é aplicada às soluções do problema de distância de reversão • Traces têm a propriedade de “compactar” o enorme conjunto de soluções • Resultados mais representativos
Traces – Forma Normal • Decomposição: s = u1|...|um • Todo par de elementos da sub-palavra ui comutam entre si • Para todo elemento ρ de uma sub-palavra ui (i > 1), existe ao menos um elemento θ da palavra ui-1 tal que ρe θ não comutam • Toda palavra ui é uma palavra crescente não vazia com relação à ordem lexográfica induzida por A • Teorema – Cartier e Foata, 1969 • Todo trace possui uma única forma normal
Enumeração de Soluções de Distância de Reversão • Siepel, 2003 • Optimal i-sequence : s= ρ1 ρ2... ρi • d( ρ1 ρ2... ρi) = d() – i • Obtém todas optimal 1-sequences em tempo O(n3) • Algoritmo iterativo • Calcular todas i-sequences a partir de todas as (i-1)-sequences • Braga et al. 2007 • Calcular todos i-traces a partir de todos os (i-1)-traces
Enumeração de Soluções de Distância de Reversão • Braga et al. 2007 e 2008 • Algoritmo que enumera todos os traces das soluções do problema de distância de reversão • Algoritmo exponencial • Altas complexidades de tempo e de espaço • Limitado a permutações pequenas (n < 20) • Adição de restrições biológicas para reduzir o espaço de soluções
Alinhamento de Sequências com Reversões • Vellozo et. al • Alignment with Non-overlapping Inversions in O(n3)-Time (2006) • Alinhamento de sequências • Inversões que não se sobrepõem • Complexidade de tempo O(n3) • Complexidade de espaço O(n2)
Alinhamento de Sequências com Reversões • Grafo de edição
Alinhamento de Sequências com Reversões • Grafo de edição estendido
Alinhamento de Sequências com Reversões • Matriz B • Cada célula (i,j) mantém o peso do caminho ótimo de (0,0) até (i,j) • Diversas matrizes e vetores auxiliares
Alinhamento de Sequências com Reversões • Vellozo et. al, 2006 • Algoritmo utiliza espaço quadrático • Não utiliza pontuação afim • Peso de reversão constante
Projeto • Enumeração de Soluções • Aplicar o algoritmo ao gênero Wolbachia • Reduzir consumo de memória • Combinar conceitos: Traces + Transposição • Algoritmo de aproximação de fator 1.375 para o problema de distância de transposição
Projeto • Alinhamento com eventos de rearranjo • Estender algoritmo para utilização de pontuação afim • Função que penalize as reversões conforme os seus tamanhos • Transposição • Algoritmo que realize alinhamento utilizando eventos de transposição
Estágio no exterior • Estágio em Lyon – França • Professora Marie-France Sagot • Grupo BAMBOO-BAOBAB • Visita em Fevereiro/2007 • Braga e Vellozo trabalham no laboratório • Intercâmbio com pessoas familiarizadas com os problemas que serão abordados no projeto
Cronograma • Disciplinas • Revisão Bibliográfica • Visita ao grupo BAOBAB • Preparação para o Exame de Qualificação Específico
Cronograma • Aplicar algoritmo de enumeração de soluções de distância de reversão ao gênero Wolbachia • Incorporação de pontuação afim ao algoritmo de alinhamento de sequências com reversões
Cronograma • Estágio no Exterior • Redução de consumo de memória do algoritmo de enumeração • Redução de consumo de memória do algoritmo de alinhamento • Adição de função de peso para as reversões ao algoritmo de alinhamento
Cronograma • Algoritmo de alinhamento de sequências usando transposições • Algoritmo de enumeração de soluções de distância de transposição • Conclusão da escrita da tese • Defesa • Entrega da versão final