1.18k likes | 1.32k Views
DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO INDUSTRIAL. FACULDADE DE ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO. UNICAMP. Técnicas Computacionais de Alto Desempenho para Processamento de Dados em Bioinformática e em Biologia Computacional. Fernando Von Zuben vonzuben@dca.fee.unicamp.br.
E N D
DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO INDUSTRIAL FACULDADE DE ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO UNICAMP Técnicas Computacionais de Alto Desempenho para Processamento de Dados em Bioinformática e em Biologia Computacional Fernando Von Zuben vonzuben@dca.fee.unicamp.br http://www.lbic.fee.unicamp.br CAMPINAS - BRASIL
Conteúdo da Apresentação • Bioinformática • Aspectos computacionais • Árvores Filogenéticas • Expressão Gênica • Seleção de Características • Reconhecimento de Padrões • Inferência bayesiana • Modelagem de fenômenos espaço-temporais
Colaboradores • Clodoaldo Aparecido de Moraes Lima • George Barreto Pereira Bezerra • Helder Knidel • Lalinka de Campos Teixeira Gomes • Leandro Nunes de Castro Silva • Pablo Alberto Dalbem de Castro • Wilfredo Jaime Puma Villanueva
Conteúdo da Apresentação • Bioinformática • Aspectos computacionais • Árvores Filogenéticas • Expressão Gênica • Seleção de Características • Reconhecimento de Padrões • Inferência bayesiana • Modelagem de fenômenos espaço-temporais
Bioinformática (definições extraídas da Web) Bioinformatics is currently defined as the study of information content and information flow in biological systems and processes. It has evolved to serve as the bridge between observations (data) in diverse biologically-related disciplines and the derivations of understanding (information) about how the systems or processes function, and subsequently the application (knowledge). A more pragmatic definition in the case of diseases is the understanding of dysfunction (diagnostics) and the subsequent applications of the knowledge for therapeutics and prognosis.
Bioinformática (definições extraídas da Web) The design and application of computer and statistical techniques to the management of biological information. In genome projects this includes the development of methods to search databases quickly, to analyze DNA sequence information, and to predict protein sequence and structure from DNA sequence data.
Bioinformática (definições extraídas da Web) Bioinformatics derives knowledge from computer analysis of biological data. It concerns large-volumes of biological information, recently genomic sequences, gene expression data from microarrays, protein-interactions, and three-dimensional ("3D") macromolecular structure, but in a broader sense includes various other sources such as clinical trial data. Bioinformatics encompasses research with, and applications of such information, as well as the development of the supporting computational methods and tools.
Bioinformática (definições extraídas da Web) The field of science in which biology, computer science, and information technology merge into a single discipline. There are three important sub-disciplines within bioinformatics: (1) the development of new algorithms and statistics with which to assess relationships among members of large data sets; (2) the analysis and interpretation of various types of data including nucleotide and amino acid sequences, protein domains, and protein structures; and (3) the development and implementation of tools that enable efficient access and management of different types of information.
Áreas correlatas Bioinformática Biologia Computacional Computação Biomédica Biomatemática
Further steps “I believe that Bioinformatics and Computational Biology training programs are better led from a Biological, rather than a Computer Science, perspective. Although Bioinformatics databases, web sites, and analysis pipelines present interesting engineering problems, the most interesting problems from a Computer Science perspective, which are often rooted in machine-learning or combinatorial algorithms, have not produced the tools that have the greatest impact for Biologists.” William R. Pearson, University of Virginia
Pesquisa no LBiC • Execução de pesquisa em ciência da computação voltada para problemas da biologia. • Concepção de paradigmas computacionais baseados em sistemas biológicos: computação bio-inspirada. • Colaboração com outros grupos de pesquisa, inclusive biólogos • Atuação em outras linhas da engenharia de computação, como robótica autônoma e aprendizado de máquina.
Pesquisa no LBiC • Ferramentas computacionais para bioinformática: • Manipular grande quantidade de dados • Integrar módulos de processamento • Realizar data mining • Organizar e visualizar resultados • Apoio em modelagem e validação de teorias
Conteúdo da Apresentação • Bioinformática • Aspectos computacionais • Árvores Filogenéticas • Expressão Gênica • Seleção de Características • Reconhecimento de Padrões • Inferência bayesiana • Modelagem de fenômenos espaço-temporais
Aspectos Computacionais • Problemas computáveis e problemas factíveis • Blocos construtivos de qualquer algoritmo • Como lidar com problemas intratáveis • Desafio computacional • Problemas combinatórios • Problemas multimodais
Uma questão de organização Os computadores foram concebidos de modo a realizar processamento e memória em dispositivos físicos distintos.
. . . instrução ou grupo de intruções p instrução 1 instrução 1 instrução 2 seleção seleção . . . instrução 2.2 instrução 2.1 instrução p+1 . . . . . . instrução n . . . Blocos construtivos de qualquer algoritmo
Uma questão prática • Como lidar com problemas computáveis mas intratáveis?
Uma resposta direta • Trabalhar com algoritmos aproximados em lugar de algoritmos exatos.
Desafio computacional Espaço de Busca + Objetivo(s) Máquina de busca
O que é ciência da computação? • Programação (algoritmos) • Estrutura de dados • Complexidade • Redes e sistemas distribuídos • Interação humano-máquina • Sistemas inteligentes • Gerenciamento de informação • Ciência aplicada
Estado da arte • Science in the 21st century is information intensive. Peter Karp
Conteúdo da Apresentação • Bioinformática • Aspectos computacionais • Árvores Filogenéticas • Expressão Gênica • Seleção de Características • Reconhecimento de Padrões • Inferência bayesiana • Modelagem de fenômenos espaço-temporais
Árvores Filogenéticas • Introdução • Tipos de Filogenia • Explosão combinatória • Métodos disponíveis • Phylogenetic Tree Project • Multi-Neighbor-Joining • Visualização de árvores
Introdução • O que é inferência filogenética? Relação de ancestralidade. Número de mudanças desde a divergência do ancestral comum mais recente. Topologia Comprimento do ramo
Tipos de filogenia • Molecular Não-molecular • Fenética (baseada em métricas de similaridade) Cladística (baseada em caracteres) • Baseada em modelo Não-baseada em modelo • Construtiva (Algorítmica) Baseada em busca
Raiz 0,04269 0,02883 8 9 0,02866 0,0000 0,23497 0,01234 7 Homem Chimpanzé Gorila 0,080314 0,13974 Orangotango Gibão Explosão combinatória
A B C D D B A C Árvores com e sem raiz Contém noção de ordem temporal. Não contém noção de ordem temporal.
Alguns métodos disponíveis • Métodos não baseados em modelo • Matriz de distâncias • UPGMA (unweighted pair-group method using an arithmetic average) – Sokal & Michener (1958) • Quadrados mínimos • Ordinário - Cavalli-Sforza & Edwards (1967) • Ponderado - Fitch-Margoliash(1967) • Evolução mínima - Edwards & Cavalli-Sforza (1963) • Neighbor-Joining - Saitou & Nei (1987) • Máxima Parcimônia - Eck & Dayhoff (1966) • Método baseado em modelo • Máxima Verossimilhança – Cavalli-Sforza & Edwards (1964)
Inferindo filogenias Como reconstruir árvores filogenéticas? Reconstrução da árvore Algorítmica Baseada em busca Parcimônia Distância Maximum Likelihood UPGMA WPGMA Neighbor Joining
A 1 (6) A 2 (7) A 3 (8) E 1 (1) E 2 (2) E 3 (3) A 4(9) E 4 (4) E 5(5) E 5 (5) A 4 (9) E 1 (1) E 2 (2) E 3 (3) E 4 (4) A 1 (6) A 2 (7) A 3 (8) Pais A 1 (6) A 2 (7) A 3 (8) A 4 (9) Codificação utilizada
Desafio computacional Espaço de Busca + Objetivo(s) Máquina de busca
Inferindo filogenias Como reconstruir árvores filogenéticas? Reconstrução da árvore Algorítmica Baseada em busca Parcimônia Distância Maximum Likelihood UPGMA WPGMA Neighbor Joining
A B C D E A 0 22 39 39 41 D C D DE E ABC Z d B 22 0 41 41 43 C D - - 19 10 32,6 40 Lxy e C 39 41 0 18 20 x y E DE - - - - 34,6 41 D A 4 E 28,6 D 39 41 18 0 10 Z ABC - - - - - - B 6 E E 41 43 20 10 0 C A B A B C DE C E A - 22 39 40 D B - 41 42 C - 19 DE - A B P A A - 22 39,6 C D A a 4 10 9 B - 41,6 Lqp b 5 q p P - 6 12 B E B DE Neighbor-Joining passo-a-passo Lxy + d = 32,6 Lxy + e = 34,6 d + e = 10 Lxy = 28,6 d = 4 e = 6 LDE + c = 19 Lzw + c = 40 LDE + Lzw = 41 Lzw = 5 LDE = 10 C = 9 DE LDE C Lzw D A 4 c z w 5 C 6 E B Lqp + a = 39,6 Lqp + b = 41,6 a + b = 22 Lqp = 29,7 a = 10 b = 12 Lqw = Lqw = 20
1 2 3 5 4 1 5 6 1 3 1 2 4 3 4 4 1 4 2 2 3 2 5 5 5 3 1 3 7 6 4 2 5 3 1 4 7 6 1 4 4 4 3 1 2 5 2 2 2 5 5 5 3 1 3 1 2 5 4 3 Multi-Neighbor-Joining: Algoritmo com múltiplas decisões de junção (1,2) (1,3) (2,4) . . . . . . . . . . . . . . .
Múltiplas perspectivas Topologia fornecida pelo NJ original (à esquerda) e duas propostas alternativas para sub-ramos (à direita)
Ferramenta de visualização para árvores sem raiz Fitness Function: 1) Number of crossing branches; 2) Angle between branches; 3) Descendents and anscestral alignments. Input: code in Newick Format • Tree visualization as an • optimization problem; • Use of Evolution Strategies • to solve the optimization problem; Output: Unrooted tree
Desafio computacional Espaço de Busca + Objetivo(s) Máquina de busca