560 likes | 678 Views
Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular. Departamento de Informática PUC-Rio Aluno: Luiz Fernando Bessa Seibel (seibel@inf.puc-rio.br) Orientador : Sérgio Lifschitz (lifschitz@inf.puc-rio.br). Agenda. Introdução Motivação
E N D
Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular Departamento de Informática PUC-Rio Aluno: Luiz Fernando Bessa Seibel (seibel@inf.puc-rio.br) Orientador: Sérgio Lifschitz (lifschitz@inf.puc-rio.br)
Agenda • Introdução • Motivação • Abordagens de integração • no contexto da biologia molecular • Trabalhos relacionados • A solução proposta - via framework • Funcionalidades • Instanciação dos hot spots • Modelo de dados da arquitetura • Modelo conceitual de informações biológicas • Comparação entre as arquiteturas de integração • Implementação da solução proposta • Estudos de caso • Contribuições • Trabalhos futuros Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Introdução • Proposta inicial do doutorado: Pesquisa na área de Bioinformática • Primeiro contato com FioCruz: 97 • Resposta à questão: “que modelo de dados é apropriado ?” • Importância de arquitetura de integração que atendesse requisitos da pesquisa • Importância de construção de índices para sequências (melhorar desempenho do BLAST) • Poucos grupos de pesquisa na área de bancos de dados e bioinformática: S. Davidson, N. Paton, N. Goodman, V. Markowitz Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
MotivaçãoRequisitos da Pesquisa em Bioinformática • Desafios: • Lidar com enormes volumes de dados de sequências e outras anotações biológicas, armazenadas em inúmeras fontes de dados heterogêneas, que estão distribuídas • Desenvolver algoritmos de suporte à interpretação dos dados • Novas descobertas precisam ser incorporadas às fontes de dados e podem exigir reconstrução dos algoritmos • Novo ramo da ciência: Bioinformática Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
MotivaçãoRequisitos da Pesquisa em Bioinformática • Problemas a resolver: • acesso eficiente e integrado às informações • tratamento da evolução dos esquemas das fontes de dados • tratamento da heterogeneidade das fontes de dados • formulação de consultas complexas • acesso a dados atualizados • uso de estruturas de índices para acesso aos dados • desenvolvimento de algoritmos específicos • qualidade das informações armazenadas Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
MotivaçãoFontes de Dados de Biologia Molecular • Arquivos texto • Bancos de dados que usam modelos de dados distintos (relacional, orientado a objetos, relacional-objeto, semi-estruturados) • Arquivos com formatos apropriados para a execução de algoritmos específicos (ex: FASTA, BLAST) Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
MotivaçãoFontes de Dados de Biologia Molecular • Armazenam informações complementares do domínio do conhecimento • sequências de nucleotídeos e de proteínas • estruturas de proteínas • microarrays de DNA • anotações de fenômenos biológicos • taxonomia • publicações • pessoas e centros de pesquisa Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
MotivaçãoFontes de Dados de Biologia Molecular • Contém dados de: • diversos organismos [GenBank, PIR, Swiss-Prot] • um organismo [AceDB, TcruziDB] • células específicas (ou partes de) [Mitomap] • funções biológicas específicas [ExPASy] • mutações [Human Mutation Databases] Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
MotivaçãoAplicações e Ferramentas • Estão associadas às fontes de dados • Cada fonte disponibiliza um conjunto reduzido de aplicações • Podem exigir formatos específicos • Existe código fonte público • Exemplos: • Depuração das sequências [LabBase] • Sistema automático de submissão de sequências [LabBase] • Montagem de fragmentos [Phred-Phrap] • Pesquisa de genes [GeneFinder] • Comparação de sequências [FAST, BLAST] • Alinhamento de sequências [ClustalW] • Visualização do mapa do cromossomo / fragmento [AceDB] Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Abordagens de Integração no Contexto da Biologia Molecular(Trabalhos Relacionados) • Via SGBDDH • Via multidatabase • CPL/Kleisli por P. Buneman, S. Davidson et al. • Via data warehouse • GIMS por N. Paton, C. Goble et al. • Via mediador • proposto por P. Karp • Outras formas de integração usadas em biologia • Via navegação hipertexto entre registros de fontes de dados • Entrez (NCBI) • Via sistemas de links entre fontes de dados • SRS (EBI) Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Discussão das Abordagens de Integração da Biologia Molecular Ferramentas apresentam limitações: • São pouco flexíveis • adotam modelo de dados / esquema próprio • tem dificuldades inerentes à alteração dos esquemas • não permitem o uso das aplicações disponíveis • Apresentam baixa performance • Não são extensíveis • não permitem incorporar aplicações existentes • limitam o uso das fontes de dados envolvidas • não permitem a instanciação de uma fonte de dadosapropriada a uma pesquisa específica Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Por que a integração via framework ? Definição: “Um Framework é uma arquitetura abstrata de software, flexível e extensível, que contém componentes pré-definidos (frozen spots) e outros que devem ser instanciados (hot spots) para a implementação de um desejado e particular sistema” Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
A Solução Proposta O framework proposto propicia: • Flexibilidade, através da • captura dos esquemas das fontes de dados da biologia • definição e manutenção de um esquema próprio • definição de um modelo de dados / ontologia efetivamente usada nas fontes de dados existentes • utilização das aplicações disponíveis • Alta performance no acesso aos dados • Extensibilidade, através da • incorporação de qualquer aplicação existente • incorporação de qualquer fonte de dados de biologia • instanciação de uma fonte de dados para uma pesquisaespecífica Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
A Solução Proposta O framework proposto também propicia: • Tratar a evolução dos esquemas das fontes de dados • detecta alteração de esquemas, viaagente de monitoração • informa ao usuário administrador que houve alteração • usuário administrador procede a uma nova captura, no momento adequado => alteração dos esquemas é assíncrona ! • Tratar a evolução dos esquemas específicos • a qualquer momento, por ação do administrador Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
A Solução Proposta O framework propicia ainda: • Tratar a atualização das instâncias de dados • monitora atualização da fonte de dados • procede à alteração de forma autônoma • termina atualização por ação do administrador O framework é uma solução de integração mais geral do que as existentes e pode ser aplicado a outros domínios, desde que tenham os mesmos requisitos Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Apresentação da Arquitetura Framework para Integração de Fontes de Dados e Aplicações da Biologia Molecular Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Aplicações da Biologia Dados Metadados Fonte 1 Fonte 2 Fonte 3 Usuários Aplic.1 Aplic.2 Aplic.3 Administrador Driver 1 Driver 2 Driver 3 Drivers de Aplicação Modelo da Biologia Capturador Conversor (Wrappers) Wrapper 1 Wrapper 2 Wrapper 3 Arquitetura do Framework Fontes de Dados da Biologia Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Funcionalidades Captura de Esquemas Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Metadados Fonte 1 Usuário Administrador Administrador Capturador Conversor (Wrappers) Wrapper 1 Arquitetura do Framework Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Funcionalidades Incremento do Modelo da Biologia Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Metadados • Identifica Objetos • Relaciona Objetos • Define Ontologia Usuário Administrador Administrador Modelo da Biologia Capturador Arquitetura do Framework Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Funcionalidades Definição de um Esquema Específico Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Metadados • Seleciona objetos do modelo Usuário Administrador Administrador Modelo da Biologia Capturador Arquitetura do Framework Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Funcionalidades Captura de Dados Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Dados Metadados Fonte 1 Fonte 2 Usuário Administrador Administrador Modelo da Biologia Capturador Conversor (Wrappers) Wrapper 1 Wrapper 2 Arquitetura do Framework Fontes de Dados da Biologia Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Funcionalidades Geração de Dados para Aplicações Externas Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Dados Metadados Usuário Administrador Aplic.1 Administrador Driver 1 Drivers de Aplicação Capturador Arquitetura do Framework Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Funcionalidades Consultas aos Dados e Esquemas Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Dados Metadados Usuário Administrador Capturador Arquitetura do Framework Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Funcionalidades Execução de Métodos da Biologia Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Dados Metadados Usuário Administrador Modelo da Biologia Capturador Arquitetura do Framework Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Funcionalidades Tratamento da Atualização de Esquemas Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Metadados Fonte 1 Fonte 2 Fonte 3 Usuário Administrador Administrador Capturador Conversor (Wrappers) Wrapper 1 Wrapper 2 Wrapper 3 Arquitetura do Framework Fontes de Dados da Biologia Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Funcionalidades Tratamento da Atualização de Dados Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Metadados Dados Fonte 1 Fonte 2 Usuário Administrador Administrador Capturador Conversor (Wrappers) Wrapper 1 Wrapper 2 Arquitetura do Framework Fontes de Dados da Biologia Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
FrameworkInstanciação de Wrappers Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
FrameworkInstanciação de Drivers Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
O uso de XML e XML Schema • XML possui características voltadas para solução de problemas de bioinformática: • flexível • orientada à Internet • usada para especificar padrões de dados • pode ser lida por qualquer editor de textos • Usada para troca de informações entre fontes de dados • Diversas ferramentas disponíveis Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
O uso de XML e XML Schema • XML Schema é mais completo para a descrição de dados XML do que DTD • Existem geradores automáticos de XML Schema a partir de XML • XML Schema tem as construções necessárias para descrever esquemas • RDF é aplicado a outro tipo de problema • XML representa uma estrutura hierárquica cujos nós estão presentes em um documento • RDF respresenta um grafo rotulado cujos nós são recursos que normalmente estão externos ao documento Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Modelo da Biologia • OMG apresenta propostas de parte do modelo da biologia (foco no genoma) • GIMS apresenta proposta incompleta do modelo da biologia (ex: estruturas de proteínas) • Modelos consideram aspectos não biológicos (ex: detalhes implementação - Corba) • Modelos não identificam aspectos tecnológicos (ex: fragmentos, experimentos com microarrays, etc.) Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Modelo ConceitualGenoma Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Modelo ConceitualGenoma Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Modelo ConceitualGenoma Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Modelo ConceitualGenoma Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Modelo ConceitualProteoma Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Comparação entre as Arquiteturas de IntegraçãoCritérios • Permitir a formulação de consultas complexas, via web, também via interface amigável • Permitir acesso a todas as fontes de dados • Lidar com o ambiente heterogêneo • Permitir transparência de esquema e de localização Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Comparação entre as arquiteturas de integraçãoCritérios • Tratar atualização de esquemas e dados • Adotar esquema coerente com os das fontes de dados • Instanciar fonte específica para uma pesquisa biológica • Permitir execução de todos os aplicativos disponíveis • Facilitar entendimento dos objetos biológicos Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Comparação entre as arquiteturas de integração Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Implementação da Arquitetura Proposta • Implementada em Java • Orientada a Objetos • Portabilidade • Reuso • Interface Web • Persistência via Oracle 9i • Tipo de dados XMLType • Consultas: SQL e uso de expressões XPATH • Índices em elementos XML Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular
Implementação da Arquitetura Proposta • Implementação dos wrappers • Swiss-Prot: • Construção do analisador gerando código XML • Geração do esquema (via SPY) • GenBank: • Uso do analisador READSEQ, que gera código XML • Geração do esquema (via SPY) • PIR: • Já disponibiliza dados em XML • Geração do esquema (via SPY) Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular