230 likes | 467 Views
Bancos de Dados Biológicos Integração Através de Ontologias. Allan Lima adsl@cin.ufpe.br. Roteiro. Revisão sobre BDs Biológicos Integração de Dados para DBs Biológicos Aplicação de Ontologias The Gene Ontology Desafios para a próxima geração de BDs Biológicos.
E N D
Bancos de Dados BiológicosIntegração Através de Ontologias Allan Lima adsl@cin.ufpe.br
Roteiro • Revisão sobre BDs Biológicos • Integração de Dados para DBs Biológicos • Aplicação de Ontologias • The Gene Ontology • Desafios para a próxima geração de BDs Biológicos
Prevenção e terapia genética • Permitem a previsão de indivíduos com tendência a doenças • Imunoterapia • Evitar condições ambientais que possam estimular uma doença • Substituição de genes problemáticos (“curativo genético”) • Novas oportunidades de negócios na • Medicina • Agronomia • Zootecnia • Etc... Porém, para que isto seja possível temos que armazenar as informações genéticas em bases de dados
Recaptulando • Então surge o conceito Bancos de Dados Biológicos • Guardam seqüências de ácidos nucléicos e aminoácidos e suas respectivas anotações • Fornecem algoritmos para recuperação e análise destes dados
Pernambuco já tem contribuições na área • Laboratório de Genética Aplicada na UFRPE • Mapeamento de DNA Mitocondrial • litopenaeus vannamei já publicado no NCBI • http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=6689 • Hyporhamphus (unifasciatus e roberti) e Hemirhamphus (brasiliensis e balao) • Auxiliar no estudo de ecologia, conservação ou distribuição geográfica • Em processo de mapeamento
Integração Através de Ontologias The Gene Ontology
Integração de dadosem BDs biológicos Problema: Bancos de dados de biologia molecular possuem um grande e variado montante de tipos de dados Mas por que? Ainda não há um padrão que as implementações pretendem seguir
Diversas formas de armazenamento • Arquivos com uma dada estrutura própria • GenBank, ACeDB • Bancos de dados implementados via SGBD • Relacional, OO, OR. • Arquivos com dados em formato apropriado para execução de determinadas aplicações • FASTA e BLAST Como padronizar e integrar os projetos?
The Gene Ontology É um esforço colaborativo para endereçar a necessidade de descrições dos genes em diferentes bases de dados
The Gene Ontology The Gene Ontology Search Engine Flat Files BD Relacional XML
The Gene Ontology • Iniciado em 1998 com apenas 3 projetos • FlyBase (Drosophila) • Saccharomyces Genome Database (SGD) • Mouse Genome Database (MGD) • Estado atual • Conjunto de ontologias que diversos projetos já utilizam • Representação dos dados biológicos e dos seus significados (anotações) • Ferramentas de busca e análise • Ferramenta de edição de ontologias
The Gene Ontology • Padroniza • Processos biológicos • Estruturas anatômicas • Retículo Endoplasmático Rugoso • Produtos de um gene • Ribossomo • Componentes celulares • Série de eventos efetuados por um conjunto de funções moleculares • Transporte de glicose
The Gene Ontology • Padroniza (Continuação) • Funções Moleculares • Atividade que ocorrem no nível molecular • Catálise • Relacionamentos • is_a • Simples relacionamento entre subclasses • Cromossomo Nuclear is_a Cromossomo • part_of • Núcleo part_of Célula • O Núcleo sempre é parte de uma célula, mas nem toda célula possui um núcleo
Criando nossa própria base • Os aquivos de definem as ontologias são distribuídos livremente • Modelos SQL (MySQL) • Definição para o formato dos FlatFiles • Esquemas DTD para validar aquivos XML • Há ainda um conjunto de arquivos de mapeamento para algumas bases • Go Downloads
Modelos disponíveis para download (MySQL) • termdb • ontologias, definições e mapeamentos para outros bancos • assocdb • adiciona suporte para os produtos dos genes • seqdb • adiciona suporte para seqüências de proteínas • seqdblite • versão simplificada do bd
Buscando dados AmiGO • Busca um termo da ontologia e mostra todos os produtos de gene anotados para este • Procura por produto de gene e mostra suas associações • Realiza indentificações de seqüências com o algoritmo BLAST
Análise Crítica • Pontos negativos • Padrões podem inibir a criatividade • Nem sempre a adaptação é perfeita • Ferramenta de modelagem de ontologia bugada!? • Modelo obsoleto das ontologias (DTD) • Pontos positivos • TGO ataca o problema de padronização no armazenamento em diversos sentidos • Possui uma vasta documentação • Exemplos, Definições, Tutoriais, Wiki, etc. • Conta com várias bases de dados • Comunidade de pesquisadores • Links para Ferramentas
Desafios para a próxima geração • Compactação dos dados • Genoma humano ~ 3 gigabytes • Ontologias de integração • Metadados para as anotações • Inferência do significado das cadeias de DNA • Verssionamento
Referências • Seibel, L. F. B.; Lemos, M.; Lifschitz, S. Bancos de Dados de Genoma. Departamento de Informática. Pontifícia Universidade Católica do Rio de Janeiro • Laboratório de Genética e Expressão. Disponível em: http://www.lge.ibi.unicamp.br/. Último acesso: 25.07.2007 • PIR: Protein Information Resource. Disponível em: http://www-nbrf.georgetown.edu/. Último acesso: 25.07.2007 • GO: Gene Ontology. Disponível em: http://www.geneontology.org/. Último acesso: 25.07.2007 • NCBI: National Center for Biotechnology Information. Disponível em: http://www.ncbi.nlm.nih.gov/. Último acesso: 25.07.2007 • GenBank Overview. Disponível em: http://www.ncbi.nlm.nih.gov/Genbank/GenbankOverview.html. Último acesso: 25.07.2007 • IF694 - Bancos de Dados Distribuídos e Móveis. Disponível em: http://www.cin.ufpe.br/~if694/. Último acesso: 25.07.2007 • The Gene Ontology Project. Disponível em: http://www.cin.ufpe.br/~if694/. Último acesso: 25.07.2007
Bancos de Dados BiológicosIntegração Através de Ontologias Allan Lima adsl@cin.ufpe.br