590 likes | 820 Views
Formato de Arquivos e Banco de Dados Biológicos II. Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br. Sumário. Principais Repositórios NCBI Entrez Tipos de Arquivos Aquisição de dados EBI EB-eye Tipos de arquivos Aquisição de dados Comparação Atividades. Principais Bancos.
E N D
Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br
Sumário • Principais Repositórios • NCBI • Entrez • Tipos de Arquivos • Aquisição de dados • EBI • EB-eye • Tipos de arquivos • Aquisição de dados • Comparação • Atividades
Principais Bancos • NCBI (National Center for Biotechnology Information) 1988 – Criado como fonte nacional (norte americana) de informações sobre biologia molecular • Bancos de Dados públicos; • Pesquisas na área da biologia computacional; • Desenvolvimento de ferramentas para análise de dados genômicos; • Informações biomédicas. http://www.ncbi.nlm.nih.gov/
NCBI Eu já sei o que eu busco? Ou quero descobrir o que existe a respeito do que busco?
Entrez Sistema de busca robusto que realiza a procura simultânea em múltiplos bancos.
Entrez Colocar a imagem parcial Mapa do relacionamento entre os diferentes bancos de dados. Mapa
Formato GenPept http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
Formato GenPept GB: gene bank - accession number identifica a seqüência e sua versão
Formato GenPept GI : genInfo Identifier identificador único para cada seqüência
Formato GenPept O número do taxon é importante para pesquisas nos BDs.
Formato Fasta > identificação
Formato ASN É um sistema de notação usado para descrever dados que serão trocados em um sistema computacional distribuído. Inclui nucleotídeos e proteínas.
Acesso aos Dados • SOAP (Service Oriented Architecture Protocol) • EInfo – Fornece a contagem, a última atualização e os links disponíveis para cada banco de dados para um determinado campo de indexação. • ESearch – Busca e retorna IDs primárias (para uso no EFetch, Elink e Esummary), palavras traduzidas e opcionalmente retém resultados para uso futuro. • EPost – Cria um arquivo contendo uma lista de IDs primários para uso nas estratégias de busca sub-sequentes. • ESummary– Retorna o resumo de documentos a partir de uma lista de ID primários fornecida pelo usuário.
Acesso aos Dados Descrição das funções do E-Utilities: http://www.ncbi.nlm.nih.gov/entrez/query/static/esoap_toolkit.html • SOAP • EFetch – Retorna registros de uma lista de IDs primários fornecidos pelo usuário no formato requisitado. • ELink – Verifica a existência de links para artigos externos ou do banco de dados a partir de uma lista de um ou mais IDs primários. Retorna os IDs primários dos artigos e as pontuações de relevância. • EGQuery – Fornece uma contagem do banco de dados Entrez para uma única busca usando a busca global (Global Query). • ESpell – Retorna sugestões de ortografia.
Acesso aos Dados ftp://ftp.ncbi.nih.gov/ • FTP • GenBank – Coleção de anotações de todas as seqüências de DNA públicas disponíveis. • Gene – Informações sobre genes de organismos completamente seqüenciados. • RefSeq – Conjunto não-redundante de seqüências de DNA, proteínas e transcritos (dogma central). • Demais bancos ... • Cn3D – Programa de visualização de estruturas 3D. • BLAST – Ferramenta de procura de alinhamentos locais em bases de dados. • Demais programas ...
Principais Bancos • EMBL-EBI (European Molecular Biology Laboratory • European Bioinformatics Institute) • Cambridge, Inglaterra • Pioneiro no desenvolvimento de pesquisas em bioinformática • Desenvolve banco de dados biológicos e programas • http://www.ebi.ac.uk/
EMBL-EBI BD de seqüências de nucleotídeos do EMBL
EMBL-EBI - Catálogo mais completo de informações sobre proteínas. - Repositório central de seqüências e funções de proteínas criado pela junção das informações contidas no UniProtKB/Swiss-Prot, UniProtKB/TrEMBL e PIR.
EMBL-EBI Repositório público para dados de transcriptoma e relacionados, o qual visa armazenar dados MIAME (Minimum Information About a Microarray Experiment). Ele armazena padrões de expressão indexados por gene e as suas respectivas biomedidas. Microarray?
EMBL-EBI Ensembl Genome Browser Projeto em conjunto com o Instituto Sanger Matem anotação automática de genomas de eucariotos. Ensembl anota genes conhecidos e novos com a anotação de sua função fornecida por InterPro, OMIM, SAGE e famílias gênicas. O acesso aos dados e ao software são livres e sem restrição.
EMBL-EBI BD de proteínas que abrange famílias, domínios, repetições e regiões com características de proteínas conhecidas que podem ser aplicadas a novas seqüências de proteínas.
EMBL-EBI Macromolecular Structure Database Group Projeto europeu para a coleta, gerenciamento e destribuição de dados sobre estruturas macromoleculares derivadas em parte do PDB (World Wide Protein Data Bank).
Busca Human complete
Formato Embl ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final
Formato Embl ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final Continuação do arquivo
Formato Swiss-Prot ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final
Formato Swiss-Prot ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final
Formato PIR > Sinal de maior Duas letras descrevendo o tipo Protein (complete) P1 Protein (fragment) F1 DNA (linear) DL DNA (circular) DC RNA (linear) RL RNA (circular) RC tRNA N3 other functional RNA N1 ; ponto e vírgula Código de identificação Uma linha contendo a descrição Seqüência contendo 1 ou + linhas * Sinal de terminação
Acesso aos Dados http://www.ebi.ac.uk/Tools/webservices/ • SOAP • WSDbfetch – Retorna entradas de vários BDs biológicos atualizados • WSEB-Eye – Acesso ao mecanismo de busca EB-Eye • WSMSD – Acesso aos dados e ferramentas do BD de estruturas macromoleculares • WSChEBI – Retorna entradas do BD ChEBI (Chemical Entities of Biological Interest) • WSIntegr8 – Acesso a um subconjunto de dados disponíveis no portal Integr8 (integrated information about deciphered genomes and their corresponding proteomes) • Mais outros serviços…
Acesso aos Dados http://www.ebi.ac.uk/FTP/ • FTP • ArrayExpress – Dados de microarray • Embl – BD de nucleotídeos do EMBL • InterPro – Famílias, domínios de proteínas • UniProt – BD universal de proteínas • UniRef – BD referência de grupos de proteínas • Demais bancos… • Programas
NCBI BDs Nucleotídeos Busca - Seleciona itens de interesse - Padrão entre os BDs - Maior consistência Acesso aos dados - SOAP: Específico para acesso de dados Forte: Pesquisas de publicações EBI BDs Proteínas Busca - Faz sub-buscas - Padrões diferentes Maior quantidade de informações Acesso aos dados - SOAP Usado para dados e ferramentas Forte: Obtenção de seqüências novas Comparação
Site com os formatos http://www.ebi.ac.uk/help/formats_frame.html