450 likes | 597 Views
Formato de Arquivos e Bancos de Dados Biológicos. Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br. DBs - NCBI. NCBI (National Center for Biotechnology Information) 1988 – Criado como fonte nacional (norte americana) de informações sobre biologia molecular Bancos de Dados públicos;
E N D
Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br
DBs - NCBI NCBI (National Center for Biotechnology Information) 1988 – Criado como fonte nacional (norte americana) de informações sobre biologia molecular • Bancos de Dados públicos; • Pesquisas na área da biologia computacional; • Desenvolvimento de ferramentas para análise de dados genômicos; • Informações biomédicas. http://www.ncbi.nlm.nih.gov/
Entrez Sistema de busca robusto que realiza a procura simultânea em múltiplos bancos.
Entrez Mapa do relacionamento entre os diferentes bancos de dados. Mapa
Formato GenPept GB: gene bank - accession number identifica a seqüência e sua versão GI : gene Info Identifier identificador único para cada seqüência
Formato GenPept O número do taxon é importante para pesquisas nos dbs.
Formato Fasta > identificação
Formato ASN Notação usada para descrever dados que serão trocados em um sistema computacional distribuído. Inclui nucleotídeos e proteínas.
Acesso aos Dados SOAP (Simple Object Access Protocol) Protocolo para troca de informações. EInfo – retorna última atualização e links disponíveis para cada db. ESearch – busca e retorna IDs (uso no EFetch, Elink e Esummary). EPost – retorna arquivo com de IDs (buscas subseqüentes). ESummary– retorna o resumo de documentos buscando por IDs.
Acesso aos Dados SOAP EFetch – retorna registros de uma lista de IDs no formato solicitado. ELink – verifica links para artigos externos ou do db buscando por IDs. Retorna os IDs dos artigos. EGQuery – Fornece contagem do banco de dados Entrez para uma única busca usando a busca global (Global Query). ESpell – Retorna sugestões de ortografia.
Acesso aos Dados ftp://ftp.ncbi.nih.gov/ FTP (File Transfer Protocol) GenBank – anotações de seqüências de DNA. Gene – Informações sobre genes (organismos completamente seqüenciados). RefSeq – conjunto não-redundante de seqüências de DNA, proteínas e transcritos. Cn3D – Programa de visualização de estruturas 3D. BLAST – alinhamento local em bases de dados.
DBs - EMBL • EMBL-EBI (European Molecular Biology Laboratory European Bioinformatics Institute) • Cambridge (Inglaterra); • Pioneiro no desenvolvimento de pesquisas em bioinformática; • Desenvolve banco de dados biológicos e programas http://www.ebi.ac.uk/
EMBL-EBI BD de seqüências de nucleotídeos do EMBL - Catálogo mais completo de informações sobre proteínas. - Repositório central de seqüências e funções de proteínas (informações UniProtKB/Swiss-Prot, UniProtKB/TrEMBL e PIR).
EMBL-EBI Repositório público para dados de transcriptoma e relacionados. -> armazena dados MIAME (Minimum Information About a Microarray Experiment). -> armazena padrões de expressão indexados por gene e as suas respectivas biomedidas. Ensembl Genome Browser Projeto em conjunto com o Instituto Sanger Matém anotação automática de genomas de eucariotos. Ensembl anota genes conhecidos e novos com a anotação de sua função fornecida por InterPro, OMIM, SAGE e famílias gênicas. O acesso aos dados e ao software são livres e sem restrição.
EMBL-EBI BD de proteínas que abrange famílias, domínios, repetições e regiões com características de proteínas conhecidas que podem ser aplicadas a novas seqüências de proteínas. Macromolecular Structure Database Group Projeto europeu para a coleta, gerenciamento e destribuição de dados sobre estruturas macromoleculares derivadas em parte do PDB (World Wide Protein Data Bank).
Formato Embl ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições BP RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco
Formato Embl FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final Continuação do arquivo
Formato Swiss-Prot ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final
Formato Swiss-Prot ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final
Formato PIR > Sinal de maior Duas letras descrevendo o tipo Protein (complete) P1 Protein (fragment) F1 DNA (linear) DL DNA (circular) DC RNA (linear) RL RNA (circular) RC tRNA N3 other functional RNA N1 ; ponto e vírgula Código de identificação Uma linha contendo a descrição Seqüência contendo 1 ou + linhas * Sinal de término
Acesso aos Dados http://www.ebi.ac.uk/Tools/webservices/ SOAP WSDbfetch – Retorna entradas de vários dbs biológicos atualizados WSEB-Eye – Acesso ao mecanismo de busca EB-Eye WSMSD – Acesso aos dados e ferramentas do BD de estruturas macromoleculares WSChEBI – Retorna entradas do BD ChEBI (Chemical Entities of Biological Interest) WSIntegr8 – Acesso a um subconjunto de dados disponíveis no portal Integr8 (integrated information about deciphered genomes and their corresponding proteomes) Outros serviços…
Acesso aos Dados http://www.ebi.ac.uk/FTP/ FTP ArrayExpress – Dados de microarray Embl – BD de nucleotídeos do EMBL InterPro – Famílias, domínios de proteínas UniProt – BD universal de proteínas UniRef – BD referência de grupos de proteínas
Comparação • NCBI • BDs Nucleotídeos • Busca - Seleciona itens de interesse - Padrão entre os BDs - Maior consistência • Acesso aos dados - SOAP, FTP Específico para acesso de dados Forte: Pesquisas de publicações • EBI • BDs Proteínas • Busca - Faz sub-buscas - Padrões diferentes • Maior quantidade de informações • Acesso aos dados - SOAP, FTP Usado para dados e ferramentas Forte: Obtenção de seqüências novas
Site com os formatos EBI http://www.ebi.ac.uk/help/formats_frame.html
Exemplo busca de dados Busca rápida de dados em formato texto no NCBI usando o clipboard
Exemplo busca de dados Busca rápida de dados em formato texto no NCBI usando FASTA
Genbank Fasta Embl
Bancos - KEEG • KEEG (Kyoto Encyclopedia of Genes and Genomes) Kanehisa Laboratories in the Bioinformatics Center of Kyoto University and Human Genome Center of University of Tokyo • DB fonte de dados de bioinformática; http://www.genome.jp/kegg/
KEEG Search NAT2
DBs - GO • Projeto: • Gene Ontology (GO - 1998) colaboração de produtos gênicos de diferentes dbs e iniciou com a colaboração de 3 organismos modelos: • FlyBase (Drosophila), • Saccharomyces Genome Database (SGD) • Mouse Genome Database (MGD) Componente celulare, Processo biológico, Função molecular • http://www.geneontology.org/
GO Componente celular O componente da célula com a restrição de ser parte de uma estrutura maior. Processo biológico Série de eventos realizados. Função molecular Descreve atividade, função molecular. • http://www.geneontology.org/
GO Componentes celulares O componente de uma célula com a restrição de ser parte de uma estrutura maior. Processos biológicos Série de eventos realizados por uma ou mais configurações de processos biológicos. Funções moleculares Descreve atividades à nível molecular. • http://www.geneontology.org/
GO The GO Consortium É um conjunto de dbs de organismos modelo de proteína e a comunidade biológica está ativamente envolvida no desenvolvimento e aplicação dos dados de GO.