1 / 36

Bancos de dados

Bancos de dados. Bancos de dados aplicados ao estudo de proteínas. 1. Introdução. Histórico acúmulo de informação biológicas. Histórico:Ciências convergentes . Charles Robert Darwin ( 1809 — 1882 ) . Herman Hollerith (1860-1929) . Histórico: Aquisição e armazenamento dos dados.

elgin
Download Presentation

Bancos de dados

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bancos de dados Bancos de dados aplicados ao estudo de proteínas

  2. 1. Introdução • Histórico • acúmulo de informação biológicas

  3. Histórico:Ciências convergentes Charles Robert Darwin (1809 —1882) Herman Hollerith (1860-1929)

  4. Histórico: Aquisição e armazenamento dos dados OENIAC (Electrical Numerical Integrator and Computer) 1946 ENIAC 30 toneladas 160 m2 5.000 cálculos/segundo 200 k memória 1953 James D Watson and Francis Crick

  5. Histórico: Aquisição dos dados Década de 60 Insulina 1° proteína a ser cristalizada (Abel, 1926), 1° proteína a ser sequenciada (Sanger et al, 1955 ), 1° proteína a ser sintetizada por técnicas químicas ( Du et al;Zahn;Katsoyanis;  1964), Degradação de Edman (Químico sueco Pehr Edman)

  6. Histórico: Armazenamento dos dados 1965 Margaret Dayhoff's Primeira bionformata “Atlas of Protein Sequences”

  7. Surgimento da eletroforese 2D • Surge a 2D-PAGE • Trabalhos de MacGillivray et al.( 1974); • O´Farrel (1975) ; Klose (1975) Década de 1970 O´Farrel

  8. Aquisição dos dados: As Ômicas • Genômica • • TRANSCRIPTÔMICA: • Differential Display (DD) • - Serial Analysis of Gene Expression (SAGE) • - DNA Microarray • • PROTEÔMICA: • Eletroforese bidimensional (2D) • MudPit • Espectrometria de massa Outras ômicas: Metabolômica, farmacogenômica, regulômica, peptidômica, degradômica…….

  9. Era “Pós-Genômica” Homo sapiens Modificações pós-traducionais? Interações entre proteínas? • GENOMA – DNA – 3,4 bilhões de nt • TRANSCRIPTOMA – mRNA – 30 mil genes • PROTEOMA – Proteínas – 0,3-1,2 milhão proteínas

  10. Eletroforese 2D e Bioinformática

  11. Proteoma Comparativo ou Diferencial Sobreposição permite identificar diferenças nos padrões de bandas

  12. Cromatografia líquida multidimensional-MudPit Descrita pela primeira vez por WASHBURN et al. (2001),

  13. Identificação e Sequenciamento de proteínas

  14. Bioinformática E agora o que fazer? SNPs Microarranjos Vias metabólicas EST Análise in silico GENÔMICA e PROTEÔMICA Sequenciamento genômico Eletroforese 2D Espectrometria de massa Bancos de dados BIOTECNOLOGIA Genes e proteínas alvos

  15. Tipos de bancos de daods biológicos Bancos de dados Primários Dados obtidos diretamente de seqüenciamento Dados submetidos por pesquisadores Conteúdo controlado pela pessoa que o submete Exemplos: GenBank, EMBL, DDJB, SNP, GEO Bancos de dados Derivados (ou Secundários) Construído a partir da base de dados primária Padrões resultantes da análise dos primários Conteúdo controlado por curadores (NCBI) Exemplos: Refseq, RefSNP, UniGene, NCBI Protein, Structure, Conserved Domain, SwissProt, Pfam

  16. Tipos de bancos de dados • Bancos de dados Primários de proteínas “Atlas of Protein Sequences” + • Bancos de dados Secundários TrEMBL

  17. Seqüências depositadas têm várias anotações biológicas, como: • a função da proteína, • informações de homologia, • seqüências relacionadas ("features"). • Promove a anotação funcional de proteínas.

  18. PIR-NRL3D • PIR - Sequence-Structure Database • Este banco de dados é produzido pelo PIR a partir de seqüências extraídas do PDB (Protein Data Bank). • Os títulos e as fontes biológicas das seqüências seguem o padrão de nomenclatura adotado pelo PIR. • Referências bibliográficas, MEDLINE, estrutura secundária, sítios ativos, detalhes de métodos experimentais, estão disponíveis entre outras facilidades. • PIR-NRL3D:http:/pir.georgetown.edu/pirwww/dbinfo/nrl3d.html

  19. SWISS-PROT e TrEMBL • SWISS-PROT foi criado em 1986 pelo Departamento de Bioquímica Médica da Universidade de Genebra e EMBL. • Atualmente é mantido pelo Swiss Institute of Bioinformatics (SIB) e EBI/EMBL. • Este banco mantém um alto nível de anotações, como a descrição e a função da proteína, estrutura dos seus domínios, modificações pós-tradução, além de ter uma estrutura que facilita o acesso computacional a diferentes campos de informações. TrEMBL

  20. SWISS-PROT e TrEMBL • TrEMBL é um suplemento do SWISS-PROT que contém todas as traduções das entradas de seqüências codificantes de nucleotídeos do EMBL. • As entradas do TrEMBL são menos extensivamente anotadas do que aquelas do SWISS-PROT, mas são movidas para o SWISS-PROT assim que uma anotação confiável seja disponível. • Link SWISS-PROT e TrEMBL: http://us.expasy.org/sprot/ TrEMBL

  21. Bancos de dados de proteínas Crescimento do UniProt TrEMBL

  22. Busca de informações Informações estruturais • Modelos conceituais de estruturas de proteínas • Tipos de estruturas e modelos conceituais • Proteínas globulares • Estrutura secundária • Estrutura terciária • Estrutura quaternária • Proteínas integrais de membrana • Domínios • Evolução • Estrutura e função

  23. Informações estruturais • Tipos de estruturas e modelos conceituais: • Proteínas globulares são solúveis em solventes predominantemente aquosos tal como o citosol e fluídos extra-celulares • Proteínas integrais de membranas existem dentro de ambientes dominados por lipídeos das membranas biológicas. • Modelos conceituais de estruturas de proteínas são importantes para o entendimento da bioinformática de proteínas.

  24. Bancos de dados Estruturais • PDB: recurso primário para dados estruturais de proteínas. • Contém dados derivados de estudos de cristalografia de raio-X e NMR.

  25. Banco de estrutura de proteínas

  26. Ferramentas • PDBSum • O PDBSum é um do principais recursos para obtenção de informações estruturais, mantido pela University College London. • Trata-se de um compêndio acessível pela Internet que contém resumos e análises de todas as estruturas no PDB. • Cada resumo fornece a descrição da resolução, número de cadeias de proteínas, ligantes e íons metálicos, estruturas secundárias, interações ligantes, dentre muitas outras. Estas informações são vitais não somente para a visualização das estruturas mas também para o desenho, como um único recurso, das informações 1D, 2D e 3D.

  27. Ferramentas • SCOP • O SCOP (Structural Classification of Proteins) é um banco de dados mantido pelo Laboratory of Molecular Biology e pelo Centre for Protein Engineering (MRC) e tem por objetivo descrever as relações estruturais e evolutivas entre proteínas de estrutura conhecida. • Na medida em que as ferramentas automáticas de comparação de estruturas hoje existentes não podem identificar, de forma confiável, tais relações, o SCOP foi concebido e construído de modo a utilizar um combinação de processos de inspeções manuais métodos automáticos.

  28. Predição de estruturas • SOSUI • Tokyo University of Agriculture and Technology (Department of Biotechnology). • O SOSUI analisa seqüências de proteínas, com a finalidade de predizer estruturas secundárias em proteínas de membrana. • Baseia-se nas propriedades físico-químicas dos aminoácidos, como hidrofobicidade e balanceamento de cargas. • Esta ferramenta deve ser utilizada para os seguintes tipos de predição: discriminação entre proteínas de membrana e as solúveis, predição da existência e determinação da região de hélices transmembrânicas.

  29. Famílias de proteínas PROSITE • O banco de dados PROSITE contem seqüências modelo associadas com membros de famílias de proteínas, funções específicas de proteínas e modificações pós-traducionais. • Uma notação especial envolvendo colchetes (e.g. [LIVM]), chaves (e.g. {FD}) e x(n) é usada para expressar resíduos alternativos em cada posição do modelo. • O banco de dados é curado manualmente e os falso positivos ou falso negativos conhecidos são registrados. • Alguns dos padrões, particularmente modelos de modificações pós-traducionais curtas, não possuem especificidade e ocorrem muitas vezes na mesma seqüência.

  30. Famílias de domínios proteínas • Muitas proteínas são construídas a partir domínios em uma arquitetura modular. • O estudo de famílias de proteínas é melhor englobado como um estudo de famílias de domínios de proteínas. • O Prodom é um banco de dados de seqüências de domínios de proteínas criado automaticamente a partir de bancos de dados de seqüências de proteínas. • Os recursos descritos nesta seção podem ser vistos como descrições de famílias de domínios.

  31. Ferramentas • Recursos • Pfam e SMART podem ser usados para análise de famílias de domínios de proteínas. • Um recurso integrado, o Interpro, une os bancos de dados PROSITE, PRINTS, Pfam, Prodom, e SMART.

  32. Ferramentas • ExPASy • O ExPASy (Expert Protein Analysis System) é mantido pelo Swiss Institute of Bioinformatics e disponibiliza uma enorme quantidade de recursos de bioinformática. • Link para o ExPASy: http://www.expasy.org/

  33. Ferramentas • InterPro • Mantido pelo European Bioinformatics Institute. • O InterPro é um banco de dados de assinaturas, capacitado para identificar relacionamentos distantes entre novas seqüências, conseguindo, assim, inferir funções protéicas. • Como uma base integrada de documentação de famílias de proteínas, domínios e regiões funcionais, o InterPro integra os esforços do PROSITE, do PRINTS, do Pfam e do ProDom. • Cada entrada do InterPro inclui uma descrição funcional, uma anotação e referências da literatura, além de links para os bancos de dados importantes.

  34. Interprot

  35. Exercícios • Usando o SMART: • Usar sequência EF558621; • Usar sequência editada da BVL; • Faça uma busca por domínios e famílias. • Anote os resultados informando os dados de cada domínio obtído; • Informe o que significa o SMART e quais ferramentas estão disponíveis (por exemplo: Modo Normal e Modo Genômico)

More Related