360 likes | 557 Views
Bancos de dados. Bancos de dados aplicados ao estudo de proteínas. 1. Introdução. Histórico acúmulo de informação biológicas. Histórico:Ciências convergentes . Charles Robert Darwin ( 1809 — 1882 ) . Herman Hollerith (1860-1929) . Histórico: Aquisição e armazenamento dos dados.
E N D
Bancos de dados Bancos de dados aplicados ao estudo de proteínas
1. Introdução • Histórico • acúmulo de informação biológicas
Histórico:Ciências convergentes Charles Robert Darwin (1809 —1882) Herman Hollerith (1860-1929)
Histórico: Aquisição e armazenamento dos dados OENIAC (Electrical Numerical Integrator and Computer) 1946 ENIAC 30 toneladas 160 m2 5.000 cálculos/segundo 200 k memória 1953 James D Watson and Francis Crick
Histórico: Aquisição dos dados Década de 60 Insulina 1° proteína a ser cristalizada (Abel, 1926), 1° proteína a ser sequenciada (Sanger et al, 1955 ), 1° proteína a ser sintetizada por técnicas químicas ( Du et al;Zahn;Katsoyanis; 1964), Degradação de Edman (Químico sueco Pehr Edman)
Histórico: Armazenamento dos dados 1965 Margaret Dayhoff's Primeira bionformata “Atlas of Protein Sequences”
Surgimento da eletroforese 2D • Surge a 2D-PAGE • Trabalhos de MacGillivray et al.( 1974); • O´Farrel (1975) ; Klose (1975) Década de 1970 O´Farrel
Aquisição dos dados: As Ômicas • Genômica • • TRANSCRIPTÔMICA: • Differential Display (DD) • - Serial Analysis of Gene Expression (SAGE) • - DNA Microarray • • PROTEÔMICA: • Eletroforese bidimensional (2D) • MudPit • Espectrometria de massa Outras ômicas: Metabolômica, farmacogenômica, regulômica, peptidômica, degradômica…….
Era “Pós-Genômica” Homo sapiens Modificações pós-traducionais? Interações entre proteínas? • GENOMA – DNA – 3,4 bilhões de nt • TRANSCRIPTOMA – mRNA – 30 mil genes • PROTEOMA – Proteínas – 0,3-1,2 milhão proteínas
Proteoma Comparativo ou Diferencial Sobreposição permite identificar diferenças nos padrões de bandas
Cromatografia líquida multidimensional-MudPit Descrita pela primeira vez por WASHBURN et al. (2001),
Bioinformática E agora o que fazer? SNPs Microarranjos Vias metabólicas EST Análise in silico GENÔMICA e PROTEÔMICA Sequenciamento genômico Eletroforese 2D Espectrometria de massa Bancos de dados BIOTECNOLOGIA Genes e proteínas alvos
Tipos de bancos de daods biológicos Bancos de dados Primários Dados obtidos diretamente de seqüenciamento Dados submetidos por pesquisadores Conteúdo controlado pela pessoa que o submete Exemplos: GenBank, EMBL, DDJB, SNP, GEO Bancos de dados Derivados (ou Secundários) Construído a partir da base de dados primária Padrões resultantes da análise dos primários Conteúdo controlado por curadores (NCBI) Exemplos: Refseq, RefSNP, UniGene, NCBI Protein, Structure, Conserved Domain, SwissProt, Pfam
Tipos de bancos de dados • Bancos de dados Primários de proteínas “Atlas of Protein Sequences” + • Bancos de dados Secundários TrEMBL
Seqüências depositadas têm várias anotações biológicas, como: • a função da proteína, • informações de homologia, • seqüências relacionadas ("features"). • Promove a anotação funcional de proteínas.
PIR-NRL3D • PIR - Sequence-Structure Database • Este banco de dados é produzido pelo PIR a partir de seqüências extraídas do PDB (Protein Data Bank). • Os títulos e as fontes biológicas das seqüências seguem o padrão de nomenclatura adotado pelo PIR. • Referências bibliográficas, MEDLINE, estrutura secundária, sítios ativos, detalhes de métodos experimentais, estão disponíveis entre outras facilidades. • PIR-NRL3D:http:/pir.georgetown.edu/pirwww/dbinfo/nrl3d.html
SWISS-PROT e TrEMBL • SWISS-PROT foi criado em 1986 pelo Departamento de Bioquímica Médica da Universidade de Genebra e EMBL. • Atualmente é mantido pelo Swiss Institute of Bioinformatics (SIB) e EBI/EMBL. • Este banco mantém um alto nível de anotações, como a descrição e a função da proteína, estrutura dos seus domínios, modificações pós-tradução, além de ter uma estrutura que facilita o acesso computacional a diferentes campos de informações. TrEMBL
SWISS-PROT e TrEMBL • TrEMBL é um suplemento do SWISS-PROT que contém todas as traduções das entradas de seqüências codificantes de nucleotídeos do EMBL. • As entradas do TrEMBL são menos extensivamente anotadas do que aquelas do SWISS-PROT, mas são movidas para o SWISS-PROT assim que uma anotação confiável seja disponível. • Link SWISS-PROT e TrEMBL: http://us.expasy.org/sprot/ TrEMBL
Bancos de dados de proteínas Crescimento do UniProt TrEMBL
Busca de informações Informações estruturais • Modelos conceituais de estruturas de proteínas • Tipos de estruturas e modelos conceituais • Proteínas globulares • Estrutura secundária • Estrutura terciária • Estrutura quaternária • Proteínas integrais de membrana • Domínios • Evolução • Estrutura e função
Informações estruturais • Tipos de estruturas e modelos conceituais: • Proteínas globulares são solúveis em solventes predominantemente aquosos tal como o citosol e fluídos extra-celulares • Proteínas integrais de membranas existem dentro de ambientes dominados por lipídeos das membranas biológicas. • Modelos conceituais de estruturas de proteínas são importantes para o entendimento da bioinformática de proteínas.
Bancos de dados Estruturais • PDB: recurso primário para dados estruturais de proteínas. • Contém dados derivados de estudos de cristalografia de raio-X e NMR.
Ferramentas • PDBSum • O PDBSum é um do principais recursos para obtenção de informações estruturais, mantido pela University College London. • Trata-se de um compêndio acessível pela Internet que contém resumos e análises de todas as estruturas no PDB. • Cada resumo fornece a descrição da resolução, número de cadeias de proteínas, ligantes e íons metálicos, estruturas secundárias, interações ligantes, dentre muitas outras. Estas informações são vitais não somente para a visualização das estruturas mas também para o desenho, como um único recurso, das informações 1D, 2D e 3D.
Ferramentas • SCOP • O SCOP (Structural Classification of Proteins) é um banco de dados mantido pelo Laboratory of Molecular Biology e pelo Centre for Protein Engineering (MRC) e tem por objetivo descrever as relações estruturais e evolutivas entre proteínas de estrutura conhecida. • Na medida em que as ferramentas automáticas de comparação de estruturas hoje existentes não podem identificar, de forma confiável, tais relações, o SCOP foi concebido e construído de modo a utilizar um combinação de processos de inspeções manuais métodos automáticos.
Predição de estruturas • SOSUI • Tokyo University of Agriculture and Technology (Department of Biotechnology). • O SOSUI analisa seqüências de proteínas, com a finalidade de predizer estruturas secundárias em proteínas de membrana. • Baseia-se nas propriedades físico-químicas dos aminoácidos, como hidrofobicidade e balanceamento de cargas. • Esta ferramenta deve ser utilizada para os seguintes tipos de predição: discriminação entre proteínas de membrana e as solúveis, predição da existência e determinação da região de hélices transmembrânicas.
Famílias de proteínas PROSITE • O banco de dados PROSITE contem seqüências modelo associadas com membros de famílias de proteínas, funções específicas de proteínas e modificações pós-traducionais. • Uma notação especial envolvendo colchetes (e.g. [LIVM]), chaves (e.g. {FD}) e x(n) é usada para expressar resíduos alternativos em cada posição do modelo. • O banco de dados é curado manualmente e os falso positivos ou falso negativos conhecidos são registrados. • Alguns dos padrões, particularmente modelos de modificações pós-traducionais curtas, não possuem especificidade e ocorrem muitas vezes na mesma seqüência.
Famílias de domínios proteínas • Muitas proteínas são construídas a partir domínios em uma arquitetura modular. • O estudo de famílias de proteínas é melhor englobado como um estudo de famílias de domínios de proteínas. • O Prodom é um banco de dados de seqüências de domínios de proteínas criado automaticamente a partir de bancos de dados de seqüências de proteínas. • Os recursos descritos nesta seção podem ser vistos como descrições de famílias de domínios.
Ferramentas • Recursos • Pfam e SMART podem ser usados para análise de famílias de domínios de proteínas. • Um recurso integrado, o Interpro, une os bancos de dados PROSITE, PRINTS, Pfam, Prodom, e SMART.
Ferramentas • ExPASy • O ExPASy (Expert Protein Analysis System) é mantido pelo Swiss Institute of Bioinformatics e disponibiliza uma enorme quantidade de recursos de bioinformática. • Link para o ExPASy: http://www.expasy.org/
Ferramentas • InterPro • Mantido pelo European Bioinformatics Institute. • O InterPro é um banco de dados de assinaturas, capacitado para identificar relacionamentos distantes entre novas seqüências, conseguindo, assim, inferir funções protéicas. • Como uma base integrada de documentação de famílias de proteínas, domínios e regiões funcionais, o InterPro integra os esforços do PROSITE, do PRINTS, do Pfam e do ProDom. • Cada entrada do InterPro inclui uma descrição funcional, uma anotação e referências da literatura, além de links para os bancos de dados importantes.
Exercícios • Usando o SMART: • Usar sequência EF558621; • Usar sequência editada da BVL; • Faça uma busca por domínios e famílias. • Anote os resultados informando os dados de cada domínio obtído; • Informe o que significa o SMART e quais ferramentas estão disponíveis (por exemplo: Modo Normal e Modo Genômico)