620 likes | 843 Views
Proteínas. Predição de Estrutura Secundária Marcilio Souto DIMAp/UFRN. Somos seres protéicos. A vida está intimamente ligada às proteínas Estas moléculas especiais realizam as mais variadas funções no nosso organismo Transporte de nutrientes e metabólitos, catálise de reações biológicas
E N D
Proteínas Predição de Estrutura Secundária Marcilio Souto DIMAp/UFRN
Somos seres protéicos • A vida está intimamente ligada às proteínas • Estas moléculas especiais realizam as mais variadas funções no nosso organismo • Transporte de nutrientes e metabólitos, catálise de reações biológicas • Apesar da complexidade de suas funções, as proteínas são relativamente simples: • Repetições de 20 unidades básicas, os aminoácidos
Aminoácido • Um aminoácido consiste em um caborno “central” com uma ligação a grupo amino (-NH2), outra a um grupo carboxila (-COOH), a terceira a um átomo de hidrogênio e a quarta a uma cadeia lateral variável COO- | H3N+--C--H | R
Aminoácidos • Single- & three-letter amino acid codes • G Glycine GlyP Proline Pro • A Alanine AlaV Valine Val • L Leucine LeuI Isoleucine Ile • M Methionine MetC Cysteine Cys • F Phenylalanine PheY Tyrosine Tyr • W Tryptophan TrpH Histidine His • K Lysine LysR Arginine Arg • Q Glutamine GlnN Asparagine Asn • E Glutamic Acid GluD Aspartic Acid Asp • S Serine SerT Threonine Thr • Additional codes • BAsn/AspZGln/GluXAny amino acid
Definição • As proteínas são macromoléculas complexas, compostas de aminoácidos, e necessárias para os processos químicos que ocorrem nos organismos vivos • São os constituintes básicos da vida: tanto que seu nome deriva da palavra grega "proteios", que significa "em primeiro lugar” • Nos animais, as proteínas correspondem a cerca de 80% do peso dos músculos desidratados, cerca de 70% da pele e 90% do sangue seco. Mesmo nos vegetais as proteínas estão presentes.
Importância • A importância das proteínas, entretanto, está relacionada com suas funções no organismo, e não com sua quantidade • Todas as enzimas conhecidas, por exemplo, são proteínas • Muitas vezes, as enzimas existem em porções muito pequenas. • Mesmo assim, estas substâncias catalisam todas as reações metabólicas e capacitam aos organismos a construção de outras moléculas - proteínas, ácidos nucléicos, carboidratos e lipídios - que são necessárias para a vida.
Polipeptídeos • As proteínas também são chamadas de polipeptídeos, porque os aminoácidos que as compõe são unidos por ligações peptídicas • Uma ligação peptídica é a união do grupo amino (-NH2) de um aminoácido com o grupo carboxila (-COOH) de outro aminoácido, através da formação de uma amida
Estrutura da Proteínas • Embora sejam quase inúmeras, todas as proteínas são formadas exclusivamente por apenas 20 aminoácidos, que se repetem numa seqüência característica para cada proteína • Esta seqüência, conhecida como estrutura primária, é que, de fato, determina a forma e a função da proteína. • A estrutura primária é somente a sequência dos amino ácidos, sem se preocupar com a orientação espacial da molécula • As interações intermoleculares entre os aminoácidos das proteínas fazem com que a cadeia protéica assuma uma estrutura secundária e uma estrutura terciária.
Estrutura Secundária • A estrutura secundária é uma função dos ângulos formados pelas ligações peptídicas que ligam os aminoácidos • "The secondary structure of a segment of polypeptide chain is the local spatial arrangement of its main-chain atoms without regard to the conformation of its side chains or to its relationship with other segments". • A conformação espacial é mantida graças as interações intermoleculares (ligação hidrogênio) entre os hidrogênios dos grupos amino e os átomos de oxigênio dos outros amino ácidos.
Estrutura Secundária • Em geral, estas ligações forçam a proteína a assumir uma forma helicoidal, como uma corda enrolada em torno de um tubo imaginário. • Esta forma, a mais comum, é chamado de alfa hélice. • Outras duas formas na estrutura secundária são as beta-sheets e turns. Nas beta-sheets, um segmento da cadeia interage com outro, paralelamente.
-Hélice • É a forma mais comum de estrutura secundária regular • Caracteriza-se por uma hélice em espiral formada por 3,6 resíduos de aminoácidos por volta • As cadeias laterais dos aminoácidos se distribuem para fora da hélice • A principal força de estabilização da a - Hélice é a ponte de hidrogênio.
-Folhas • Envolve 2 ou mais segmentos polipeptídicos da mesma molécula ou de moléculas diferentes, arranjados em paralelo ou no sentido anti-paralelo • Os segmentos em folha da proteína adquirem um aspecto de uma folha de papel dobrada em pregas. • As pontes de hidrogênio mais uma vez são a força de estabilização principal desta estrutura
Estrutura Terciária • A estrutura terciária relaciona-se com os loopings e dobraduras da cadeia protéica sobre ela mesma. • É a conformação espacial da proteína, como um todo, e não de determinados segmentos particulares da cadeia protéica. • A forma das proteínas está relacionada com sua estrutura terciária. • Existem, por exemplo, proteínas globulares (que tem forma esférica).
Estrutura Terciária • O que determina a estrutura terciária são as cadeias laterais dos aminoácidos • Algumas cadeias são tão longas e hidrofóbicas que perturbam a estrutura secundária helicoidal, provocando a dobra ou looping da proteína. • Muitas vezes, as partes hidrofóbicas da proteína agrupam-se no interior da proteína dobrada • Longe da água e dos íons do ambiente onde a proteína se encontra, deixando as partes hidrofílicas expostas na superfície da estrutura da proteína. • Regiões como "sítio ativos", "sítios regulatórios" e módulos são propriedades da estrutura terciária
Estrutura Quaternária • Existe, finalmente, a estrutura quaternária • Ccertas proteínas, tal como a hemoglobina, são compostas por mais de uma unidade polipeptídica (cadeia protéica). • A conformação espacial destas cadeias, juntas, é que determina a estrutura quaternária. Esta estrutura é mantida pelas mesmas forças que determinam as estruturas secundárias e terciárias. A figura ao lado mostra uma imumoglobulina que é, na verdade, um tetrâmero, isto é, constituída por 4 cadeias protéicas (polipeptídeos).
Estrutura Quaternária • A figura ao lado mostra uma imumoglobulina que é, na verdade, um tetrâmero, isto é, constituída por 4 cadeias protéicas (polipeptídeos).
Proteínas Conjugadas • As proteínas podem ser simples • Constituidas somente por aminoácidos • ou conjugadas • Contêm grupos prostéticos, isto é, grupos não aminoácidos, tais como carbohidratos, íons, pigmentos, etc. • A hemoglobina é um exemplo de proteína conjugada: contém 4 grupos prostéticos, cada um consistindo de um íon de ferro e a porfirina. São justamente estes grupos que habilitam a hemoglobina a carregar o oxigênio através da corrente sanguínea. As liproproteínas, tal como LDL e HDL, são também exemplos de proteínas conjugadas - neste caso, com lipídeos.
Outras Classificações • Uma outra forma de classificar as proteínas é baseado na sua função. • Sobre este prisma, elas podem ser divididas em dois grupos: • proteínas estruturais e proteínas biologicamente ativas • Algumas proteínas, entretanto, podem pertencer aos dois grupos • A maioria das proteínas estruturais são fibrosas - compostas por cadeias alongadas. Dois bons exemplos, nos animais, são o colágeno (ossos, tendões, pele e ligamentos) e a queratina (unhas, cabelos, penas e bicos).
Outras Classificações • A grande maioria das proteínas biologicamente ativas são globulares, e sua atividade funcional é intrínsica a sua organização espacial • Exemplos são as enzimas, hormônios protéicos (que atuam como mensageiros químicos), proteínas de transporte (como as lipo-proteínas, que podem carregar o colesterol) e imunoglobulinas (ou anticorpos), que protegem o corpo de microorganimos invasores. • Muitas proteínas biologicamente ativas ficam na região da membrana celular, e atuam de diversas maneiras
Outras Classificações • A figura ao lado mostra uma porina, uma proteína trans-membrana, que atua como um canal iônico em bactérias. Existe um "buraco" na estrutura protéica, de cerca de 11 angstrons de diâmetro, onde os íons passam, seletivamente
Enzimas • As enzimas são uma classe muito importante de proteínas biologicamente ativas. • Elas são responsáveis pela catálise de diversas reações em nosso organismo. Reações que, sem o auxílio das enzimas, jamais aconteceriam ou, ainda, gerariam indesejados produtos colaterais. • Em uma proteína enzimática, existe um certo domínio chamado de "sítio ativo", que liga-se ao substrato - a molécula reagente - e diminui a energia do estado de transição que leva ao produto desejado. • A ligação entre o sítio ativo e o substrato é extremamente específica: • a molécula precisa ter certas características eletrônicas e espaciais que permitam o seu "encaixe" com a proteína. Por isso esta relação tem sido chamada de lock'n'key, ou seja, chave-fechadura.
Enzimas: Sítio Ativo • No exemplo da figura, uma determinada região da proteína liga-se à um substrato, que se adapta ao sítio ativo da enzima tal como uma chave faz a sua fechadura.
Enzimas: Inibidor • A atividade de uma enzima pode ser bloqueada pela ação de outra molécula, um inibidor. • Quando um inibidor interage com uma determinada região da enzima, chamado de sítio regulatório, provoca uma alteração na sua conformação e uma desativação do sítio catalítico. • A atividade enzimática, portanto, pode ser controlada, pelo organismo, através da liberação ou captação de inibidores.
Caso tenham esquecido • A sequência dos amino ácidos em todas as proteínas - fator que é responsável por sua estrutura e função - é determinado geneticamente a partir da sequência dos nucleotídeos no DNA celular. • Quando uma proteína em particular é necessária, o código do DNA (gene) para esta proteína é transcrito em uma sequência complementar de nucleotídeos ao longo de um segmento de RNA - chamado de RNA mensageiro. • Este segmento de RNA serve como uma forma para a síntese da proteína subsequente: cada grupo de 3 nuclueotídeos especifica um determinado aminoácido; • estes aminoácidos são ligados na sequência codificada pelo RNA. No final do processo, obtém-se a proteína completa, cuja sequência de aminoácidos foi ditada pelo RNA mensageiro. Desta maneira, o organismo é capaz de sintetizar as várias proteínas com as funções mais diversas de que precisa.
Previsão de Estrutura de Proteínas • Experimental • Cristalização • Raios X • Ressonância nuclear magnética • Cerca de 10 a 12 mil estruturas em repositórios públicos • Processo caro e demorado • Teórico • Homologia • Ab Inition • Threading • Aprendizado de Máquina
Modelagem por Homologia • A ferramenta mais bem sucedida de predição de estruturas tridimensionais de proteínas é a modelagem por homologia, também conhecida como modelagem comparativa. • Esta abordagem baseia-se em alguns padrões gerais que têm sido observados, em nível molecular, no processo de evolução biológica: • homologia entre seqüências de aminoácidos implica em semelhança estrutural e funcional; • proteínas homólogas apresentam regiões internas conservadas (principalmente constituídas de elementos de estrutura secundária: hélices-a e fitas-b); • as principais diferenças estruturais entre proteínas homólogas ocorrem nas regiões externas, constituídas principalmente por alças ("loops"), que ligam os elementos de estruturas secundárias.
Modelagem por Homologia • Outro fato importante é que as proteínas agrupam-se em um número limitado de famílias tridimensionais. Estima-se que existam cerca de 5.000 famílias protéicas. • Conseqüentemente, quando se conhece a estrutura de pelo menos um representante de uma família, é geralmente possível modelar, por homologia, os demais membros da família.
Modelagem por Homologia • A modelagem de uma proteína (proteína-problema) pelo método da homologia baseia-se no conceito de evolução molecular. • Isto é, parte-se do princípio de que a semelhança entre as estruturas primárias desta proteína e de proteínas homólogas de estruturas tridimensionais conhecidas (proteínas-molde) implica em similaridade estrutural entre elas. • Os métodos correntes de modelagem de proteínas por homologia implicam basicamente em quatro passos sucessivos: • identificação e seleção de proteínas-molde; • alinhamento das seqüências de resíduos; • construção das coordenadas do modelo; • validação.
Threading • Esta técnica é baseada na comparação da proteína em questão com modelos descritivos dos enovelamentos de proteínas homólogas • Nesses modelos são descritas: • a distância entre os resíduos de aminoácidos • a estrutura secundária de cada fragmento • as características fisico-químicas de cada resíduo
Ab Initio • Entretanto, um grande desejo dos que trabalham com proteínas é o desenvolvimento de programas realmente eficientes para a modelagem ab initio • Um programa que seja capaz de predizer a estrutura terciária de uma proteína, tendo como informação apenas a seqüência dos resíduos de aminoácidos e suas interações fisico-químicas, entre si e com o meio. • Programas assim existem hoje mas têm muito a melhorar para que possamos confiar unicamente no seu resultado.
Predição de Estrutura • Decomposição em três problemas: • Da Estrutura Primária para a Estrutura Secundária e outras Características Estruturais • Da Estrutura Primária e Características Estruturais para Representações Topológicas • De Representações Topológicas para Coordenadas 3D.
Protein Structure Terms • Protein Folds: The core 3D structure of a domain is called a fold. There are only a few thousand possible folds. • Motif: A short conserved region in a protein sequence. Motifs are frequently highly conserved parts of domains. • Domain: An independently folded unit within a protein, often joined by a flexible segment of the polypeptide chain. • Class:used to classify protein domains according to their secondary structural content and organization • Core:portion of the folded protein molecule that compromises the hydrophobic interior of the a helices and b sheets. • Profile:a scoring matrix that represents a multiple sequence alignment of a protein family
Protein Structure Terminology • a helix – the most abundant type of secondary structure in proteins. The helix has an average of 3.6 amino acids per turn with a hydrogen bond formed about every fourth residue. Average length is 10 amino acids • b sheet- formed by hydrogen bonds between an average of 5-10 consecutive amino acids in one portion of the chain with another 5-10 further down the chain. The interacting regions may be adjacent, with a short loop in between or far apart with other structures in between.
Secondary Structure and Folding Classes • In the absence of “known” information about secondary structure, there are methods available for predicting the ability of a sequence to form a helices and b strands. • Methods rely on observations made from groups of proteins whose three-dimensional structure has been experimentally determined • Classification system based on the order of secondary structural elements within a protein
Secondary Structure Prediction • Predict the secondary structural conformation of each residue of protein sequences in general - making use of global rules applying across all sequence families (not those within individual families). • Prediction programs are trained on data sets of non-homologous proteins of known structure (eg all sequence identity < 25%)
Estruturas Secundárias DSSP classes: • H = alpha helix • E = sheet • G = 3-10 helix • S = kind of turn • T = beta turn • B = beta bridge • I = pi-helix (very rare) • C = the rest CASP (harder) assignment: • α = H and G • β = E and B • γ = the rest Alternative assignment: • α = H • β = B • γ = the rest
Algorithms: • Nearest Neighbour - find the most similar sub-sequences of known structure (eg Levin, Robson, Garnier, 1986) • Statistical, such as pairwise frequencies of amino acids as a function of separation and secondary structure (Garnier, Osguthorpe, Robson, 1978) • Neural Networks, (eg PHD - Rost and Sander, 1993) • Hybrid methods, eg using statistics, physico-chemical properties such as hydrophobic moments and others (eg DSC, King and Sternberg, 1996)
History: • The first generation prediction methods following in the 60's and 70's all based on single amino acid propensities • The second-generation methods dominating the scene until the early 90's utilised propensities for segments of 3-51 adjacent residues • It seemed that prediction accuracy stalled at levels slightly above 60% • The reason for this limit was the restriction to local information • Can we introduce some global information into local stretches of residues
Secondary structure prediction profits from divergence • Early on Dickerson [1976] realised that information contained in multiple alignments can improve predictions • However, the breakthrough of the third generation methods to levels above 70% accuracy required a combination of larger databases with more advanced algorithms • The major component of these new methods was the use of evolutionary information. All naturally evolved proteins with more than 35% pairwise identical residues over more than 100 aligned residues have similar structures
New database searches extend family divergence found • The breakthrough to large-scale routine searches has been achieved by the development of PSI-BLAST [Altschul, S. et al. (1997)] and Hidden Markov models [Eddy, S. R. (1998); Karplus, K., Barrett, C. & Hughey, R. (1998)] • More data + refined search = better prediction • Prediction accuracy peaks at 76% accuracy. The currently best methods reach a level of 76% three-state per-residue accuracy ( Table 1 ). This constitutes a sustained level more than four percentage points above last century's best method not using diverged profiles (PHD in Table 1 )