390 likes | 645 Views
Predizione della struttura di una proteina. In generale, la sequenza amminoacidica di una proteina codifica la sua struttura tridimensionale. dovrebbe quindi essere possibile disegnare un algoritmo per predire la struttura 3D di una proteina a partire dalla sua sequenza 1D.
E N D
Predizione della struttura di una proteina In generale, la sequenza amminoacidica di una proteina codifica la sua struttura tridimensionale dovrebbe quindi essere possibile disegnare un algoritmo per predire la struttura 3D di una proteina a partire dalla sua sequenza 1D questo è l’obiettivo più ambizioso e complesso della bioinformatica, e non è ancora stato raggiunto
i metodi sperimentali per la determinazione della sequenza di una proteina sono estremamente rapidi (l’ordine di grandezza è il giorno) e relativamente economici la risoluzione della struttura tridimensionale di una proteina richiede invece l’uso di strumenti più complessi, e talvolta mesi di lavoro Swiss-Prot + TrEMBL 700.000 sequenze PDB (Protein Data Bank) 17.000 strutture gran parte delle ricerche in biologia strutturale è quindi volta allo studio delle leggi fondamentali del folding delle proteine e la biologia computazionale dedica molte energie e risorse allo sviluppo di metodi per la predizione della struttura delle proteine
perchè è interessante studiare la struttura di una proteina in molti casi è vero che solo l’analisi della struttura tridimensionale di una macromolecola può aiutarci a comprendere in quale modo e per quale motivo una determinata sequenza (avvolta in una specifica struttura) possa codificare una ben precisa funzione vediamo per esempio la struttura 3D della chimotripsina, mettendo in evidenza i residui della triade catalitica, che non sono contigui nella sequenza proteica la contiguità dei residui in struttura determina la funzione
RNase A (A) RNase T1 (B) Wheatwin1 (C)
Metodi per la predizione della struttura secondaria Il metodo Chou-Fasman
Tabella 5.1. Propensione dei residui aminoacidici a formare elementi di struttura secondaria come riportato da Chou-Fasman (1978b) (C&F) e Levitt (1978) (L). La colonna “pr” classifica i residui come indifferenti (=) o stabilizzatori/destabilizzatori forti (++/--) e deboli (+/-) della struttura secondaria.
Metodi di predizione della struttura secondaria delle proteine: Metodi di Chou-Fasman si basa sull’analisi statistica della composizione in residui delle strutture secondarie presenti nella PDB. (http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=misc1) GOR si basa sull’analisi statistica della composizione in residui delle strutture secondarie presenti nella PDB. (http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_gor4.html) AGADIR per predire la percentuale di residui in elica (http://www.embl-heidelberg.de/Services/serrano/agadir/agadir-start.html) PHD prende in input o una sequenza o un allineamento multiplo ed usa le reti neurali. (http://www.embl-heidelberg.de/predictprotein/predictprotein.html) Vuole una registrazione PSIPRED utilizza un sistema di due reti neurali. (http://bioinf.cs.ucl.ac.uk/psipred/) PREDATOR si basa sull’applicazione del metodo del k-esimo vicino che usa le reti neurali (http://bioweb.pasteur.fr/seqanal/interfaces/predator-simple.html) JPRED3 (http://www.compbio.dundee.ac.uk/Software/JPred/jpred.html) fa un consensus di vari metodi
I migliori programmi di predizione della struttura secondaria sono stati sviluppati utilizzando metodi di apprendimento automatico (machine learning methods) i metodi di apprendimento automatico più utilizzati in bioinformatica sono le reti neurali e gli Hidden Markov Models (HMM) una caratteristica peculiare delle reti neurali è che sono in grado di apprendere, in un tentativo di simulare il comportamento del cervello umano vengono addestrate utilizzando un opportuno insieme di dati detto training set (un insieme di a-eliche, filamenti b e elementi non-a non-b) e possono poi venire utilizzate per riconoscere a-eliche da filamenti b e da elementi non-a non-b
output di PredictProtein (PHD) un programma di predizione della struttura secondaria e accessibilità al solvente ....,....1....,....2....,....3....,....4....,....5....,....6 AA |MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG| PHD sec | EEEEEEEE HHHHHHHHHHH EEEEE HHHHHHH | Rel sec |938999997389866589987789761323468771112352599447744156773166| detail: prH sec |000000000000112689987888874211210014443211100100122367885522| prE sec |068999998310000000011100101232110100011115688621101210000000| prL sec |931000001688877210000000014545578774444563200268766311113477| subset: SUB sec |L.EEEEEEE.LLLLLHHHHHHHHHHH.....LLLL.....L.EEE..LL...HHHH..LL| ....,....7....,....8....,....9....,....10...,....11...,....12 AA |QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDL| PHD sec | HHHHHHHHHHHHH EEEEEE HHHHHHHHHHHHHHH EEEEEE HH| Rel sec |225799999998713662699997299964789999999998634699828987357125| detail: prH sec |456899999998753101000000000026889999999998752100000000001456| prE sec |011000000000000113789998400000000000000000111000058888521000| prL sec |531100000001145675100001599872110000000001126799831001377442| subset: SUB sec |..HHHHHHHHHHH..LL.EEEEEE.LLLL.HHHHHHHHHHHHH..LLLL.EEEE.LL..H|
riconoscimento del fold (fold recognition) sequenza + allineamento struttura banca dati di fold possibili sequenza query input output
foglietto -elica filamento
perchè è interessante studiare la struttura di una proteina il confronto tra sequenze proteiche può essere utilizzato per mettere in luce relazioni evolutive tra proteine e la similarità tra sequenze può essere utilizzata come una misura della distanza evolutiva tra gli organismi come abbiamo visto, le proteine che si confrontano possono talvolta essere così diverse che diventa difficile metterne in evidenza la comune origine evolutiva attraverso il solo confronto tra sequenze cambiamenti nella struttura delle proteine sono invece più conservativi: l’evoluzione delle proteine avviene in modi che in genere non alterano il ripiegamento (fold) della struttura proteica, che quindi può conservare tracce di un’origine comune
Come si può studiare la struttura di una proteina i metodi sperimentali classici per la risoluzione della struttura tridimensionale di una proteina sono: • la cristallografia a raggi X • la spettroscopia a risonanza magnetica e nucleare (Nuclear Magnetic Resonance, NMR)
diffrazione ai raggi X cellula batterica DNA esogeno NMR plasmide formazione di cristalli moltiplicazione del clone purificazione della proteina
nome HEADER TRANSCRIPTION REGULATION 25-AUG-94 1RPO 1RPO 2 COMPND ROP (COLE1 REPRESSOR OF PRIMER) MUTANT WITH ALA INSERTED ON 1RPO 3 COMPND 2 EITHER SIDE OF ASP 31 (INS (A-D31-A)) 1RPO 4 SOURCE (ESCHERICHIA COLI) 1RPO 5 AUTHOR M.VLASSI,M.KOKKINIDIS 1RPO 6 REVDAT 2 15-MAY-95 1RPOA 1 REMARK 1RPOA 1 REVDAT 1 14-FEB-95 1RPO 0 1RPO 7 JRNL AUTH M.VLASSI,C.STEIF,P.WEBER,D.TSERNOGLOU,K.WILSON, 1RPO 8 JRNL AUTH 2 H.J.HINZ,M.KOKKINIDIS 1RPO 9 JRNL TITL RESTORED HEPTAD PATTERN CONTINUITY DOES NOT 1RPO 10 JRNL TITL 2 ALTER THE FOLDING OF A 4-ALPHA-HELICAL BUNDLE 1RPO 11 JRNL REF NAT.STRUCT.BIOL. V. 1 706 1994 1RPO 12 JRNL REFN ASTM NSBIEW US ISSN 1072-8368 2024 1RPO 13 REMARK 1 1RPO 14 REMARK 1 REFERENCE 1 1RPO 15 REMARK 1 AUTH M.KOKKINIDIS,M.VLASSI,Y.PAPANIKOLAOU,D.KOTSIFAKI, 1RPO 16 REMARK 1 AUTH 2 A.KINGSWELL,D.TSERNOGLOU,H.J.HINZ 1RPO 17 REMARK 1 TITL CORRELATION BETWEEN PROTEIN STABILITY AND CRYSTAL 1RPO 18 REMARK 1 TITL 2 PROPERTIES OF DESIGNED ROP VARIANTS 1RPO 19 REMARK 1 REF PROTEINS.STRUCT.,FUNCT., V. 16 214 1993 1RPOA 2 REMARK 1 REF 2 GENET. 1RPOA 3 REMARK 1 REFN ASTM PSFGEY US ISSN 0887-3585 0867 1RPO 22 REMARK 2 1RPO 29 REMARK 2 RESOLUTION. 1.4 ANGSTROMS. 1RPO 30 REMARK 1RPO 94 REMARK 999 SEQUENCE NUMBER IS ALSO THAT FROM PDB ENTRY 1RPO 95 SEQRES 1 65 MET THR LYS GLN GLU LYS THR ALA LEU ASN MET ALA ARG 1RPO 96 SEQRES 2 65 PHE ILE ARG SER GLN THR LEU THR LEU LEU GLU LYS LEU 1RPO 97 SEQRES 3 65 ASN GLU LEU ALA ASP ALA ALA ASP GLU GLN ALA ASP ILE 1RPO 98 SEQRES 4 65 CYS GLU SER LEU HIS ASP HIS ALA ASP GLU LEU TYR ARG 1RPO 99 SEQRES 5 65 SER CYS LEU ALA ARG PHE GLY ASP ASP GLY GLU ASN LEU 1RPO 100 ATOM 1 N MET 1 1.132 3.053 2.801 1.00 25.53 1RPO 115 ATOM 2 CA MET 1 2.398 3.546 2.283 1.00 27.85 1RPO 116 ATOM 3 C MET 1 3.091 2.466 1.442 1.00 21.34 1RPO 117 ATOM 4 O MET 1 2.642 1.298 1.451 1.00 19.29 1RPO 118 ATOM 5 CB MET 1 3.281 3.936 3.463 1.00 23.96 1RPO 119 ATOM 6 CG MET 1 3.718 2.760 4.291 1.00 27.52 1RPO 120 ATOM 7 SD MET 1 4.491 3.371 5.797 1.00 26.29 1RPO 121 ATOM 7 SD MET 1 4.491 3.371 5.797 1.00 26.29 1RPO 121 ATOM 8 CE MET 1 3.039 3.650 6.762 1.00 25.19 1RPO 122 ATOM 9 N THR 2 4.142 2.833 0.689 1.00 13.20 1RPO 123 ATOM 10 CA THR 2 4.851 1.806 -0.025 1.00 12.76 1RPO 124 ATOM 11 C THR 2 5.719 1.011 0.950 1.00 14.35 1RPO 125 composto organismo autore referenze risoluzione sequenza residuo 1 residuo 2 num.atomo tipo atomo tipo residuo x y z num. residuo
parole-chiave myoglobin AND aplysia
utilizzo di un semplice programma di grafica molecolare RasMol
Metodi computazionali per la predizione della struttura tridimensionale proteica: quali sono e che grado di affidabilità offrono? i metodi ab initio sono i più ambiziosi, ma i tempi di calcolo sono ancora TROPPO LUNGHI perché possano anche avere un interesse pratico i metodi knowledge based sono attualmente quelli che sembrano funzionare meglio, anche se sono meno soddisfacenti dal punto di vista della comprensione ultima dei meccanismi naturali del folding delle proteine
obiettivi intermedi e meno ambiziosi la predizione della struttura secondaria: quali segmenti della sequenza formano a-eliche e quali filamenti b o anse? il riconoscimento del fold (fold recognition o threading): data una sequenza proteica e un insieme di possibili fold tridimensionali, è possibile identificare il fold più simile a quello davvero assunto dalla sequenza? il modelling per omologia (homology modelling): se una proteina a struttura non nota è omologa ad una proteina a struttura nota, possiamo assumere che le due strutture siano simili e usare l’una per generare un modello dell’altra?
modelling per omologia (homology modelling) La qualità del modello dipende dalla similarità tra le sequenze delle due proteine in generale, a maggiore identità di sequenza tra due proteine, corrisponde maggiore similarità tra le corrispondenti strutture se l’identità tra due sequenze proteiche è superiore al 30%, si può assumere che le loro strutture saranno simili se una proteina a struttura non nota ha almeno il 30% di identità con una proteina a struttura nota, si può usare la seconda come templato per generare un modello per omologia della prima
Come nel confronto di sequenze e’ necessario allinearle, nel confronto di strutture 3D e’ necessario sovrapporle come corpi rigidi scegliendo una regola di corrispondenza tra coppie di atomi o di residui nelle due strutture. La prima difficolta’ consiste nel fatto che le due proteine molto spesso non hanno lo stesso numero di residui. Per la sovrapposizione si possono utilizzare le catene dei carboni alfa appartenenti agli elementi di struttura secondaria perche’ in genere le inserzioni e delezioni si accumulano nei loops che possono semplicemente venire esclusi dalla sovrapposizione. I metodi di confronto 3D utilizzano l’ allineamento delle sequenze per decidere la regola di corrispondenza alla base della sovrapposizione strutturale
Un allineamento strutturale può essere valutato in base alla deviazione quadratica media (root mean square deviation o r.m.s.d.), al numero di atomiche sono stati accoppiati nella sovrapposizione e alla valutazione della similarità dei residui sovrapposti. D = distanza tra coppie di atomi appaiati N = numero di coppie considerate L’r.m.s.d. o r.m.s. di una sovrapposizione tridimensionale è la distanza media tra gli atomi di tutte le coppie che hanno partecipato all’allineamento strutturale, per cui tanto più bassa è l’r.m.s. tanto migliore sarà l’allineamento strutturale calcolato
valutazione dell’allineamento strutturale un altro criterio di valutazione di un allineamento strutturale è rappresentato dal numero di atomi o di residui che sono stati accoppiati si cerca di massimizzare il numero di atomi accoppiati e di minimizzare la corrispondente r.m.s. a parità di numero di residui accoppiati, il migliore allineamento strutturale sarà quello con minore r.m.s. a parità di r.m.s. verrà considerato migliore l’allineamento strutturale operato con un maggior numero di atomi accoppiati oltre a questi due valori tipici delle sovrapposizioni tridimensionali, si può anche considerare il punteggio di similarità dei residui accoppiati
Grafico identità di sequenza/rms tra le strutture 2,5 2,0 1,5 r.m.s.d.tra atomi della catena principale del core 1,0 0,5 0,0 100 75 50 25 0 % di residui identici nel core proteico
Lisozima di pollo Alpha-lactalbumina di babbuino 37% identità di sequenza 1 KQFTKCELSQ NLYD--IDGY GRIALPELIC TMFHTSGYDT QAIVENDE-S TEYGLFQISN ALWCKSSQSP QSRNICDITC DKFLDDDITD DIMCAKKILD 1 KVFGRCELAA AMKRHGLDNY RGYSLGNWVC AAKFESNFNT QATNRNTDGS TDYGILQINS RWWCNDGRTP GSRNLCNIPC SALLSSDITA SVNCAKKIVS * * .***. . .* * .* . .* . * ..* ** * . * *.**..**.. **. ...* ***.*.* * .* *** . *****. 98 IK-GIDYWIA HKALCT-EKL EQWL--CEK- 101 DGNGMNAWVA WRNRCKGTDV QAWIRGCRL *.. *.* . * . . *. *
Confronto con banche dati di sequenze proteiche Allineamento di sequenze. E’ nota la struttura? sì no no Predizione di struttura secondaria Modelling per omologia usando coordinate di proteina a struttura nota sì Ricerche di motivi, fold recognition, ab initio Valutazione accuratezza della predizione Predizione della struttura terziaria - diagramma di flusso
per costruire modelli per omologia di proteine che abbiamo una alta identità di sequenza con una proteina a struttura nota, si può utilizzare il server automatico SwissModel SwissModel è disponibile all’indirizzo: http://www.expasy.ch/swissmod/SWISS-MODEL.html prende in input una sequenza proteica e l’indirizzo di posta elettronica della persona che sottomette la sequenza cerca nel PDB possibili strutture che possano fare da templato (che abbiano cioè una buona identità di sequenza con la proteina query) spedisce con la posta elettronica le coordinate del modello o le motivazioni della propria incapacità a produrne uno di buona affidabilità