580 likes | 723 Views
Fisica Computazionale applicata alle Macromolecole. Pier Luigi Martelli Università di Bologna gigi@biocomp.unibo.it 051 2094005 338 3991609. Predizione della struttura proteica. 3D structure prediction of proteins. New folds. Existing folds. Building by homology. Ab initio prediction.
E N D
Fisica Computazionale applicata alle Macromolecole Pier Luigi Martelli Università di Bologna gigi@biocomp.unibo.it 051 2094005 338 3991609 Predizione della struttura proteica
3D structure prediction of proteins New folds Existing folds Building by homology Ab initio prediction Threading 0 10 20 30 40 50 60 70 80 90 100 Homology (%)
“Comparative modelling” di proteine Da: Martì-Renom et al. (2000) Annu. Rev. Biophys. Biomol. Struct. 29:291
Modelling per omologia Su larga scala? E’ possibile abbassare la soglia di identità di sequenza? “Comparative modelling” di proteine Modelli affidabili solo per il 45% delle proteine di Swiss Prot (MODBASE) http://alto.compbio.ucsf.edu/modbase Da: Sanchez et al. (2000) Nature Struct. Biol. (Suppl) 7:986
Comparative Modelling Selection of Templates Alignment of the Target sequence with Template Modelling of the Target on the Template Evaluation of the Model
Sequence alignment of TGL3_HUMAN with 1f13 TGL3 MAALGVQSINWQKAFNRQAHHTDKFSSQELILRRGQNFQVLMIMNKGLGSNERLEFIDTT 60 1F13A VHLFKERWDTNKVDHHTDKYENNKLIVRRGQSFYVQIDFSRPYDPRRDLFRVEYVIGRYP 60 : : : . : .: : :..:*: :. * : . . : . TGL3 GPYPSESAMTKAVFPLSNGSSGGWSAVLQASNGNTLTISISSPASAPIGRYTMALQIFSQ 120 1F13A QENKGTYIPVPIVSELQSGKWGAKIVMREDRSVRLSIQSSPKCIVGKFRMYVAVWTPYGV 120 . . * *..*. *. .: : . . * .. . : *. . :. TGL3 GGISSVKLGTFILLFNPWLNVDSVFMGNHAEREEYVQEDAGIIFVGSTNRIGMIGWNFGQ 180 1F13A LRTSRNPETDTYILFNPWCEDDAVYLDNEKEREEYVLNDIGVIFYGEVNDIKTRSWSYGQ 180 * :***** : *:*::.*. ****** :* *:** *..* * .*.:** TGL3 FEEDILSICLSILDRSLNFRRDAATDVASRNDPKYVGRVLSAMINSNDDNGVLAGNWSGT 240 1F13A FEDGILDTCLYVMDR-------AQMDLSGRGNPIKVSRVGSAMVNAKDDEGVLVGSWDNI 233 **:.**. ** ::** * *::.*.:* *.** ***:*::**:***.*.*.. TGL3 YTGGRDPRSWDGSVEILKNWKKSGFSPVRYGQCWVFAGTLNTALRSLGIPSRVITNFNSA 300 1F13A YAYGVPPSAWTGSVDILLEYRSSENPVRYGQCWVFAGVFNTFLRCLGIPARIVTNYFSAH 293 *: * * :* ***:** :::.* . . . . . * . *.: TGL3 HDTDRNLSVDVYYDPMGNPLDKGSDSVWNFHVWNEGWFVRSDLGPPYGGWQVLDATPQER 360 1F13A DNDANLQMDIFLEEDGNVNSKLTKDSVWNYHCWNEAWMTRPDLPVGFGGWQAVDSTPQEN 353 .: . . : . . .*****:* ***.*:.*.** :****.:*:****.
TGL3 SQGVFQCGPASVIGVREGDVQLNFDMPFIFAEVNADRITWLYDNTTGKQWKNSVNSHTIG 420 1F13A SDGMYRCGPASVQAIKHGHVCFQFDAPFVFAEVNSDLIYITAKKDGTHVVENVDATHIGK 413 *:*:::****** .::.*.* ::** **:*****:* * .: : :* :* TGL3 RYISTKAVGSNARMDVTDKYKYPEGSDQERQVFQKALGKLKPNTPFAATSSMGLETEEQE 480 1F13A LIVTKQIGGDGMMDITDTYKFQEGQEEERLALETALMYGAKKPLNT--------EGVMKS 465 ::.: *.. . .::. : : * * :. TGL3 PSIIGKLKVAGMLAVGKEVNLVLLLKNLSRDTKTVTVNMTAWTIIYNGTLVHEVWKDSAT 540 1F13A RSNVDMDFEVENAVLGKDFKLSITFRNNSHNRYTITAYLSANITFYTGVPKAEFKKETFD 525 * :. . .:**:.:* : ::* *:: *:*. ::* :*.*. *. *:: TGL3 MSLDPEEEAEHPIKISYAQYERYLKSDNMIRITAVCKVPDESEVVVERDIILDNPTLTLE 600 1F13A VTLEPLSFKKEAVLIQAGEYMGQLLEQASLHFFVTARINETRDVLAKQKSTVLTIPEIII 585 ::*:* . :..: *. .:* * .: ::: ...:: : :*:.::. : . . : TGL3 VLNEARVRKPVNVQMLFSNPLDEPVRDCVLMVEGSGLLLGNLKIDVPTLGPKERSRVRFD 660 1F13A KVRGTQVVGSDMTVTVEFTNPLKETLRNVWVHLDGPGVTRPMKKMFREIRPNSTVQWEEV 645 :. ::* . . : . : . * : .. : :* . : *:. : . TGL3 ILPSRSGTKQLLADFSCNKFPAIKAMLSIDVAE 693 1F13A CRPWVSGHRKLIASMSSDSLRHVYGELDVQIQR 678 * ** ::*:*.:*.:.: : . *.::: . sequence identity 34%
Building the Model: MODELLER http://salilab.org/modeller/modeller.html
Evaluating the Model: PROCHECK http://biotech.ebi.ac.uk:8400/
Servers: http://www.expasy.ch/swissmod/SWISS-MODEL.html
Servers: http://www.salilab.org/modbase/
Modelling a bassa identità • Scelta del template in base a dati sperimentali La determinazione sperimentale della funzione o della presenza di metalli o gruppi prostetici riduce moltissimo il numero di fold possibili
Modelling a bassa identità • Scelta del template in base a dati sperimentali • Allineamento multiplo di proteine della stessa famiglia La determinazione dei residui maggiormente conservati fissa alcuni residui importanti (nell’ambito della famiglia) la cui posizione deve essere mantenuta
Modelling a bassa identità • Scelta del template in base a dati sperimentali • Allineamento multiplo di proteine della stessa famiglia • Utilizzo di predittori (struttura secondaria, accessibilità al solvente, stato di legame delle cisteine, segmenti transmembrana….) b-strand a-elica La predizione di caratteristiche strutturale del target aiuta l’allineamento col template
Alcool deidrogenasi da Sulfolobus solfataricus • Dati sperimentali • Contiene 2 atomi di zinco per monomero • Attiva come tetramero • Strutture presenti nella banca dati • Alcool deidrogenasi a 2 atomi di zinco, dimeriche • 2OHX (fegato di cavallo) • ID: 24% • Alcool deidrogenasi a 1 atomo di zinco, tetrameriche • 1YKF (Thermoanaerobacterium brockii) • ID: 23% • Monomeri simili (RMSD < 0.2 nm). Differenze in: • loop che coordina il secondo atomo di zinco • aree di tetramerizzazione
38 residui sono conservati in più del 90% delle sequenze • 12 residui sono sempre conservati Tra questi i residui coinvolti nel coordinare i due centri metallici
Allineamento tra il target e due template Target ADH a 2 atomi Zn ADH tetramerica a-elica b-strand L’allineamento considera: posizioni conservate, struttura secondaria, accessibilità al solvente.
Modello del monomero Dominio di legame del coenzima Dominio catalitico Zinco catalitico Zinco strutturale
Modello del tetramero Casadio R, Martelli PL, Giordano A, Rossi M, Raia CA A low-resolution 3D model of the tetrameric alcohol dehydrogenase from Sulfolobus solfataricus Protein eng 15:215-223 (2002)
Modello Struttura a raggi X (1JVB) Conferme: la struttura della proteina è stata risolta RMSD = 0.25 nm Casadio et al, Protein eng 15:215 (March 2002) Esposito et al., JMB 318:463 (April 2002)
Carbossipeptidasi da Sulfolobus solfataricus • Dati sperimentali • Contiene 1 atomi di zinco per monomero • Attiva in forma oligomerica, ignoto il numero di monomeri • Strutture presenti nella banca dati • Carbossipeptidasi a 1 atomo di zinco • 1OBR (Thermoactinomyces vulgaris) • ID: 16% • simmetria compatibile con esameri • Carbossipeptidasi a 2 atomi di zinco • 1CG2 (Pseudomonas spirullum) • ID: 21% • simmetria compatibile con tetrameri
Sovrapposizione strutturale dei domini catalitici 1OBR 1CG2:His90 1OBR:His69 1CG2 1OBR:His204 1CG2:Glu178 1CG2:Asp119 1OBR:Glu72 RMSD = 0.25 nm
Allineamento tra il target e 1OBR b-strand a-elica L’allineamento considera: leganti dello zinco, struttura secondaria, accessibilità al solvente.
Modello di CPSso basato su 1OBR Coordinano lo zinco His 245 Acqua Asp 109 His 108 Zinco Glu 327 Coordina l’acqua
Allineamento tra il target e 1CG2 b-strand a-elica L’allineamento considera: leganti dello zinco, struttura secondaria, accessibilità al solvente.
Modello di CPSso basato su 1CG2 Coordinano lo zinco His 108 Asp 109 His 168 Acqua Coordina l’acqua Glu 142 Zinco
His 108 Asp 109 His 245 Coordinano lo zinco His 108 Asp 109 His 168 Mutagenesi sitospecifica H108A Inattivo D109L Inattivo H245A Attivo H168A Inattivo
Aggregati Modello basato su 1obr Simmetria 6-merica Modello basato su 1cg2 Simmetria 4-merica
Diffrazione a Raggi X a Basso Angolo Occhipinti E, Martelli PL, Spinozzi F, Corsi F, Formantici C, Molteni L, Amenitsch H, Mariani P, Tortora P, Casadio R 3D structure of Sulfolobus solfataricus carboxypeptidase developed by molecular modeling is confirmed by site-directed mutagenesis and small angle X-ray scattering Biophys J 85:1165-1175 (2003)
Conclusioni Il modelling a bassa identità di sequenza può dare buoni risultati se tutte le informazioni disponibili (sia sperimentali che derivanti da predizioni) sono utilizzate per la scelta del template e per l’allineamento. Queste procedure sono in gran parte ANCORA non automatiche
A low resolution 3D Model of VDAC the sequence from Neurospora crassa)
Structural alignment of VDAC with the template Prediction with HMM
A low resolution 3D model of VDAC: location of mutated residues Casadio et al., FEBS Lett 520:1-7 (2002)
Threading Thread the Sequence ….ACDGGTKLMAG…… into Model 3 Model 1 Model 2 Score 1 Score 3 Score 2 The best scoring model is chosen as candidate fold for the sequence
THREADING SERVERS TOPITS (PredictProtein) Burkhard Rost (Columbia Univ.) http://cubic.bioc.columbia.edu/predictprotein/ FRSVRDavid Eisenberg (UCLA) http://fold.doe-mbi.ucla.edu/ 3DPSSM Michael Sternberg (Imperial Cancer Res. Fund) http://www.sbg.bio.ic.ac.uk/~3dpssm/ GenTHREADER David Jones (Brunel Univ.) http://bioinf.cs.ucl.ac.uk/psipred/
HoMo 1D ….the art of being humble FoRc
Ab initio methods: • Knowledge based potentials • Contact map predictions
Prediction of Contact Maps F 156 V 299 I 269 F 297 V 271 I 240 V 238 Contact definition
Contact definition: • Cb-Cb distance < 0.8 nm • Sequence gap > 7 residues
Computation of Contact Maps From 3D Structure TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN F 156 To Contact Map V 299 I 269 F 297 V 271 I 240 V 238
We can build the correct structure from the correct contact map Model N 1QHJ (1.9 Å) MARC Contact map C RMSD = 2.5 Å