1 / 49

Perchè predire la struttura terziaria?

600000. 500000. 400000. 300000. 200000. 100000. 0. Sequenze. Comparative Models. Strutture. Perchè predire la struttura terziaria?. In cifre : 700,000+ sequenze proteiche ~ 20,000 strutture, ~ 5,000 uniche La distanza tra sequenze e strutture note si sta allargando.

coen
Download Presentation

Perchè predire la struttura terziaria?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 600000 500000 400000 300000 200000 100000 0 Sequenze Comparative Models Strutture Perchè predire la struttura terziaria? • In cifre: • 700,000+ sequenze proteiche • ~ 20,000 strutture, ~ 5,000 uniche • La distanza tra sequenze e strutture note si sta allargando. • Metodi computazionali • Veloci (minuti o ore), poco costosi (PC) • Soluzioni corrette ca. nel 60% dei casi. • Risoluzione più bassa, però spesso sufficiente per spiegare la funzione proteica • Osservazione: La sequenza si evolve più rapidamente della struttura (Chothia & Lesk, 1986) • Numero limitato di fold (< 1,000 ?)

  2. Sequenza-struttura-funzione/ predizione di strutture di proteine G P Y W I V R T A C D Varietà di strutture e funzioni S F Q L E diverse combinazioni dei 20 aa K N H M ASSOCIARE A CIASCUNA PROTEINA DI CUI CONOSCIAMO LA SEQUENZA UNA O PIU’ SPECIFICHE FUNZIONI A LIVELLO MOLECOLARE

  3. ESPERIMENTO DI ANFINSEN Codice strutturale NELLA SEQUENZA PRIMARIA E’ SCRITTA LA STRUTTURA DI UNA PROTEINA • PROTEINE CON SEQ. PRIMARIE SIMILI TENDONO AD AVERE STRUTTURE 3D SIMILI • CONFRONTO TRA GENOMI → i geni essenziali (ciclo cell, sviluppo embrionale, signalling) soggetti a poca variabilità

  4. Alcune Applicazioni • In primis: conoscere la struttura tridimensionale a risoluzione atomica della molecola per comprendere, spiegare, e a volte anche modificare ed utilizzare, la sua attività biologica. fisica24ore

  5. Effettuare MUTAZIONI puntiformi e predire i loro effetti, che possono fornire indicazioni utili per il riconoscimento del sito attivo o di strutture indispensabili all'attività della molecola, dirette ad una certa funzione o nel matenimento della struttura della proteina. fisica24ore

  6. Monitorare i cambiamenti strutturali indotti su peptidi o proteine da parte di MEMBRANE BIOLOGICHE, i quali sembrano essere fondamentali per il riconoscimento con il recettore o per oltrepassare la fase lipidica e raggiungere zone altrimenti inaccessibili. fisica24ore

  7. Studiare le variazioni conformazionali provocate dall’interazione della proteina con uno o più LIGANDI, la quale fornisce l’attivazione (o inattivazione) necessaria per compiere la propria funzione biologica (o per impedirla). fisica24ore

  8. Comprendere il processo di FOLDING delle proteine, ovvero il meccanismo di ripiegamento con cui raggiungono la confomazione biologicamente attiva.

  9. Applicazioni FARMACOLOGICHE: viene fornita un’indicazione specifica, o quanto meno restrittiva, della struttura opportuna in funzione del bersaglio del farmaco. In questo campo, la costruzione di strutture calibrate permette di ridurre la ricerca ad un ristretto raggio d’azione.

  10. Ipotesi termodinamica diAnfinsen(per proteine a singolo dominio) • L’informazione codificata nella sequenza amminoacidica di una proteina determina completamente la sua struttura nativa • Lo stato nativo è il minimo assoluto dell’energia libera della proteina

  11. Sequenze casuali non sono in grado di ripiegarsi in maniera univoca Le proteine presenti in natura non sono sequenze casuali. Esse popolano un limitato gruppo di fold selezionate dalla natura attraverso l’evoluzione. Ciascuna ha un minimo globale distinto, ben separato dagli altri stati metastabili. Quali sono le proprietà uniche e comuni a tutti gli elementi di questo particolare insieme di strutture di tipo proteico?

  12. Metodi per la predizione della struttura secondaria e di domini/regioni disordinate

  13. Ad.es. PREDIZIONE 2D che si basa sull’analisi statistica della composizione in residui delle strutture secondarie presenti nella PDB o sulle propensioni di certi amminoacidi a trovarsi in determinati elementi 2D. Propensione dei residui aminoacidici a formare elementi di struttura secondaria come riportato da Chou-Fasman (1978b) (C&F) e Levitt (1978) (L). La colonna “pr” classifica i residui come indifferenti (=) o stabilizzatori/destabilizzatori forti (++/--) e deboli (+/-) della struttura secondaria.

  14. Metodi di predizione della struttura 2D e disordine delle proteine a partire dalla sequenza: Diversi programmi per predizione 2D: Ad es. PSIPRED oppure JPRED che applica diversi metodi e fa un “consensus” dei vari metodi Disopred o Disoclust programmi per la predizione di regioni intrinsecamente disordinate a partire dalla sequenza. Mentre GeneSilico e’ un metaserver per la predizione del disordine usando il consenso di diversi metodi. Associata alla predizione della struttura 2D o del disordine intrinseco c’e’ sempre un livello di confidenza (da 0 a 9) che va osservato con cautela prima di trarre conclusioni. disordine

  15. Diagramma di flussodella modellizzazioneproteica Dati sperimentali Allineamento multiplo di sequenza Ricerca nelle banchedati Assegnazione dei domini Predizione del fold No E’ stato predetto un fold? Sì Sì No Modello tridimensionale della proteina Sequenza proteica Proteina omologa nella banca dati PDB? Predizione della struttura secondaria/ Predizione disordine intrinseco Allineamento delle Sequenza ai fold noti (fold recognition) Modellizzazione Comparativa (Homology) Predizione della struttura terziaria ab-inito

  16. Modellizzazione comparativa (o homology modelling) Permette di costruire la struttura tridimensionale di una proteina sulla base della SIMILARITÀ DI SEQUENZA con un’altra proteina di struttura NOTA che viene usata come STAMPO.

  17.    Utilizza strutture note (template) di uno o più membri di una famiglia strutturale-funzionale per predire la struttura (target) di un altro membro della famiglia la cui sequenza sia nota. Si basa sulle seguenti osservazioni: • le proteine appartengono ad un numero limitato di famiglie strutturali • proteine della stessa famiglia (omologhe) hanno strutture tridimensionali molto simili e conservate • applicabile con successo se esiste almeno un omologa a struttura nota (id. > 30% con il templato)

  18. RICERCA DEL TEMPLATO • Blast-FastA • CRITERI IDENTITA’/SIMILARITA’ • CONOSCENZA FUNZ.-STR.-BIOCHIM. • OMOLOGO 3D (PDB) • ALLINEAMENTO HOMOLOGY MODELLING

  19. GUIDA LA COSTRUZIONE DEL MODELLO • CORRISPONDENZA aa target  aa templato • ricerca ALLINEAMENTO OTTIMALE • CORRISPONDENZA DI aa FUNZ. IMPORTANTI • CORRISPONDENZA DELLA STRUTTURA SECONDARIA TRA TEMPLATO E QUERY • VALUTAZIONE DEI GAP  loop • USO TEMPLATI MULTIPLI   loc.similarità ALLINEAMENTO

  20. 1. Generazione di allineamenti a coppie diversi con diversi programmi (nel caso di un solo templato) 2. Allineamenti multipli di omologhi per avere informazioni maggiori 3. Ricerca di informazioni biologico-biochimiche sugli aa conservati 4. Predizione di struttura secondaria per il target 5. Correzione dell’allineamento sulla base delle informazioni ai punti 2. 3. e 4. ALLINEAMENTO

  21. Raw model Loop modeling Side chain placement Refinement Dalla sequenza al modello

  22. Raw model Loop modeling Side chain placement Refinement • identificazione SCR (structural conserved regions) • SCR  scaffold del modello CREAZIONE DEL MODELLO ______________ ______________ x-ray SCRs No SCRs (loops ?)

  23. flexible conserved Costruzione del pre-modello • La struttura del templato viene utilizzata come “stampo“ per costruire il modello seguendo l‘allineamento. • Le coordinate 3D dei residui strutturalmente conservati si possono copiare direttamente. • Le regioni variabili della struttura (generalmente loop) non si possono copiare.

  24. Raw model Loop modeling Side chain placement Refinement Catenelaterali • Problema: Applicando le coordinate del templato sulla sequenza del target cambiano tipo, dimensione e posizione delle catene laterali. • L‘RMSD cambia relativamente poco, però possono cambiare le conformazioni di residui importanti (p.es. del sito attivo) • Dove possibile è meglio mantenere le conformazioni delle catene laterali del templato. • Esistono metodi standard per risolvere questo problema.

  25. AUSILIO DI LIBRERIE DI ROTAMERI Contengono i possibili conformeri delle catene laterali a fronte di specifiche conformazioni del backbone • OTTIMIZZAZIONE ENERGETICA DELLE STRUTTURA  rimozione di clash PREDIZIONE DELLE CATENE LATERALI

  26. Raw model Loop modeling Side chain placement Refinement Loop modeling • Al pre-modello possono mancare interi frammenti di catena principale • non conservati nella famiglia proteica • Inserzioni • Delezioni • Descrizione del problema: • Si cerca un fold che colleghi il frammento N-terminale (pre-loop) con quello C-terminale (post-loop) tramite k residui • (f,y) sono gli unici parametri liberi loop post-loop pre-loop

  27. REGIONI VARIABILI –  pressione selettiva • DUE STRATEGIE PREDITTIVE: • criterio geometrico testando diverse conformazioni • ricerca in PDB di frammenti simili nelle proteine a struttura nota  INFLUENZA DELL’INTORNO REFINEMENT CRITICO  OTTIMIZZAZIONE MEC. E DIN. MOL. • CRITICITA’ nella predizione quando i LOOP rivestono ruolo funzionale o di interazione. PREDIZIONE DEI LOOP

  28. 5. Ottimizzazione del modello Regolarizzazione di legami, angoli e torsioni Eliminazioni di clash strutturali Minimizzazione energetica

  29. 6. Controllo della qualità del modello • programmi che valutano la qualità dal punto di vista geometrico della struttura (grafico di ramachandran, planarità, clash…) • programmi che fanno una predizione dell’rmsd del modello della proteina rispetto alla sua putativa struttura nativa

  30. FOLD RECOGNITION • Predizione di sequenzaconsimilaritàconproteine a strutturanota. • Osservazione: La natura utilizzasolamenteunnumerolimitato di folddiversi • Idea della foldrecognition: Cerca di rappresentare la strutturaignotacondeifoldconosciuti, valutaqualepotrebbeesserequello“corretto“.

  31. FOLD RECOGNITION per casi predittivi in cui non ci sono omologie chiare con proteine a struttura nota (TWILIGHT ZONE (id.seq tra target e templato 15<x<30%) metodi che rinunciano alla corretta formulazione del campo di forze agenti su una struttura proteica detti meanforcepotentialche individuano un potenziale che cattura la natura risultante delle forze in gioco devo disporre di uno strumento quantitativo per misurare fitness di una sequenza con una struttura per poter assegnare alla sequenza in questione le strutture note e valutare la bontà dell’assegnazione queste funzioni di pseudo-potenziale sono costruite sulla base di un’analisi statistica di strutture note e sono la base che differenzia i diversi metodi di fold-recognition

  32. METODO DEGLI “Structuralenvironment” • Combinazioni dei 3 parametri definiscono diverse CATEGORIE STRUTTURALI (in tutto 18 classi strutturali) • 6 classi rappresentano l’intorno delle catene laterali che può essere non accessibile (B), parzialmente accessibile (P) o accessibile al solvente (E) • P e B sono suddivisi sulla base della frazione dell’intorno che è costituita da atomi polari 1– 3 categorie di frazioni di contatti polari (frazione dell’area della catena laterale coperta da atomi polari): 0-0.4, 0.4-0.8, > 0.8. E sempre a elevata frazione polare. • 6 classi: E, P1, P2, B1, B2 e B3 • Ciascuna di queste potrà trovarsi in una struttura α o β o “altro” e quindi le classi possibili sono 18. detto anche metodo dei profili 1D-3D o di Eisenberg ASSUNZIONE: ambiente di un residuo più conservato del residuo stesso (adatto a relazioni distanti) descrive intorno strutturaledi ogni aain ogni proteina a struttura nota e valuta la frequenza con cui ognuno dei 20 aa si trova in un certo intorno ambiente/intorno strutturale è descritto sulla base di 3 principi (aspetti + importanti di una struttura proteica): Quanto un residuo in una posizione è schermato dal solvente? Quanto è a contatto con gruppi polari o idrofobici? La struttura secondaria in cui è collocato

  33. METODO DEGLI “Structuralenvironment” A questo punto entra in gioco un eventuale sequenza x cui voglio valutare la fitness per una data struttura (sequenza target). Confronterò gli amminoacidi della mia sequenza con gli ambienti strutturali definiti sulla base delle strutture note (si parla in questo senso di ALLINEAMENTO SEQUENZA-STRUTTURA) Si cerca, in sostanza, di adattare ad un fold già noto la sequenza in esame e si cerca l’allineamento ottimale (operazione fatta tra la seq e tutte le strutture disponibili); All’allineamento è sempre assegnato un punteggio di cui valutare la significatività statistica (E-value o z-score) .

  34. METODO DEI CONTATTI TRA AMMINOACIDI Si basa, per descrivere i fold noti, su interazioni tra coppie di amminoacidi (sulla distanza tra amminoacidi nelle proteine a struttura nota); ASSUNZIONE ALLA BASE: le strutture native delle proteine sono stabilizzate da interazioni intramolecolari tra i vari atomi della proteina e intermolecolari tra essi e le molecole di solvente Dalla banca dati di strutture costruisce una funzione pseudopotenzialeche descrive lo spazio conformazionale della proteina: per ogni possibile coppia di aa in una struttura valuto la distanza (di solito Cα-Cα) tra i residui in esame e calcolo una funzione che descrive questa interazione; Le funzioni pseudopotenzialesono una per ogni coppia di residui e le costruisco sulla base della frequenza con cui osservo una data coppia a una data distanza nel database PDB.

  35. METODO DEI CONTATTI TRA AMMINOACIDI Ad esempio x la coppia ala-ala: misuro in ogni proteina la distanza tra i Cα e costruisco una distribuzione in cui metto in relazione ogni distanza alla frequenza con cui è osservata Per passare dalle frequenze a energie si usa il principio di Boltzmann che correla probabilità di uno stato con la sua energia La distanza geometrica r è influenzata dalla distanza in sequenza: si prende in considerazione anche questa; Parametri da considerare: a,b (i 2 residui); c,d (atomi considerati per le distanze, es Cα-Cα); k è la distanza in sequenza.

  36. per F.RECOGNITION/THREADING: Phyre, GenThreader, 3D-PSSM + metaserver che fanno consenso per HOMOLOGY MODELLING: programma Modeller HHPRED server: sia per homology modelling che threading in caso di templati con identita’ non troppo bassa (perche’ si appoggia per definire gli allineamenti su metodi accurati per definire omologie remote tipo HMM

  37. Il metodo abinitio(predizione de novo) • Il problema della predizione di struttura abinitio • “data una sequenza proteica, calcolarne la struttura” • Il calcolo è basato sulla stima dell’energia relativa alla posizione di ciascun atomo nello spazio e la sua relazione chimico-fisica con gli altri atomi • Il minimo globale della funzione energia definisce la struttura 3D • È teoricamente possibile • Essendo la biofisica complessa ed incompleta è nella pratica ancora molto difficile ROSETTA, sviluppata dal gruppo di David Baker

  38. Ab initio methods for modelling NO allineamento NO struttura nota Costruireunafunzioneempiricachedescriva le forzediinterazione Esplorare lo spazioconformazionale per massimizzarefunzionedimerito Programmi per ab-initio es. Rosetta o I-Tasser (I-Tasser usa metodi misti di threading e ab-initio)

  39. “Modello di folding” su cui si basa Rosetta: “ Localsequencefragmentsrapidlyalternate between different possible local structures, and folding occurs when the conformations and relative orientationsofthese local segments combine to form low energy global structures” E’ UN PROBLEMA DI CAMPIONAMENTO CONFORMAZIONALE

  40. PROBLEMA DI CAMPIONAMENTO CONFORMAZIONALE: • Ricerca della geometria di minima energia • Richiede: • Metodo di ricerca/generazione delle conformazioni • Funzione “energetica” (funzione di scoring energetico) per valutarle • Nei metodi ab-initio: • Rappresentazioni ridotte delle proteine/ Potenziali detti knowledge-based semplificati/ ricerca di conformazionale coarse-grain

  41. M A A G Y A Y G V L S - A T G F D - - V I D - A S G F E - - V V E - A K A Y L - - V L S Building by homology (Homology modelling) Allineamento con proteine a struttura nota Modello strutturale

  42. M A A G Y A V L S Fold recognition (Threading) Sequenza: + Motivi strutturali noti Modello strutturale

  43. M A A G Y A V L S Ab initio Sequenza Modello strutturale

  44. NOTE GENERALI PER IL MODELLING • prima di cercare di ottenere un modello raccogliere quante piu’ informazioni possibili sulla proteina, e soprattutto definire i suoi domini strutturali (che potrebbero richiedere procedure di modelling diverse) • raccogliere informazioni su propensione a determinate strutture secondarie e disordine intrinseco • valutare con metodi di ricerca di similarita’ in banche dati (Blast, PSI-Blast) se esistono omologhe a struttura nota • Fare allineamenti multipli con le omologhe a struttura nota e eventualmente altre a sola sequenza nota per identificare bene regioni conservate nella famiglia di proteine di studio • Validare sempre gli allineamenti proposti dai programmi per il modelling (soprattutto per metodi di threading e ab-initio o per casi di templati con bassa identita’ di sequenza)

More Related