580 likes | 939 Views
ALLINEAMENTI MULTIPLI. L’allineamento multiplo è un’ipotesi di omologia posizionale tra basi o aminoacidi Tutti i residui presenti nella stessa colonna di un multi-allineamento sono evolutivamente correlati
E N D
ALLINEAMENTI MULTIPLI L’allineamento multiplo è un’ipotesi di omologia posizionale tra basi o aminoacidi Tutti i residui presenti nella stessa colonna di un multi-allineamento sono evolutivamente correlati No applicabili algoritmi di allineamento globale esatto (cresce esponenzialmente con il numero di sequenze da allineare) Teoricamente sarebbe possibile applicare l’algoritmo di allineamento globale, ma in pratica non lo è perché richiede tempi di esecuzione troppo lunghi METODI APPROSSIMATI Es. ALLINEAMENTO PROGRESSIVO (implementato in Clustal W)
ALLINEAMENTO PROGRESSIVO • Basato su costruzione di una successione di allineamenti a coppie • Dato un insieme S costituito da n sequenze da allineare, si scelgono due sequenze s1 e s2 e si allineano; questo allineamento resta fissato nei passi successivi • Si sceglie una terza sequenza s3 e si allinea al precedente allineamento, e così via • Prevedono che coppie di sequenze che presentano un maggior grado di similarità tra loro siano allineate per prime (giustificato dal fatto che coppie di seq + simili avranno maggiore probabilità di essere derivate + recentemente da un antenato comune e il loro allineamento fornisce informazioni più affidabili - le posizioni dei gap in seq maggiormente correlate sono tipicamente + accurate rispetto a quelle relative a seq meno simili, per cui i gap degli allineamenti iniziali vanno preservati durante l’allineamento progressivo)
A B D C ClustalW • Otterremo un albero i cui rami hanno lunghezza proporzionale alla distanza tra le sequenze: • Quest’albero verrà utilizzato per guidare l’allineamento progressivo. • Nel nostro esempio verranno allineate per prime le sequenze A e B. Successivamente verrà allineata la sequenza D all’allineamento AB e infine verrà allineata la sequenza C all’allineamento ABD.
Allineamento con ClustalW • La presenza di un simbolo * in fondo ad una colonna indica un match del 100%. • Il simbolo :indica un’alta similarità (>75%). • Il simbolo.indica una media similarità (50%-75%).
Quando le sequenze da allineare non sono molto divergenti (similarità >50% per le proteine) ClustalWdàunarispostaottimale • In casocontrariosononecessariaggiustamenti (correzionemanualedell’allineamento) • Unavoltache 2 o + seqsiano state allineate in un cluster, questoallineamento è fissato e non puòpiùesseremodificatonellefasi successive dell’allineamentoprogressivo. • Problemidiminimo locale: se in unaqualunquefasevieneintrodotto un erroresipropagheràsullefasi successive • Affidabilità del multiallineamentodipendedanchedal set diseq considerate – es. Se si include unaseq non realmenteomologaallineamentoprodottorisultaalteratodainserzionemolti gap addizionali (controlloseq input per rimuoverequelle “spurie”)
Una sequenza “da sola” non e’ informativa, è utile poterla confontare alle sequenze note nei database perche’ possano essere formulate delle ipotesi sulla sue relazioni evolutive con sequenze simili o sulla sua funzione. • Metodi di ricerca di similarità in banca dati: programmi che permettono di fare lo “screening” di una banca dati usando una sequenza “sonda”/”esca” (detta query) come input ( le sequenze nel DB sono chiamate subject) • Devono essere veloci, selettivi e sensibili • Si basano su metodi euristici • Utilizzano allineamentilocali per confrontare • le sequenze • Algoritmo “Euristico” = in matematica e informatica un particolare tipo di algoritmo la cui soluzione non è la soluzione ottima per quel dato problema ma una soluzione approssimativamente molto vicina a quella ottima con tempi di calcolo ragionevoli. RICERCA DI SIMILARITA’ IN BANCHE DATI
Se due sequenze hanno una identità > 30%: • Sonostrutturalmente e disolitoanchefunzionalmentesimili • Hanno un antenato in comune • Se due sequenze hanno una identità > 20-30%: • Hanno un ripiegamentoglobale simile • Se due sequenze hanno una similarità pari al 15-20%: • Siamo al limitedella“twilight zone” • Se esisteunaverarelazionedisolitositrovano “icebergs” (regionidisimilaritàlocali)
Valutazione significatività dei match identificati Quanto il match (query vs seq x del DB) identificato dagli allineamenti locali di BLAST è significativo? Tanto più il loro allineamento è diverso da uno generato casualmente tra sequenze di lunghezza paragonabile Sequenze che danno un allineamento casuale: –Sequenze non omologhe –Sequenze rimescolate(“shuffled”) –Sequenze generate casualmente –Sequenze a bassa complessità (con regioni ricche di amminoacidi dello stesso tipo altamente ripetuti) N.B. Blast permette di mascherare le regioni di sequenza a bassa complessitè
E-value E-value= expectation value, numero atteso di sequenze che danno per caso il punteggio opt Indica quanto e’ probabile che si trovi il punteggio S per caso in una distribuzione di Poisson con valore medio Mcasuale NB IN BLAST il punteggio OPT puo’ essere convertito in scala logaritmica al punteggio cosidetto BIT Indicazioni: opt/bit elevati, Evalue prossimo a 0
BLAST blastp cerca in database di sequenze proteiche usando come query sequenze proteiche blastn cerca in un database di sequenze nucleotidiche usando come query sequenze nucleotidiche blastx cerca in un database di sequenze proteiche partendo da una sequenza query nucleotidica che viene tradotta in tutti i frame tblastn cerca in un database di sequenze nucleotidiche partendo da una sequenza query proteica – le seq subject del database sono tradotte in sequenze proteiche in tutti i frame PSI-Blast ricerca iterativa con PSI-Blast usando ad ogni iterazione una sequenza consenso derivata dall’allineamento tra la seq query le le subject dell’interazione precedente
Ricerca di pattern e motivi funzionali Uno dei primi scopi della biologia computazionale consiste nel rispondere alla domanda: data una nuova sequenza, cosa si può dire sulla funzione (o funzioni) in essa codificata? Se la ricerca per similarità non fornisce risposte si devono usare altri strumenti: la ricerca di pattern e motivi funzionali La pattern recognitionè un’area di ricerca dell’informatica e della fisica applicata con ricadute in campi quali l’intelligenza artificiale, la linguistica computazionale, le scienze cognitive, la statistica matematica, ecc. Studia l’organizzazione e il disegno di sistemi che riconoscano motivi e regolarità nei dati a disposizione
Un motivo (pattern) è un insieme di caratteri (nucleotidi o aminoacidi), non necessariamente contigui, associati spesso ad una precisa struttura o funzione La loro esistenza dipende dal fatto che l’evoluzione ha prodotto pochi modi per realizzare una determinata funzione I motivi possono essere codificati in: Espressioni regolari – motivi di tipo deterministico Forme più complesse (allineamenti, profili, HMM, matrici, consensus) Motivo ideale può essere sempre ed univocamente associato ad una precisa struttura o funzione Motivo reale si trova in sequenze che non presentano la funzione (falsi positivi) o è assente in sequenze funzionalmente correlate al motivo (falsi negativi) Leespressioni regolarisonoformuleche si possono usare per definire pattern testualiutilizzandolelettere dell’alfabeto e meta-caratteri <$+*[{( )?. ai quali è associata una determinata funzione
BANCHE DATI DI MOTIVI • All’interno di un singolo motivo l’informazione può essere ridotta a una SEQUENZA CONSENSO che non deve essere necessariamente stringente: PATTERN; • Se ci si riferisce a un gruppo di motivi conservati non contigui nella sequenza: FINGERPRINT oppure BLOCCHI; • Se invece non si identificano regioni locali di similarità tra proteine di una stessa famiglia ma l’informazione viene dal considerare la similarità lungo l’intero allineamento si ha un PROFILO
MOTIVI…E MOTIVI PATTERN FINGERPRINT O BLOCCHI PROFILO : possibilità di ricavare una sequenza consenso per tutto l’allineamento XXXXhhhhXXXbbxxaaxxNGG(X)5-8SWXX…
Ricerca di pattern e motivi funzionali in sequenze proteiche Dallo studio di allineamenti multipli di sequenze appartenenti ad una stessa famiglia di proteine, appare evidente che alcune regioni sono più conservate regioni importanti per la funzione o la struttura Le regioni più conservate sono in genere quelle più importanti per la funzione Dalle regioni costanti e variabili di un multi-allineamento di proteine omologhe derivare un pattern che serva a distinguerle, cioè si può identificare un motivo che possa servire alla caratterizzazione funzionale delle proteine che lo contengono. Esistono diversi programmi per l’individuazione di motivi: PROSITE BLOCKS, PRINTS (fingerprint= insieme di piu’ motivi) E di domini: PFAM, SMART
Le proteine ed i domini proteici che appartengono ad una particolare famiglia generalmente condividono attributi funzionali e derivano da un “antenato” comune. Dallo studio di sequenze risulta evidente che alcune regioni si conservano meglio di altre nel corso dell’evoluzione. Queste regioni in genere sono importanti per il mantenimento della struttura tridimensionale o per la funzione di una proteina. Analizzando le proprietà che vengono mantenute costanti e quelle che invece variano è possibile ottenere una “signature” per ogni famiglia proteica o dominio che consente di distinguere i suoi membri dalle altre proteine non correlate.
BANCHE DATI DI MOTIVI • All’interno di un singolo motivo l’informazione può essere ridotta a una SEQUENZA CONSENSO che non deve essere necessariamente stringente: PATTERN PROSITE • Se ci si riferisce a un gruppo di motivi conservati non contigui nella sequenza: FINGERPRINT oppure BLOCCHIBLOCKSPRINTS • Se invece non si identificano regioni locali di similarità tra proteine di una stessa famiglia ma l’informazione viene dal considerare la similarità lungo l’intero allineamento si ha un PROFILO • Prosite Pfam
Come si può studiare la struttura di una proteina i metodi sperimentali classici per la risoluzione della struttura tridimensionale di una proteina sono: • la cristallografia a raggi X • la spettroscopia a risonanza magnetica e nucleare (Nuclear Magnetic Resonance, NMR)
Cristallografia a raggi X La proteina, cristallizzata, viene bombardata con un raggio di fotoni collimati ad alta energia. I fotoni vengono diffratti in modo differente a seconda del tipo di atomo che colpiscono. I raggi diffratti vengono raccolti formando un quadro(pattern) di diffrazione Il pattern di diffrazione (immagine nel dominio delle frequenze) viene usato per ricostruire le coordinate dei singoli atomi che compongono la macromolecola e quindi la sua struttura 3D. I raggi X interagiscono quasi esclusivamente con gli elettroni presenti nella materia e non con i nuclei. Una struttura ai raggi X è quindi un’immagine della densità elettronica dell’oggetto in analisi
Cristallografia a raggi X Risoluzione ottenibile su piccole molecole organiche 1Å. In generale proteine cristallizate hanno grado di organizzazione più basso (2-3.5Å) che limitano la risoluzione. Questo è dovuto anche all’alta idratazione dei cristalli (40-60% di acqua). Una tale risoluzione non è sufficiente per rivelare la posizione dei singoli atomi, ma è sufficiente per tracciare l’andamento e la disposizione dello scheletro covalente della proteina. Occorre quindi conoscere la struttura primaria in modo da adattare la mappa della densità elettronica alla sequanza aminoacidica. • Limiti del metodo: • Cristallizzare proteine e` difficile • Ricavare la struttura dal pattern di diffrazione e` computazionalmente complesso • L’informazione che si ottiene e` statica, mentre la conforomazione di una proteina in soluzione varia nel tempo
Spettroscopia a risonanza magnetica nucleare(NMR) Permette di ottenere informazioni sulla struttura di una molecola attraverso l’interazione con una radiazione elettromagnetica. Si basa sullo stesso principio della risonanza magnetica usata in medicina, usa onde radio. I nuclei atomici (elettricamente carichi) ruotano, con una velocità angolare quantizzata, creando un momento magnetico Immersi in un campo magnetico omogeneo esterno i momenti magnetici si allineano (“traballando” a causa del rumore termico). I nuceli vengono irraggiati da onde radio (RF), l’effetto è di “disallineare” (tanto da farli “ribaltare”). È possibile rilevare quando i momenti magnetici dei vari nuclei (che continuano a ruotare) si inclinano completamente sul piano perpendicolare rispetto al campo magnetico applicatograzie ad un'antenna che capta le onde radio che questi generano ed è collocata perpendicolarmente al campo magnetico applicato.
Spettroscopia a risonanza magnetica nucleare(NMR) Ogni nucleo mostra le sue caratteristiche perchè ruota a velocità differente a seconda della sua posizione nella molecola e all'ambiente che gli atomi vicini gli fanno sentire e quindi risuona a frequenze radio diverse. Nuclei diversi risuonano a frequenze diverse. Ciò significa innanzitutto che un atomo di carbonio deve essere colpito da un'onda radio con frequenza diversa da quella necessaria ad un atomo di idrogeno per “ribaltarsi” di 90°, ma anche che atomi simili in ambienti diversi, come un atomo di idrogeno legato ad un atomo di ossigeno ed un atomo di idrogeno legato ad un atomo di carbonio si ribaltano a frequenze diverse. Questo è dovuto alla “schermatura” degli elettroni vicini • Caratteristiche: • studio delle proteine in soluzione (non occorre cristallizzarle) • alta risoluzione temporale (millisecondi) • informazioni sulle distanze interprotoniche non precise • la “proton signature” limita il metodo allanalsi di molecole “piccole” (<30 KD <250 residui)
Il file PDB http://www.pdb.org Esempio: Deossiemoglobina umana (1a3n) HEADER OXYGEN TRANSPORT 22-JAN-98 1A3N TITLE DEOXY HUMAN HEMOGLOBIN COMPND MOL_ID: 1; COMPND 2 MOLECULE: HEMOGLOBIN; COMPND 3 CHAIN: A, B, C, D; COMPND 4 BIOLOGICAL_UNIT: ALPHA-BETA-ALPHA-BETA TETRAMER SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: HOMO SAPIENS; SOURCE 3 ORGANISM_COMMON: HUMAN; SOURCE 4 TISSUE: BLOOD; SOURCE 5 CELL: RED CELL KEYWDS OXYGEN TRANSPORT, HEME, RESPIRATORY PROTEIN, ERYTHROCYTE EXPDTA X-RAY DIFFRACTION AUTHOR J.TAME,B.VALLONE REVDAT 1 29-APR-98 1A3N 0 REMARK 1 REMARK 2 REMARK 2 RESOLUTION. 1.8 ANGSTROMS. REMARK 3 […]
[…] REMARK 900 RELATED ENTRIES REMARK 900 THIS ENTRY IS RELATED TO PDB ENTRY 1A3O. REMARK 999 REMARK 999 SEQUENCE REMARK 999 1A3N B SWS P02023 1 - 1 NOT IN ATOMS LIST REMARK 999 1A3N D SWS P02023 1 - 1 NOT IN ATOMS LIST DBREF 1A3N A 1 141 SWS P01922 HBA_HUMAN 1 141 DBREF 1A3N B 2 146 SWS P02023 HBB_HUMAN 2 146 DBREF 1A3N C 1 141 SWS P01922 HBA_HUMAN 1 141 DBREF 1A3N D 2 146 SWS P02023 HBB_HUMAN 2 146 SEQRES 1 A 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA SEQRES 2 A 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA SEQRES 3 A 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR SEQRES 4 A 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER SEQRES 5 A 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA SEQRES 6 A 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN SEQRES 7 A 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU SEQRES 8 A 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS SEQRES 9 A 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE SEQRES 10 A 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA SEQRES 11 A 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG […]
tipo di atomo tipo di amminoacido coordinate X Y Z ATOM 1 N VAL A 1 10.720 19.523 6.163 1.00 21.36 N ATOM 2 CA VAL A 1 10.228 20.761 6.807 1.00 24.26 C ATOM 3 C VAL A 1 8.705 20.714 6.878 1.00 18.62 C ATOM 4 O VAL A 1 8.164 20.005 6.015 1.00 19.87 O ATOM 5 CB VAL A 1 10.602 22.000 5.966 1.00 27.19 C ATOM 6 CG1 VAL A 1 10.307 23.296 6.700 1.00 31.86 C ATOM 7 CG2 VAL A 1 12.065 21.951 5.544 1.00 31.74 C ATOM 8 N LEU A 2 8.091 21.453 7.775 1.00 16.19 N ATOM 9 CA LEU A 2 6.624 21.451 7.763 1.00 17.31 C ATOM 10 C LEU A 2 6.176 22.578 6.821 1.00 18.55 C ATOM 11 O LEU A 2 6.567 23.730 7.022 1.00 18.72 O ATOM 12 CB LEU A 2 6.020 21.707 9.129 1.00 18.34 C ATOM 13 CG LEU A 2 6.386 20.649 10.198 1.00 17.39 C ATOM 14 CD1 LEU A 2 5.998 21.119 11.577 1.00 17.99 C ATOM 15 CD2 LEU A 2 5.730 19.337 9.795 1.00 16.96 C ATOM 16 N SER A 3 5.380 22.237 5.852 1.00 15.02 N ATOM 17 CA SER A 3 4.831 23.237 4.928 1.00 16.59 C ATOM 18 C SER A 3 3.725 24.027 5.568 1.00 14.84 C ATOM 19 O SER A 3 3.095 23.717 6.591 1.00 14.40 O ATOM 20 CB SER A 3 4.308 22.429 3.727 1.00 16.47 C ATOM 21 OG SER A 3 3.076 21.786 3.991 1.00 14.91 O …
nome HEADER TRANSCRIPTION REGULATION 25-AUG-94 1RPO 1RPO 2 COMPND ROP (COLE1 REPRESSOR OF PRIMER) MUTANT WITH ALA INSERTED ON 1RPO 3 COMPND 2 EITHER SIDE OF ASP 31 (INS (A-D31-A)) 1RPO 4 SOURCE (ESCHERICHIA COLI) 1RPO 5 AUTHOR M.VLASSI,M.KOKKINIDIS 1RPO 6 REVDAT 2 15-MAY-95 1RPOA 1 REMARK 1RPOA 1 REVDAT 1 14-FEB-95 1RPO 0 1RPO 7 JRNL AUTH M.VLASSI,C.STEIF,P.WEBER,D.TSERNOGLOU,K.WILSON, 1RPO 8 JRNL AUTH 2 H.J.HINZ,M.KOKKINIDIS 1RPO 9 JRNL TITL RESTORED HEPTAD PATTERN CONTINUITY DOES NOT 1RPO 10 JRNL TITL 2 ALTER THE FOLDING OF A 4-ALPHA-HELICAL BUNDLE 1RPO 11 JRNL REF NAT.STRUCT.BIOL. V. 1 706 1994 1RPO 12 JRNL REFN ASTM NSBIEW US ISSN 1072-8368 2024 1RPO 13 REMARK 1 1RPO 14 REMARK 1 REFERENCE 1 1RPO 15 REMARK 1 AUTH M.KOKKINIDIS,M.VLASSI,Y.PAPANIKOLAOU,D.KOTSIFAKI, 1RPO 16 REMARK 1 AUTH 2 A.KINGSWELL,D.TSERNOGLOU,H.J.HINZ 1RPO 17 REMARK 1 TITL CORRELATION BETWEEN PROTEIN STABILITY AND CRYSTAL 1RPO 18 REMARK 1 TITL 2 PROPERTIES OF DESIGNED ROP VARIANTS 1RPO 19 REMARK 1 REF PROTEINS.STRUCT.,FUNCT., V. 16 214 1993 1RPOA 2 REMARK 1 REF 2 GENET. 1RPOA 3 REMARK 1 REFN ASTM PSFGEY US ISSN 0887-3585 0867 1RPO 22 REMARK 2 1RPO 29 REMARK 2 RESOLUTION. 1.4 ANGSTROMS. 1RPO 30 REMARK 1RPO 94 REMARK 999 SEQUENCE NUMBER IS ALSO THAT FROM PDB ENTRY 1RPO 95 SEQRES 1 65 MET THR LYS GLN GLU LYS THR ALA LEU ASN MET ALA ARG 1RPO 96 SEQRES 2 65 PHE ILE ARG SER GLN THR LEU THR LEU LEU GLU LYS LEU 1RPO 97 SEQRES 3 65 ASN GLU LEU ALA ASP ALA ALA ASP GLU GLN ALA ASP ILE 1RPO 98 SEQRES 4 65 CYS GLU SER LEU HIS ASP HIS ALA ASP GLU LEU TYR ARG 1RPO 99 SEQRES 5 65 SER CYS LEU ALA ARG PHE GLY ASP ASP GLY GLU ASN LEU 1RPO 100 ATOM 1 N MET 1 1.132 3.053 2.801 1.00 25.53 1RPO 115 ATOM 2 CA MET 1 2.398 3.546 2.283 1.00 27.85 1RPO 116 ATOM 3 C MET 1 3.091 2.466 1.442 1.00 21.34 1RPO 117 ATOM 4 O MET 1 2.642 1.298 1.451 1.00 19.29 1RPO 118 ATOM 5 CB MET 1 3.281 3.936 3.463 1.00 23.96 1RPO 119 ATOM 6 CG MET 1 3.718 2.760 4.291 1.00 27.52 1RPO 120 ATOM 7 SD MET 1 4.491 3.371 5.797 1.00 26.29 1RPO 121 ATOM 7 SD MET 1 4.491 3.371 5.797 1.00 26.29 1RPO 121 ATOM 8 CE MET 1 3.039 3.650 6.762 1.00 25.19 1RPO 122 ATOM 9 N THR 2 4.142 2.833 0.689 1.00 13.20 1RPO 123 ATOM 10 CA THR 2 4.851 1.806 -0.025 1.00 12.76 1RPO 124 ATOM 11 C THR 2 5.719 1.011 0.950 1.00 14.35 1RPO 125 composto organismo autore referenze risoluzione sequenza residuo 1 residuo 2 num.atomo tipo atomo tipo residuo x y z num. residuo numero residuo
TECNICHE COMPUTAZIONALI L’utilizzo complementare di tecniche di tipo sperimentale e di tipo computazionale è l’approccio ottimale per lo studio dei sistemi e dei processi biologici. Questa considerazione riguarda in particolare gli aspetti strutturali del problema, ovvero la conoscenza della conformazione, o variazione di conformazione, di una molecola biologica in relazione alla sua attività.
importanza della COMPLEMENTARITA’ DELL’APPROCCIO TEORICO-SPERIMENTALE
==== Secondary Structure Definition by the program DSSP, updated CMBI version by ElmK / April 1,2000 ==== DATE=9-JUN-2003 . REFERENCE W. KABSCH AND C.SANDER, BIOPOLYMERS 22 (1983) 2577-2637 . HEADER ONCOGENE PROTEIN 06-JUN-91 121P . COMPND H-RAS P21 PROTEIN COMPLEX WITH GUANOSINE-5'-[B,G-METHYLENE] . SOURCE HUMAN (HOMO SAPIENS) CELLULAR HARVEY-RAS GENE TRUNCATED AND . AUTHOR U.KRENGEL,K.SCHEFFZEK,A.SCHERER,W.KABSCH,A.WITTINGHOFER, . 166 1 0 0 0 TOTAL NUMBER OF RESIDUES, NUMBER OF CHAINS, NUMBER OF SS-BRIDGES(TOTAL,INTRACHAIN,INTERCHAIN) . 8891.0 ACCESSIBLE SURFACE OF PROTEIN (ANGSTROM**2) . 125 75.3 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(J) , SAME NUMBER PER 100 RESIDUES . 24 14.5 TOTAL NUMBER OF HYDROGEN BONDS IN PARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES . 11 6.6 TOTAL NUMBER OF HYDROGEN BONDS IN ANTIPARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES . ... # RESIDUE AA STRUCTURE BP1 BP2 ACC N-H-->O O-->H-N N-H-->O O-->H-N TCO KAPPA ALPHA PHI PSI X-CA Y-CA Z-CA 1 1 M 0 0 120 0, 0.0 2,-0.2 0, 0.0 50,-0.1 0.000 360.0 360.0 360.0 162.6 -5.9 31.9 -6.7 2 2 T E -a 51 0A 61 48,-0.6 50,-2.7 2,-0.0 2,-0.4 -0.425 360.0-161.0 -62.9 132.1 -4.8 28.9 -4.8 3 3 E E -a 52 0A 93 48,-0.2 2,-0.5 -2,-0.2 50,-0.2 -0.926 5.2-154.9-114.4 142.4 -4.5 29.7 -1.1 4 4 Y E -a 53 0A 13 48,-3.1 50,-2.7 -2,-0.4 2,-0.9 -0.984 7.3-150.5-117.8 122.8 -2.5 27.5 1.3 5 5 K E -a 54 0A 36 -2,-0.5 71,-2.8 48,-0.2 72,-1.4 -0.818 23.2-177.6 -97.0 104.1 -3.6 27.6 5.0 6 6 L E -ab 55 77A 2 48,-2.4 50,-2.6 -2,-0.9 2,-0.4 -0.807 12.1-159.7-105.8 146.7 -0.5 27.0 7.0 7 7 V E -ab 56 78A 0 70,-2.0 72,-2.6 -2,-0.3 2,-0.6 -0.989 5.7-152.9-130.1 130.4 -0.3 26.7 10.8 8 8 V E +ab 57 79A 0 48,-2.6 50,-1.3 -2,-0.4 2,-0.3 -0.917 27.0 167.6-104.2 120.7 2.9 27.2 12.9 9 9 V E + b 0 80A 0 70,-2.5 72,-2.7 -2,-0.6 2,-0.2 -0.859 11.3 110.3-132.1 163.3 2.8 25.2 16.2 10 10 G - 0 0 1 -2,-0.3 72,-0.1 49,-0.3 3,-0.1 -0.769 62.0 -48.8 147.6 166.5 5.3 24.3 18.9 11 11 A S > S- 0 0 9 70,-0.5 3,-1.5 78,-0.3 5,-0.3 -0.035 72.5 -71.3 -59.5 161.3 6.2 25.0 22.5 12 12 G T 3 S+ 0 0 56 48,-0.4 -1,-0.2 1,-0.2 77,-0.1 -0.287 113.6 9.3 -60.7 128.1 6.6 28.4 24.1 13 13 G T 3 S+ 0 0 61 -3,-0.1 -1,-0.2 -2,-0.1 -2,-0.1 0.488 83.8 121.2 85.1 7.0 9.6 30.4 23.1 14 14 V S < S- 0 0 3 -3,-1.5 70,-0.1 67,-0.1 -2,-0.1 0.656 88.2 -99.1 -77.9 -14.8 10.9 28.2 20.2 15 15 G S > S+ 0 0 15 -4,-0.2 4,-2.6 66,-0.1 5,-0.2 0.637 71.8 144.9 108.4 24.2 10.6 31.0 17.7 16 16 K H > S+ 0 0 12 -5,-0.3 4,-2.1 1,-0.2 5,-0.1 0.933 81.4 41.1 -53.7 -50.0 7.3 30.4 15.9 17 17 S H > S+ 0 0 26 2,-0.2 4,-2.9 1,-0.2 5,-0.3 0.902 112.1 53.2 -68.2 -44.3 6.7 34.1 15.6 18 18 A H > S+ 0 0 11 1,-0.2 4,-2.0 2,-0.2 -1,-0.2 0.893 109.8 50.4 -61.1 -37.2 10.2 35.1 14.7 19 19 L H X S+ 0 0 1 -4,-2.6 4,-2.3 2,-0.2 -2,-0.2 0.969 112.7 45.5 -62.7 -52.2 10.2 32.5 11.9 20 20 T H X S+ 0 0 0 -4,-2.1 4,-3.2 -5,-0.2 5,-0.3 0.898 113.5 48.0 -60.1 -41.3 6.9 33.8 10.5 Struttura secondaria Accessibilità Angoli torsionali (f,y) Numerazione residui
Metodi di predizione della struttura secondaria delle proteine: Metodi di Chou-Fasman si basa sull’analisi statistica della composizione in residui delle strutture secondarie presenti nella PDB. PHD prende in input o una sequenza o un allineamento multiplo ed usa le reti neurali. PSIPRED utilizza un sistema di due reti neurali. JPRED3 fa un consensus di vari metodi
Metodo di Chou & Fasman (1974) • Gli aminoacidi hanno propensioni diverse a formare strutture a-eliche e filamenti b. • La prolina p.es. interrompe le a-eliche • L‘approccio si può migliorare considerando il contesto locale dei residui. • I risultati migliorano notevolmente utilizzando metodi di machine learning.
Propensione dei residui aminoacidici a formare elementi di struttura secondaria come riportato da Chou-Fasman (1978b) (C&F) e Levitt (1978) (L). La colonna “pr” classifica i residui come indifferenti (=) o stabilizzatori/destabilizzatori forti (++/--) e deboli (+/-) della struttura secondaria.
I migliori programmi di predizione della struttura secondaria sono stati sviluppati utilizzando metodi di apprendimento automatico (machine learning methods) i metodi di apprendimento automatico più utilizzati in bioinformatica sono le reti neurali e gli Hidden Markov Models (HMM) una caratteristica peculiare delle reti neurali è che sono in grado di apprendere, in un tentativo di simulare il comportamento del cervello umano vengono addestrate utilizzando un opportuno insieme di dati detto training set (un insieme di a-eliche, filamenti b e elementi non-a non-b) e possono poi venire utilizzate per riconoscere a-eliche da filamenti b e da elementi non-a non-b
I metodi consensus incrementano l‘affidabilità delle regioni predette in modo unanime.
Molecular Modelling • Target: • Sequenza di cui si cerca la struttura • Templato: • Sequenza con struttura nota, “stampo“ per il modello • Comparative o homology modeling • Ricerca in database • Modello costruito da struttura omologa • Fold recognition (Threading) • Tenta di riconoscere omologie remote • Approcci differenti che utilizzano struttura secondaria, profili di sequenza, funzioni energetiche specializzate, ...
Diagramma di flussodella modellizzazioneproteica Dati sperimentali Allineamento multiplo di sequenza Ricerca nelle banchedati Assegnazione dei domini Predizione del fold No Analisi della famiglia del fold E’ stato predetto un fold? Sì Sì Allineamento della sequenza alla struttura No Modello tridimensionale della proteina Sequenza proteica Proteina omologa nella banca dati PDB? Predizione della struttura secondaria Allineamento delle strutture secondarie Modellizzazione comparativa Predizione della struttura terziaria ab-inito
Modellizzazione comparativa (o per similarità di sequenza) Permette di costruire la struttura tridimensionale di una proteina sulla base della SIMILARITÀ DI SEQUENZA con un’altra proteina di struttura NOTA che viene usata come STAMPO.
Utilizza strutture note (template) di uno o più membri di una famiglia strutturale-funzionale per predire la struttura (target) di un altro membro della famiglia la cui sequenza sia nota. Si basa sulle seguenti osservazioni: • le proteine appartengono ad un numero limitato di famiglie strutturali • proteine della stessa famiglia hanno strutture tridimensionali molto simili
RICERCA DEL TEMPLATO • Blast-FastA • CRITERI IDENTITA’/SIMILARITA’ • CONOSCENZA FUNZ.-STR.-BIOCHIM. • OMOLOGO 3D (PDB) • ALLINEAMENTO HOMOLOGY MODELLING
GUIDA LA COSTRUZIONE DEL MODELLO • CORRISPONDENZA aa target aa templato • ricerca ALLINEAMENTO OTTIMALE • CORRISPONDENZA DI aa FUNZ. IMPORTANTI • CORRISPONDENZA DELLA STRUTTURA SECONDARIA TRA TEMPLATO E QUERY • VALUTAZIONE DEI GAP loop • USO TEMPLATI MULTIPLI loc.similarità ALLINEAMENTO
Raw model Loop modeling Side chain placement Refinement • identificazione SCR (structural conserved regions) • SCR scaffold del modello CREAZIONE DEL MODELLO ______________ ______________ x-ray SCRs No SCRs (loops ?)
flexible conserved Costruzione del pre-modello • La struttura del templato viene utilizzata come “stampo“ per costruire il modello seguendo l‘allineamento. • Le coordinate 3D dei residui strutturalmente conservati si possono copiare direttamente. • Le regioni variabili della struttura (generalmente loop) non si possono copiare.
Raw model Loop modeling Side chain placement Refinement Catenelaterali • Problema: Applicando le coordinate del templato sulla sequenza del target cambiano tipo, dimensione e posizione delle catene laterali. • L‘RMSD cambia relativamente poco, però possono cambiare le conformazioni di residui importanti (p.es. del sito attivo) • Dove possibile è meglio mantenere le conformazioni delle catene laterali del templato. • Esistono metodi standard per risolvere questo problema.
AUSILIO DI LIBRERIE DI ROTAMERI Contengono i possibili conformeri delle catene laterali a fronte di specifiche conformazioni del backbone • OTTIMIZZAZIONE ENERGETICA DELLE STRUTTURA rimozione di clash PREDIZIONE DELLE CATENE LATERALI
Raw model Loop modeling Side chain placement Refinement Loop modeling • Al pre-modello possono mancare interi frammenti di catena principale • non conservati nella famiglia proteica • Inserzioni • Delezioni • Descrizione del problema: • Si cerca un fold che colleghi il frammento N-terminale (pre-loop) con quello C-terminale (post-loop) tramite k residui • (f,y) sono gli unici parametri liberi loop post-loop pre-loop
FOLD RECOGNITION • Predizione di sequenzaconpoca o nessunasimilaritàconstrutturenote. • Osservazione: La natura utilizzasolamenteunnumerolimitato di folddiversi • Idea della foldrecognition: Cerca di rappresentare la strutturaignotacondeifoldconosciuti, valutaqualepotrebbeesserequello “giusto“.
FOLD RECOGNITION per casi predittivi in cui non ci sono omologie chiare con proteine a struttura nota (TWILIGHT ZONE) metodi che rinunciano alla corretta formulazione del campo di forze agenti su una struttura proteica detti meanforcepotentialche individuano un potenziale che cattura la natura risultante delle forze in gioco devo disporre di uno strumento quantitativo per misurare fitness di una sequenza con una struttura per poter assegnare alla seq in questione le strutture note e valutare la bontà dell’assegnazione queste funzioni di pseudo-potenziale sono costruite sulla base di un’analisi statistica di strutture note