120 likes | 302 Views
BIO informatica. MASTER in. Applicazioni BioMediche e Farmaceutiche. Università degli Studi “La Sapienza” ROMA Anno 2002/2003. Analisi in silico per la ricerca di domini conservati di NRPSs batteriche in genomi eucariotici. Direttore Master : Prof.ssa Anna Tramontano
E N D
BIOinformatica MASTER in Applicazioni BioMediche e Farmaceutiche. Università degli Studi “La Sapienza” ROMA Anno 2002/2003 Analisi in silico per la ricerca di domini conservati di NRPSs batteriche in genomi eucariotici Direttore Master: Prof.ssa Anna Tramontano Relatore: Prof. Stefano Pascarella Pietro Buffa
Generalità sulle Non Ribosomal Peptide Syntetases, NRPSs Le NRPSs provvedono ad una sintesi peptidica differente da quella svolta dai ribosomi, essi si presentano generalmente come grossi enzimi multifunzionali con un’organizzazione molecolare di tipo modulare. Il modulo più semplice è composto da tre domini indispensabili per il corretto funzionamento dell’enzima: • Dominio di Adenilazione • Dominio di Tiolazione • Dominio di Condensazione Catalizza l’allungamento del peptide nascente. Lega l’aminoacido al gruppo prostetico di fosfopanteteina (PP), formando un aminoacil-tioestere. Catalizza l’attivazione dell’aminoacido (aminoacil-adenilato).
Diversi studi condotti sul dominio di Adenilazione di questa famiglia di enzimi hanno dimostrato che: • La natura del substrato che sarà inserito nel peptide sintetizzato dalle NRPSs è controllata principalmente da questo dominio. • La presenza di un aminoacil-adenilato è la necessaria premessa alla formazione dell’aminoacil-tioestere nel dominio di Tiolazione e quindi alla sintesi del peptide. • Studi condotti su oltre 150 domini di Adenilazione provenienti da organismi diversi, hanno rivelato la presenza di importanti residui conservati coinvolti nel legame e nell’idrolisi dell’ATP. Sulla base di queste osservazioni è oggi possibile prevedere la specificità di un dominio di adenilazione a partire dalla struttura primaria con una accuratezza di circa l’86% (Stachelhaus et al, 1999). • Nel 1997 Mohamed Marahiel della Philipps university of Marburg ha ottenuto la struttura cristallografica del dominio di Adenilazione della Gramicidina sintetasi di Bacillus brevis. La struttura cristallografica, l’unica fino ad oggi risolta, è stata ottenuta con i substrati complessati, rispettivamente la L-Phe e AMP ad una risoluzione di 1,9Å. In giallo il dominio maggiore, in rosso il dominio minore. AMP e Phe sono mostrati come modelli a spazio pieno.
SCOPO DEL LAVORO Punto di partenza di questa ricerca è stata la recente identificazione da parte di due ricercatori Giapponesi (T. Kasahara e T. Kato, Nature 2003) di una importante molecola: la Pirrolo Quinolina Quinone (PQQ), cruciale per la degradazione dell’aminoacido Lisina da parte di particolari deidrogenasi PQQ-dipendenti nel topo (acido 2-aminoadipico 6-semialdeide deidrogenasi AAS) . Queste deidrogenasi, presentano una organizzazione dei domini che è tipica degli enzimi NRPS di origine batterica: Dominio di Adenilazione legante AMP Dominio di Tiolazione legante PP Ed un Dominio legante il PQQ Scopo della ricerca è quello di verificare se proteine contenenti i domini AMP e PP compaiono anche in altri organismi (oltre che in Topo e Drosophila dove sono stati recentemente riscontrati) e se si, associati a quale altro dominio.
CODICE Seq. ORGANISMO DOMINI LUNGProt. In SILICO Nr:GI_8885525 A. thaliana AMP-PP-WD40(PQQ) 1175 NO Nr:GI_22327387 A. thaliana AMP-PP-WD40(PQQ) 1040 NO Nr:GI_20466612 A. thaliana AMP-PP-WD40(PQQ) 1040 NO Nr:GI_17556356 C. elegans C-AMP-PP-C-PP-C-AMP-P 2870 NO Trembl :q95q02 C. elegans AMP-PP-PP-C-AMP-PP 2870 NO Nr:GI_24817561 C. elegans AMP-PP-WD40(PQQ) 707 NO Nr:GI_24817562 C. elegans AMP-PP-WD40(PQQ) 714 NO Nr:GI_20151443 D. melanogaster AMP-PP- ? 703 NO Nr:GI_24648676 D. melanogaster AMP-PP- ? 879 NO Nr:GI_32867661 D. melanogaster AMP-PP- ? 879 NO Nr:GI_22945960 D. melanogaster AMP-PP-PQQ 1012 NO Nr :GI_3286766 D. melanogaster AMP-PP- ? 879 NO Nr:GI_5777799 D. melanogaster AMP-PP-PQQ 824 NO Nr:GI_21291643 A. gambiae AMP-PP-? 881 NO Nr:GI_31235353 A. gambiae AMP-PP-PQQ 824 NO RISULTATI DELLA RICERCA Ricerca di nuove sequenze proteiche correlate alle NRPSs batteriche in diversi genomi eucariotici Una preliminare ricerca sulle banche dati proteiche, ha permesso di individuare 15 proteine correlate alle NRPSs batteriche (contenenti cioè i domini fondamentali), non ancora annotate nella loro funzione in banca dati. Sono state utilizzate come sonda le proteine: AAS (Acido 2-aminoadipico 6-semialdeide deidrogenasi) di topo [Accession number, 30348962] U26 di Drosophila [Accession number, AAF52679] EBONY di Drosophila [Accession number, CAA11962]
Le sequenze precedentemente elencate sono state utilizzate come sonda per ricerche di similarità sulle Banche Dati Genomiche utilizzando il modulo “tblastn” del programma BLAST implementato sia su NCBI che su ENSEMBL. R. Norvegicus (Rat) M. Musculus H. Sapiens D. Melanogaster C. Elegans C. Briggsae A.Thaliana D. Rerio (Zebrafish) A.Gambiae S. Scrofa G. Gallus B. Taurus C. Intestinalis F. Rubripes O. sativa Per alcuni genomi non si sono avuti risultati positivi. Per altri si è trovata una notevole similarità e la presenza di residui chiave veniva mantenuta. Per queste sequenze si è proceduto all’esportazione delle rispettive sequenze genomiche in formato FASTA.
ORGANISMO CODICE SEQUENZA SONDA LOCALIZZAZIONE GENOMICA LUNGHEZZA PROTEINA 30348962 Crom.14 Contig: RNOR01037209 1152 AA 30348962 Crom. 4 Contig:AC06820.5.1.147534 556 AA Danio Rerio (zebrafish) 30348962 Contig: CTG11952.6 1003 AA Fugu Rubripes 30348962 Scaffold: 632 1088 AA Ciona Intestinalis 30348962 AABS01000029_1 1074 AA Oryza sativa 8885525 Nr:GI_19925098 1285 AA Oryza sativa 8885525 Nr:GI_19961040 1551 AA Oryza sativa 8885525 Nr:GI_19963553 1461 AA Costruzione di geni in silico per le sequenze ritrovate in seguito alle ricerche genomiche Le sequenze genomiche precedentemente esportate e salvate vengono utilizzate in questa seconda fase del lavoro, per cercare di ottenere, attraverso l’uso di programmi quali GenScan e genomeScan, una corretta costruzione del gene specifico per ogni sequenza ed arrivare alla fine, alla predizione della relativa sequenza proteica completa. Rattus norvegicus Homo Sapiens
Realizzazione di un allineamento multiplo completo • Abbiamo utilizzato 35 sequenze DFFxxLGG(HD)S(LI) Residui fondamentali del dominio di tiolazione. La serina lega il gruppo prostetico di fosfopanteteina. • Da tutte le 35 seq. È stata manualmente eliminata la regione contenente il dominio C-terminale • E’ stato utilizzato il programma HMMERalign – Parte dell’allineamento multiplo di 35 sequenze proteiche appartenenti alla famiglia della NRPSs,. L’allineamento è stato formattato utilizzando il programma ESPRIT 2.1. • Sono state eliminate dall’allineamento multiplo le regioni iniziali e terminali poichè non avendo corrispondenze ben definite, potevano creare un fastidioso rumore di fondo che andrebbe a disturbare la successiva fase di generazione dell’albero evolutivo
Realizzazione dell’albero filogenetico Linea filetica dei Batteri Sono stati utilizzati i programmi: PROTDIST KITSCH e DRAWTREE Linea filetica dei Funghi Linea filetica dei Vegetali Linea filetica degli organismi eucariotici superiori animali Albero filogenetico.
DISCUSSIONE Il completamento in corso di vari progetti gnomici ha permesso di individuare numerose proteine correlate alle NRPSs batteriche in organismi eucariotici superiori non ancora annotate in banca dati. La conoscenza del sistema sintetico delle NRPSs e la comprensione più approfondita dell’evoluzione che queste proteine enzimatiche , conosciute fino a poco tempo fa soltanto a livello batterico, potrebbero avere avuto, potrebbe risultare utile per cercare di far luce su determinate vie metaboliche non ancora molto chiare in diversi organismi superiori.