470 likes | 714 Views
COSA CHIEDERE A UNA BANCA DATI?. TRE LIVELLI DI INTERROGAZIONE. Ricerca di informazioni. Confronto tra sequenze. Predizione. Data una sequenza, quali strumenti ci fornisce la bioinformatica per trarne il maggior numero possibile di informazioni?.
E N D
COSA CHIEDERE A UNA BANCA DATI? TRE LIVELLI DI INTERROGAZIONE • Ricerca di informazioni Confronto tra sequenze Predizione
Data una sequenza, quali strumenti ci fornisce la bioinformatica per trarne il maggior numero possibile di informazioni? ESEMPIO: Vogliamo studiare il gene della fibrosi cistica
INFORMAZIONI BIBLIOGRAFICHE FIBROSI CISTICA La fibrosi cistica (o mucoviscidosi) è una malattia genetica, il cui difetto di base consiste nell’alterazione di proteina detta CFTR (cystic fibrosis transmembrane conductance regulator); l’alterazione provoca una anomalia nelle secrezioni esocrine dell’organismo, con il risultato di una anormale produzione delle stesse, che sono dense e viscose. La presenza di queste secrezioni anormali tende ad ostruire le vie respiratorie, pancreatiche e biliari, con progressivo danno degli organi coinvolti (bronchi, polmoni, pancreas, fegato).Dal punto di vista clinico, la fibrosi cistica è una malattia cronica: ciò significa che la persona che ne è affetta ha la malattia per tutta la vita.
Gene CFTR • Il gene della fibrosi cistica CF, è denominato CFTR (cystic fibrosis transmembrane conductance regulator) è localizzato nella regione q31.2 sul braccio lungo del cromosoma 7. E’ costituito da 250,000 paia di basi e 27 esoni. Il trascritto è di 6129 paia di basi NCBI sequenza annotata : NM_000492. CDS (Coding Sequence) 4443 paia di basi La proteina CFTR è costituita da 1480 aa, SwissProt accession number: P13569
Struttura della proteina • CFTR è una proteina transmembrana appartenente alla superfamiglia delle ATP-binding cassette (ABC ). • Queste proteine trasportano molecole come zuccheri, peptidi, fosfato inorganico, ioni cloro e cationi metallici attraverso la membrana cellulare e sono dipendenti da ATP. • CFTR trasporta ioni cloro attraversando la membrana cellulare delle cellule del fegato, polmoni, pancreas, tratto riproduttivo e digestivo.
Struttura della proteina • CFTR è costituita da cinque domini: • due domini di membrana che costituiscono i canali del cloro • (MSD) • due domini che legano e idrolizzano ATP detti nucleotide-binding • factors (NBD) • un dominio regolatore R
S’ipotizza che l’attività fisiologica della proteina è controllata mediante la fosforilazione dei residui serinici del dominio regolatore R. La fosforilazione delle serine permette il legame dell’ATP ai domini NBF, si ottiene l’idrolisi di ATP il quale genera un cambio conformazionale della proteina CFTR con apertura del canale del cloro. Funzione della proteina NBF NBF
Funzione canale cloro Come il canale tiene le mucose umide
Funzione canale cloro CF nelle cellule epiteliali dei polmoni Un difettoso flusso di ioni a livello di organi secernenti (epiteli bronchiali, intestinali, pancreatici, biliari ecc.) comporta un difetto di idratazione delle secrezioni mucose, da cui deriva disidratazione dei secreti, che perdono la loro normale fluidità e scorrevolezza.Nelle cellule epiteliali dei polmoni sono presenti canali ionici, il movimento ionico porta l’acqua sulla superficie tenendo le mucose umide. Alcune mutazioni geniche bloccano il canale ionico rendendo le mucose secche. Il mancato movimento cigliare porta il sogetto a infezioni batteriche Canali ionici
MUTAZIONI La mutazione osservata più frequentemente (70% dei pazienti affetti da CF) consiste in una delezione di tre paia di basi nel gene CFTR. Questa delezione causa la perdita dell’aminoacido Fenilalanina localizzato nella posizione 508 della sequenza proteica. Mutazione ΔF508
MUTAZIONI La proteina mutata Δ508 raggiunge il reticolo endoplasmico (RE), dove viene degradata in quanto non correttamente foldata. La proteina delta 508 non raggiunge mai la membrana cellulare. Mutazione ΔF508 Posizione della F508
classe I:causano l'interruzione prematura della traduzione proteica e di conseguenza l'assenza della CFTR. classe II:(es. ΔF508) sono responsabili di una normale sintesi di una proteina che però non raggiunge la sua esatta localizzazione a causa della sua maggiore permanenza nel RE; classe III:(ad es., G551D) determinano un difetto di regolazione del canale CFTR dipendente dall’ATP o dalla fosforilazione, la proteina è integra e raggiunge la membrana ma non viene attivata in modo adeguato Sono state descritte più di 900 mutazioni del gene, appartenenti a cinque classi. classe IV:le mutazioni di classe IV (es. R117H) causano un difetto di trasporto di ioni cloro attraverso una proteina posizionata normalmente; classe V:le mutazioni di classe V inducono bassi livelli di proteina a causa della produzione di mRNA anomalo.
Analisi funzionale della proteina CFTR • Data la sequenza della proteina CFTR vogliamo: • Analizzare la sequenza primaria per identificare • regioni transmembrana • pattern di sequenza • domini funzionali • Analizzare la struttura tridimensionale del dominio di binding e studiarne le mutazioni
SwissProt entry di CFTR Accession number P13569
Analisi funzionale della proteina CFTR Le cellule eucariotiche presentano diversi organelli con funzioni specializzate e, pertanto, contenenti diverse proteine. Le proteine vengono trasportate nel compartimento appropriato in base alla presenza di specifiche sequenze aminoacidiche, chiamate "sorting sequences". I segnali di sorting sono di varia natura: possono essere specifiche sequenze di aminoacidi oppure sequenze con caratteristiche chimiche come forte carica positiva o negativa etc. Vi sono programmi “istruiti” con queste informazioni che predicono la localizzazione di una proteina. Il più completo è Psort, disponibile fra i tools di EXPASY oppure al sito Predizione di localizzazione cellulare http://www.psort.org/
Analisi funzionale della proteina CFTR Predizione di localizzazione cellulare PSORT è un programma che predice la localizzazione di una proteina nella cellula. Come input richiede una sequenza proteica e la sua origine (es. batterica Gram-negativa o eucariotica). Quindi analizza la sequenza applicando una serie di regole immagazzinate derivanti da sequenze segnale di varie proteine a localizzazione nota. Infine riporta la probabilità di localizzazione in diversi distretti cellulari (es. mitocondrio, membrana, nucleo etc.)
Analisi funzionale della proteina CFTR RISULTATO Results of the k-NN Prediction k = 9/23 73.9 %: plasma membrane 13.0 %: endoplasmic reticulum 8.7 %: vacuolar 4.3 %: nuclear >> prediction for QUERY is pla (k=23) PSORT
Analisi funzionale della proteina CFTR Un grafico di idrofobicità lungo la sequenza proteica è utile per identificare regioni di membrana e quelle interne alla proteina. Si basa sull’uso di scale di idrofobicità per gli aminoacididerivate da osservazioni sperimentali. Esistono varie scale di idrofobicità per gli aminoacidi, ma tutte sono adatte ad identificare regioni chiaramente idrofiliche o idrofobiche. Si utilizza il programma: Regioni idrofobiche della proteina ProtScale:http://us.expasy.org/cgi-bin/protscale.pl
Analisi funzionale della proteina CFTR RISULTATO Regioni idrofobiche della proteina
Analisi funzionale della proteina CFTR Un programma più sofisticato per identificare segmenti transmembrana è TMHMM:http://www.cbs.dtu.dk/services/TMHMM/ Ricerca di segmenti transmembrana Si basa su modelli matematici (Hidden Markov Models) Predice anche l’orientamento della proteina indicando i segmenti che sono all’interno e all’esterno della cellula e i segmenti che attraversano la membrana.
Analisi funzionale della proteina CFTR RISULTATO outside Ricerca di segmenti transmembrana inside
Analisi funzionale della proteina CFTR RISULTATO Ricerca di segmenti transmembrana
Ricerca di pattern di sequenza Analisi funzionale della proteina CFTR Spesso alcuni elementi conservati all’interno di una sequenza proteica hanno un significato biologico ben preciso. Per esempio, da analisi di sequenza e dati di struttura si è visto che gran parte delle proteine che legano ATP o GTP utilizzano un’ansa flessibile tra un filamento β e un’α-elica. ansa ATP o ploop
Ser Lys Gly Gly GTP P-loop Ricerca di pattern di sequenza Analisi funzionale della proteina CFTR Questi elementi conservati vengono chiamati patterns o motivi funzionali. Un motivo è costituito da un insieme di residui non necessariamente contigui in sequenza, ma che sono associati ad una precisa struttura o funzione biologica (es.: promotori, capacità di legare nucleotidi ecc.)
Ricerca di pattern di sequenza Analisi funzionale della proteina CFTR L’ansa di solito è caratterizzata da un amminoacido piccolo (A o G) seguita da quattro amminoacidi qualsiasi, poi da una G, una K e un amminoacido polare (S o T). [AG] ▬ x(4) ▬ G ▬ K ▬ [ ST ]
[AG] ▬ x(4) ▬ G ▬ K ▬ [ ST ] Questo modo di descrivere il pattern viene detto espressione regolare. I pattern si ricavano dall’analisi di allineamenti multipli di regioni conservate di famiglie proteiche. Si definiscono famiglie gruppi di proteine omologhe, cioè evolutivamente correlate, caratterizzate da similarità di sequenza. I pattern costituiscono elementi funzionali utili per distinguere proteine che appartengano a quella famiglia da tutte le altre proteine non correlate.
Patterns amminoacidici specifici di famiglie di proteine (detti anche signatures) sono raccolti nella dati specializzataPROSITE http://www.expasy.org/prosite/
PROSITE può essere interrogata utilizzando il tool http://us.expasy.org/tools/scanprosite/
Analisi funzionale della proteina CFTR Ricerca di pattern di sequenza
I domini sono unità strutturali di almeno 50 residui amminoacidici in grado di assumere una struttura terziaria indipendente dal resto della proteina. Vi sono diverse raccolte di domini proteici che si sovrappongono solo in parte. Un’analisi accurata richiederebbe di consultarle tutte. Ricerca di domini funzionali
Noi proveremo a testare la nostra sequenza contro il database SMART http://smart.embl-heidelberg.de/ Ricerca di domini funzionali
Analisi funzionale della proteina CFTR SMART: simple modular architecture research tool. È una raccolta di domini proteici che annota, per ogni famiglia di proteine, informazioni sulla funzione, localizzazione cellulare, struttura terziaria e relazioni filogenetiche. Consente di fare ricerche di domini in nuove sequenze proteiche Ricerca di domini funzionali ATPases associated with a variety of cellular activities Domini transmembrana
E’ stata recentemente risolta la struttura del primo dominio di legame dell’ATP della CFTR di topo (PDB: 1r0w) Poiché le due sequenze amminoacidiche sono molto simili, possiamo considerla un modello valido per la CFTR umana Identities = 177/219 (80%), Positives = 207/219 (94%) Query: 2 SNGDDSLFFSNFSLLGTPVLKDINFKIERGQLLAVAGSTGAGKTSLLMMIMGELEPSEGK 61 S+ ++++ FS+ L+G PVLK+IN IE+G++LA+ GSTG+GKTSLLM+I+GELE SEG Sbjct: 35 SSDENNVSFSHLCLVGNPVLKNINLNIEKGEMLAITGSTGSGKTSLLMLILGELEASEGI 94 Query: 62 IKHSGRISFCSQFSWIMPGTIKENIIFGVSYDEYRYRSVIKACQLEEDISKFAEKDNIVL 121 IKHSGR+SFCSQFSWIMPGTIKENIIFGVSYDEYRY+SV+KACQL++DI+KFAE+DN VL Sbjct: 95 IKHSGRVSFCSQFSWIMPGTIKENIIFGVSYDEYRYKSVVKACQLQQDITKFAEQDNTVL 154 Query: 122 GEGGITLSGGQRARISLARAVYKDADLYLLDSPFGYLDVLTEKEIFESCVCKLMANKTRI 181 GEGG+TLSGGQRARISLARAVYKDADLYLLDSPFGYLDV TE+++FESCVCKLMANKTRI Sbjct: 155 GEGGVTLSGGQRARISLARAVYKDADLYLLDSPFGYLDVFTEEQVFESCVCKLMANKTRI 214 Query: 182 LVTSKMEHLKKADKILILHEGSSYFYGTFSELQNLQPDF 220 LVTSKMEHL+KADKILILH+GSSYFYGTFSELQ+L+PDF Sbjct: 215 LVTSKMEHLRKADKILILHQGSSYFYGTFSELQSLRPDF 253