290 likes | 442 Views
COSA CHIEDERE A UNA BANCA DATI?. TRE LIVELLI DI INTERROGAZIONE. Ricerca di informazioni. Confronto tra sequenze. Predizione. CONFRONTARE Ci sono sequenze simili alla proteina che ho clonato? Come posso allineare i membri di una famiglia proteica?
E N D
COSA CHIEDERE A UNA BANCA DATI? TRE LIVELLI DI INTERROGAZIONE • Ricerca di informazioni Confronto tra sequenze Predizione
CONFRONTARE • Ci sono sequenze simili alla proteina che ho clonato? • Come posso allineare i membri di una famiglia proteica? • Come posso valutare la similarità tra due sequenze?
A che serve confrontare due sequenze? Trovare la relazione evolutiva Predire la struttura e la funzione di una nuova proteina basandosi sulla similarità con una proteina nota
Le proteine si sono differenziate nel corso dell’evoluzione Sequenze che hanno un origine comune hanno simile funzione in organismi diversi Evoluzione delle catene globiniche
Due proteine che discendono da un progenitore comune si dicono omologhe. Due proteine omologhe hanno sequenze simili. La similarità tra due (o più) sequenze può essere misurata per dedurne la loro relazione evolutiva cioè l’omologia. Qual è la similarità tra due sequenze omologhe? Come si confrontano due sequenze?
Qualche regola pratica Se due sequenze di almeno 100 residui hanno 25% di amminoacidi identici (o il 70% di nucleotidi) si possono definireomologhe Al di sotto del 25% ci si trova nella twilight zonedove non è possibile assegnare con sicurezza un’omologia
Come si confrontano due sequenze? Per valutare la similarità di due sequenze dobbiamo allinearle cioè scrivere le due sequenze orizzontalmente in modo da far corrispondere il maggior numero possibile di lettere. Esempio seq1: ATTKIQQW seq2: TTKIQQW ATTKIQQW | | | | | | | TTKIQQW 7 lettere corrispondenti ATTKIQQW | | TTKIQQW 2 lettere corrispondenti Qual è l’allineamento migliore?
seq1: ATTKIQQWseq2: TTKIQQW ATTKIQQW | | TTKIQQW 2 lettere corrispondenti ATT-KIQQW | ||||| TTKIQQW 6 lettere corrispondenti 1 gap Qual è l’allineamento migliore?
Bisogna stabilire dei criteri per assegnare un punteggio all’allineamento cioè per scegliere l’allineamento migliore tra tutti i possibili. L’inserimento di gap migliora l’allineamento ma introduce elementi che non esistono nella sequenza quindi occorre associargli una penalizzazione (gap penalty)
Un modo efficace di allineare due sequenze Metodo delle matrici a punti - DotPlot GAP
Dare un punteggio solo agli AA identici è limitante perché: • Gli amminoacidi possono essere classificati in base alle loro proprietà chimico-fisiche e strutturali • Alcune mutazioni sono più frequenti • Per es. amminoacidi con codoni simili hanno una maggiore probabilità di essere sostituiti • La selezione naturale tende a favorire le sostituzioni in cui sono mantenute le proprietà degli amminoacidi • – Per es. La sostituzione di un aspartato con un glutammato è favorita perchè conserva la carica negativa
Per tenere conto di queste osservazioni sono state create le Matrici di sostituzione che assegnano un punteggio ad ogni coppia di residui amminoacidici Poichè gli amminoacidi sono 20, le matrici di sostituzione contengono 20x20= 400 valori quindi sono quadrate e simmetriche.
I punteggi vengono assegnati con metodi statistici derivandoli dall’osservazione delle frequenze di sostituzioni amminoacidiche nelle sequenze proteiche note I valori vengono calcolati partendo da coppie di sequenze MOLTO SIMILI tra loro e poi estrapolati per sequenze più divergenti Questo è l’approccio usato nelle matrici PAM create da M. Dayhoff
La matrice pam250 Il numero associato alla matrice (250) indica la distanza filogenetica delle sequenze
Se si vuole confrontare la sequenza contro una banca dati allora la sequenza in input (query sequence) verrà allineata con ognuna delle sequenze della banca dati stessa. Gli allineamenti ad alto punteggio individuano le sequenze evolutivamente correlate alla sequenza query.
MATRICI PAM (point accepted mutations) • sostituzioniaminoacidiche osservate su 71 gruppi di proteine omologhe con similarità >85% • serie di matrici che riportano un punteggio per ogni coppia di aa corrispondente a diversi valori di distanza evolutiva • restrittive • MATRICI BLOSUM (block substitution matrices) • blocchi di multiallineamenti corrispondenti alle regioni conservate di famiglie proteiche • piu’ accurate
Occorre avere degli algoritmi veloci per realizzare tutti questi confronti in un tempo ragionevole BLASTeFASTA Entrambi effettuano ricerche di similarità in banche dati nucleotidiche o proteiche
Esempio di output di BLAST Probabilità che nel match considerato, la similarità sia casuale Punteggio assegnato al match: più è alto e più la similarità è reale. Score: significatività statistica dell’allineamento. Al di sotto di 50 il match è inaffidabile Evalue: stima la probabilità che il match non sia casuale. Al di sopra di 10-4 ci si può trovare nella twilight zone.
BLAST Score basso e E-value alto indicano che il match ha un’alta probabilità di essere casuale
Allineamento multiplo Gli amminoacidi responsabili di una funzione in una proteina tendono ad essere conservati in tutte le sequenze omologhe. Se si considerano solo due sequenze è difficile stabilire quanto un residuo sia conservato e quindi importante Occorre confrontare un numero maggiore di sequenze tra loro
Sequenze omologhe a CFTR CFTR DDSLFFSNFSLLGTPVLKDINFKIERGQLLAVAGSTGAGKTSLLMMIMGELEPSEGKIK MALK VRLVDVWKVFGEVTAVREMSLEVKDGEFMILLGPSGCGKTTTLRMIAGLEEPSRGQIY Choline transport ATP-binding protein opuBA LTLENVSKTYKGGKKAVNNVNLKIAKGEFICFIGPSGCGKTTTMKMINRLIEPSAGKIF Ferric cations import ATP-binding protein fbpC LTVKNLNKFFNEQQVLHDISFSLQRGEILFLLGSSGCGKTTLLRAIAGFEQPSNGEIW Proteases secretion ATP-binding protein PRTD LSVEQVSLRTAQGNTRLQNIHFSLQAGETLVILGASGSGKSSLARLLVGAQSPTQGKVR
Allineamento multiplo di una porzione della sequenza di CFTR I residui che formano un tratto caratteristico delle proteine che legano ATP detto ANSA ATP sono evidenziati nel rettangolo verde
Un programma molto usato per gli allineamenti multipli è CLUSTALW Che utilizza una procedura di allineamento progressivo http://www2.ebi.ac.uk/clustalw/
allineamento multiplo progressivo costruire tutti i possibili allineamenti a coppie costruire un albero guida basato sui punteggi di similarità tra tutte le coppie scegliere la coppia di sequenze (o cluster) con il più alto grado di similarità e raggrupparle in un cluster fissandone l’allineamento NO il multiallineamento comprende tutte le sequenze? SI Allineamento multiplo N sequenze omologhe Da:G.Valle et al. Introduzione alla Bioinformatica Zanichelli
Allineamento multiplo • Permette di estrarre Informazioni su: • domini di una struttura proteica • Localizzazione dei residui importanti per • una specifica funzione • residui interni o esposti al solvente • Utile per la predizione di struttura secondaria e terziaria