530 likes | 741 Views
Bioinformatica. Giulio Pavesi Dip. BioScienze Università di Milano giulio.pavesi@unimi.it. ... riassumendo. Inizi della trascrizione alternativi. Cosa può succedere alla regione codificante quando un gene mostra inizi della trascrizione alternativi?. In questo caso, nulla alla CDS:
E N D
Bioinformatica Giulio Pavesi Dip. BioScienze Università di Milano giulio.pavesi@unimi.it
Inizi della trascrizione alternativi • Cosa può succedere alla regione codificante quando un gene mostra inizi della trascrizione alternativi? In questo caso, nulla alla CDS: semplicemente si allunga/ accorcia la 5’UTR ATG
Ma... • ... oltre che a “bordare” la CDS, le UTR al 5’ e al 3’ servono a qualcosa?
...sì! • Produrre un trascritto non implica, necessariamente, che il trascritto venga automaticamente tradotto • La 5’UTR di solito interagisce con il ribosoma, ma anche con specifiche proteine che si legano al DNA, e che regolano l’efficienza della traduzione • La 3’UTR, di solito, viene “attaccata” per degradare l’mRNA, e quindi regola l’efficienza della degradazione (che può avvenire prima che la traduzione sia completa) • MORALE: 5’ e 3’ UTRpossono influenzare se/quando/come un trascritto viene tradotto
Splicing e proteine • Un gene (visto classicamente) non produce UN trascritto, ma MOLTI trascritti, che differiscono tra loro per: • Inizio/fine della trascrizione • Splicing alternativi (esoni “cassetta”, esoni alternativi, segnali di splicing alternativi, introni ritenuti) • Un gene, quante proteine “produce”?
Le proteine “concettuali” • Abbiamo a nostra disposizione genomi, e centinaia di migliaia di trascritti/EST e milioni/miliardi di frammenti “RNA-Seq” • In realtà, le sequenze proteiche “note” (sequenziate) sono poche • ... la maggior parte derivano da traduzioni “plausibili” dell’RNA, oppure della sequenza genomica • Come si predicono, “concettualmente”, le sequenze di proteine?
Tradurre i nucleotidi • Se la traduzione avviene a “triplette”, allora ci sono tre modi possibili di tradurre in amminoacidi una sequenza nucleotidica (sempre da 5’ a 3’!!) 5’- GATCAGTATGAGGTTAACATAACG - 3’
Tradurre i nucleotidi • La traduzione avviene SEMPRE leggendo la sequenza dal 5’ al 3’ • I tre diversi modi di tradurre una sequenza sono detti “frame” di lettura • E su un doppio filamento di DNA, quanti modi possibili di tradurre la sequenza ci sono?
5’- GATCAGTATGAGGTTAACATAACG - 3’ 3’- CTAGTCATACTCCAATTGTATTGC - 5’ Tre per filamento, quindi SEI in tutto (indicate con +1,+2,+3 e -1,-2,-3)
Le frame di lettura “aperte” • Ovviamente, a noi interessa trovare un codone di start (ATG) e tradurre a partire da quello • La frame che inizia con ATG è detta “frame di lettura aperta” (oppure “open reading frame”, oppure ORF)
Le ORF frame +2 5’- GATCAGTATGAGGTTAACATAACG -3’ |||||||||||||||||||||||| 3’- CTAGTCATACTCCAATTGTATTGC -5’ frame -2 ... e si traduce fino a quando non si trova un codone di STOP nello stesso frame…
Splicing e ORF • Da “anomalia” la produzione di trascritti alternativi si è scoperto essere la “normalità” nei geni degli eucarioti superiori • Trascritti alternativi, tramite: • Inizi alternativi della trascrizione • Terminazioni alternative della trascrizione • Splicing alternativi che coinvolgono gli esoni interni • Quale effetto ha la produzione di trascritti alternativi sul proteoma di un organismo? • A ogni trascritto alternativo, corrisponde una “proteina alternativa” (della tecnicamente “isoforma”)? • Isoforme: proteine codificate da trascritti alternativi dello stesso gene
Isoforme • A grandi linee gli effetti possono essere riassunti come segue: • Inizi trascrizione alternativi: • Allungano o accorciano la 5’UTR • Aggiungono, rimuovono o modificano l’N terminale della proteina codificata • Terminazioni trascrizione alternative: • Allungano o accorciano la 3’UTR • Aggiungono, rimuovono o modificano il C terminale della proteina codificata • Splicing alternativi esoni interni: • Modificano la regione codificante
ATG alternativi • In questo caso, ai 3 inizi di trascrizione alternativi corrispondono 3 ATG alternativi Ovviamente, le tre proteine codificate saranno diverse COME, dipende dal frame di lettura 3’ 5’ ATG ATG ATG .....
ATG alternativi • Consideriamo il secondo esone: se nel primo e secondo trascritto mantiene lo stesso frame, allora la traduzione varia solo nella parte iniziale 5’ 3’ .....
ATG alternativi • IDEM, per il terzo trascritto: se l’ATG nel secondo esone è nello stesso frame degli altri due, la traduzione da lì in poi sarà uguale 5’ 3’ .....
Ovvero Parte uguale in tutti i trascritti Dipende dal frame di lettura, e come si arriva nella parte uguale per tutti. Potenzialmente, può essere tradotta in 3 modi diversi. Per avere la stessa cosa, in pratica, la parte codificante variabile all’inizio deve essere lunga...
Ovvero Parte uguale in tutti i trascritti UN MULTIPLO DI 3!!!!!! In questo modo, le 3 proteine avranno un inizio diverso... ma una fine uguale!
Gli “spostamenti” di frame(frameshift) 5’- ATGCAGTCTGAGGTTAACATAACG- 3’ immaginiamo di avere una sequenza tradotta in questo modo.... 5’- ATGCTCCAAATGCAGTCTGAGGTTAACATAACG - se aggiungo un multiplo di 3 di nucleotidi la traduzione non cambia... 5’- ATGCTCCAATGCAGTCTGAGGTTAACATAACG - ..ma se non è un multiplo di 3... sposto “shift” tutto il frame di lettura che avevo prima!!!!
5’- ATGCAGTCTGAGGTTAACATAACG- 3’ 5’- ATGCAG...GAGGTTAACATAACG- 3’ Gli “spostamenti” di frame(frameshift) ... e se cancello un po’ di nucleotidi? se ne cancello 3 (o multiplo) in frame, cancello esattamente un amminoacido 5’- ATGCA...TGAGGTTAACATAACG- 3’ ... se ne cancello 3 (o multiplo) NON in frame, cancello un amminoacido e cambio quello adiacente
5’- ATGCAGTCTGAGGTTAACATAACG- 3’ I “frameshift” 5’- ATGCAG..TGAGGTTAACATAACG- 3’ ... se ne cancello NON 3 (o multiplo) dal punto di cancellazione in avanti la traduzione è COMPLETAMENTE DIFFERENTE
Gli esoni “cassetta” • Le considerazioni appena viste si applicano a inserzioni/cancellazioni dovute ai “cassette exon” se la lunghezza dell’esone giallo è un multiplo di 3, allora il suo inserimento causeràsoltanto un inserimento di amminoacidi nella proteina codificata altrimenti, la traduzione dell’esone verde sarà DIVERSA a seconda della presenza o meno di quello giallo
Siti di splicing alternativi • Idem, quando si usano segnali di splicing alternativi in questo caso, se la lunghezza del frammento aggiuntivo (in blu) è un multiplo di 3, allora il suo inserimento causeràsoltanto un inserimento di amminoacidi nella proteina codificata altrimenti, la traduzione dell’esone giallo e verde sarà DIVERSA a seconda della presenza del frammento aggiuntivo in blu (analogamente quando si accorciano esoni)
Gli esoni alternativi • Generalmente (ma con eccezioni) gli esoni altertativi (cassetta et similia) hanno proprio lunghezza multipla di tre e frame +1, quindi la loro inclusione/esclusione aggiunge/toglie pezzi alla proteina codificata • La “modularità” nella costruzione della regione codificante, d’altra parte, si sposa bene con la modularità che si osserva nella proteine
I domini delle proteine • Una sequenza proteica può essere suddivisa in “domini” • Ogni dominio forma la propria struttura “indipendente”, ed è responsabile di una delle funzioni della proteina: si può legare ad altre proteine, a ligandi, al DNA/RNA, ecc. • In pratica, proteine diverse possono contenere lo/gli stessi domini
Il gene più famoso del mondo Dominio di “tetramerizzazione” Di solito, 4 catene di p53 sono assemblate insieme Dominio di legame al DNA
Un gene, schematicamente 3’ 5’ 3’ 5’ Il trascritto (mRNA) è costituito dalla giunzione dei tratti corrispondenti ai rettangoli (esoni), per i quali si trova una corrispondenza ESATTA su uno dei due filamenti del DNA Sul DNA, gli esoni sono inframmezzati da parti di sequenza che non sono contenuti nell’mRNA, gli introni Le frecce indicano di quale dei due filamenti il trascritto è una copia esatta Gli introni sono sul DNA ma non nel trascritto
Un gene, schematicamente 3’ 5’ 3’ 5’ Il trascritto (mRNA) è costituito dalla giunzione dei tratti corrispondenti ai rettangoli (esoni), per i quali si trova una corrispondenza ESATTA su uno dei due filamenti del DNA Sul DNA, gli esoni sono inframmezzati da parti di sequenza che non sono contenuti nell’mRNA, gli introni Le frecce indicano di quale dei due filamenti il trascritto è una copia esatta Gli introni sono sul DNA ma non nel trascritto
Un gene in un computer Tre esoni: il gene è localizzato sul filamento “antisenso” (quello sotto), detto anche “negativo” (il gene si annota sul filamento che contiene la copia esatta dell’mRNA)
... l’eccezione, oppure la regola? • Philip Sharp (premio Nobel 1993): circa il 5% dei geni umani è soggetto a splicing alternativi.. • Roberts & Smith (Curr. Op. in Chemical Biology, 2002): circa il 45% • Progetti trascrittoma... stima: più trascritti vengono sequenziati, più lo splicing sembra “comune” • … e oggi?
Annotazione “next-generation” • La “bontà” o meno di un’annotazione dipende dalla disponibilità di trascritti • Fino a pochi anni fa, le annotazioni venivano compiute a partire dalle sequenze disponibili (es. database “GenBank - Nucleotide” NCBI) prodotte da laboratori di tutto il mondo • “Campionamento” del trascrittoma “biased”, ovvero per i geni più studiati (es. TP53, DMD in uomo) erano disponibili molti più trascritti di geni poco studiati o poco caratterizzati
Annotazione “next-generation” • Con l’introduzione delle tecniche di sequenziamento dette “next-generation sequencing” la possibilità di sequenziare - a costi relativamente contenuti - interi genomi o trascrittomi è diventata accessibile anche a laboratori di dimensione/disponibilità economica piccolo/media • Con “RNA-Seq” si intende l’applicazione di un metodo di sequenziamento “next-generation” al sequenziamento di un campione di RNA estratto da un particolare campione/linea cellulare/ecc. ecc.
RNA (cDNA) > 1000 bp Sanger sequencing (700 bp)
RNA (cDNA) > 1000 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp
RNA-Seq • Retrotrascrizione in cDNA • Frammentazione • Sequenziamento frammenti (“read”) • Mappatura dei frammenti sulla sequenza genomica
RNA-Seq Esone cassetta NON incluso 3’ 5’ 3’ 5’ Esone cassetta incluso
RNA-Seq Esone cassetta NON incluso 3’ 5’ In rosso: frammenti che mappati sul genoma si “spezzano” in due 3’ 5’ Esone cassetta incluso
RNA-Seq: identificare nuovi trascritti alternativi • Mappando i “read” si sequenza sul genoma vanno a cadere in un introne tra due esoni già annotati • E’ possibile si tratti di un esone che nessuno ha ancora “visto” A D 3’ 5’ ?? A-D
RNA-Seq: identificare nuovi trascritti alternativi • Mappando i “read” si sequenza sul genoma vanno a cadere in un introne tra due esoni già annotati • E’ possibile si tratti di un esone che nessuno ha ancora “visto” A 3’ 5’ GT AG GT AG
RNA-Seq and alternative splicing • Wang et. al., Nature 456(2008):470-476 • 10 tessuti umani • 5 linee cellulari tumorali • Trascritti cDNA divisi in frammenti di 30 bp • 12-29 milioni di frammenti per tipo di cellula • Circa 500 milioni di frammenti in tutto • Scopo: verificare quanto è come è diffuso lo splicing alternativo • Scopo: verificare se lo splicing alternativo varia significativamente a seconda del tessuto (esistono isoforme tessuto-specifiche?)
Asse x: numero di sequenze per gene Asse y: frazione di geni in cui è identificato almeno un trascritto alternativo Frazione di geni con una “isoforma minore” (y) che appare nell’ (x)% dei trascritti del gene
La stessa cosa… dimostrata 6 mesi prima.. usando sequenze di EST invece di sequenze RNA-Seq