1 / 53

Bioinformatica

Bioinformatica. Giulio Pavesi Dip. BioScienze Università di Milano giulio.pavesi@unimi.it. ... riassumendo. Inizi della trascrizione alternativi. Cosa può succedere alla regione codificante quando un gene mostra inizi della trascrizione alternativi?. In questo caso, nulla alla CDS:

Download Presentation

Bioinformatica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bioinformatica Giulio Pavesi Dip. BioScienze Università di Milano giulio.pavesi@unimi.it

  2. ... riassumendo...

  3. Inizi della trascrizione alternativi • Cosa può succedere alla regione codificante quando un gene mostra inizi della trascrizione alternativi? In questo caso, nulla alla CDS: semplicemente si allunga/ accorcia la 5’UTR ATG

  4. Ma... • ... oltre che a “bordare” la CDS, le UTR al 5’ e al 3’ servono a qualcosa?

  5. ...sì! • Produrre un trascritto non implica, necessariamente, che il trascritto venga automaticamente tradotto • La 5’UTR di solito interagisce con il ribosoma, ma anche con specifiche proteine che si legano al DNA, e che regolano l’efficienza della traduzione • La 3’UTR, di solito, viene “attaccata” per degradare l’mRNA, e quindi regola l’efficienza della degradazione (che può avvenire prima che la traduzione sia completa) • MORALE: 5’ e 3’ UTRpossono influenzare se/quando/come un trascritto viene tradotto

  6. Splicing e proteine • Un gene (visto classicamente) non produce UN trascritto, ma MOLTI trascritti, che differiscono tra loro per: • Inizio/fine della trascrizione • Splicing alternativi (esoni “cassetta”, esoni alternativi, segnali di splicing alternativi, introni ritenuti) • Un gene, quante proteine “produce”?

  7. Le proteine “concettuali” • Abbiamo a nostra disposizione genomi, e centinaia di migliaia di trascritti/EST e milioni/miliardi di frammenti “RNA-Seq” • In realtà, le sequenze proteiche “note” (sequenziate) sono poche • ... la maggior parte derivano da traduzioni “plausibili” dell’RNA, oppure della sequenza genomica • Come si predicono, “concettualmente”, le sequenze di proteine?

  8. Tradurre i nucleotidi • Se la traduzione avviene a “triplette”, allora ci sono tre modi possibili di tradurre in amminoacidi una sequenza nucleotidica (sempre da 5’ a 3’!!) 5’- GATCAGTATGAGGTTAACATAACG - 3’

  9. Tradurre i nucleotidi • La traduzione avviene SEMPRE leggendo la sequenza dal 5’ al 3’ • I tre diversi modi di tradurre una sequenza sono detti “frame” di lettura • E su un doppio filamento di DNA, quanti modi possibili di tradurre la sequenza ci sono?

  10. 5’- GATCAGTATGAGGTTAACATAACG - 3’ 3’- CTAGTCATACTCCAATTGTATTGC - 5’ Tre per filamento, quindi SEI in tutto (indicate con +1,+2,+3 e -1,-2,-3)

  11. Le frame di lettura “aperte” • Ovviamente, a noi interessa trovare un codone di start (ATG) e tradurre a partire da quello • La frame che inizia con ATG è detta “frame di lettura aperta” (oppure “open reading frame”, oppure ORF)

  12. Le ORF frame +2 5’- GATCAGTATGAGGTTAACATAACG -3’ |||||||||||||||||||||||| 3’- CTAGTCATACTCCAATTGTATTGC -5’ frame -2 ... e si traduce fino a quando non si trova un codone di STOP nello stesso frame…

  13. Splicing e ORF • Da “anomalia” la produzione di trascritti alternativi si è scoperto essere la “normalità” nei geni degli eucarioti superiori • Trascritti alternativi, tramite: • Inizi alternativi della trascrizione • Terminazioni alternative della trascrizione • Splicing alternativi che coinvolgono gli esoni interni • Quale effetto ha la produzione di trascritti alternativi sul proteoma di un organismo? • A ogni trascritto alternativo, corrisponde una “proteina alternativa” (della tecnicamente “isoforma”)? • Isoforme: proteine codificate da trascritti alternativi dello stesso gene

  14. Isoforme • A grandi linee gli effetti possono essere riassunti come segue: • Inizi trascrizione alternativi: • Allungano o accorciano la 5’UTR • Aggiungono, rimuovono o modificano l’N terminale della proteina codificata • Terminazioni trascrizione alternative: • Allungano o accorciano la 3’UTR • Aggiungono, rimuovono o modificano il C terminale della proteina codificata • Splicing alternativi esoni interni: • Modificano la regione codificante

  15. ATG alternativi • In questo caso, ai 3 inizi di trascrizione alternativi corrispondono 3 ATG alternativi Ovviamente, le tre proteine codificate saranno diverse COME, dipende dal frame di lettura 3’ 5’ ATG ATG ATG .....

  16. ATG alternativi • Consideriamo il secondo esone: se nel primo e secondo trascritto mantiene lo stesso frame, allora la traduzione varia solo nella parte iniziale 5’ 3’ .....

  17. ATG alternativi • IDEM, per il terzo trascritto: se l’ATG nel secondo esone è nello stesso frame degli altri due, la traduzione da lì in poi sarà uguale 5’ 3’ .....

  18. Ovvero Parte uguale in tutti i trascritti Dipende dal frame di lettura, e come si arriva nella parte uguale per tutti. Potenzialmente, può essere tradotta in 3 modi diversi. Per avere la stessa cosa, in pratica, la parte codificante variabile all’inizio deve essere lunga...

  19. Ovvero Parte uguale in tutti i trascritti UN MULTIPLO DI 3!!!!!! In questo modo, le 3 proteine avranno un inizio diverso... ma una fine uguale!

  20. Gli “spostamenti” di frame(frameshift) 5’- ATGCAGTCTGAGGTTAACATAACG- 3’ immaginiamo di avere una sequenza tradotta in questo modo.... 5’- ATGCTCCAAATGCAGTCTGAGGTTAACATAACG - se aggiungo un multiplo di 3 di nucleotidi la traduzione non cambia... 5’- ATGCTCCAATGCAGTCTGAGGTTAACATAACG - ..ma se non è un multiplo di 3... sposto “shift” tutto il frame di lettura che avevo prima!!!!

  21. 5’- ATGCAGTCTGAGGTTAACATAACG- 3’ 5’- ATGCAG...GAGGTTAACATAACG- 3’ Gli “spostamenti” di frame(frameshift) ... e se cancello un po’ di nucleotidi? se ne cancello 3 (o multiplo) in frame, cancello esattamente un amminoacido 5’- ATGCA...TGAGGTTAACATAACG- 3’ ... se ne cancello 3 (o multiplo) NON in frame, cancello un amminoacido e cambio quello adiacente

  22. 5’- ATGCAGTCTGAGGTTAACATAACG- 3’ I “frameshift” 5’- ATGCAG..TGAGGTTAACATAACG- 3’ ... se ne cancello NON 3 (o multiplo) dal punto di cancellazione in avanti la traduzione è COMPLETAMENTE DIFFERENTE

  23. Gli esoni “cassetta” • Le considerazioni appena viste si applicano a inserzioni/cancellazioni dovute ai “cassette exon” se la lunghezza dell’esone giallo è un multiplo di 3, allora il suo inserimento causeràsoltanto un inserimento di amminoacidi nella proteina codificata altrimenti, la traduzione dell’esone verde sarà DIVERSA a seconda della presenza o meno di quello giallo

  24. Siti di splicing alternativi • Idem, quando si usano segnali di splicing alternativi in questo caso, se la lunghezza del frammento aggiuntivo (in blu) è un multiplo di 3, allora il suo inserimento causeràsoltanto un inserimento di amminoacidi nella proteina codificata altrimenti, la traduzione dell’esone giallo e verde sarà DIVERSA a seconda della presenza del frammento aggiuntivo in blu (analogamente quando si accorciano esoni)

  25. Gli esoni alternativi • Generalmente (ma con eccezioni) gli esoni altertativi (cassetta et similia) hanno proprio lunghezza multipla di tre e frame +1, quindi la loro inclusione/esclusione aggiunge/toglie pezzi alla proteina codificata • La “modularità” nella costruzione della regione codificante, d’altra parte, si sposa bene con la modularità che si osserva nella proteine

  26. I domini delle proteine • Una sequenza proteica può essere suddivisa in “domini” • Ogni dominio forma la propria struttura “indipendente”, ed è responsabile di una delle funzioni della proteina: si può legare ad altre proteine, a ligandi, al DNA/RNA, ecc. • In pratica, proteine diverse possono contenere lo/gli stessi domini

  27. Il gene più famoso del mondo Dominio di “tetramerizzazione” Di solito, 4 catene di p53 sono assemblate insieme Dominio di legame al DNA

  28. Il gene più famoso del mondo

  29. Un gene, schematicamente 3’ 5’ 3’ 5’ Il trascritto (mRNA) è costituito dalla giunzione dei tratti corrispondenti ai rettangoli (esoni), per i quali si trova una corrispondenza ESATTA su uno dei due filamenti del DNA Sul DNA, gli esoni sono inframmezzati da parti di sequenza che non sono contenuti nell’mRNA, gli introni Le frecce indicano di quale dei due filamenti il trascritto è una copia esatta Gli introni sono sul DNA ma non nel trascritto

  30. Un gene, schematicamente 3’ 5’ 3’ 5’ Il trascritto (mRNA) è costituito dalla giunzione dei tratti corrispondenti ai rettangoli (esoni), per i quali si trova una corrispondenza ESATTA su uno dei due filamenti del DNA Sul DNA, gli esoni sono inframmezzati da parti di sequenza che non sono contenuti nell’mRNA, gli introni Le frecce indicano di quale dei due filamenti il trascritto è una copia esatta Gli introni sono sul DNA ma non nel trascritto

  31. Un gene in un computer Tre esoni: il gene è localizzato sul filamento “antisenso” (quello sotto), detto anche “negativo” (il gene si annota sul filamento che contiene la copia esatta dell’mRNA)

  32. Sempre il gene più famoso del mondo

  33. ... l’eccezione, oppure la regola? • Philip Sharp (premio Nobel 1993): circa il 5% dei geni umani è soggetto a splicing alternativi.. • Roberts & Smith (Curr. Op. in Chemical Biology, 2002): circa il 45% • Progetti trascrittoma... stima: più trascritti vengono sequenziati, più lo splicing sembra “comune” • … e oggi?

  34. Annotazione “next-generation” • La “bontà” o meno di un’annotazione dipende dalla disponibilità di trascritti • Fino a pochi anni fa, le annotazioni venivano compiute a partire dalle sequenze disponibili (es. database “GenBank - Nucleotide” NCBI) prodotte da laboratori di tutto il mondo • “Campionamento” del trascrittoma “biased”, ovvero per i geni più studiati (es. TP53, DMD in uomo) erano disponibili molti più trascritti di geni poco studiati o poco caratterizzati

  35. Annotazione “next-generation” • Con l’introduzione delle tecniche di sequenziamento dette “next-generation sequencing” la possibilità di sequenziare - a costi relativamente contenuti - interi genomi o trascrittomi è diventata accessibile anche a laboratori di dimensione/disponibilità economica piccolo/media • Con “RNA-Seq” si intende l’applicazione di un metodo di sequenziamento “next-generation” al sequenziamento di un campione di RNA estratto da un particolare campione/linea cellulare/ecc. ecc.

  36. RNA (cDNA) > 1000 bp Sanger sequencing (700 bp)

  37. RNA (cDNA) > 1000 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp

  38. RNA-Seq • Retrotrascrizione in cDNA • Frammentazione • Sequenziamento frammenti (“read”) • Mappatura dei frammenti sulla sequenza genomica

  39. RNA-Seq Esone cassetta NON incluso 3’ 5’ 3’ 5’ Esone cassetta incluso

  40. RNA-Seq Esone cassetta NON incluso 3’ 5’ In rosso: frammenti che mappati sul genoma si “spezzano” in due 3’ 5’ Esone cassetta incluso

  41. RNA-Seq: identificare nuovi trascritti alternativi • Mappando i “read” si sequenza sul genoma vanno a cadere in un introne tra due esoni già annotati • E’ possibile si tratti di un esone che nessuno ha ancora “visto” A D 3’ 5’ ?? A-D

  42. RNA-Seq: identificare nuovi trascritti alternativi • Mappando i “read” si sequenza sul genoma vanno a cadere in un introne tra due esoni già annotati • E’ possibile si tratti di un esone che nessuno ha ancora “visto” A 3’ 5’ GT AG GT AG

  43. RNA-Seq and alternative splicing • Wang et. al., Nature 456(2008):470-476 • 10 tessuti umani • 5 linee cellulari tumorali • Trascritti cDNA divisi in frammenti di 30 bp • 12-29 milioni di frammenti per tipo di cellula • Circa 500 milioni di frammenti in tutto • Scopo: verificare quanto è come è diffuso lo splicing alternativo • Scopo: verificare se lo splicing alternativo varia significativamente a seconda del tessuto (esistono isoforme tessuto-specifiche?)

  44. Asse x: numero di sequenze per gene Asse y: frazione di geni in cui è identificato almeno un trascritto alternativo Frazione di geni con una “isoforma minore” (y) che appare nell’ (x)% dei trascritti del gene

  45. La stessa cosa… dimostrata 6 mesi prima.. usando sequenze di EST invece di sequenze RNA-Seq

More Related