450 likes | 903 Views
Bioinformatica. Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it. Il DNA. Costituiti da una parte uguale per tutti, ed una parte variabile. Il DNA. Una sequenza di DNA (RNA) è ORIENTATA non è simmetrica Per convenzione,
E N D
Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it
Il DNA Costituiti da una parte uguale per tutti, ed una parte variabile
Il DNA Una sequenza di DNA (RNA) è ORIENTATA non è simmetrica Per convenzione, si identifica una estremità con il 5’ (atomo carbonio 5’) e l’altra con il 3’ (carbonio 3’) Il senso di lettura va da 5’ a 3’
Il DNA (o RNA) 3’ 5’ TTGGCTAACCCATCTACCTACGAAATCTTGGACCCTCACGATTTCGGTATGAAGAGA La sequenza si legge da sinistra a destra, ovvero da 5’ a 3’ oppure... A monte 3’ 5’ TTGGCTAACCCATCTACCTACGAAATCTTGGACCCTCACGATTTCGGTATGAAGAGA A valle ... è come se le sequenze fossero in discesa!
Il DNA (doppia elica) I due filamenti sono orientati in modo opposto (anti- parallelo)
Sequenze di amminoacidi • Anche le sequenze di amminoacidi sono “orientate”, e vanno da un atomo di azoto (N) a un atomo di carbonio (C di COO-) • Quindi, le proteine vanno da un “N terminale” ad un “C terminale”, nella stessa direzione dell’mRNA che le codifica (5’->3’)
Sequenziamento • Le sequenze di acidi nucleici e di amminoacidi si possono “leggere” • Entrambi i tipi di sequenze sono “orientati”: DNA e RNA si leggono da 5’ a 3’, sequenze di amminoacidi da N-terminale a C-terminale • Il costo (relativamente) basso delle procedure di sequenziamento ha portato a numerosi progetti di sequenziamento su “larga scala” • Ora anche “next-generation” o “high-throughput-sequencing”
Osservare il DNA • A metà circa degli anni ’70 Frederick Sanger introdusse la prima tecnica per il sequenziamento del DNA, ovvero per la determinazione della successione di basi in una sequenza di acidi nucleici Video
“Leggere” i genomi • All’inizio degli anni ’90 fu possibile l’inizio di progetti di sequenziamento su larga scala, mirati a determinare la sequenza di tutto il DNA di un organismo: il genoma • Il progetto genoma umano ha portato all’inizio del 2000 alla prima “bozza” della sequenza del genoma umano • Oggi, sono disponibili centinaia di sequenze genomiche complete, dai batteri ai vertebrati alle piante • Ma, grazie agli ultimi ritrovati tecnologici (next-generation sequencing), è normale oggi che un laboratorio che studia un qualsiasi aspetto della ricerca genomica sequenzi per conto proprio i propri genomi/trascritti/regioni genomiche di interesse • In un futuro non lontano, si può ipotizzare che tutti noi avremo il nostro genoma (ma non solo..) sequenziato
Sequenziamento 5’ 3’ 3’ 5’ Sanger sequencing - 700bp NGS Roche 454 pyrosequencing 250-700 bp NGS Illumina/Solexa 70-100bp Possibile sequenziamento “single end” (solo una delle due estremità scelta a caso) o “paired end” (due estremità simultaneamente)
Sequenziamento • Ogni sequenza prodotta è quindi solo (l’inizio di) un frammento del DNA originario • Al sequenziamento vengono quindi fatti solitamente seguire: • Assemblaggio (assembly) - “costruire” la sequenza originaria mettendo insieme i vari frammenti sequenziati • Mappatura (mapping) - assegnare la regione sequenziata al suo locus/cromosoma di provenienza
NELMEZ ELMEZZ LMEZZO MEZZOD EZZODE ZZODEL ZODELC ODELCA DELCAM Dante La Divina Commedia NELMEZZODELCAMMINDINOSTRAVITAMIRITROVAI Assemblaggio Mappatura Inferno - I Canto Nel mezzo del cammin di nostra vita
Che cosa si sequenzia? • DNA: genomi “interi” (o gran parte di essi) divisi in • Cromosomi • “Contig” o “Scaffold” • Contig e Scaffold sono grandi frammenti di sequenza genomica, di milioni di paia di basi, che devono ancora essere “mappati” sul loro cromosoma di appartenenza • Difficile avere il genoma veramente “completo” di un organismo • Regioni ripetute e regioni “inaccessibili” (eterocromatina)
DNA, RNA, ecc. ecc. • RNA: sequenze di trascritti (principalmente mRNA - ma anche ncRNA come micro, sno, ecc.) maturi (ovvero dopo lo splicing) • Così come esistono “progetti genoma” esistono anche “progetti trascrittoma”: sequenziamo tutti i trascritti di una data specie (fatti per uomo e topo) • EST: “Expressed sequence tags”. Sono frammenti di RNA, all’estremita 5’ o all’estremità 3’ della sequenza stessa • Motivo: si possono sequenziare in “un’unica passata” circa 700 paia di basi... ma gli RNA “tipici” sono di qualche migliaio: quindi si sequenziano RNA “parziali” (all’inizio o alla fine) per capire se un gene viene trascritto e in quali condizioni/tessuti/stimoli/patologie • RNA-Seq: stesso principio delle EST - ma con frammentazione casuale e sequenze ancora più corte
DNA, RNA, ecc. ecc. • Proteine: ovviamente si trovano anche sequenze di proteine, ma.... attenzione: la maggior parte sono sequenze “predette” a partire da un mRNA (conoscendo il codice genetico) o (peggio!) dalla sequenza genomica • Controllare sempre con quale metodo è stata determinata la sequenza • Strutture di proteine: poche. E’ possibile determinarne la struttura in modo affidabile tramite cristallografia, ma non sempre le proteine cristallizzano!
Il primo passo... • Abbiamo la sequenza completa del DNA di un organismo: • Quanti geni contiene in tutto? • Dove sono localizzati i geni? • A cosa serve ciascun gene (ovvero, qual è la funzione della proteina codificata, ammesso che effettivamente codifichi per una proteina)?
Che cosa è un gene? • Definizione genetica: “Unità ereditaria degli organismi viventi” • Ma: queste unità ereditarie sono localizzate da qualche parte all’interno delle cellule di un organismo
Una breve storia dei geni • Mendel (1860): esistono “fattori” alla base dell’ereditarietà • Johannsen (1909): i fattori ereditabili si chiamano geni • Morgan (1910): i geni sono localizzati su specifici cromosomi • Griffith (1928): i geni possono essere trasferiti • Beadle&Tatum (1941): mutazioni nei geni causano mutazioni nelle proteine i geni “codificano” proteine? • Avery&MacLeod&McCarty (1944): l’informazione dei geni è localizzata nel DNA • Watson & Crick (1953): il DNA ha struttura a doppia elica • Khorana & Holley & Niernberg (1961): scoperta del codice genetico • Roberts & Sarp (1977): i geni sono discontinui Ma soprattutto: • Sanger (1975): il DNA (e quindi i geni) può essere sequenziato, ovvero “letto”.
Che cosa è un gene? • Definizione molecolare: “regione di sequenza genomica, corrispondente a un’unità ereditaria” • Molecolare: quali molecole? • Acidi nucleici (DNA, RNA) • Polipeptidi (proteine, costituite da amminoacidi)
Il Dogma dei Geni (Eucariotici) Video Video2
DNA Start End La sequenza dell’RNA è identica a uno dei due filamenti di DNA Trascrizione RNA I gialli (introni) se ne vanno Rimangono i rossi (esoni) SPLICING Dopo lo splicing, l’mRNA maturo esce dal nucleo della cellula ed entra nel citoplasma mRNA (cDNA) CDS UTR UTR Traduzione in proteina UTR : Regioni non tradotte: 5’UTR e 3’UTR CDS : CoDing Sequence (tradotta)
La trascrizione • L’RNA polimerasi, scorre lungo uno dei due filamenti (in direzione 3’5’), costruendo una sequenza di RNA complementare al filamento su cui sta scorrendo • In pratica, la polimerasi realizza una copia di uno dei due filamenti del DNA • Per definizione, sul DNA il gene è annotato sul filamento UGUALE all’RNA prodotto (nell’esempio, sul filamento nero)
La traduzione ATG codifica per metionina, ma segna anche “inizio traduzione”
La sequenza di aa si “piega” formando una complessa struttura 3D Ogni sequenza si piega sempre nella stessa struttura La struttura determina come la proteina interagisce con l’ambiente circostante La struttura determina la funzione La sequenza determina la funzione Il gene codifica per una “funzione” Protein Folding
La struttura dell’mRNA (maturo) 5’ 3’ AAAAAA “Coda” di poly-A “Cap” Codone di “stop” (UGA, ecc.) Codone di “start” (ATG) Regione non tradotta (3’UTR) Regione non tradotta (5’UTR) Regione codificante (coding sequence - CDS)
Leggere le sequenze • Come già accennato, è possibile determinare anche la sequenza di un trascritto (mRNA), e, con tecniche diverse, anche quella di una proteina • Quindi, se conosco la sequenza di un mRNA, posso localizzare lungo la sequenza genomica la regione che lo produce (che è - a tratti - uguale al trascritto!) • Se conosco anche la sequenza della proteina codificata, allora ho completato la annotazione del gene
Dall’mRNA (maturo) al DNA 5’ 3’ AAAAAA L’mRNA (maturo) è costituito dalla giunzione degli esoni. Quindi, “mappando” l’RNA sul DNA corrispondente si trovano delle interruzioni 5’ 3’ 5’ 3’
A questo punto... • Esoni e introni sono le regioni in cui si è soliti suddividere un gene? • Cosa sono esoni e introni? • Cominciamo con cosa NON sono • Un esone NON è la parte codificante di un gene • Un introne NON è la parte non codificante di un gene • Tuttavia, esistono ancora libri e fonti varie che scrivono scemenze del genere, non fosse altro perché sono noti RNA soggetti a splicing che NON codificano per alcuna proteina
... cosa sono esoni e introni? • Gli esoni sono regioni di un gene che vanno a costituire il trascritto maturo (risultante dallo splicing) • Gli introni sono le regioni di un gene che vengono trascritte, ma che successivamente vengono rimosse dal trascritto primario (pre-mRNA) e non vanno a costituire il trascritto maturo (mRNA) • Le regioni non tradotte (UTR) sono le regioni del trascritto maturo (mRNA) che non sono tradotte, a monte del codone ATG (5’UTR) e a valle del codone di stop (3’UTR) • Codoni di stop UAG,UAA,UGA (ambra, ocra, opale)
... start e stop... • Così come è possibile “mappare” la sequenza di un mRNA sul DNA del gene corrispondente, è possibile mappare sul DNA ciascuno degli elementi che si trovano in esso • Quindi, ci saranno punti sul DNA che corrispondono alle UTR, alla regione codificante, ai codoni di start e di stop
Dall’mRNA (maturo) al DNA 5’ 3’ AAAAAA In questo caso, dove vanno a cadere codone di start, di stop, CDS e UTR? 5’ 3’ Esone1 Esone2 Esone3 5’ 3’
Dall’mRNA (maturo) al DNA 5’ 3’ AAAAAA In questo caso, dove vanno a cadere codone di start, di stop, CDS e UTR? 5’ 3’ 5’ 3’ STOP! ATG
Regole ed eccezioni • Si può chiaramente vedere che il codone ATG NON cade MAI all’inizio del primo esone del gene, perché è sempre preceduto da una UTR • Si può chiaramente vedere che il codone di STOP non cade MAI alla fine dell’ultimo esone del gene, perché è sempre seguito da una UTR (salvo rarissime eccezioni, in cui la poly-A fa da UTR) • Inoltre, alcuni RNA (lncRNA) sono comunque suddivisi in esoni ed introni, ma sono completamente NON codificanti • Si può chiaramente vedere come l’affermazione “gli esoni sono la parte codificante di un gene” sia una caz...errata! • Le regioni codificanti cadono necessariamente in un esone ma NON VALE il viceversa
Regole ed eccezioni • Codoni di start e stop cadono sempre nel primo e nell’ultimo esone? • Il codone di stop si trova generalmente nell’ultimo esone • Il codone di START NON NECESSARIAMENTE si trova nel PRIMO ESONE • Nota: gli esoni si contano sempre in direzione 5’->3’ sul filamento dove è annotato il gene
Il gene più famoso del mondo 5’ 3’ AAAAAA e così via dove cade il codone di start???
Il gene più famoso del mondo 5’ 3’ AAAAAA e così via 5’ 3’ Il codone di start cade nel SECONDO esone (gene tp53 umano)
Regole ed eccezioni • A priori, non c’è nessun vincolo sulla posizione del codone di start - ovviamente - a patto che sia localizzato a monte del codone di stop! • E’ possibile scoprirne la localizzazione “mappando” il trascritto sulla sequenza genomica
Dall’mRNA (maturo) al DNA 5’ 3’ AAAAAA Cosa succede se il trascritto, invece di essere copia del filamento superiore (senso, o “positivo”) è copia del filamento inferiore (antisenso, o “negativo”)? 5’ 3’ 5’ 3’
Dall’mRNA (maturo) al DNA 3’ 5’ AAAAAA 5’ 3’ Esone3 Esone2 Esone1 Basta.... girarlo!!!!!!!!!!!!! Trascritto e gene e numeri degli esoni devono essere sempre letti nello stesso senso, da 5’ a 3’! 5’ 3’