510 likes | 720 Views
Annotare (e leggere) i genomi. 5’. 3’. Gene zzzz 7 esoni proteina w. Gene xxxx 3 esoni proteina y. Leggere il genoma umano (old-style...). Sequenze. Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili via Internet
E N D
Annotare (e leggere)i genomi 5’ 3’ Gene zzzz 7 esoni proteina w Gene xxxx 3 esoni proteina y
Sequenze • Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili via Internet • I database principali sono curati da organizzazioni internazionali • The National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/ • European Bioinformatics Institute (EBI) http://www.ebi.ac.uk/
Il primo passo... • Abbiamo la sequenza completa del DNA di un organismo: • Quanti geni contiene in tutto? • Dove sono localizzati i geni? • A cosa serve ciascun gene (ovvero, qual è la funzione della proteina codificata, ammesso che effettivamente codifichi per una proteina)? • Quali sono gli splicing alternativi più comuni di ciascun gene?
“Annotare” i geni • Dato un genoma, servono altri due elementi: • mRNA e proteina • Tre indizi fanno una prova: • Conosciamo la proteina (la abbiamo “vista” e sequenziata)? • Conosciamo il trascritto che codifica per la proteina (lo abbiamo sequenziato)? • Conosciamo il gene che produce il trascritto (abbiamo sequenziato la regione corrispondente del genoma)?
Leggere le sequenze • Ovviamente, è possibile determinare anche la sequenza di un trascritto (mRNA), e, con diverse tecniche, anche quella di una proteina • Quindi, se conosco la sequenza di un mRNA, posso localizzare lungo la sequenza genomica la regione che lo produce (e - a tratti - uguale al trascritto!) • Se conosco anche la sequenza della proteina codificata, allora ho completato la annotazione del gene
Leggere le sequenze • Attenzione, però: mentre il DNA è “statico”, e quindi la sua sequenza è presente nella stessa forma in tutte le cellule, lo stesso non vale per gli RNA: • NON tutti i geni sono trascritti in tutte le cellule • A seconda di • Stadio di sviluppo • Tipo di tessuto/cellula • Stimoli esterni Possono variare i geni trascritti e i relativi splicing alternativi • Morale: mentre abbiamo sequenze di genomi completi, non siamo ancora sicuri di avere trascrittomi (e proteomi) completi anche per gli organismi più studiati!
Annotare i geni DNA (doppio filamento) mRNA
Annotare i geni • Quindi, se abbiamo la sequenza del DNA di un organismo possiamo: • Prendere le sequenze di tutti i trascritti che conosciamo • Cercare regioni su uno dei due filamenti che sono uguali al trascritto “a pezzi” • Queste regioni sono... i “geni”!
Un gene, schematicamente 3’ 5’ 3’ 5’ Il trascritto (mRNA) è costituito dalla giunzione dei tratti corrispondenti ai rettangoli (esoni), per i quali si trova una corrispondenza ESATTA su uno dei due filamenti del DNA Sul DNA, gli esoni sono inframmezzati da parti di sequenza che non sono contenuti nell’mRNA, gli introni Le frecce indicano di quale dei due filamenti il trascritto è una copia esatta Gli introni sono sul DNA ma non nel trascritto
Un gene, schematicamente 3’ 5’ 3’ 5’ Il trascritto (mRNA) è costituito dalla giunzione dei tratti corrispondenti ai rettangoli (esoni), per i quali si trova una corrispondenza ESATTA su uno dei due filamenti del DNA Sul DNA, gli esoni sono inframmezzati da parti di sequenza che non sono contenuti nell’mRNA, gli introni Le frecce indicano di quale dei due filamenti il trascritto è una copia esatta Gli introni sono sul DNA ma non nel trascritto
Un gene in un computer Tre esoni: il gene è localizzato sul filamento “antisenso” (quello sotto), detto anche “negativo” (il gene si annota sul filamento che contiene la copia esatta dell’mRNA)
Il “gene” • Le annotazioni “ufficiali” dei geni sono curate da appositi consorzi/enti/gruppi di ricerca, solitamente gli stessi che curano il sequenziamento del genoma. Esempi: • D.melanogaster: “Flybase” • A.thaliana: “TAIR” • S.cerevisiae: “SGD“ • Zebrafish: “ZGD” • Uomo e altri mammiferi: diverse annotazioni
Annotare i geni • Un gene viene annotato in una regione genomica che produce RNA - non necessariamente codificante • L’annotazione viene compiuta “mappando” i trascritti sul genoma, e identificando le regioni da cui i trascritti stessi provengono • I trascritti utilizzati vengono “catalogati” ufficialmente dal consorzio che effettua l’annotazione, con il gene corrispondente cui sono attribuiti • Le annotazioni sono (per lo meno dichiarate essere) “curate manualmente”, ovvero vengono valutate, ad esempio: • L’”affidabilità” dei trascritti utilizzati (completezza, assenza di errori di sequenziamento) • L’”affidabilità” della mappatura/attribuzione al gene • La presenza o meno di una regione codificante “affidabile” e la relativa proteina codificata
Annotare i geni • Per alcuni genomi (es. uomo) sono disponibili diverse annotazioni che fondamentalmente differiscono per i trascritti utilizzati • Annotazioni disponibili per l’uomo sul browser UCSC: • Geni “RefSeq” (curati da NCBI) - pochi trascritti, ma buoni • Geni “UCSC” - (curati da UCSC) più trascritti per gene, più splicing alternativi - meno “buoni” • Geni “ENSEMBL” (curati da EBI) - più trascritti ancora - meno buoni - include trascritti parziali • Geni “Gencode” (curati da ENCODE) - simili a ENSEMBL • Alcune annotazioni includono solo geni “protein coding”, altre includono anche RNA non codificanti (es. microRNA, ma anche tRNA e rRNA)
Quale annotazione? • ...tra le varie annotazioni disponibili (se più di una) quale usare? • ...questione di gusti, e dipende da quello che si deve fare • Annotazioni con pochi trascritti ma buoni (es. RefSeq) vanno benissimo per studiare le “caratteristiche generali” del gene (es. ipotesi sulla funzione della proteina codificata - posso usare quella annotata sul trascritto RefSeq) • Annotazioni con più trascritti sono utili es. per studiare splicing alternativi e isoforme del gene
Annotazione “next-generation” • La “bontà” o meno di un’annotazione dipende dalla disponibilità di trascritti • Fino a pochi anni fa, le annotazioni venivano compiute a partire dalle sequenze disponibili (es. database “GenBank - Nucleotide” NCBI) prodotte da laboratori di tutto il mondo • “Campionamento” del trascrittoma “biased”, ovvero per i geni più studiati (es. TP53, DMD in uomo) erano disponibili molti più trascritti di geni poco studiati o poco caratterizzati
Annotazione “next-generation” • Con l’introduzione delle tecniche di sequenziamento dette “next-generation sequencing” la possibilità di sequenziare - a costi relativamente contenuti - interi genomi o trascrittomi è diventata accessibile anche a laboratori di dimensione/disponibilità economica piccolo/media • Con “RNA-Seq” si intende l’applicazione di un metodo di sequenziamento “next-generation” al sequenziamento di un campione di RNA estratto da un particolare campione/linea cellulare/ecc. ecc.
I “Browser” genomici • Come dice il nome stesso, sono strumenti che permettono ai ricercatori di “navigare” all’interno dei genomi di cui si conosce la sequenza, visualizzando tutte le annotazioni che sono disponibili • Sono accessibili via internet: • genome.ucsc.edu (University of California Santa Cruz - sito di riserva - secondo sito di riserva) • www.ensembl.org (sviluppato da EMBL-EBI e dal Sanger Center)
Le Coordinate Genomiche • In ogni sequenza nota, gli elementi che la compongono sono numerati da 1 fino all’ultimo • Sia le sequenze nucleotidiche che quelle aminoacidiche sono orientate • I nucleotidi si leggono da 5’ a 3’ • Gli amminoacidi si leggono da N (terminale) a C (terminale) • Quindi, anche tutti i cromosomi di una specie sono numerati da 1 in poi • Ciascun paio di basi in un genoma è definito da due coordinate: • Numero di cromosoma • Posizione all’interno del cromosoma • I browser mostrano uno dei due filamenti del DNA, ed (implicitamente) anche l’altro
Cliccando uno dei due link si accede al browser
Scelgo il gruppo Scelgo la specie “versione” tratto da visualizzare VIA!
“pulsanti” per muoversi lungo il cromosoma “pulsanti” per avvicinare (zoom in) o allontanare (zoom out) la visuale
“RefSeq” - trascritti “rappresentativi del gene (all’epoca di un gene-un trascritto) UCSC Known Gene - idem, ma annotati dai curatori del sito In più di 300000 paia di basi Un solo gene, con tanti piccoli esoni ed intoni molto più ampi
Ricerca per coordinate • Tornate alla pagina iniziale, e mantendendo le stesse selezioni di prima, provate ad inserire queste coordinate: chr7:155,595,558-155,604,967 (potete copiare ed incollare)
Si viene portati alla regione genomica corrispondente. Tutti i trascritti “mappati” sul genoma sono cliccabili: cliccandoci sopra è possibile cambiare la modalità di visualizzazione e/o accedere a tutte le informazioni disponibili sul gene in questione Se provate a cliccare sulla “riga” nera sotto “Human mRNA from GenBank”....
.... si scopre che ci sono tanti trascritti che provengono da questa regione, non solo uno... e in particolare i diversi trascritti “condividono” alcuni esoni, altri no splicing “alternativi”
Ricerca per parole chiave • Procedendo come si è visto, è possibile esplorare i diversi genomi disponibili • Ma: è possibile utilizzare la casella “coordinate” per effettuare una ricerca per parole chiave • Ad esempio, si può cercare un gene, dato il nome
Lunga lista di risultati, tipo “google”... ma se guardiamo con attenzione c’è un gene che si “chiama” shh sia nella lista “known” che nella lista RefSeq. Cliccando sul link corrispondente...
Annotare bioinformaticamente i geni • Il genome browser permette anche di trovare la corrispondenza trascritto regione genomica come si era visto in precedenza • Nella barra blu in cima alla pagina, cliccate su “Blat”
“BLAT” Selezionate il genoma che vi interessa Incollate la sequenza da cercare
“Blat” • Provate a copiare e incollare la sequenza 1 che trovate alla pagina del corso
Come si può vedere, la vostra sequenza “mappa” in diverse regioni del genoma, su diversi cromosomi; per ogni risultato l’interfaccia vi indica da dove a dove è stata trovata corrispondenza per il trascritto (START-END) Quello che ci interessa, per ora, è il “match” che copre tutto il trascritto, con identità del 100%, ovvero il primo risultato. Cliccando sul link “browser” corrispondente, si viene mandati...
“Blat” • E’ possibile inserire nella casella di ricerca anche la sequenza di una proteina (sequenza 2 della pagina) • L’interfaccia cercherà una regione genomica che - spezzettata in esoni ed introni - tradotta tripletta per tripletta codifica per la proteina che avete sottomesso
Come si può vedere, in questo caso la proteina è andata a “cadere” in una regione dove è già annotato un gene, con il trascritto corrispondente. Però, stavolta, la regione “coperta” dalla proteina è più corta di quella coperta dal trascritto... come mai? E... come mai sono state trovate altre due regioni in cui, almeno parzialmente, è stata trovata corrispondenza per la proteina? Cliccando sul link in corrispondenza del secondo risultato..
In questo caso, siamo andati a finire in una regione (e su un cromosoma!) completamente differente... eppure nella regione è annotato un gene, che tradotto a triplette codifica per qualcosa di simile alla nostra proteina di partenza, e le regioni corrispondenti cadono proprio sugli esoni del gene…
“BLAT” • Terzo esperimento: sempre partendo dalla proteina, nell’interfaccia di “BLAT” selezioniamo il genoma del topo • Cosa succederà, confrontando una proteina umana “contro” il genoma del topo?
Compaiono ben 6 (!) regioni di corrispondenza... notate in particolare che le prime tre coprono regioni abbastanza ampie della proteina, con un’alta percentuale di identità. Cliccando su “browser” in corrispondenza del primo risultato...
... andiamo a cadere proprio in corrispondenza di un gene di topo... la proteina sembra anche coprire tutto il trascritto! Quindi, apparentemente, nel genoma del topo c’è un gene che codifica per una proteina che “assomiglia” a quella dell’uomo? Andiamo a riprendere il primo risultato dell’uomo
TOPO UOMO I due geni sono localizzati su due cromosomi diversi (topo - 5, uomo 7)... ma: Hanno tutti e due 3 esoni ... e qualcuno ha dato lo stesso nome (Shh) sia al gene dell’uomo che a quello del topo...
“BLAT” • Ora effettuiamo il procedimento inverso: a partire dalla proteina del gene SHH di topo, andiamo a mapparla sul genoma umano • Selezionate “Blat”, e “Human” come organismo
.... si ritorna al gene chiamato “shh” dell’uomo! Provando a ritornare indietro, selezionando stavolta il secondo risultato..
... ritroviamo l’IHH, che era stato il secondo “match” di quando avevamo utilizzato la proteina dell’uomo contro il genoma dell’uomo... .... morale.....
Partendo da….. SHH UOMO SHH TOPO SHH UOMO SHH TOPO IHH UOMO IHH TOPO DHH UOMO DHH TOPO Trovo…..
... e gli altri animali? • Proviamo, sempre con BLAT, a selezionare una specie evolutivamente più lontana, utilizzando la proteina dell’uomo.. • .... proviamo con la Drosophila!