E N D
Lezione n.3 Era Post Genomica Dott.ssa L. Lentini 2013
Capire come 107 nt definiscono una cellula di lievito e come 3x 109 definiscono Tiger Woods o Britney Spears, non può essere fatto fin quando tutti i geni non saranno stati decifrati, ma la vera impresa è capire come i prodotti di tali geni collaborino per fare ciò. Science Febbario 2001
JOE SUTLIFF Stanley Fields: Proteomics in Genomeland, Science 291, 1221, (2001).
La Biologia Moderna Progetti Genoma: Perchè? La determinazione e la conoscenza dell’intera sequenza genomica sembrano essere la condizione necessaria per comprendere la completa biologia di un determinato organismo.
In che modo? Sequenziamento del DNA significa determinazione della sequenza lineare delle basi che lo compongono, cioè A, T, C e G. Il DNA umano è composto da 3.12 miliardi di paia di basi.
La Biologia Moderna: i Progetti Genoma Un requisito essenziale alla comprensione della biologia completa di un organismo è la determinazione della sequenza del suo intero genoma. “A prerequisite to understanding the complete biology of an organism is the determination of its entire genome sequence” Fleischmann et al. 1995
Il potenziale dell’approccio SHOTGUN è stato confermato dal sequenziamento del genoma batterico di Haemophilus influenzae Durante gli anni 90 si è molto discusso sull’approccio shotgun (frammentazione e sequenziamento) del genoma. Molti pensavano che anche per piccoli genomi questo tipo di analisi producesse una quantità così massiva di dati da non poter gestire da un punto di vista informatico i risultati. Questi dubbi sono perdurati fino al 1995 quando è stata pubblicata la sequenza di 1830 kb del genoma del batterio H. influenzae. Il genoma di H. influenze è stato interamente sequenziato con il metodo shotgun, senza far uso di mappe fisiche o genetiche.
Metodo SHOTGUN per il sequenziamento del genoma batterico di Haemophilus influenzae Assemblaggio: 30 h in PC di 512 Mb -RAM Estrazione DNA da gel Determinazione delle sequenze terminali degli inserti. Costruzione di conting di sequenze
28643 reazioni di sequenza sono state effettuate da 8 persone utilizzando in media 14 DNA sequencer al giorno per 3 mesi. L’assembling di 24304 frammenti in 210 contigs ha richiesto 30 ore di processamento continuo su un computer SPARCenter 2000 con 512 Mb di RAM Il costo stimato è stato di 0.48 centesimi di dollaro/base sequenziata. Se la tecnologia attualmente applicata per il sequenziamento del Genoma Umano (2000-2001) venisse di nuovo applicata al genoma dell’Haemophilus influenzae il suo genoma potrebbe essere nuovamente sequenziato e assemblato in meno di un giorno!
Qualche numero... 0.48 USD x 10 980 000 bp = 5 270 400 USD Pari a circa 5 850 144 EURO Pari a 11 327 458 322 Lire Italiane N.B. nel conteggio non sono inclusi i costi dello sviluppo della teconologia e dei software, ma soltanto i costi di reagenti e laboratori
Il risultato iniziale: -140 lunghe sequenze contigue (contig di sequenze), rappresentanti ognuna una porzione diversa del genoma e non sovrapposta. Poi attraverso PCR si colmarono le piccole lacune tra una sequenza e l’altra. Il punto di forza: Il metodo SHOTGUN è molto veloce e può applicarsi in assenza di conoscenza di mappe fisiche o genetiche. La sequenza di genomi al di sotto di 5 Mb si può ottenere in pochi mesi con tale metodo.
2000-2001 Il Genoma Umano completamente sequenziato e assemblato
1953James Watson e Francis Crick determinano la struttura del DNA (La doppia elica) 1977Gli scienziati americani Allan Maxam and Walter Gilbert e l'inglese Frederick Sanger mettono a punto 2 diversi metodi per sequenziare il DNA, cioè per "leggere" la successione di basi nucleotidiche che lo compongono. Il metodo di Sanger, oggi automatizzato, è quello tuttora utilizzato. 1985 Lo scienziato americano Kary Mullis inventa la PCR, una tecnica che permette di moltiplicare artificialmente il DNA, anche se presente in quantità minima. 1986Il premio Nobel Renato Dulbecco e Leroy Hood lanciano l'idea di sequenziare l'intero genoma Umano. 1990Negli Stati Uniti nasce ufficialmente lo Human Genome Project (HGP), sotto la guida di James Watson. Negli anni successivi Regno Unito, Giappone, Francia, Germania, Cina si uniscono al progetto formando un consorzio pubblico internazionale. In Italia il progetto genoma nasce nel 1987 ma si interrompe nel 1995. 1992Craig Venter lascia l‘National Institutes of Health NIH e il progetto pubblico. Fonderà una compagnia privata, la Celera Genomics, portando avanti un progetto genoma parallelo. 1993 Francis Collins e John Sulston diventano direttori rispettivamente del National Human Genome Research Center negli USA e del Sanger Center in Inghilterra, i 2 principali centri coinvolti nel HGP. LE TAPPE DEL PROGETTO GENOMA
1999 (Dicembre) Pubblicata su Nature la sequenza completa del cromosoma 22. 2000 (Maggio) pubblicata su Nature la sequenza completa del cromosoma 21. 2000 (Giugno) Francis Collins e Craig Venter annunciano congiuntamente insieme al presidente degli Stati Uniti di aver completato la "bozza" del genoma Umano. 2001 La bozza completa del genoma umano (che gli inglesi chiamano working draft) è pubblicata su Nature (quella del consorzio pubblico) e su Science (quella della Celera). Celera Genomics (Applera, Applied Biosystems) Istituzioni pubbliche in: USA, UK, China Francia Germania
Il genoma di un virus è composto da poche migliaia di bp Dimensioni del Genoma in Megabasi ProcariotiMycoplasma genitalium0.58 Haemophilus influenzae1.83 Escherichia coli 4.7 EucariotiSaccharomyces cerevisiae13.5 Caenorabditis elegans100 Drosophila melanogaster165 Homo sapiens3300
La strategia che sta alla base del sequenziamento del genoma umano è la “shotgun sequencing strategy”.
Shotgun Sequencing Strategy • Creazione di un libreria RANDOM di frammenti di DNA • Sequenziamento di un numero SUFFICIENTEMENTE ALTO di frammenti selezionati in maniera random • Assemblaggio dei CONTIGS
Assemblaggio dei Contigs 28643 sequenze H. influenzae atgcaagcctacgtcctaccgcattaacagg U65747 U85746 gcattaacaggcgattagggcatcccagctgg atgccatgcaagcctacgtcctaccgcattaacagg gcattaacaggcgattagggcatcccagctgg
venerdi , 07 aprile 2000 BIOLOGIA Un «libro delle istruzioni», la cura dei tumori è più vicina Boncinelli Edoardo www.corriere.it Un «libro delle istruzioni» 2/5 Questo messaggio contiene una gran mole di informazioni equivalenti al contenuto di un milione e mezzo di pagine stampate, un' impressionante serie di volumi che contengono il segreto della nostra realtà biologica. Questo messaggio può essere suddiviso in un certo numero di capitoli, circa 100.000, chiamati geni. Un gene è un' unità significante di senso compiuto che porta l' informazione per compiere una specifica funzione biologica (cioé una proteine, ndr). Adesso, grazie al Progetto Genoma, sapremo che cosa abbiamo nel nostro Dna, cioè quanti e quali geni abbiamo e, eventualmente, che cosa c' è fra un gene e un altro.
ANNI 90-2000: ERA GENOMICA La sequenza completa del genoma sarà NECESSARIA a comprendere le funzioni (e disfunzioni) biologiche del nostro organismo
ERA POST-GENOMICA La sola sequenza, anche se completa, del genoma sarà SUFFICIENTE a comprendere le funzioni (e disfunzioni) biologiche del nostro organismo?
martedi , 13 febbraio 2001 BIOLOGIA GENETICA Le due équipe litigano sulla disponibilità delle mappe. La Celera vuole un «pedaggio» Il gruppo di Venter ha annunciato anche la sequenza del Dna del topo Bazzi Adriana www.corriere.it Genoma umano, scontro sull' utilizzo dei dati Le proteine, sono il prodotto dei geni: sono le proteine che servono a “fabbricare” un organismo, a farlo funzionare e, quando sono difettose, si rendono responsabili di malattie. Ed è proprio attraverso lo studio del funzionamento delle proteine che si potrebbe arrivare alla costruzione di nuovi farmaci….
METODI DI STUDIO DELLA COMPLESSITA’ BIOLOGICA COMPLESSITA’ BIOLOGICA Progetti Genoma Gene 30.000? (30.000-100.000) Splicing alternativo ?? mRNA N.B. Il delicato equilibrio di un organismo dipende da una moltitudine di funzioni finemente organizzate e regolate da una moltitudine di proteine diverse che interagiscono tra loro in network complessi di interazioni reversibili precursore proteico 150.000?? Taglio della eventuale sequenza segnale Eventuali modificazioni post-traduzionali proteina matura ?? (FUNZIONE) Interazioni proteina-proteina Network complessi
venerdi , 07 aprile 2000 BIOLOGIA Un «libro delle istruzioni», la cura dei tumori è più vicina Boncinelli Edoardo www.corriere.it Un «libro delle istruzioni» 3/5 Nella fase immediatamente successiva si tratterà di cercare di sapere la funzione del maggior numero possibile dei nostri geni. Averli individuati tutti e conoscere la funzione di alcuni di essi non è chiaramente sufficiente a soddisfare la nostra curiosità e a venire incontro alle nostre aspettative per quanto riguarda le applicazioni alla nostra salute. Va detto subito che questa fase sarà m olto più lunga di quella che si sta per concludere e richiederà decenni, se non secoli. Il guadagno dovrebbe essere però straordinario soprattutto dal punto di vista conoscitivo. Sapremo che cosa fanno i geni di cui conosciamo qualcosa, cosa fanno qu elli che conosciamo appena e cosa fanno anche quelli che non conosciamo e che non immaginiamo nemmeno che possano esistere.
Introni RNA ribosomali RNA transfer Regioni regolatrici (promotori, enhancer) Dimensioni del Genoma in Megabasi ProcariotiMycoplasma genitalium0.58 Haemophilus influenzae1.83 Escherichia coli 4.7 EucariotiSaccharomyces cerevisiae13.5 Caenorabditis elegans100 Drosophila melanogaster165 Homo sapiens3300 Densità delle regioni codificanti 1 ogni ca. 1200 bp 1 ogni ca. 1050 bp 1 ogni ca. 1150 bp 1 ogni ca. 2300 bp 1 ogni ca. 7000 bp 1 ogni ca. 13500 bp ?? Numero di ORF (geni) 473 1760 4100 5800 14000 12000 ??
Percentuali di geni sul genoma totale Amoeba 0.1% Homo sapiens 3% Zea maize 4% Arabidopsis 80% Drosophila 50% Nematode C.elegans 85% Lievito del pane 70% Echerichia coli 85%
Initial impact of the sequencing of the human genome Eric S. Lander1 Nature Volume: 470, Pages: 187–197 Date published: (10 February 2011)
Initial impact of the sequencing of the human genome Eric S. Lander1Nature Volume: 470, Pages: 187–197 Date published: (10 February 2011) -Esiguo numero di geni Prima del 2000 le stime relative a questo numero oscillavano ampiamente, passando da 35mila a oltre 100mila, mentre oggi sappiamo che i geni codificanti per proteine sono molti meno circa 21.000. -Elementi funzionali non proteici (sequenze regolative) Se da una parte il ruolo delle proteine si è un po’ ridimensionato, dall’altra hanno acquisito sempre maggiore importanza altri elementi funzionali in precedenza sottovalutati. Ad esempio, sappiamo che la maggior parte della porzione funzionale del nostro genoma non codifica per proteine. Da analisi di genomica comparativa è emerso che il 6% del nostro codice genetico è stato selezionato dall’evoluzione negli ultimi 100 milioni di anni per svolgere una qualche funzione, ma non si tratta solo di proteine, anzi: queste occupano solo l’1.5% del genoma, ed è quindi evidente che siano stati altri elementi quelli davvero importanti per lo sviluppo della nostra specie. Questi misteriosi artefici dell’evoluzione non sono altro che sequenze regolative. Gli RNA non codificanti (es. microRNA), ad esempio, derivano da tratti del genoma che non sono destinati a diventare proteine, eppure riescono a plasmare le nostre cellule agendo sui livelli di espressione proteica.
Tra di essi gli esponenti più famosi sono i microRNA, piccole sequenze che spengono gli RNA messaggeri, cioè le molecole che trasformano l’informazione contenuta nel DNA in proteine. In questi anni sono state individuate circa 100 famiglie di microRNA evolutivamente conservate, e si calcola che in media un solo microRNA possa controllare l’espressione di circa 200 proteine. -Epigenetica Le alterazioni epigenetiche sono un altro modo per decidere quali geni accendere e quali spegnere: si tratta di modificazioni chimiche che rendono una regione genomica più o meno attiva, e stanno diventando sempre più importanti agli occhi dei ricercatori.
-Interazione genica Un ulteriore livello di complessità scoperto recentemente è dato dalle interazioni tra geni fisicamente lontani, interazioni che si verificano perché il genoma, avendo una sua struttura tridimensionale, può mettere a contatto punti diversi dei cromosomi. -Eredità poligenica, malattie complesse
E S. Lander. Nature470, 187-197 (2011) doi:10.1038/nature09792 Evolutionary conservation maps Comparison among the human, mouse, rat and dog genomes helps identify functional elements in the genome. The figure shows the density of protein-coding sequences (red) and the most highly conserved non-coding sequences (blue) along chromosome 3. Highly conserved non-coding sequences are enriched in gene-poor regions, each of which contained a gene involved in early development (such as SATB1, shown). Images courtesy of iStock Photo
E S. Lander. Nature470, 187-197 (2011) doi:10.1038/nature09792 Chromatin state maps The genomic sites of chromatin modifications or protein binding can be mapped, using chromatin immunoprecipitation (ChIP) and massively parallel sequencing. The figure highlights chromatin marks associated with the active promoters (green) and actively transcribed regions (blue), in a region on chromosome 22. The four features shown correspond to two active protein-coding (dark grey), one inactive protein-coding (light grey) and one long intergenic non-coding RNA (maroon). Image courtesy of B. Wong (ClearScience).
Disease association maps Geneticists can now test the association between a common disease and millions of individual genetic variants. The figure shows a ‘Manhattan plot’ from a study of Crohn’s disease, a form of inflammatory bowel disease. For each variant across the genome, the height reflects its correlation with disease (measure by log10(significance)). The Manhattan plot reveals 71 ‘skyscrapers’, corresponding to regions associated with Crohn’s disease. Image courtesy of B. Wong (ClearScience). E S. Lander. Nature470, 187-197 (2011) doi:10.1038/nature09792
Una nuova visione nel cancro. La possibilità di osservare traslocazioni intercromosomiche, intracromosomiche (verde), amplificazioni e delezioni.
Studi di selezione positiva La regione indicata su #15, di un milione di basi, ha subito una selezione positiva nella popolazione europea.
Campo medico e GWAS (studi di associazione genome-wide) Quando fu lanciato il progetto per sequenziare il genoma umano, si conoscevano meno di 100 geni legati alle malattie; oggi hanno individuato più di 2850 geni relativi a malattie di tipo mendeliano, che cioè dipendono dal malfunzionamento di un singolo gene. Avere la possibilità di leggere un intero genoma diventa sempre più fondamentale anche per la pratica clinica: per identificare le cause genetiche di malattie rare particolarmente ostiche da diagnosticare, molti medici iniziano a scegliere la strada del sequenziamento genomico.
GWAS (studi di associazione genome-wide) In generale, si è capito che la maggior parte dei tratti sono influenzati da un grande numero di loci, e che la maggior parte delle varianti comuni presenti in queste posizioni chiave hanno un effetto modesto (alzano il rischio di ammalarsi del 10-50%, proprio come molti fattori ambientali). Per riuscire a determinare tutte le basi genetiche di questi tratti complessi, è ora necessario investigare le varianti rare, le interazioni tra geni e le interazioni tra geni e ambiente. Molti hanno criticato i GWAS perché non sono riusciti a far emergere tutte le cause genetiche delle malattie comuni, e quindi non è ancora possibile fare predizioni efficaci sul rischio di ammalarsi. Tuttavia, Eric Lander ricorda che lo scopo primario dei GWAS non è questo, bensì svelare i meccanismi cellulari responsabili delle malattie: è attraverso la conoscenza anche parziale di questi meccanismi che sarà possibile mettere a punto delle cure efficaci.
STUDI GWAS sul GENOMA UMANO : Genetica dei lipidi -Studio recente di GWAS su livelli plasmatici di lipidi dimostra il potere di questo approccio. -100.000 individui studio didi discendenza europea ha individuato 95 lociassociati ad almeno uno dei 3 maggiori lipidi lipoproteine a bassa densità(LDL) del colesterolo, lipoproteina ad alta densità (HDL) etrigliceridi. Si è osservato un 25% di variabilità genetica per i livelli di HDL e LDL. Tra questi 95 loci sono anche presenti geni che sono associati a malattie mendeliane di disordini nel metabolismo dei lipidi. Lo studio di GWAS può avere importanti implicazioni terapeutiche.
Ricerca sul cancro Il sequenziamento del genoma è stato un passo fondamentale anche per la ricerca sul cancro. Prima del 2000, erano stati scoperti circa 80 geni coinvolti nei processi tumorali; oggi siamo arrivati a 230, a testimonianza di una conoscenza del fenomeno notevolmente migliorata. Subito dopo il sequenziamento del genoma umano sono state individuate mutazioni in geni chiave nel melanoma, nel tumore del colon-retto e nel cancro ai polmoni. Sono stati poi scoperti geni amplificati nelle cellule tumorali, così come geni sottoespressi o traslocati dalle loro posizioni originarie sul genoma. Oggi, sapere quali geni sono sovra o sottoespressi rispetto alla norma può aiutare a capire, ad esempio, quali pazienti con tumore al seno trarranno maggior beneficio dalla chemioterapia in seguito all’intervento chirurgico.
Era POST-GENOMICA RNA non codificanti miRNA Sequenze regolative Epigenetica Proteine Organizzazione genica
miRNA • miRNA lin4 e let7 sono stati scoperti inizialmente nei nematodi • sono conservati dai vermi fino all’uomo • la loro funzione è il controllo della TRADUZIONE di specifici mRNA • funzionano come MODULATORI
Funzione dei miRNA • Controllo della proliferazione cellulare • Controllo dell’apoptosi • Differenziamento ematopoietico • Controllo dello sviluppo in piante ed animali • Controllo della identità cellulare delle cellule staminali