“System Biology”: un nuovo paradigma per la biologia molecolare.

“System Biology”: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN

Idee guida • “System Biology”, Biologia computazionale e Bioinformatica • Breve ripasso di Biologia Molecolare • Le innovazioni degli ultimi anni: Genomica, Trascrittomica, Proteomica • Esempi di applicazioni • La regolazione genica • L’evoluzione Indice

Le idee guida: System biology e Biologia computazionale

Coi termini “Biologia Computazionale” o “Bioinformatica” • si intende tutto ciò che riguarda l’analisi di dati biologici • con metodi provenienti dalla • matematica / fisica / statistica / computer-science • I dati biologici (sia sequenze che annotazioni) • sono raccolti in enormi banche dati “open access”. • Tra questi dati e’ nascosta molta piu’ informazione • di quanto non sia già stato pubblicato. • Esiste la possibilità di ottenere risultati anche molto importanti • senza che si debba fare un singolo esperimento, semplicemente • rileggendo in modo originale risultati sperimentali esistenti. La biologia computazionale

System Biology • Tre strumenti fondamentali • Teoria delle reti: E’ sbagliato pensare alle funzioni in termini di singolo gene o singola proteina. Le funzioni complesse coinvolgono sempre molti geni in interazione tra loro. • Modelli: Queste reti possono però essere scomposte in circuiti elementari (“network motifs”) che possono essere descritti in modo quantitativo usando equazioni differenziali o stocastiche • Ontologie: E’ pero’ indispensabile cercare di standardizzare e quantificare le informazioni di tipo medico o biologico. • Le ontologie sono il tentativo di miglior successo in questa direzione

La genomica moderna: networks • Le proteine (geni) dentro una cellula formano un network. • La risposta di una cellula ad un certo stimolo è una risposta “globale”, non di singole unità separate. H.Jeong et al. Nature, 411 (2001) 41

Network motifs Esempio: SIM (Single Input Module) (a) realizzazione sperimentale: la biosintesi dell’arginina b) Soluzione del circuito: al variare di X (regolatore) i geni vengono attivati in tempi diversi a seconda della loro soglia di attivazione. R.Milo et al. Science 298 (2002) 824

La genomica moderna:Gene Ontology • Gene Ontology è un modello per l’unificazione di dati biologici. • Lo scopo di GO è di costruire un vocabolario controllato per la descrizione di: • - Molecular function • - Biological process • - Cellular component • di un certo gene. • I vocabolari sono organizzati in un network gerarchico. The G.O. Consortium Nature Genet. 25 (2000) 25

La Biologia Molecolare “Classica”

Ogni organismo vivente è composto da una o più cellule. Ogni cellula può essere vista come una macchina complessa che esegue delle istruzioni scritte e memorizzate nel proprio genoma. La cellula

Il genoma di un qualunque organismo è costituito da una lunghissima molecola di DNA. Il DNA

Una molecola di DNA è formata da quattro tipi diversi di nucleotidi (A, C, G o T), legati tra di loro con legami covalenti a formare una lunga catena orientata. In ogni molecola di DNA, sono presenti due catene appaiate, tenute assieme da legami idrogeno Il DNA

Le proteine: le macchine del nostro organismo • La maggior parte delle funzioni del nostro organismo sono eseguite da proteine. Le proteine sono macromolecole formate da catene di amminoacidi.

Dogma centrale della biologia molecolare L’informazione dentro la cellula

Sintesi delle proteine

Il passaggio dall’alfabeto con cui è scritto il DNA all’alfabeto con cui sono scritte le proteine avviene tramite il codice genetico. Il codice genetico

Alla fine degli anni ’90  nasce “era genomica” Le novita’ degli ultimi 10 anni La biologia diventa sempre più quantitativa: • sequenziamento dei genomi di interi organismi • microarray • dati proteomici • Gene Ontology

Perche’ si parla di una nuova “era” ? Perchè siamo in presenza di una vera e propria rivoluzione tecnologica : - diminuzione dei costi di sequenziamento, - introduzione di tecnologie high-throughput • Aumento della scala tipica degli esperimenti (e del numero di persone coinvolte).

Nuove domande, nuove idee - Perché i geni sono così pochi? • A cosa serve il DNA non codificante? • Quanto siamo diversi dalle scimmie? • Il “dogma centrale” e’ falso: a un gene corrispondono molte proteine (splicing alternativo) • L’informazione genetica puo’ andare dal DNA all’RNA (Retrotrasposoni)

> homo_sapiens ACTTTTTTACCCTCGTGTGTTGCAGACTTTTTGCCACTTTTAAAACGCTGACAATTCGACCCTTTCCAAGTGCAAAAAGTGCCAAGATTTACGATAAAATTCCCCCGAGAGACGTGTGCA……… • Automatizzazione dei processi di sequenziamento del DNA • Sequenziamento sistematico di molti organismi. Nascita delle banche dati genomiche La genomica moderna: sequenze

Procarioti: Mycoplasma Genitalium 0,58 Escherichia Coli 4,64 Eucarioti: Saccaromices cerevisiae 12 Arabidopsis thaliana 100 Drosophila Melanogaster 140 Caenorabditis Elegans 100 Homo Sapiens 3000 Dimensioni dei genomi (Mb)

Struttura del Genoma • La densita’ di sequenze codificanti proteine (o RNA) diventa sempre piu’ bassa man mano che aumenta la complessita’ dell’organismo. E’ molto alta nei Procarioti, media nel lievito, bassissima nell’uomo. La maggior parte del genoma umano ( 99%) non e’ codificante ! • Questo DNA non codificante e’ (probabilmente) coinvolto nella regolazione dell’espressione genica.

Struttura dei Geni Un tipico gene umano ha una struttura interna molto complessa: e’ composto da un set di sequenze codificanti (dette esoni) separate da sequenze non codificanti (dette introni). Gli esoni possono essere combinati in molti modi diversi a formare proteine diverse (splicing alternativo)

Il Genoma umano

Ensembl Genome Browser

Zoom !

In un esperimento di microarray si misura il livello di espressione (mRNA) di migliaia di geni contemporaneamente La trascrittomica: microarray gene log2(ratio) timepoints

La proteomica: • Studio sistematico della struttura 3D delle proteine mediante X-ray spectroscopy • Studio sistematico delle interazioni tra proteine g2(ratio) ts

Due esempi di ricerca • Il problema della regolazione genica • Verifiche dei modelli evolutivi

Esempio: Regolazione genica

Sequenza del genoma umano (2001 draft, 2004 finished) • 3.2 x 109 bp di DNA • ~ 3 % codifica per proteine: • i “mattoni elementari” • ~ 97 % non codifica: • è il “libretto di istruzioni” ~ 25000 “geni”:proteine Il problema della regolazionegenica Contiene le sequenze che regolano l’espressione dei geni in proteine

La maggioranza dei geni specifica uno o più proteine: “espressi”. • L’espressione dei geni coinvolge un intermediario dettomessaggero or mRNA. • Il processo di espressione inizia con una fase detta “trascrizione” che è accuratamente controllata in ogni tipo cellulare. Il problema della regolazionegenica Regolazione trascrizionale

Negli eucarioti superiori (es: uomo) l’evento di trascrizione è molto complesso Il problema della regolazionegenica

Negli eucarioti superiori la risposta trascrizionale è organizzata • in un network. Il problema della regolazionegenica

Regolazione trascrizionale: • fattori di trascrizione (TF) si accoppiano a particolari DNA motifs (TFBS) localizzati upstream del gene regolato. Il problema della regolazionegenica RNA polymerase II TF EXON 1 INTRON EXON 2 TRASCRITTO PRIMARIO TSS 5’ UPSTREAM 3’ DOWNSTREAM TFBSs

Obiettivo: identificare, a partire dalla sola sequenza genomica, dei candidati TFBS ovvero identificare il “vocabolario” di DNA motifs che regolano l’espressione dei geni. Dove è nascosta l’informazione? • TFBS sono di solito corti (5-20 bp di DNA). • TFBS sono di solito variabili. • TFBS sono di solito dispersi su lunghe distanze( ≥ 15000 bp nel caso umano ). • TFBS sono di solito attivi in entrambe le orientazioni. Il rapporo segnale / rumore è molto basso !

Alla fine si ottiene un“dizionario” di putative TFBSs. Risultati

Il problema della verificadei modelli evolutivi

Il problema della verificadei modelli evolutivi La verifica di modelli evolutivi può essere eseguita con opportuni algoritmi di allineamento di sequenze.

Il problema della verificadei modelli evolutivi Il 96% del genoma umano è uguale nello scimpanzè.

Obiettivo: identificare, a partire dalla sola sequenza genomica, i segnali dell’evoluzione dei geni nel tempo e tra i vari organismi e riconoscere i geni “ortologhi”. Usare la conservazione filogenetica per selezionare le regioni funzionalmente importanti del genoma Evoluzione e regolazione Nel genoma umano ci sono sequenze “ultraconservate” che sono state protette dai cambiamenti evolutivi per milioni di anni. In alcuni casi queste sequenze NON sono codificanti. Molto probabilmente hanno un ruolo nella regolazione della espressione genica.

Mutazioni (SNPs) nel gene FOXP2 causano severe alterazioni nel linguaggio parlato. FOXP2 !!

Un esempio più sofisticato:Circuiti di regolazione misti conservati tra topo e uomo

TranscriptionFactors (TFs): proteins binding to specific recognition motifs(TFBSs) usually short (5-10 bp) and located upstream of the coding region of the regulated gene. MicroRNAs (miRNAs)are a family of small RNAs (typically 21 - 25nucleotide long) that negatively regulate gene expression at the posttranscriptional level, (usually) thanks to the “seed” region in 3’-UTR regions. Transcription Factors and miRNAs Wassermann, Nat. Rev. Genetics

TF miR Joint Target Several methods exist to study, separately TF-related and microRNA-related regulatory networks, but comparable information is lacking to explicitly connect them. The main goal of our project was to infer and then combine the two networks looking in particular for Mixed Feed-Forward Regulatory Loops --> a network motif in which a master Transcription Factor (TF) regulates a miRNA and together with it a set of Joint Target coding genes. Our Project Hornstein E, Shomron N, Nat Genet 38 Suppl:S20–4 (2006).

HumanTranscriptional Network --> Fixing 0.1 as FDR level, we obtained a catalogue of 2031 oligos that can be associated to known TFBSs for a total of 115 different TFs. --> target a total of 21159 genes (20972 protein-coding and 187 miRNAs) HumanPost-Transcriptional Network--> Fixing 0.1 as FDR level, we obtained a catalogue of 3989 oligos (7-mers). 182 of them turned out to match with at least one seed present in 140 mature miRNAs. --> target a total of 17266 genes Human mixed FFLs catalogue--> We were able to obtain a list of 5030 different “single target circuits”, corresponding to 638 “mergedcircuits”. --> involving a total of 2625 joint target genes (JTs), 101 TFs and 133 miRNAs. # of JTs ranged from 1 to 38. Results TF miR JT 1 JT 2 JT …

Functional role of mixed FFLs Depending on the type of transcriptional regulation (excitatory or inhibitory) exerted by the master TF on the miRNA and on the targets, FFLs may be classified as • incoherent (“type I” FFLs), or • coherent (“type II” FFLs).

Possible biological role for mixed TF/miRNA network motifs: TF TF Type I and II FFLs miR miR Joint Target Joint Target TF TF miR miR Joint Target Joint Target type I circuits type II circuits

Main role: noise dumping Type I (incoherent) can stabilize the steady state production of a protein by dumping translational and transcriptional fluctuations. In a simple TF-target interaction any fluctuation of master TF could induce a non-linear increase in the amount of its target products. The presence, among the targets, of a miRNA which downregulates the other targets might represent a simple and effective way to control these fluctuations.

The only way to address this issue is to describe the FFLs in terms of stochastic equations and to compare the results with those obtained with that of a standard transcription +translation process Study of protein fluctuations via stochastic equations In both cases fluctuations are proportional to the mean number of proteins produced by a single mRNA. This number is a function of the miRNA-mRNA affinity.

“System Biology”: un nuovo paradigma per la biologia molecolare.