430 likes | 669 Views
ESPRESSIONE DEL GENOMA UMANO NELLE CELLULE DIFFERENZIATETutte le cellule di un organismo hanno lo stesso corredo genomico (~40000 geni)L'espressione genica tessuto specifica determina il fenotipo morfo-funzionale dei tipi cellulari e tissutaliIn ogni cellula differenziata ed in ogni particolare
E N D
2. ESPRESSIONE DEL GENOMA UMANO NELLE CELLULE DIFFERENZIATE
Tutte le cellule di un organismo hanno lo stesso corredo genomico (~40000 geni)
L’espressione genica tessuto specifica determina il fenotipo morfo-funzionale dei tipi cellulari e tissutali
In ogni cellula differenziata ed in ogni particolare momento dello sviluppo e’ attivo solo un sottoinsieme di geni REGOLAZIONE DELL’ESPRESSIONE GENICA
3. Restrizione spaziale e temporale dell’espressione genica
Geni housekeeping
Geni con espressione ristretta nello spazio
Espressione in piu’ organi/tessuti diversi
Stesso ruolo in piu’ tessuti
Il gene codifica per diverse isoforme (promotori alternativi e/o
splicing alternativo tessuto specifico)
Espressione specifica per tessuto, linea o tipo cellulare
Espressione solo in singole cellule
Distribuzione intracellulare o extracellulare
Geni con espressione ristretta nel tempo
Stadio di sviluppo
Stadio di differenziamento
Momento del ciclo cellulare
Espressione inducibile da parte di fattori ambientali o extracellulari REGOLAZIONE DELL’ESPRESSIONE GENICA
4. REGOLAZIONE DELL’ESPRESSIONE GENICA
5. REGOLAZIONE DELL’ESPRESSIONE GENICA
6. REGOLAZIONE DELL’ESPRESSIONE GENICA POL II PROMOTER ELEMENTS
TSS (vicino alla regione Initiator) + sito di legame per un GTF (spesso TBP)
CORE PROMOTER ELEMENTS
TATA box
Initiator
Downstream promoter element
TRANSCRIPTION FACTORS (TF) BINDING SITES
CAAT box
GC box
Sp-1 sites
GAGA boxes
ENHANCER(S) SITES
7. REGOLAZIONE DELL’ESPRESSIONE GENICA
8. Struttura schematica di un promotore per la Pol II
9. 4 possibili assetti di promotori core funzionali
10. caaaacggttgacaacatga agtaaacacggtacgatgtaccacat
aaagagtattgacttaaagt ctaacctataggatacttacagccat
tggcggtgttgacataaata ccactggcggtgatactgagcacatc
cgtgcgtgttgactatttta cctctggcggtgataatggttgcatg
tgccgaagttgagtattttt gctgtatttgtcataatgactcctgt
tctttttgatgcaattcgct ttgcttctgactataatagacagggt
cattaacgtttacaatttaa atatttgcttatacaatcatcctgtt
cgtcaggattgacaccctcc caattgtatgttttcatgcctccaaa
aattgttgttgttaacttgt ttattgcagcttataatggttacaaa
atgagctgttgacaattaat catcgaactagttaactagtacgcaa
tgttgacaattt t t t tg tataatg c t
Due regioni in cui la sequenza e’ conservata: -10 - 35 dallo start site (motivi TTGACA e TATAAT)
IL TFIID e’ un complesso della TATA box binding protein (TBP) e di altre proteine chiamate TATA binding protein associated factors, o TAFs.
L’inizio della transcrizione puo’ essere studiato in vitro (DNA + proteine purificate). L’inizio della trascrizione da promotori TATA-containing non richiede necessariamente TAFs.
TAFs stimulate initiation from TATA-containing promoters that also have Inr's.
TAFs are required for initiation from TATA-less promoters. Sequenze nucleotidiche al 5’ del sito d’inizio della trascrizione di geni di E.coli trascritti attraverso il fattore housekeeping sigma70 della RNA polimerasi
11.
I motivi TTGACA and TATAAT sono i segnali che vengono riconosciuti dalla subunita’ sigma70 della polimerasi.
La “forza” relativa di un promotore e’ proporzionale alla sua similarita’ ad una specifica sequenza consenso.
Mutazioni nelle regioni -10 and –35 alterano la “forza” del promotore.
Esperimenti tipo footprinting o methylation interference confermano la loro attivita’. CONSENSUS SEQUENCE APPROACH TO THE IDENTIFICATION OF GENETIC SIGNALS
12. GENETIC SIGNALS
dobefmolecdaiularsqueihgensvweticskiprovsvillmmdescheplemolasusyretpb
Gli ELEMENTI SEGNALE generalmente agiscono solo sulle molecole di DNA di cui fanno parte ("cis-acting elements“)
Questi elementi segnale vengono “accesi” o “spenti” attraverso l’interazione con fattori di trascrizione
I fattori di trascrizione sono PROTEINE. In generale, sono proteine in grado di diffondere nelle cellule e in grado di interagire con elementi bersaglio che possono trovarsi in una qualsiasi molecola di DNA (“trans-acting factors”)
dobefmolecdaiularsqueihgensvweticskiprovsvillmmdescheplemolasusyretpb
molec ular gen etics pro vi des ple asu re
13. ESEMPIO DI FATTORE DI TRASCRIZIONE
14. muscle-type creatine kinase (-1091 –1062)
... ggaggagaagctcgctCTAAAAATAAccct ...
alpha-myosin heavy chain (-340 -313)
... cagaTTAAAAATAActaa ...
myogenin (-131 –15)
... gcagccggacaagttttgatgcgaggcagcagcttagggtgggct
aggtttcctttaggttttctatatttatctctgtgatttaatgccagcgccgg
ggtttaaatggcaccgag ...
...
Evidenze:
DNase I footprinting, direct gel shift, supershift (antibody binding) e methylation protection DATI NOTI: SEQUENZE REGOLATIVE IN GRADO DI LEGARE MEF-2 UPSTREAM AD ALCUNI GENI REGOLATI DA MEF-2
15. POS. A C G T
01 5 28 25 42 N
02 16 32 31 21 N
03 18 36 27 19 N
04 19 25 33 23 N
05 22 12 43 23 N
06 33 9 21 37 N
07 20 4 43 33 K (G o T, Keto)
08 3 85 3 9 C
09 3 8 0 89 T
10 85 0 0 15 A
11 57 0 0 41 W (A O T, Weak)
12 91 0 1 8 A
13 96 0 0 4 A
14 93 0 1 6 A
15 0 0 0 100 T
16 100 0 0 0 A
17 9 0 90 1 G
18 34 46 11 9 M (A o C, Amino)
19 36 28 8 28 N
20 20 37 15 28 N
21 30 34 13 23 N
22 23 23 22 32 N MATRICE DI MEF-2
16. SEQUENZE UPSTREAM
ALLINEAMENTO LOCALE
ANALISI DELL’ALLINEAMENTO
PATTERN DISCOVERY
MOTIVO METODO
17. TRANSFAC
18. TRANSFAC
21. MODELLO DI ORGANIZZAZIONE DI UN PROMOTORE COMPLESSO RANTES/CCL5 - chemokine – inflammation Promoter characterized
22. Sono disponibili le sequenze di molti genomi interi
Per diversi organismi procariotici ed eucariotici virtualmente tutti i geni sono noti o predetti
Informazioni funzionali ancora parziali:
regolazione espressione genica
funzione proteine
L’analisi di singoli promotori con i metodi tradizionali e’ molto lenta e dispendiosa, non “scaled up” alla quantita’ di dati disponibili
Applicazione di metodi di “PATTERN DISCOVERY” allo studio di sequenze regolative PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
23. Perche’ si possono applicare metodi di “PATTERN DISCOVERY” allo studio di sequenze regolative di geni ?
E’ verosimile che:
gruppi di geni espressi in modo simile (nel tempo, nello spazio) co-regolati ovvero che siano controllati da sottogruppi simili di fattori di trascrizione
condividano almeno parte degli elementi regolativi cis-acting, cioe’ i segnali nelle sequenze promotoriali
Pattern discovery ? scoprire sottostringhe comuni tra piu’ stringhe (es. Sequenze di DNA)
Problemi:
I “segnali genetici” non sono pattern esatti ma approssimati
Possono esserci o non esserci nelle sequenze analizzate PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
24. PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI PATTERN MATCHING/RECOGNITION
vs
PATTERN DISCOVERY
PATTERN MATCHING ? trovare TUTTE le volte in cui uno specifico PATTERN esatto si presenta (occurences) in una stringa o in un insieme di stringhe (sequenze di DNA o aminoacidi)
Es.: trovare il PATTERN “HHKHKK” in
AMVOIBGJFDHHKHKKUUUPFIRJRNTMDHHKHKKHJHKKSAAW
PATTERN RECOGNITION ? riconoscere le occurences approssimate di uno specifico PATTERN in una una stringa o in un insieme di stringhe
Es.: trovare il PATTERN “HH*HKK” in
AMVOIBGJFDHHKHKKUUUPFIRJRNTMDHHAHKKHJHKKSAAW
25. PATTERN MATCHING/RECOGNITION
vs
PATTERN DISCOVERY
PATTERN DISCOVERY ? identificare PATTERN SIGNIFICATIVI in una stringa o in un insieme di stringhe senza conoscerli a priori
Es.: trovare i PATTERN SIGNIFICATIVI in
ATTCAGTCTTGTGCTTTTAGTCTCTTAGCTAGTCTCTAATTTAGACAGTCTA
Uno puo’ essere: AGTCT, infatti:
ATTCAGTCTTGTGCTTTTAGTCTCTTAGCTAGTCTCTAATTTAGACAGTCTA PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
26. Approaches to pattern recognition
27. Approaches to pattern recognition
30. Pattern driven:
Enumerazione di tutti (o alcuni) dei possibili patterns fino a una certa lunghezza, per ciascun pattern si calcola un punteggio basato sulla frequenza e si scelgono i punteggi piu’ alti
Non fattibile per pattern anche di dimensione modesta
Sequence driven:
? Ricerca dei pattern basata sull’allineamento delle sequenze Approaches to pattern discovery
31. I metodi "pattern driven" cercano in una sequenza specifiche classi di pattern e valutano la loro frequenza di apparizione.
Il numero di pattern possibili aumenta esponenzialmente con la lunghezza dell'input. Per pattern esatti, ad esempio, e' quadratico.
L'utilizzo di una struttura di dati ad albero dei suffissi migliora l'efficienza del metodo e permette di trovare tutte le sequenze piu' (o meno) rappresentate dell'atteso in tempo lineare con la dimensione dell'input Algoritmi pattern driven
32. Algoritmi pattern driven
33. Per calcolare quanto un fenomeno sia sorprendente ci si riferisce a quello che ci si aspetta, sotto un’ipotesi probabilistica. La frequenza attesa di una sottostringa dipende dalla composizione della stringa.
se %G=%C=%A=%T=25%
posso immaginare una sorgente casuale che crea delle stringhe in modo che la probabilita’ di osservare un certo nucleotide in una certa posizione e’ indipendente dalla sequenza precedentemente generata
(Modello di Bernoulli)
A
ATGCTGT T sempre 25%
G
C
Approccio enumerativo:
? enumerare tutti i possibili pattern di una certa lunghezza contenuti in una stringa
? calcolare la significativita’ statistica di ciascuno
? prendere in considerazione i pattern piu’ significativi
Pero’ esistono 410 (1,048,574) possibili pattern lunghi 10 in un alfabeto di 4 nucleotidi
36. Algoritmi sequence driven
37. LAVORO “SPERIMENTALE”
ANALISI BIOINFORMATICA E COMPUTAZIONALE DELLE SEQUENZE DI DNA A MONTE DI GENI DIFFERENZIALMENTE ESPRESSI NELLA RETINA
38. LAVORO “SPERIMENTALE”
ANALISI BIOINFORMATICA E COMPUTAZIONALE DELLE SEQUENZE DI DNA A MONTE DI GENI DIFFERENZIALMENTE ESPRESSI NELLA RETINA
DATI: SEQUENZE DI DNA A MONTE DI GENI RETINA-SPECIFICI
>NM_000539.2 rhodopsin (opsin 2, rod pigment)(RHO)chr3:147548167-147549166 exons in upper case
CCTTCAGACTGGAGTCCCCTGAAGGGTTCTGCCCCTCCCCTGCTCTGGTAGCCCCCTCCATCCTCCCTCCCTCCACTCCATCTTTGGGGGCATTTGAGTCACCTTTCTACACCAGTGATCTGCCCAAGCCACTGCTCACTTTCCTCTGGATAAAGCCAGGTTCCCCGGCCTAGCGTTCAAGACCCATTACAACTGCCCCCAGCCCAGATCTTCCCCACCTAGCCACCTGGCAAACTGCTCCTTCTCTCAAAGGCCCAAACATGGCCTCCCAGACTGCAACCCCCAGGCAGTCAGGCCCTGTCTCCACAACCTCACAGCCACCCTGGACGGAATCTGCTTCTTCCCACATTTGAGTCCTCCTCAGCCCCTGAGCTCCTCTGGGCAGGGCTGTTTCTTTCCATCTTTGTATTCCCAGGGGCCTGCAAATAAATGTTTAATGAACGAACAAGAGAGTGAATTCCAATTCCATGCAACAAGGATTGGGCTCCTGGGCCCTAGGCTATGTGTCTGGCACCAGAAACGGAAGCTGCAGGTTGCAGCCCCTGCCCTCATGGAGCTCCTCCTGTCAGAGGAGTGTGGGGACTGGATGACTCCAGAGGTAACTTGTGGGGGAACGAACAGGTAAGGGGCTGTGTGACGAGATGAGAGACTGGGAGAATAAACCAGAAAGTCTCTAGCTGTCCAGAGGACATAGCACAGAGGCCCATGGTCCCTATTTCAAACCCAGGCCACCAGACTGAGCTGGGACCTTGGGACAGACAAGTCATGCAGAAGTTAGGGGACCTTCTCCTCCCTTTTCCTGGATCCTGAGTACCTCTCCTCCCTGACCTCAGGCTTCCTCCTAGTGTCACCTTGGCCCCTCTTAGAAGCCAATTAGGCCCTCAGTTTCTGCAGCGGGGATTAATATGATTATGAACACCCCCAATCTCCCAGATGCTGATTCAGCCAGGAGCTTAGGAGGGGGAGGTCACTTTATAAGGGTCTGGGGGGGTCAGAACCC
>NM_000172.1 guanine nucleotide binding protein (G protein), alpha transducing activity polypeptide 1 (GNAT1)chr3:55664892-55665891
AAAAAAAAAAAAAAAAAAGGCCAGGCACGGTGGCTCATGCCTGTAATCCCAGCACTTTGGGAGGCCGAGGCGGGCAGATCACGAGGTCAGGAGACTGAGACCATCCTGGCTAACACGGTGAAACCCTGTCTTTACTAAAATACAAAAAAAGTAGCCCGACGTAGTGGCGGGCACCTGTTGTCCCAGCTACTCAGGAGGCTGAGGCAGGAGAATGGCGTGAACCTGGGAGGTGGAGCTTGCAGTGAGCTGAGATTGCGCCACTGCACTCCAGCCTGAGCAACAGAGCGAGACTCCATCTCAGAAAAAAAAAAAAAAAAGACACATACACCGAGGCACACAGAGCAGATATGCATGCCCACCACAGTCCGCTGGAAGCAGAGGACCTCCTTGGGGCAGCTCCAGCCTGTGATATGGGATGAATGCAATGCCCACTGTTTCCCTCTCTCTGGATTCCCTGCAGGTCATAAAATCCCAGTCCAGAGTCACCAGCCCTTCTTAACCACTTCCTACTGTGTGACCCTTTCAGCCTTTACTTCCTCATCAGTAAAATGAGGCTGATGATATGGGCATCCATACTCCAGGGCCAGTGTGAGCTTACAACAAGATAAGGAGTGGTGCTGAGCCTGGTGCCGGGCAGGCAGCAGGCATGTTTCTCCCAATTATGCCCTCTCACTGCCAGCCCCACCTCCATTGTCCTCACCCCCAGGGCTCAAGGTTCTGCCTTCCCCTTTCTCAGCCCTGACCCTACTGAACATGTCTCCCCACTCCCAGGCAGTGCCAGGGCCTCTCCTGGAGGGTTGCGGGGACAGAAGGACAGCCGGAGTGCAGAGTCAGCGGTTGAGGGATTGGGGCTATGCCAGCCCGATTAGAAGGGTTGGGGGGGCTGAGCTGGATTCACCTGTCCTTGTCTCTGATTGGCTCTTGGACACCCCTAGCCCCCAAATCCCACTAAGCAGCCCCACCAGGGATTGCACAGGTCCGTAGAGAGCCAGTTGATTGC
>NM_021200.1 PH domain containing protein in retina 1 (PHRET1) chr11:78311616-78312615
CACAAAGAAATGTAAAAGTTACTTGTTGGCTTATTAGTCTCAATAAGTTTTAGTTGATTGAACAAACAAAGTCTCTCACAGCCAGGACTGCTGCGGCTGGAATTCCTGACATACTGTCATACCTCTCACTCGTCAATCTACACTCTCCTCCCATCTACACAGCTCTGGAAATTAAAAACAATCCAACCATGACTATCATGGCTTCAGAGGTCTATGAACTCCCAGGAATTATACGCAGATTTTTTCCTGAGGACAGTCTACACTTCCTTATTGGCTTCTCAAAGAGGGTCACTGACCAGCTTTTAGAGACATGGGCCAAGTCCGGCTACGTTTAGATTCGGTAGTAGTGTCTGTGGTTTTAGTTTGCCACGTCCTTTCCTCTTTTTTTCGTCATAGTGCCCGCTCTTTGGGAGGTAGGGGAGAGTCTTCCCCTGAAGTCTCCACTGCTGCTGGAGAACCTTCCTTTTTCATCTGGTTGCTAAATCCAGAGAATGAAATCTAGGAGATGATTGCACCGTCCCCGCCCCTCAACATGAAGGATGCCCCACTGCCCATCGGGGAGGGGAGCAGGGAGAGCTGGAGAGAGGCTGGGTCGGGGCAGGACCCAGGCGCAGATCCTCCGAGGCCAGCTGCAGCCCTACCTACCTGCCTTCCCCTCTTTCCCCTCCCTTCTTTTCTCCTTCTGTCTTTCCTTCCTTCCATATCTCTTTCCTTGCCTCTTTCCCCCTCCCACTGCTTCCTTTCTTCCTTCCACTGTGGAGGTGGAAAATTTAGCTAGGAGAAGCTGGGACTGGGACGTTCCAGGAACCAGACAGAGAGTGAGTTAAAGGCACAGAGATGAAAACGCGGTTTGGGAGAGCTGGTTCTTGAGTCGGCTAAGAGGGGATGAACTCAATGGTTAATAGGATTGGCCATGGCGAATCCCTCAGCAGGGCACGCACCGCACAAAGGGCCGAAGCGCGAGGGTAGCTCGAGGTCAGGATTACAGAGACTCAGGAGC