490 likes | 607 Views
Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression. Élodie Boulier Nhu Ha Vo Sharon Harel. Blanchette & al, 2006. Rappel sur la transcription et la traduction d’un gène. Croissance cellulaire.
E N D
Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression Élodie Boulier Nhu Ha Vo Sharon Harel Blanchette & al, 2006
Croissance cellulaire Régulation de l’expression des gènes Division Différentiation Adaptation à l’environnement
Expression des gènes • Régulée au niveau de la TRANSCRIPTION • Outils : Site de liaison des Facteurs de transcription (TFBS) • Acteurs : Facteurs de transcription (TF) Facteurs de transcription Activateurs Facteurs de transcription Répresseurs + - TRANSCRIPTION
Structure d’un gène (suite) PROMOTEUR
Structure d’un gène (suite) 1kb en amont du début de site de la transcription
Facteurs de transcription http://www.wellesley.edu/Chemistry/chem227/nucleicfunction/transcription/lac%20operon/06eukaryotes.jpg
Les Facteurs de Transcription (suite) Lient : • Des séquences dégénérées d’ ADN (5–15 pb) • Des motifs consensus
- Taille du génome Motifs courts dégénérés - Position-weighted matrices (PWM) ACGT ACGT ACGA ATGC TF1 Probabilité de retrouver une base à une position PWM + Sites de liaison de facteurs de transcription (TFBS) Régions de régulation
Algorithmes basés sur les séquences • Identification de motifs surreprésentés dans la séquence du promoteur • Nécessitant l’entrée de données : PWM de facteurs de transcription d’intérêts • Genome wide et de novo : prédit des région ayant un potentiel régulatoire
Modules cis-régulateur (CRM) CRM TF PROMOTEUR
Modules cis-régulateur (CRM) …suite TF2 TF4 TF3 TF5 (1à 5 TF) TF1 ADN TFBS CRM
Reconnaître de nouveaux modules Utilisation de caractéristiques de CRM connus : • Plusieurs sites de liaison pour peu de TF ≠ • Sites de liaisons plus conservés que les régions intergéniques • Les gènes régulés par un lot de TF commun a tendance à être co-exprimés
Fonction de l’algorithme Identifier les régions importantes de régulation d’expression de gènes Prédire quel facteur de transcription se lie à quelle région
Données Données provenant de Transfac 481 PWM (Position Weight Matrices) 229 familles TF (Transcription Factor) Données provenant de Alignement Multiz Alignement Humain – Souris – Rat 34 % du génome humain
Prédiction TFBS pour chaque espèce Trouver le hitScore pour chaque espèce Fenêtre de 100, 200, 500, 1000, 2000 bp Calcul: Pour chacun des 481 PWM (m) Pour chaque colonne (p) de la séquence Calcul hitScoreHum (m, p) Calcul hitScoreSouris (m, p) Calcul hitScoreRat (m, p)
Prédiction TFBS conservée Trouver le hitScore d’alignement conservée Calcul: hitScorealn (m, p) = hitScoreHum (m, p) + ½ max (0, hitScoreSouris (m, p) + hitScoreRat (m, p))
Sélection tags plus significatifs • Seul les hitScorealn (m, p) > 10 sont retenu pour construire les modules.
Total tags score TotalScore(m, p1…p2) = max {H ⊆ Hm telque H (Hit) nonchevauché} ∑ h € H hitScore(m, p)
P-Value • P-Value est assigné au TotalScore • P-Value dépend : • longueur de la région • contenu en GC de la région • fréquence et distribution en hitScore prédit pour cette matrice dans le génome
Module score • Choisir 1 à 5 TF (PWM) non chevauché donc le P-Value est le plus élevé • Calcul: moduleScore(p1…p2) = max{k = 1…5} – log (pValueMaxUnif(k, 481, Πi = 1…kpValue(totalScore(tagk, p1…p2))))
Résultats 118 402 Modules Couvrant 2.88% du génome humain 58 % des modules sont moins que 500 bp Longueur moyenne de 635 bp par module Moyen de 3.1 tags par Module
Résultats (suite) • Tag le plus sélectionné : E2F (5401 fois sur les 118 402 modules) • 2 sets de tags les plus sélectionnés • Facteur de transcription associé au promoteur (E2F, ZF5, TBP) • Facteur de transcription homeobox (famille NKX, famille POU, etc)
Comparaison « Regulatory potential »Kolbe et al. 2004 and King et al. (2005) • Prédiction de CRM • Applique au génome de l’humain ainsi que le blé • Permet identifier les séquences et les conservations entre espèces • Permet distinguer les ensembles de régions de régulation connu et régions non fonctionnel • Résultat : • Plus de 25 % des bases de pCRM est dans King et al. • 9 fois plus que prédiction aléatoire
Validation expérimentale des prédictionsde novo • Permet de définir la spécificité du prédicteur • Spécificité= Performance Définition: Efficacité à prédire une interaction réelle entre un TF et un pCRM, non recensé dans la littérature
ChIP on Chip MCF-7 ou T98G lignéecellulairecancéreuse, Sonication Immunoprécipitation de TF ER et E2F4 lié à l’ADN Isolerl’ADNenrichie et non enrichie Amplification et marquage de l’ADN Hybridationmatricecomportant ADN des pCRM
Spécificité de novo du prédicteur • 3% de validation des pCRM pour le TF ER • 17% de validation des pCRM pour le TF E2F4 • Sous-estimation de la spécificité
Facteurscontribuant à la faiblespécificité du prédicteur • 1 seule lignée cellulaire/TF • Lignée cellulaire cancéreuse
Facteurs contribuant à la faible spécificité du prédicteur 1 seule condition d’induction de la transcription
Facteurs contribuant à la faible spécificité du prédicteur Expérienceeffectuée pour un seul stage de développment: Adulte
Autre méthode d’évaluation de la spécifité • ER lie 55 modules • E2F4 lie 433 modules • Étude par un autre groupe: 57 modules lient ER et 14 avaient été prédit par Blanchette et al. 24 des 55 avaient été sélectionnés pour lier ER Donc 44% de spécificité 236 des 433 avaient été sélectionnés pour lier E2F4 Donc 54% de spécificité
Amélioration Possible • Cellules, Tissus, Conditions physiologiques • HAIRE
Distribution des pCRM sur le génome • Informations sur nouveaux gènes • Enhancers • Transcrits non-codants • TSS alternatifs • Définition du rôle de gènes peu caractériser
Figure 3. Distribution of pCRMs along a region of chromosome 11 Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668
Figure 4. Distribution of pCRMs relative to specific regions of genes Promoteur ou mode activation alternatif Enhancer ou transcrit antisense Région promotrice Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668
DNA-Looping [Adaptée de Freeman, Biological Sciences 2002]
Régulation par Transcrit antisense ARN codant ARN antisense Inhibition post-transcriptionnelle
Distribution des pCRMs pour un TF individuel Enrichissement ER à 10kb et plus Enrichissement E2F4 à l’intérieur de 1kb
Figure 5. Many TFs preferentially bind to specific regions relative to the TSS of their target genes
Autres observations • 2 modules rapproché : ↑ probabilité de contenir les TFBS pour les mêmes TF • La plupart des TF de longue portée présente une corrélation situés >10kb en amont des TSS • pCRM voisins contenant des TFBS pour des TF similaires sont situés dans des régions intergéniques ou introniques proches de gènes codant pour des TF
pCRMs tissus spécifique • 1 Famille TF gènes potentiellement régulé (1 pCRM 10kb en amont du TSS) • Corrélation (paire wise Pearson) entre les niveaux d’expression de ces gènes dans 79tissus humains • 27 familles présente une corrélation d’expression tissulaire
pCRM tissus spécifiques • paire TF = famille génes potentiellement régulés • Corrélation entre l’expression tissulaire et la co-liaison de la paire de TF • 595 paires de TF présentent une corrélation d’expression tissulaire. • EX: OCT1 caractérisé et exprimé dans le cerveau BACH1 est associé à OCT1, mais non caractérisé
Conclusion • Prédiction avec spécificité acceptable entre 24 et 54% • Sensibilité des prédictions de 34% (TransFac) • Grand potentiel de développement des connaissances sur la régulation génique • Découverte de nouveaux gènes codant et de fonctions biologiques • Élucidation du rôle de TF: expression tissulaire
Questions La base de données des pCRM est disponible sur le site genomequebec.mcgill.ca/PReMod