770 likes | 1.01k Views
Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes. Bernard Jacq, M2 BBSG 2008 Module GF. Plan du cours (1ère partie) Rappels biologiques. Introduction Les éléments cis-régulateurs (ADN) Les éléments trans-régulateurs (protéines)
E N D
Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes Bernard Jacq, M2 BBSG 2008 Module GF
Plan du cours (1ère partie)Rappels biologiques • Introduction • Les éléments cis-régulateurs (ADN) • Les éléments trans-régulateurs (protéines) • Régions régulatrices et régulation in vivo
LE CONTROLE DE L’INFORMATION GENETIQUE EUCARYOTE TRANSCRIPTION TRADUCTION ADN ARN PROTEINE
Quelques généralités sur la régulation de la transcription eucaryote (1/2) • La variabilité d’expression des gènes eucaryotes résulte d’interactions entre des régions particulières des gènes et des combinaisons de facteurs protéiques spécifiques • Ces régions d ’ADN sont d’une part les promoteurs (éléments génériques) et d’autres part différents types de régions appelées éléments cis-régulateurs (spécifiques) • Le promoteur est défini comme la région d’ADN immédiatement en amont du site d’initiation de la transcription, au niveau de laquelle s’assemble le complexe d’initiation de la transcription (polymérase, cofacteurs)
Quelques généralités sur la régulation de la transcription eucaryote (2/2) • Il y a différentes classes d’éléments cis-régulateurs: • enhanceurs • silenceurs • insulateurs • sites d’attachement à la matrice chromosomique • l’ensemble des éléments cis-régulateurs d’un gène a généralement une organisation modulaire: différents sous-éléments cis-régulateurs sont chacun responsables d’une partie du patron d’expression global du gène • les différents modules interagissent avec le même promoteur et la machinerie de transcription qui y est fixée
LE CONTROLE COMPLEXE DE L’ACTIVITE D’UN GENE PAR PLUSIEURS INTERACTIONS PROTEINE-ADN
Plan du cours (1ère partie) • Introduction • Les éléments cis-régulateurs (ADN) • Les éléments trans-régulateurs (protéines) • Régions régulatrices et régulation in vivo
Les Promoteurs eucaryotes • Ils sont consistués d’un groupe de motifs d’ADN regroupés en une 100aine de pb en 5’ du site d’initiation • TATA Box • • INR Box • DPE Box
Promoteur La TATA box est reconnue par la TBP (TATA binding Protein). L’ INR (initiator) et le DPE (downstream promoter element) sont reconnus par des TAFs (facteurs de transcription)
Une façon de présenter des séquences consensus: Les « sequence logos »
Les Enhanceurs • • Aussi appelées Upstream Activation Sequences (UAS) • • Séquences qui assistent le promoteur dans l’initiation • • Peuvent être situées en amont ou en aval du promoteur (et même du gène) • • Peuvent être actives dans l’une ou l’autre orientation • • Sont reconnues par des facteurs de transcription spécifiques
Plan du cours (1ère partie) • Introduction • Les éléments cis-régulateurs (ADN) • Les éléments trans-régulateurs (protéines) • Régions régulatrices et régulation in vivo
Les Protéines régulatrices de la transcription chez les eucaryotes • Les éléments cis-régulateurs de la transcription sont reconnus par un grand nombre de facteurs protéiques : • certains sont ubiquitaires : polymérase sur promoteur et FT généraux • la majorité sont spécifiques : facteurs de transcription sur les enhanceurs • Il existe plusieurs centaines de facteurs de transcription différents chez chaque organisme eucaryote, regroupés en quelques dizaines de familles structurales
Les principales famillesde protéines régulatrices • Protéines à motifs HTH • Protéines à doigts à zinc • Protéines Leucine zipper
Les principales famillesde protéines régulatrices • Protéines à motifs HTH • Protéines à doigts à zinc • Protéines Leucine zipper
Plan du cours (1ère partie) • Introduction • Les éléments cis-régulateurs (ADN) • Les éléments trans-régulateurs (protéines) • Modules cis-régulateurs et régulation in vivo
Modules régulateurs • Des gènes exprimés dans des contextes spatio-temporaux spécifiques possèdent souvent des MCR (modules cis-régulateurs) spécifiques : séquence régulatrice possédant un nombre significativement élevé de sites de fixation pour des facteurs de transcription tissu-spécifiques.
Beaucoup de genes eucaryotes sont controlés par des combinaisons d’activateurs et de répresseurs
Quelques exemples d’éléments cis-régulateurs chez la Drosophile repression site cluster stripe 2 stripes 3 + 7 blastoderm + mesoderm at GBE ps 6,8,10,12 stripes ftz zebra element eve stripes 2 & 3+7 elements rho lateral neurectoderm stripe element kni posterior element Ubx PBX element
Plan du cours (2ème partie)Bioinformatique • Motifs de fixation à l’ADN • Recherche de sites • Découverte de sites • Recherche de sites à l ’échelle génomique
Les problèmes spécifiques liés à la recherche de motifs d’interaction dans l’ADN • Les motifs sont courts (6 à 20 pb) • Ils utilisent un alphabet limité (A,C,G,T) • Ils peuvent présenter une variabilité de séquence importante (sont dégénérés) • Ils possèdent un faible contenu d’information (8 à 12 bits, soit un site tous les 250-4000pb) • L’affinité de différents sites pour une même protéine peut varier de 3 ordres de magnitude • La fonction régulatrice dépend souvent d ’interactions coopératives avec des sites voisins • Ces sites sont trouvés dans les régions non-codantes • Celles-ci représentent: • - 11% du génome d’E. coli • - 25% du génome de la levure • - 97% du génome humain
L’analyse bioinformatique de régions • cis-régulatrices • 2 situations différentes • 1) Recherche de motifs connus dans une ou plusieurs séquences • - Expressions régulières • - Matrices consensus • 2) Découverte de motifs : Un groupe de séquences régulatrices doit contenir des motifs identiques ou similaires pour un ou plusieurs facteurs de transcription, mais ces motifs sont inconnus
Plan du cours (2ème partie) • Motifs de fixation à l’ADN • Recherche de sites • Découverte de sites • Recherche de sites à l ’échelle génomique
AAAAGAGTCA AAATGACTCA AAGTGAGTCA AAAAGAGTCA GGATGAGTCA AAATGAGTCA GAATGAGTCA AAAAGAGTCA 1 2 2 4 5 6 7 8 9 10 A 6 7 7 3 0 8 0 0 0 8 T 0 0 0 5 0 0 0 8 0 0 G 2 1 1 0 8 0 7 0 0 0 C 0 0 0 0 0 0 1 0 8 0 Différentes représentations d'un motif -> recherche dans de nouvelles séquences YYYWGASTCA Collectionde sites-> recherche d'expressions régulières (avec/sans substitution/délétion/insertion) Séquence consensus(utilisation du code IUPAC) -> recherche d'une expression régulière Matrice de fréquence+ "scoring scheme" + seuil -> application lors du parcours de séquence Sequence logo Représentation du contenu informationnel (en bits)
Passage d ’une matrice de fréquence à une matrice de poids-position
fb,i seq(i) = fb,ilog2 pb b Sites régulateurs: matrices pondérées Site reconnu par le facteur Pho4p de la levure (Source : TRANSFAC) Valeur entre0 et 2 (bits) Fréquence observée de chaque base à la position i Position Fréquence génomique de la base b Crédit: Denis Thieffry
Recherche d'un motif avec une matrice pondérée • La séquence est parcourue avec la matrice, et un score est calculé pour chaque position • Le plus haut score reflète la plus grande probabilité d'avoir un site fonctionel • Comment définir un seuil significatif ?
Evaluation des outils de recherche de sites • Constitution de collections de séquences contrôles: • + contenant des sites caractérisés • - ne contenant assurément pas de sites • - séquences "aléatoires" • - séquences "brouillées" • Différentes situations: • Site correctement reconnu = "vrai positif" • Prédiction abusive = "faux positif" • Site manqué = "faux négatif" • Absence de site correctement prédite = "vrai négatif" Crédit: Denis Thieffry
Compromis lors de la recherche de sites entre: • Grande sélectivité faible sensibilité-> grande confiance dans les sites prédits mais beaucoup de sites réels sont manqués • Faible sélectivité grande sensibilité-> les sites réels sont noyés dans une mer defaux positifs => Double évaluation: • Sélectivité = Nbre vrais positifs/ Nbre total hits • Sensibilité = Nbre vrais positifs/ Nbre total sites Total sites = vrais positifs + faux négatifs Total "hits" = vrais positifs + faux positifs Crédit: Denis Thieffry
VRAIS NEGATIFS ENSEMBLE DE SEQUENCES FAUX POSITIFS PROMOTEURS VRAIS VRAIS POSITIFS PROMO TEURS TROU VES FAUX NEGATIFS EVALUATION DES PERFORMANCES PROMOTEURS CORRECTE- MENT PREDITS COMMENT EVALUER LES PERFORMANCES DE LA METHODE ? TAUX DE RAPPEL = VRAIS POSITIFS/VRAIS POSITIFS +FAUX NEGATIFS TAUX DE PRECISION = VRAIS POSITIFS/VRAIS POSITIFS +FAUX POSITIFS NB: TAUX DE PRECISION ET DE RAPPEL VARIENT EN SENS INVERSE
Compromis lors de la recherche de sites nombre de sites reconnus vrais négatifs vrais positifs faux négatifs faux positifs score seuil Crédit: Denis Thieffry
Pouvoir discriminant d'une matrice Fortement discriminant Faiblement discriminant Faux positifs Vrai positifs Total hits Faux positifs Vrai positifs Total hits Fréquence Fréquence Score Score Raisonnablement discriminant Faux positifs Vrai positifs Total hits Fréquence Score Crédit: Denis Thieffry
Plan (2ème partie) Plan du cours (2ème partie) • Motifs de fixation à l’ADN • Recherche de sites • Découverte de sites • Recherche de sites à l ’échelle génomique
Algorithmes de découverte de motifs • Fréquences d'oligonucleotides • (W)consensus • Algorithmes stochastiques • Gibbs sampling (AlignACE) • Maximum expectation (MEME) • HMM • Neural networks
Découverte de motifs: Gibbs sampler (A Neuwalt) Faites comme si vous connaissiez le motif, cela pourrait bien devenir vrai... 1) Sélection d'un nombre aléatoire de positions dans un ensemble de séquences 2) Création d'une matrice avec ces positions 3) Isolation d'une séquence de l'ensemble et recherche du meilleur score avec la matrice 4) Remplacement de l'ancienne position avec la nouvelle position et actualisation de la matrice 5) Recommencer à partir de (3) pour un nombre fixe de cycles Trouvé A 1 0 1 1 1 0 C 0 1 1 2 1 0 G 2 1 1 0 0 0 T 1 2 1 0 2 3 N itérations Pas trouvé Crédit: Denis Thieffry
Gibbs Sampling Example • The following slides illustrate Gibbs sampling to discover a motif in yeast DNA sequences. • This example uses a sequence model that allows multiple sites per sequence. • Columns are sampled as well as sites.
The Input Data Set 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT …HIS7 …ARO4 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG …ILV6 5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT 5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC …THR4 …ARO1 5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA 5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA …HOM2 5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA …PRO3 300-600 bp of upstream sequence per gene are searched in Saccharomyces cerevisiae. Source: G.M. Church
The Target Motif(ce qu’il faudra découvrir) 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT …HIS7 …ARO4 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG 5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT …ILV6 5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC …THR4 …ARO1 5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA 5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA …HOM2 5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA …PRO3 AAAAGAGTCA AAATGACTCA AAGTGAGTCA AAAAGAGTCA GGATGAGTCA AAATGAGTCA GAATGAGTCA AAAAGAGTCA MAP score = 20.37 (maximum) ********** Source: G.M. Church
Initial Seeding 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT …HIS7 …ARO4 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG …ILV6 5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT 5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT 5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC 5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC …THR4 …ARO1 5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA …HOM2 5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA 5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA …PRO3 TGAAAAATTC TGAAAAATTC GACATCGAAA GACATCGAAA GCACTTCGGC GCACTTCGGC GAGTCATTAC GAGTCATTAC GTAAATTGTC GTAAATTGTC CCACAGTCCG CCACAGTCCG TGTGAAGCAC TGTGAAGCAC MAP score = -10.0 ********** ********** Source: G.M. Church
Sampling Add? 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT …HIS7 …ARO4 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG …ILV6 5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT 5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC …THR4 …ARO1 5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA …HOM2 5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA 5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA …PRO3 TCTCTCTCCA TGAAAAATTC How much better is the alignment with this site as opposed to without? TGAAAAATTC GACATCGAAA GACATCGAAA GCACTTCGGC GCACTTCGGC GAGTCATTAC GAGTCATTAC GTAAATTGTC GTAAATTGTC CCACAGTCCG CCACAGTCCG TGTGAAGCAC TGTGAAGCAC ********** ********** Source: G.M. Church
Continued Sampling Add? Remove. 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT …HIS7 …ARO4 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG …ILV6 5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT 5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC …THR4 …ARO1 5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA …HOM2 5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA …PRO3 5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA ATGAAAAAAT TGAAAAATTC How much better is the alignment with this site as opposed to without? TGAAAAATTC GACATCGAAA GACATCGAAA GCACTTCGGC GCACTTCGGC GAGTCATTAC GAGTCATTAC GTAAATTGTC GTAAATTGTC CCACAGTCCG CCACAGTCCG TGTGAAGCAC TGTGAAGCAC ********** ********** Source: G.M. Church
Continued Sampling Add? 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT …HIS7 …ARO4 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG …ILV6 5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT 5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC …THR4 5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA …ARO1 …HOM2 5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA …PRO3 5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA How much better is the alignment with this site as opposed to without? TGAAAAATTC GACATCGAAA GACATCGAAA GCACTTCGGC GCACTTCGGC GAGTCATTAC GAGTCATTAC GTAAATTGTC GTAAATTGTC CCACAGTCCG CCACAGTCCG TGTGAAGCAC TGTGAAGCAC ********** ********** Source: G.M. Church
Column Sampling 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT …HIS7 …ARO4 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG …ILV6 5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT 5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC …THR4 …ARO1 5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA …HOM2 5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA …PRO3 5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA How much better is the alignment with this new column structure? GACATCGAAA GACATCGAAAC GCACTTCGGC GCACTTCGGCG GAGTCATTAC GAGTCATTACA GTAAATTGTC GTAAATTGTCA CCACAGTCCG CCACAGTCCGC TGTGAAGCAC TGTGAAGCACA ********** ********* * Source: G.M. Church
The Best Motif 5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT …HIS7 …ARO4 5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG …ILV6 5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT 5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC …THR4 …ARO1 5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA …HOM2 5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA …PRO3 5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA AAAAGAGTCA AAATGACTCA AAGTGAGTCA AAAAGAGTCA GGATGAGTCA AAATGAGTCA GAATGAGTCA AAAAGAGTCA MAP score = 20.37 ********** Source: G.M. Church