400 likes | 512 Views
Parfois mais pas toujours oui, non, enfin parfois, ça dépend, pas toujours, non, voilà, pas toujours.
E N D
Parfois mais pas toujoursoui, non, enfin parfois, ça dépend, pas toujours, non, voilà, pas toujours Je n’aimerais pas vivre en Amérique mais parfois siJe n’aimerais pas vivre à la belle étoile mais parfois siJ’aimerais bien vivre dans le cinquième mais parfois nonJe n’aimerais pas vivre dans un donjon mais parfois siJe n’aimerais pas vivre d’expédients mais parfois siJ’aime bien vivre en France mais parfois non (...) Georges Perec, Penser/Classer La traduction commence à un codon AUG mais parfois non La traduction se termine à un codon stop mais parfois non Le code n’est pas chevauchant mais parfois oui
Erreurs dans le transfert d’information Réplication : 10-6/nt Transcription : 10-5/nt Traduction : 5.10-4/codon
Décodages non conventionnels (recodage) Translecture AUG Décalage du cadre de lecture +1 - 1 AUG 1 ARN 2 polypeptides
int pro pol LTR LTR gag AUG STOP Gag Pro Gag Pol Int HIV Le recodage • Dépend de séquences et de structures sur l’ARNm (mécanisme conservé chez les eucaryotes) • Observé principalement dans des éléments génétiques autonomes (virus, transposons)
Décalage de phase et virus « Le cheval de Troie » gag pol Protéine Gag-Pol 5% Protéine Gag 95%
Décalage de phase et autorégulation Facteur de terminaison de la traduction RF2 et décalage
Site P Site A Site E La terminaison de la traduction eucaryote AA STOP CA(A/G)N(U/C/G)A
D’après True et Linquist, Nature, 2000 Translecture et régulation épigénétique
Reprogrammation de codon stop Incorporation de sélénocystéine au codon UGA
Thèmes de l’équipe • Mécanismes (facteurs cis et trans) • Gènes cellulaires et recodage • Maladies à codons stop
Gènes cellulaires et recodage (levure) ORF1 ORF2 • Approche par modélisation • Approche sans a priori • Translecture : gènes candidats
Le décalage de phase de lecture en -1 Recherche de sites de décalage de phase de lecture • Développer des outils d’identification d’événements de recodage eucaryote • Caractériser le décalage de phase de lecture en -1
+1 0 -1 1000 2000 3000 4000 1000 2000 3000 4000 Heptamère Brierley, 1993 Pause du ribosome Brierley 1993, Dinman 2000 X XXY YYZ Recherche de sites de décalage en -1 Modèle de site eucaryote Jacks et Varmus, 1985 et 1988 Pas de site authentique identifié …
Recherche de sites de décalage en -1 Deux approches complémentaires • Modèle pas assez précis (ou incomplet) • Affiner le modèle • Modèle trop rigide (mécanismes dégénérés oudifférents) • Approche sans a priori sur le mécanisme Collaboration : Alain Denise, Jean-Paul Forest, Christine Froidevaux, Bernard Prum, Hugues Richard, Michel Termier
Affiner le modèle Représentation des données 3’ AUG 5’ XXXY YYZ H SP Heptamère glissant Espaceur Structure secondaire
ES2.3’ 3’ ES2.5’ EL1 EL1’ ES1.5’ ES1.3’ EL2 AUG 5’ NNXXXY YYZ NNNNNNNNN H SP Heptamère glissant Espaceur Structure secondaire Affiner le modèle Représentation des données 120 propriétés (attributs) pour décrire les sites de FS
Affiner le modèle Données : • 27 sites sauvages de virus et 320 mutants • efficacité 5% : 191 exemples • efficacité 2% : 98 contre-exemples
Affiner le modèle • Apprentissage supervisé : on apprend le concept binaire FS_efficace • Apprentissage disjonctif : toutes les séquences n’induisent pas du FS pour les mêmes raisons • Description sous forme de règles conjonctives : une règle est constituée de plusieurs conditions
règle 1 règle 3 règle 2 Affiner le modèle Apprentissage Regroupements
Validation expérimentale ? *** Conditions suffisantes, pas nécessaires Affiner le modèle Exemple de règles siYG etZG et nombre de A dans H 4 et nombre de C dans SP 1 et nombre de paires G-C dans ES1 6 et % de G dans ES1.5’ 65 alorsFS_efficace • 33% des exemples couverts et 0 contre-exemple ES2.3’ 3’ ES2.5’ EL1 EL1’ ES1.5’ ES1.3’ EL2 AUG NNXXXY YYZ NNNNNNNNN 5’ H SP
pSV40 luc lacZ ATG Affiner le modèle Evaluation in vivo ES2.3’ 3’ ES2.5’ EL1 EL1’ ES1.5’ ES1.3’ EL2 NNXXXY YYZ NNNNNNNNN H SP
pSV40 lacZ luc ATG Transcription AAAAA AUG Traduction Activité luciférase = Efficacité de décalage Activité b-galactosidase Affiner le modèle Evaluation in vivo : système « double reporter »
Affiner le modèle Validation expérimentale • siYG etZG et nombre de A dans H 4 • et nombre de C dans SP 1 • et nombre de paires G-C dans ES1 6 • et % de G dans ES1.5’ 65
Affiner le modèle Conclusions • Identification de nouveaux attributs • Composition de l’espaceur (voir Michaël …) • Dinucléotide en amont de l’heptamère • Dissymétrie entre un appariement C-G et G-C • Identification de nouvelles règles
3’ AUG 5’ . . XXXY YYZ H SP Heptamère glissant Espaceur Structure secondaire Recherche de sites de décalage en -1 Première étape fondée sur un modèle minimum
Recherche de sites de décalage en -1 Rechercher un heptamère NNN N AUG NN XXX YYY Z
Recherche de sites de décalage en -1 Rechercher un pseudonoeud Tige1 5’ Tige1 3’ Heptamère Boucle 1
Recherche de sites de décalage en -1 Rechercher un pseudonoeud Tige1 5’ Tige1 3’ Heptamère Boucle 1 Identification de 185 régions chez S. cerevisiae
Recherche de sites de décalage en -1 Bilan de l’approche par modèle : • Retrouve les sites connus • Classement des candidats en fonction des propriétés issues du modèle affiné • Au moins trois bons candidats • Candidats issus d’un génome “aléatoire”
Recherche de sites de décalage en -1 Approches sans a priori sur le mécanisme Regarder le décalage de phase sous un angle différent • sans a priori sur le site de décalage lui-même • définition génomique • Fonctionnel • Linguistique/statistique
22 445 régions chez S. cerevisiae Genbank – rel. 27/10/2002 10 régions chez le virus L-A Genbank – rel. 03/08/2002 Recherche de sites de décalage en -1 Découpage START STOP1 STOP2 STOP3 phase 0 ORF0 ORF-1 phase -1 > 99 nt > 99 nt > 150 nt
Recherche de sites de décalage en -1 Recherche de motifs START STOP1 STOP2 STOP3 phase 0 ORF0 ORF-1 phase -1 Motif protéique ? Motif protéique ? 84 régions chez S. cerevisiae 1 région chez le virus L-A Banques de motifs: Interpro 7.0 Application: GenRecode
21000 0 400 -1 300 Nombre de régions 200 ≥0.95 0 100 0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 probabilité -1 Recherche de sites de décalage en -1 Recherche basée sur la statistique des séquences : identification 110 régions chez S. cerevisiae 1 région chez le virus L-A
Recherche de sites de décalage en -1 28 candidats sur 55 ont un ARNm qui couvre les 2 ORFs ADN ARNm AAAAAA RT-PCR MM 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 kb 500 b
pSV40 lacZ luc ATG Recherche de sites de décalage en -1 Evaluation in vivo +1 0 -1 Région de décalage
Recherche de sites de décalage en -1 11 séquences candidates induisent du décalage in vivo HMM 14% 12% 3 10% 2 8% Taux décalage de phase 6% 4% 6 2% Motifs 0% 2 11 16 21 30 32 40 41 43 48 50 Candidat
Recherche de sites de décalage en -1 Bilan HMM Modèlisation - 3 2 - 2 1 5 Motifs
Recherche de sites de décalage en -1 Perspectives Cette stratégie peut être appliquée à d’autres organismes. • Recherche dans d’autres levures • Recherche dans des organismes plus complexes Applicable à d’autres types de recodage. • Décalage de phase de lecture en +1 (avec Phil Farabaugh) • Translecture Nouveaux types de recodage …
Merci !!! Institut de Génétique et Microbiologie GMT Michaël Bekaert Laure Bidou Isabelle Hatin Olivier Namy Jean-Pierre Rousset BIG Michel Termier Laboratoire de Recherche en Informatique Alain Denise Jean-Paul Forest Christine Froidevaux Laboratoire de Statistique et Génome Bernard Prum Hugues Richard