190 likes | 353 Views
Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles. UBLO. helene.chiapello@jouy.inra.fr. http://genome.jouy.inra.fr/mosaic. Le projet MOSAIC.
E N D
Comparaison de génomes bactériens :questions méthodologiques autour de la définition du squelette et des boucles UBLO helene.chiapello@jouy.inra.fr
http://genome.jouy.inra.fr/mosaic Le projet MOSAIC • But: déterminer systématiquement la structure squelette-boucles des génomes bactériens à l’échelle intra-espèce • Méthode: alignement de génomes complets (MGA) + post-traitement • MOSAIC* version 3: • 87 comparaisons, 24 espèces bactériennes • Comparaison aux annotations (GenomeReview+autres) • Visualisation graphique (MuGeN) *Chiapello et al. BMC Bioinformatics, 2005
Les comparaisons MOSAIC Les trois étapes: 1. Sélection des génomes à comparer: • Même espèce (nomenclature), pas de réarrangement 2. Alignement global multiple des génomes avec MGA* • les paramètres MGA sont définis à partir d’un alignement de référence vérifié manuellement 3. Définition du squelette et des boucles • Squelette : régions conservées • Boucles : régions variables ou spécifique à une souche * Multiple Genome Aligner , Höhl, Kurtz and Ohlebusch, Bioinformatics 2002
MOSAIC : en cours… Axe 1: Stratégie de comparaison I. Evaluation de la divergence des génomes II. Evaluation de la robustesse des boucles III. Détection des réarrangements Axe 2: Analyse des boucles Annotation et classification des boucles Axe 3: Propriétés du squelette Prédictions de motifs nucléiques basées sur la séquence du squelette
I. Evaluation de la divergence des génomes Motivation : • La classification des espèces bactériennes n’est pas robuste car les critères de classification sont multiples et non systématiques (critère phénotypique, critère d’hybridation ADN-ADN,…) Exemples : groupe Shigella-Coli, groupe B. cereus,… • il serait utile de disposer d’un critère indépendant de la nomenclature pour évaluer la divergence entre 2 génomes Idée : Mettre au point un indice global basé sur le contenu des génomes pour évaluer leur divergence
L’indice de couverture des MUM • Solution proposée: utiliser les MUMs (Maximal Unique Matches, ie. séquences d’une taille minimale k présente une fois sur chaque génome) pour évaluer la similarité • L’indice MUM coverage (MC) : with • Propriétés: • mesure la dissimilarité entre 2 génomes • tient compte des inversions (MUMs détectés sur le brin RC) • très rapide à calculer en utilisant des structures de type arbre de suffixes
Choix de la taille minimum des MUM k Conclusion: La taille k=19 permet de distinguer les paires de génomes inter-espèces des paires intra-espèces (dans le groupe E. coli).
Validité de l’indice MC • L’ANI (Average Nucleotide Identity) des gènes communs à 2 génomes est un indice récent qui permet dévaluer la distance génétique entre deux génomes (Konstantidinis, PNAS 2005) • For n=47 paires de génomes, forte corrélation entre ANI et NC (R=0.97, p<0.001) Current Species Cutoff • ANI ~94% correspond à MC ~0.5 et au seuil de définition de l’espèce • Les données de MLST (Multi Locus Sequence Type) des groupesE. coli/Shigella (Pupo, PNAS 2000)et S. aureus (Lindsay, Trends in Mic. 2004) sont consistantes avec les valeurs de MC.
Evaluation de la diversité intra-espèce avec MC Distribution des valeurs de MC parmi 7 espèces bactériennes : Conclusion: - très grande diversité à l’échelle intra-espèce - certaines comparaisons intra-espèces sont plus divergentes que les inter-espèces
II. MOSAIC: évaluation de la robustesse des boucles • Observation 1: le nombre de boucles est très variable selon l’espèce bactérienne Ex: min 6 boucles chez C. pneumoniae, max 2951 boucles chez B. cereus • Observation 2: dans beaucoup de cas, le nombre de petites boucles est très élevé Ex: la moitié des boucles d’E. coli sont inférieures à 100 nt • Question : est-il possible d’évaluer la robustesse • des petites boucles ? • des frontières squelette/boucles ?
Stratégie But : évaluer la robustesse locale des boucles Méthode : 1. Perturbations aléatoires des génomes 2. Analyse de l’impact des perturbations sur la segmentation squelette/boucles initiale Note : le perturbations sont ciblées sur les MEMs* pour perturber la phase de chaînage des alignements *Maximal Exact Matches
Protocole de perturbation • Trois opérations de perturbation sont effectuées N fois sur chaque génome : 1. La suppression d’un pourcentage x de MEMs 2. L’inversion d’un pourcentage x de MEMs 3. La translocation d’un pourcentage x MEMs • Les N segmentations squelette-boucles obtenues sont utilisées pour calculer deux scores : - Un score de nucléotide ns défini comme la proportion de simulations dans lequel le nucléotide est affecté à une boucle - Un score de boucle ls défini comme la moyenne des scores de nucléotide de la boucle.
Résultats : scores de nucléotide Données : 617 boucles de E. coli K12 (541 kb) • Les boucles sont en général robustes : Ex: 4.3% of des nucléotides de boucle ns<1 (pour les suppressions de 15% de MEMs) • Les frontières de boucles sont les plus affectées par les perturbations : score 1 score [0.95;1[ score [0.90;0.95[ score [0.80;0.90[ score < 0.80 Position dans la boucle (en % de la taille de la boucle)
Résultats: scores de boucles Données : 617 boucles de E. coli K12 (541 kb) • Peu de boucles sont affectées par les perturbations : 5.7 % des boucles ont ls <0.8 (pour les suppressions de15% de MEMs) • Les boucles peu robustes sont en général petites (88% ont une longueur<200nt): Taille des boucles
15% de MEMs supprimés 15 % de MEMs inversés 15% de MEMs transloqués Exemple de visualisation Annotations biologiques Structure mosaïque score = 1 score = 0.5 score = 0
III. Traitement des génomes réarrangés Principe : 1. Alignement multiples et doubles avec MAUVE* • Choix des paramètres d’alignement • Choix d’un génome de référence • Définition des LCBs : Locally Colinear Blocks 2. Définition du squelette et des boucles à partir des LCBs 3. Alignements MGA des génomes sans réarrangement * Darling et al., Genome Research 2004
MOSAIC release 4 (en cours) Données = Genome Review release 56 (07/2006) : • 43 espèces pour lesquelles au moins 2 génomes dont Streptococcus pyogenes (11 génomes), Staphilococcus aureus (9 génomes), Escherichia coli-Shigella (8 génomes) • 232 comparaisons (140 génomes) : 134 alignements MAUVE, 98 alignements MGA • nouvelle interface de navigation (LCB)
Retour aux questions méthodologiques • Choix des paramètres d’alignement (en fonction de la divergence des génomes ?) • Evaluation de la qualité d’un résultat d’alignement de génomes (alignements de références ?) • Problème des séquences répétées (filtrage ?) • Taille minimale d’un réarrangement (inversion, translocation)
M.-A. PetitD. Halpern M. El Karoui Unité de Bactéries Lactiques et Oppotunistes UBLO H. Chiapello S. Schbath A. Gendrault-Jacquemard Mathématique Informatique et Génome