2.2k likes | 2.49k Views
Evolution Moléculaire. Tetraodon fluviatilis. Protopterus aethio. Dominique Mouchiroud mouchi@biomserv.univ-lyon1.fr. Génétique et évolution Tome II : M. Solignac et al. collec. Herman Fundamentals of Molecular Evolution : D. Graur and W.H. Li , Sinauer. Plan du cours.
E N D
Evolution Moléculaire Tetraodon fluviatilis Protopterus aethio Dominique Mouchiroud mouchi@biomserv.univ-lyon1.fr Génétique et évolution Tome II : M. Solignac et al. collec. Herman Fundamentals of Molecular Evolution : D. Graur and W.H. Li , Sinauer
Plan du cours I. Introduction I.1. Présentation de la discipline I.2. Relation avec la Biologie Evolutive II. Evolution de la composition en base II.1. L’usage du code génétique II.2. Variabilité d’usage du code génétique II.3. La structure en isochores des Vertébrés III. Evolution de l’horloge moléculaire III.1. Mesures de l’horloge moléculaire III.2. Processus évolutifs des mutations ponctuelles III.3. Variabilité de l’horloge moléculaire IV. Relation avec l’Ecologie Evolutive
Projets génome • • Eubacteries: 130 génomes complets • • Archées: 16 génomes complets • • Eucaryotes: 16 génomes complets • Levure(S. cerevisiae) : 13 Mb (1996) • Nématode (C. elegans) : 100 Mb (1998) • Plasmodium falciparum : 23 Mb (2002) • Arabette(A. thaliana) : 120 Mb (2000) • Drosophile(D. Melanogaster) : 120 Mb (2000) • Pufferfish (Fugu rubripes) : 365 Mb (2002) (ébauche) • Homme(H. sapiens): 3000 Mb (2001-2003) • Souris (M. musculus) : 2600 Mb (2002)(ébauche) Rat (R. norvegicus) : 2600 Mb (2003)(ébauche) • Nématode (C. briggsae) : 100 Mb (2003) • Anophèle (A. gambiae) : 230 Mb (2003)
Analyse comparative de séquences Mutagénèse à grande échelle 3.5 milliards d’année d’évolution - substitutions - insertions, délétions - recombinaison - duplication de gènes, translocation - duplication génomique - transgénèse (transfert horizontal de gènes)
Effets de la mutagénèse Taux d’évolution de régions génomiques non-fonctionnelles : ~0,3% / Million d’années (± 0,069) (Mammifères) Homme/Souris : ~80 Ma 46-58% d’identité Mammifères/Oiseaux : ~300 Ma 26-28% d’identité Séquences aléatoires : 25% d’identité
Analyse comparative de séquences Empreintes phylogénétiques FONCTION Pression de sélection Conservation de séquences corollaire Divergence ancienne Conservation de séquences = fonction
similarity: <60% ≥60% ≥70% ≥80% bird Endoplasmic-reticulum Ca2+ ATPase mammal bird c-fos mammal 0 500 1000 1500 2000 2400 position relative to the stop codon (nt) Highly Conserved Regions (HCRs) • > 70% identité sur 50 à 2000 pb après 300 Myrs d’évolution • gène spécifique • La plus longue HCR: 84% identité sur 1930 pb après 300 Myrs d’évolution région 3’UTR du facteur de transciption EF1 • HCRs les plus anciennes : 500 à 600 Myrs • pas de HCR détectées entre les vertébrés et les insectes ou le nematode
Génétique Moléculaire Bioinformatique Séquences Stockage Modélisation Expérimentation Biométrie moléculaire Analyse comparative Etude des mécanismes évolutifs Phylogénie moléculaire Modélisation Génétique des populations
Sensibilité aux agents mutagènes Fidélité de la polymérase Efficacité de la réparation de l’ADN etc. Pas de transmission à la descendance Taux de mutation Changement de base Erreur de la réplication etc. Réparation de l’ADN Individu Cellule somatique Mutation Cellule germinale Transmission à la descendance Population (N) Polymorphisme Perte d’allèle Fixation
Fixation des mutations Les individus qui portent des mutations délétères n’ont pas ou peu de descendance? Ces mutations disparaissent rapidement de la population : sélection négative Les individus qui portent des mutations non (ou faiblement) délétères peuvent transmettre ces mutations à leur descendance. Ces mutations , dites « neutres », sont fixées aléatoirement dans la population : dérive génétique Les très rares mutations avantageuses sont positivement sélectionnées : sélection positive
s ≈ 0 mutation neutre p = 1/2N s > 0 mutation avantageuse p = 2 s Probabilité de fixation p = f(s, N) Taille efficace Ne Taille d’une population diploïde N Fréquence de la mutation q avec q = 1/2N (nbre infini de sites) Coefficient de sélection s
X Taux de mutation Probabilité de fixation 4Ns << 1 : 4Ns >> 1 : taux d’évolution = taux de mutation taux d’évolution ≠ taux de mutation Taux d’évolution moléculaire la sélection ne peut opérer et la dérive génétique agit la sélection peut opérer
Motoo Kimura (1924-1994) Théorie neutraliste de l’évolution moléculaire Kimura M. 1983 Les génomes sont le fruit de ces deux forces évolutives Sélection / Dérive génétique
Composante adaptative Hasard dirigé Traits moléculaires taille, taux d’évolution, Traits moléculaires taille, taux d’évolution, composition en base, composition en base, GENES Ecologie Moléculaire « The mutation rates are determined more by where a gene lives than by what it does » Holmquist (89) Population Génome Traits d’histoire de vie durée de génération, activité métabolique, système de reproduction, taille efficace,
Estimation de la composition en base Fractionnement du génome de la souris par centrifugation en gradient de densité
Le code génétique SEXTET C C C C G G G G A C G U A A G G A G C C C C U U U U A C G U U U U U A G U U U U C C C C A C G U A A G G C U ARG LEU SER QUARTET A A A A C C C C A C G U C C C C C C C C A C G U G G G G C C C C A C G U G G G G G G G G A C G U G G G G U U U U A C G U ALA THR PRO GLY VAL DUET A A A A A G A A A A C U C C A A A G C C A A C U G G A A A G G G A A C U U U A A C U U U G G C U U U U U C U LYS ASN GLN HIS GLU ASP TYR CYS PHE IMPAIR A A A U U U A C U A U G U G G U U U A A G A G A ILE MET TRP TERMINATEURS
Usage des codons synonymes 61 codons, 20 acides aminés: dégénérescence du code génétique L’usage des codons synonymes n’est pas aléatoire: certains codons synonymes sont utilisés préférentiellement. Biais d’usage des codons synonymes Fréquence d’utilisation des codons synonymes de la prolinedans le génome d’Escherichia coli (4300 gènes)
Usage des codons synonymes Codon N Fobs Fatt RSCU (a) Majoritaire (b) (c) (d) Arg 6 CGC 40% 17% 2.39 Leu 6 CUG 50% 17% 2.97 Ser 6 AGC 28% 17% 1.66 43% Thr 4 ACC 25% 1.74 Le biais d’usage des codons est notable (à des degrés divers) pour tous les acides aminés qui ont des codons synonymes ainsi que pour les terminateurs. Pro 4 CCG 53% 25% 2.10 Ala 4 GCG 36% 25% 1.42 Gly 4 GGC 40% 25% 1.61 Val 4 GUG 37% 25% 1.49 Lys 2 AAA 76% 50% 1.53 2 Asn 1.10 55% AAC 50% 2 CAG 65% 50% 1.31 Gln His 2 CAU 57% 50% 1.14 Glu 2 GAA 69% 50% 1.38 Asp 2 GAU 63% 50% 1.26 Tyr 2 UAU 57% 50% 1.14 Cys 2 UGC 56% 50% 1.11 Phe 2 UUU 57% 50% 1.15 Ile 3 AUU 51% 33% 1.52 Ter 3 UAA 63% 33% 1.89 (a) Nombre de codons synonymes (b) Fréquence observée parmi les codons synonymes (c) Fréquence attendue si tous les codons étaient utilisés à la même fréquence (d) Relative Synonymous Codon Usage = fréquence observée / fréquence attendue
Usage des codons synonymes L’usage des codons varie entre espèces Fréquence d’utilisation des codons synonymes de laProlinedans différentes espèces.
75% Fréquence d’utilisation des codons synonymes de la proline dans différents gènes humains. 50% 25% I nositol 5-phosphatase MST serine/threonine kinase 0% C C C C C C C C U C A G Usage des codons synonymes L’usage des codons varie entre gènes au sein d’un même génome
Mesure du biais d’usage des codons synonymes A partir de la fréquence des codons : RSCU : Relative Synonymous Codon Usage. Mesure la fréquence relative des codons observés par rapport à l’équiprobabilité d’utilisation des codons synonymes ENC: Effective Number of Codon Mesure qui varie de 61 (pas de biais) à 20 (fort biais) Fav: fréquence des codons favorisés. Mesure la fréquence relative des codons favorisés par rapport à l’équiprobabilité d’utilisation des codons synonymes GC3 ou GC4 : Composition en base G+C en position 3 des codons. Mesure qui varie de 3 à 95% pour les gènes humains.
ENC 60 55 50 45 E. coli : gènes hautement exprimés 40 E. coli : gènes faiblement exprimés Gènes humains 35 30 25 20 100 0 10 20 30 40 50 60 70 80 90 CG3s % Relation entre %GC3 et ENC Nc Plot (Wright 1990) : Exemple sur quelques gènes humains et quelques gènes de E. coli. Courbe théorique sous l’hypothèse de non-sélection : ENC = 2 + s + { 29 / (s2 +(1-s2) } avec s = CG3s%
Mesure du biais d’usage des codons synonymes A partir de la fréquence des codons et du niveau d’expression des gènes : CAI:Codon Adaptation Index Mesure relative à l’usage des codons optimaux parmi les gènes fortement exprimés. NMD:Nombre Moyen de Discrimination (codon/ARNt) Mesure de l’adaptation des codons à l’abondance des ARNt dans la cellule.
Factor 2 (7.6 %) Factor 1 (26.2 %) Analyse factorielle des correspondances .8 Leading CDS Lagging CDS .6 .4 Usage du code génétique chez Borrelia burgdorferi (772 séquences codantes >300pb) En rouge, les gènes codant pour les ARN ribosomaux .2 0 Lobry J.R. 2000 -.2 -.4 -.6 -.6 -.4 -.2 0 .2 .4 .6 .8
LES BIAIS MUTATIONNELS LA SÉLECTION TRADUCTIONNELLE (ADAPTATION) (CONTRAINTE) Modèles évolutifs à l’origine des biaisd’usage du code génétique UTILISATION DES CODONS SYNONYMES 1- Le biais d’usage du code est lié aux contraintes fonctionnelles. 2- Le biais d’usage du code est indépendant des variations de composition de l’ADN non codant 1- Pas de relation entre le niveau d’expression des gènes et l’utilisation des codons favorisés. 2-Le biais d’usage du code est corrélé au taux de GC de l ’ADN non codant.
u G/C A/T v u/v = (1-p(GC))/p(GC) représente le biais mutationnel Si u/v = 3.0 p(GC) = 25% u/v = 1 p(GC) = 50% u/v = 0.33 p(GC) = 75% Biais mutationnel Sueoka, 61 p(GC) = v/(v+u) probabilité de G+C attendue à l’équilibre
Origine du biais mutationnel Les t aux de mutation sont variables en fonction des bases : - différences de sensibilité aux agents mutagènes - différences de fidélité de l’ADN-polymérase - différences d’efficacité des systèmes de réparation des lésions de l’ADN - différences de réserves en nucléotides disponibles dans la cellule - différences des taux de recombinaison - etc.
Résumé Mesure : Composition globale en base Petits génomes : séquençage complet - HPLC Grands génomes : gradient de densité Usage du code génétique : ENC, Fav, RSCU, GC3%, AFC,…. Modèle évolutif : Biais mutationnel: évolution concertée de la composition en base ADN codant et non codant Pression sélective : les positions silencieuses de l’ADN codant évoluent différemment de l’ADN non codant Au sein d’un génome, les deux processus évolutifs peuvent intervenir soit sur des gènes différents soit sur les différentes parties d’un même gène. Entre génomes, la taille efficace de la population va jouer un rôle majeur dans l’efficacité respective des deux processus mutationnels.
Virus et organismes endosymbiotiques Virus : usage homogène mais différent de l’hôte Rétrovirus : insertion dans des régions génomiques de même composition (insertion isopycnique)(Rynditch et al. 98) Bactéries endosymbiotiques : enrichissement en AT, diminution de la taille du génome (rétropseudogènes)
Virus et organismes endosymbiotiques Virus : usage homogène mais différent de l’hôte Rétrovirus : insertion dans des régions génomiques de même composition (insertion isopycnique)(Rynditch et al. 98) Bactéries endosymbiotiques : enrichissement en AT, diminution de la taille du génome (rétropseudogènes) Mitochondries : usage différent de l’hôte avec un fort évitement des bases G
Fréquence (%) Taille (bp) A C G T Nématode Caenorhabditis elegans 13794 31.4 8.9 14.9 44.8 Insecte Drosophila melanogaster 16019 39.4 12.2 9.3 39.1 Echinoderme Paracnetrotus lividus 15700 30.8 22.5 17.2 29.5 Amphibien Xenopus laevis 17553 33.0 23.5 13.5 30.0 Oiseau Gallus domesticus 16775 30.2 32.5 13.5 23.8 Poisson Criprinus carpio 16364 31.7 27.5 15.8 25.0 Mammifère Bos taurus 16338 33.4 25.9 13.4 27.3 Homo sapiens 16569 31.0 31.2 13.1 24.7 Usage du code des génomes mitochondriaux
Virus et organismes endosymbiotiques Virus : usage homogène mais différent de l’hôte Rétrovirus : insertion dans des régions génomiques de même composition (insertion isopycnique)(Rynditch et al. 98) Bactéries endosymbiotiques : enrichissement en AT, diminution de la taille du génome (rétropseudogènes) Mitochondries : usage différent de l’hôte avec un fort évitement des bases G Chloroplastes : génomes globalement riches en A+T
Dicotylédone Pois Nucl. Transf. Chlor 44 41 48 47 34 37 29 Usage du code des génomes chlorophastiques Monocotylédone Blé Nucl. Transf. Chlor. GC% Total 57 59 38 Non silencieux 52 51 45 Silencieux 67 74 27
Variabilité d’usage du code Virus et organismes endosymbiotiques Génomes procaryotes homogènes
20 15 Nombre de genres bactériens 10 (d’après Galtier et Lobry, 1997 ) 5 0 20 30 40 50 60 70 80 GC % Contenu en G+C des génomes bactériens Il existe une forte variation du taux de G+C des génomes d’une espèce à l’autre Mycoplasma capricolum Micrococcus luteus
Usage du code de génomes bactériens 120 12 8 8 60 4 CG3% Staphylococus aureus (23.0) Azotobacter vinelandii (84.5) Escherichia coli (54,4) Maïs
Transferts de gèneschez les bactéries • Transfert vertical: • Transmission de l’information génétique de la génération parentale à la descendance. • Transfert horizontal (ou latéral): • Passage de séquences d’un génome à un autre. • Mise en jeu de mécanismes comme la transfor-mation, la transduction et la conjugaison. • Intégration par recombinaison.
Méthodes de détection des TH • Les méthodes intrinsèques • Basées exclusivement sur l’information stockée au sein du génome étudié • Les méthodes extrinsèques • Basées sur les phylogénies moléculaires
400 350 300 250 200 Nombre de gènes 150 100 50 0 10 20 30 40 50 60 70 80 90 Transferts horizontaux ? GC3 % Détection des gènes transférés par leur composition en codons “…our analysis indicated that 755 (17,6%) of the 4288 ORFS in the genome originated through Horizontal gene transfer.” Lawrence et Ochman 98 Certains gènes du génome d’E. colidiffèrent fortement par leur contenu en base.
Mesure du biais d’usage des codons synonymes A partir de la fréquence des codons et du niveau d’expression des gènes : CAI:Codon Adaptation Index Mesure relative à l’usage des codons optimaux parmi les gènes fortement exprimés. NMD:Nombre Moyen de Discrimination (codon/ARNt) Mesure de l’adaptation des codons à l’abondance des ARNt dans la cellule.
Indice HT non-HT MW VR CAI 0,216 0,278 <10 9,145 CAItot 0,659 0,712 <10 10,555 GC3c 0,152 0,056 <10 18,758 -4 -4 -4 GC3c = (GC3-GC3) Transferts horizontaux Perriere G. 2000
0,57 0,56 25 20 0,55 15 0,54 cumsum(GC3c) 10 GC3 0,53 5 0,52 1 0 0,9 0,51 -5 0,8 0,5 0,7 -10 TER TER position position 0,6 0,5 GC3>GC3 0,4 GC3<GC3 0,3 0,2 0,1 GC3 % (E. coli) Rho= -0.199 p<0.0001 700 1050 1400 1750 2100 2450 0 350 Distance à l’origine ORI (Mb) Localisation sur le chromosome d’E. coli
T T T T T Distribution phylogénétique de la structuration Proteobactéries (23) (12) (9) (2) (Endocell.) Gram+ bas G+C (13) (6) (7) Gram+ haut G+C (2) (1) (1) Deinococcales (1) (1) Cyanobactéries (2) (2?) Chlamydiales (3) (3) Spirochètes (2) (1) (1) (Endocell.) Thermotogales (1) (1) Aquificales (1) (1) Nombre d’espèces 23 21 4
La translétion 5'A-G-C-C-T3' 3'T-C-G-G-A5' • Dans la région du terminus de réplication, les complexes ter/Tus inhibent l’action des hélicases! • Réparation par le mécanisme de translétion • Réalisée par l’intermédiaire des polymérases SOS (polIII et polIV): • Introduction systématique de dAMP (A-rule) aux sites abasiques: • Enrichissement en A+T de régions n’utilisant pas la réparation par recombinaison. Délétion 5'A-G-C-C-T3' 3'T-C- -G-A5' Translétion polIII / IV 5'A-G-C-C-T3' 3'T-C-A-G-A5' Mismatch correction polIII / IV 5'A-G-T-C-T3' 3'T-C-A-G-A5'
10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90 GC3 % GC3 % Proches du terminus Éloignés du terminus Structuration intrinsèque des génomes Il est possible qu’il y ait des quantités non négligeables de faux positifs dans les prédictions des méthodes intrinsèques.
B A2 Blast E ≤ 10-20 A A1 StatutÉvénement probable +A1 -A2 -B Importation dans A1 après T12 +A1 +A2 -B Importation dans A après TAB ou délétion dans B +A1 -A2 +B Délétion dans A2 après T12 +A1 +A2 +B Aucun événement -A1 +A2 +B Délétion dans A1 après T12 -A1 +A2 -B Importation dans A2 après T12 -A1 -A2 +B Délétion dans A après TAB Divergence A/B (TAB) Divergence A1/A2 (T12) Méthode extrinsèque par approche comparative B Recherche croisée des homologues A1 A2
E. coli 0157:H7 Sakaï Escherichia coli O157:H7 E. coli 0157:H7 EDL933 0,58 E. coli K12 Salmonella 0,56 0,54 0,52 G+C3 0,5 0,48 0,46 0,44 1,1 MA 0,42 0,4 0,38 Récents Très récents “Natifs” 4,5 MA 140 MA Pertes Transfert récent Transfert ancien TH Transferts récents et moins récents 102 126 144 114 12 9 411 21 Escherichia / Salmonella
Nature des gènes acquis récemment Fonction inconnue, pas d’étude phylogénétique possible Plus riches en A+T que leur génome hôte (séquences parasites ?) Fort biais mutationnel / faible sélection (pseudogènes ?)