480 likes | 595 Views
Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004. répétitions et duplications intra-chromosomiques. Alain.Viari@inrialpes.fr. Plan. 1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis 4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques.
E N D
Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004 répétitions et duplications intra-chromosomiques Alain.Viari@inrialpes.fr
Plan • 1- Introduction • -2- Définitions • -3 - Expérience 1 : répétitions chez B. subtilis • 4 - Expérience 2 : Levure et extensions • -5- Aspects algorithmiques
Introduction -> duplications à différents niveaux
niveaux de duplication dans les génomes (1) Ensemble du génome (polyploidie) Xenopus laevis: 36 chr diploids Xenopus vestitus: 72 chr. tetraploids Xenopus ruwenzoriensis: 108 chr. hexaploids II X XII III VIII IV Segments de génome V Saccharomyces cerevisiae XIV • 12 Mb • 16 chromosomes • 5 800 gènes. XV XIII XVI -> 50% du génome
niveaux de duplication dans les génomes (2) Satellites (mini, micro, alu) • répétitions multicopies en tandem • au niveau des centromères • 170 pb -> 7% du génome chez Cercopithecus aethiops Transposons Zea Mays 2,4 Gb 10 paires de chr > 60% de transposons
niveaux de duplication dans les génomes (3) mais encore... Escherichia coli • • 4,6 Mb • 4 288 gènes • Séquences répétées : - 22 IS - 7 rDNA, 5 Rhs, 314 REP, etc. - 1 345 gènes dupliqués.
Plan • 1- Introduction • -2- Définitions • -3 - Expérience 1 : répétitions chez B. subtilis • 4 - Expérience 2 : Levure et extensions • -5- Aspects algorithmiques
Repétitions dans les génomes • • nature de l’objet répété (structural, lexical) • • nature des copies (exact, approximatif) • • nombre de copies (r ≥ 2) • • aspect inattendu (taille minimale) • • aspect biologique (inter/intra espèce chromosome)
Nature de l’objet répété : répétitions structurales Structures secondaires d’ARN A <-> T G <-> C exemple 2 : triple hélices picture missing... exemple 1 : tRNA pb recherche / inférence
Répétitions lexicales : nombre de copies A= {A,C,G,T} répétitions lexicales nombre de copies (r = 2 ; r > 2) aspect algorithmique transitif / non transitif aspect statistique biais de comptage aspect biologique • explosion • suppression mécanismes 2 à 2
Répétitions lexicales : nature de la copie aspect algorithmique exact : suffix-trees/arrays, KMR, oracle des facteurs semi-approché : KMR approché : exact + heuristique (prog. dynamique) aspect statistique exact : Karlin et al. 85 (Markov 0) -> Lmin = F(r,fi) approché : ?? répétition exacte ou approchée
Répétitions lexicales : orientation de la copie répétition directe / « inverse » ATTTG CAAAT 5’ 3’ 5’ 3’ GTTTA TAAAG
Répétitions lexicales : aspect biologiques Inter-espèces transfert horizontal Intra-espèce Inter-chromosomique • duplication géniques • elts mobiles Intra-espèce Intra-chromosomique
Pourquoi chercher des répétitions ? • Aspect entomologique • Trace de l’évolution outil pour l’analyse de la dynamique des génomes
Plan • 1- Introduction • -2- Définitions • -3 - Expérience 1 : répétitions chez B. subtilis • 4 - Expérience 2 : Levure et extensions • -5- Aspects algorithmiques
Montage expérimental copy 1 copy 2
Densité de répétitions Rocha et al. MBE 99
Distribution des répétitions chez B. subtilis ARNr operons prophages (SPb et PBSX) other : ARNsb closely spaced repeats # répétitions distance entre occurences (Kb)
Transfert horizontal chez B. subtilis (hypothèse) Horizontal transfert in B. subtilis (hypothesis)
Inserted Elements (IE) in B. subtilis Transfert horizontal chez B. subtilis (hypothèse) • 17 elements ; 5% of the total size of genome • mean spacer size is 10.6 kb (10 kb expected) • >50% of genes in spacers does not exhibit B. subtilis codon usage • 2/3 of genes in spacers are UFO • mostly represented identified functions are : - production of antibiotics - detoxification - restriction/modification and DNA reparation - motility and transport
Plan • 1- Introduction • -2- Définitions • -3 - Expérience 1 : répétitions chez B. subtilis • 4 - Expérience 2 : Levure et extensions • -5- Aspects algorithmiques
Objectif Les répétitions comme outil d’étude de la dynamique des génomes • Mouvements et évolution des génomes. • Observation directe impossible • rechercher des traces de son activité (répétitions). • Répétitions = générateur d’instabilités chromosomiques (recombinaison). Répétitions = traces et moteur de la dynamique des génomes.
Un modèle (trop) simple mutations répétition récente mutations répétition ancienne duplication répétition stricte séquence unique
Montage expérimental (1) -1- Répétitions maximales exactes (r=2, L≥Lmin) -> graines maximalité ... ... x a b b c y y y a b b c z difficultés avec les régions de faible complexité ... ... x a a a a y y y a a a a z -> répétitions approchées sur l’ADN heuristique
Montage expérimental (2) -2- Extension des graines -> graines -3- Elimination des overlaps Alignement local (prog. dyn)
Montage expérimental (résumé) Détection Lmin = 15 - 17 bp Filtre entropique & subtélomérique dans les subtélomères basse complexité CACACACA CACACACA Extension Longeur > 30 %Identité > 50% Filtre Répétitions particulières Ty, solos, ARNt, ARNr
Paramètres spacer longueur % identité note : spacer > 0
Résultats (1) Saccharomyces cerevisiae Répétitions inversées Répétitions directes 340 275 Génome aléatoire 25 24 Génome de la levure
Spacer : distributions 50% 50% 40% 40% 30% 30% 20% 20% 10% 10% 0% 0% réel aléatoire (x 10) Répétitions inversées Répétitions directes % total % total 1bp 3bp 100bp 1kb 10kb 100kb 3.2Mb 1bp 3bp 100bp 1kb 10kb 100kb 3.2Mb spacer spacer CDR Les Close Direct Repeats (CDR) sont surreprésentés.
Spacer : corrélation avec le %identité entre les copies Direct = - 0.36p << 10-4 Inverted Les CDR présentent une corrélation négative avec le % identité
Spacer : corrélation avec la longueur Direct = + 0.26p ~ 3.10-6 Inverted Les CDR présentent une corrélation positive avec la taille
Un modèle (moins) simple Autresrépétititons CDR Longueur Identité (%) Duplication Délétion Mutations Conversion La recombinaison est négativement corrélée à la taille du spacer.
Données expérimentales (littérature) : recombinaison Recombinaison ectopiquequelconque • Positivement corrélée à la longeur • Positivement corrélée à l’identité Recombinaison intrachromosomique • Négativement corrélée au spacer pour des CDR uniquement (Bactéries)
%identité et longueur : distributions % total % total 100 100 55 60 65 70 75 80 85 90 95 55 60 65 70 75 80 85 90 95 % identité % identité 40% 40% 35% 35% 80% 80% 30% 30% % total % total 25% 25% 60% 60% 20% 20% 15% 15% 40% 40% 10% 10% 20% 20% 5% 5% 0% 0% 0% 0% 30bp 100bp 1kb 4kb 30bp 100bp 1kb 4kb longueur longueur réel aléatoire Répétitions directes Répétitions inversées
Un modèle (un peu plus) complet CDR Duplication Délétion Conversion Mutations Réarrangement(s) chromosomique(s) Pressions de sélection (fonction) ? CDS Conversion Mutations ? tectonique des répétitions
Extension à d’autres eucaryotes Plasmodium falciparum 2 chromosomes: 2 Mb Arabidopsis thaliana 2 chromosomes: 37.2 Mb Caenorhabditis elegans 6 chromosomes: 95.2 Mb(génome complet) Drosophila melanogaster 6 bras chromosomiques : 114.4 Mb Saccharomyces cerevisiae 16 chromosomes: 12.1 Mb(génome complet) Homo sapiens 2 chromosomes: 67.3 Mb (Achaz et al., 2001)
Distribution du spacer 700 35 50 600 30 40 500 25 30 400 20 300 15 20 200 10 10 100 5 0 0 0 0 0 0 0 0 0 1kb 1kb 10kb 1Mb 1Mb 10kb 10bp 10bp 1kb 1kb 100kb 1kb 1kb 100kb 100bp 1Mb 1Mb 1Mb 1Mb 100bp 10kb 10kb 10kb 10bp 10kb 10bp 10bp 10bp 10Mb 10Mb 10Mb 10Mb 100kb 100kb 100kb 100kb 100bp 100bp 100bp 100bp 100Mb 1000 1000 200 800 800 150 600 600 100 400 400 50 200 200 0 0 0 S. cerevisiae P. falciparum A. thaliana directes inversées Nombre C. elegans D. melanogaster H. sapiens Nombre
Corrélations du spacer Espèces CDR Spacervs.Identité Spacervs.Longueur N De(/Mb) t p t p S. cerevisiae 60 5.0 -0.32 <10-3 0.45 <10-4 P. falciparum 100 49.8 -0.08 >0.05 0.06 >0.05 A. thaliana 889 23.9 -0.35 <10-4 0.39 <10-4 C. elegans 3,242 34.0 -0.31 <10-4 0.24 <10-4 D. melanogaster 546 4.7 -0.36 <10-4 0.41 <10-4 H. sapiens 1,042 15.5 -0.30 <10-4 0.33 <10-4
Densité en bases S 1/N L D = i b i S. cerevisiae P. falciparum A. thaliana D. melanogaster H. sapiens Répétitions inversées (%du chromosome) 5 4 3 2 C. elegans 1 0 0 5 1 0 1 5 2 0 Répétitions directes (% du chromosome) Les répétitions directes sont (un peu) plus nombreuses que les inversées.
Densité en évènements S. cerevisiae P. falciparum A. thaliana D. melanogaster H. sapiens n/N D = e Répétitions inversées (/Mb) 5 0 4 0 3 0 2 0 C. elegans 1 0 0 0 2 0 4 0 6 0 8 0 1 0 0 Répétitions directes (/Mb) Les chromosomes de la même espèce présentent une De similaire -> propriété nucléaire globale ?
Conclusion CDR Duplication Délétion Conversion Mutations Réarrangement(s) chromosomique(s) Pressions de sélection (fonction) ? CDS Conversion Mutations ? • eucaryotes • idem procaryotes (50 génomes) les répétitions comme outil d’étude de la dynamique des génomes
Plan • 1- Introduction • -2- Définitions • -3 - Expérience 1 : répétitions chez B. subtilis • 4 - Expérience 2 : Levure et extensions • -5- Aspects algorithmiques
Un problème algorithmique (classique) N A pb: trouver toutes les r-répétions (exactes) de la plus grande taille Suffix-tree KMR(*) Oracle des facteurs (**) time O(N) O(NlogN) O(N) O(N) O(N) O(N) space 12N 8N 10N (* Karp-Miller-Rosenberg) (** heuristique)
En pratique... 5% ? pb pratique: trouver toutes les 2-répétions maximales de tailles ≥ Lmin note: en utilisation pratique Lmin est tel que n2 << N
Vers des très grandes séquences Principe de KMR a a R relation d’équivalence sur l’ensemble des indices a i j Lemme a a i R j <=> i R j et i+b R j+b ; a ≥ b ≥ 1 a+b a a i j a b a b Algo (raffinement de partition) P1 -> P2 -> P4 -> P8 -> P16 .... time: O(NlogN) space: O(N) < 1N 8N 4N
Remerciements Guillaume ACHAZ Frédéric BOYER Eric COISSAC Eduardo ROCHA Pierre NETTER