451 likes | 790 Views
histoire et fonctions. grand pa, grand ma, etc. mom. dad. Qu'est ce que la vie ?. génome. M êmes atomes, mêmes principes physico-chimiques.
E N D
histoire et fonctions grand pa, grand ma, etc ... mom dad Qu'est ce que la vie ? génome Mêmes atomes, mêmes principes physico-chimiques
Génome: ensemble de l'information héréditaire d'un organisme. Cette information est présente en totalité dans chacune des cellules de l'organisme. Lorsqu'une cellule se divise l'information est copiée et transmise aux deux cellules filles. Génome: contient les instructions nécessaires au développement, au fonctionnement, au maintien de l'intégrité et à la reproduction des cellules et de l'organisme. Qu'est ce qu'un génome ? Génome: (1920 Hans Winkler, Hamburg) ensemble des déterminants héréditaires (gènes) propres à une espèce donnée. • 1944: l'ADN est le support de l'hérédité • 1953: les propriétés de la molécule d'ADN expliquent la dualité de son rôle: • instructions fonctionnelles pour l'organisme: séquence des nucléotides • - reproduction (formation du semblable): appariement des nucléotides
O - O O P O Base CH2 5’ O C C 4’ H H 1’ NH2 CH3 O 7 H C C H 7 2’ 8 8 6 5 3’ thymine cytosine adenine guanine 6 5 6 6 5 5 C 9 T 9 H OH 4 1 4 1 N NH N N 4 1 4 1 3 2 3 2 3 2 3 2 désoxyribonucléotides Double hélice O O A sucre sucre sucre Séquence des nucléotides La reproduction des organismes est assurée par l'appariement des nucléotides. O N G NH N N N NH2 N N N sucre Fourche de réplication NH2 Complémentarité des nucléotides Génomique Combinaisons possibles = 4n n = 50 > nbre particules de l'univers Les deux molécules filles sont identiques à la molécule mère et donc identiques entre elles Deux double hélices filles La dualité fonctionnelle de l'ADN est intrinsèque à sa structure L'information génétique (le message) est fournie par la succession des nucléotides le long des brins d'ADN
1953 Gène Réplication language à 4 lettres: nucléotides ADN LE CODE GENETIQUE (1966) Transcription TTT phe F TCT ser S TAT tyr Y TGT cys C TTC phe F TCC ser S TAC tyr Y TGC cys C TTA leu L TCA ser S TAA ochre TGA opale TTG leu L TCG ser S TAG amber TGG trp W "intermédiaire" ARN CTT leu L CCT pro P CAT his H CGT arg R CTC leu L CCC pro P CAC his H CGC arg R CTA leu L CCA pro P CAA gln Q CGA arg R CTG leu L CCG pro P CAG gln Q CGG arg R ATT ile I ACT thr T AAT asn N AGT ser S Traduction ATC ile I ACC thr T AAC asn N AGC ser S ATA ile I ACA thr T AAA lys K AGA arg R ATG met M ACG thr T AAG lys K AGG arg R GTT val V GCT ala A GAT asp D GGT gly G GTC val V GCC ala A GAC asp D GGC gly G GTA val V GCA ala A GAA glu E GGA gly G Fonction gly G GTG val V GCG ala A GAG glu E GGG Protéine language à 20 lettres: acides aminés Le "dogme central" de la biologie moléculaire
x x mutation Déterminisme génétique (version élémentaire) Fonction 1 Fonction 2 ADN
Amoeba dubia~ 670 000 000 000 ? Psilotum nudum~ 250 000 000 000 ? Fritillaria assyriaca~ 100 000 000 000 ? Necturus lewisi~100 000 000 000 ? Vitis vinifera 487 000 000 30 400 Arabidopsis thaliana 115 000 000 28 000 Taille du génome (nucléotides) Nbre de gènes (protein-coding) Homo sapiens 2 900 000 000 23 000 Drosophila melanogaster 160 000 000 14 000 Caenorhabditis elegans 98 000 000 19 400 Saccharomyces cerevisiae 12 500 000 5 800 Escherichia coli 4 600 000 4 300
C = complexité du génome = nombre total de nucléotides du génome haploïde (taille du génome) Le paradoxe de la valeur C Les génomes sont (trop) grands Echelle de taille des molécules d’ADN et des génomes homme distance = 1 paire de bases mammifères animaux champignons levures plantes bactéries amibes virus archaea 1 10 102 103 104 105 106 107 108 109 1010 1011 1012 paires de bases kilobases = kb mégabases = Mb gigabases = Gb • en général, les génomes sont trop grands pour le nombre de protéines qu'ils codent • la complexité des génomes n'est pas en relation directe avec la complexité des organismes et le nombre de gènes • les génomes d’espèces proches peuvent différer considérablement en taille
1 2 Fragment d'ADN à séquencer (matrice) Copies incomplètes partant d'un point fixe Fragmentation ADN purifié Sens de la copie --> 3 4 Détection du signal de fluorescence à la sortie du séquenceur Sens de la migration électrophorétique Séquence reconstituée Le séquençage des génomes animaux champignons levures plantes séquençage bactéries amibes virus archaea 1 10 102 103 104 105 106 107 108 109 1010 1011 1012 paires de bases
5 assemblage contig 3X: exploratoire 0.8 0.6 6X: ébauche Nombre de contigs (G/L) 0.4 12X: qualité "finale" 0.2 0 0 2 4 6 8 10 12 Nombre de séquences (c = NL/G) contig 1 contig 2 contig 3 Type de séquence Caractéristiques Utilisation Exploratoire Très nombreux contigs, petite taille Variations polymorphiques, biodiversité Ebauche (draft) Nombreux contigs, taille variable Premières analyses globales Finale Peu de contigs, grands Analyse génomique fonctionnelle Le séquençage des génomes (suite)
6 Finition (supercontigs) Ossature de supercontigs (scaffolds) 7 Finition (remplissage des trous et zones de basse qualité vérification des assemblages, examen des séquences répétées, … ) Séquence finie, complète et de haute qualité 8 Annotation: ensemble de procédures informatiques qui: 1- prédisent (± efficacement) les limites des gènes, des éléments de contrôle et de tout autre élément du génome 2- suggèrent les fonctions des gènes à partir des comparaisons avec ce qui est déjà connu Le séquençage des génomes (fin)
Bactéries 1996Mycoplasma pneumoniae 0.8 Mb Synechocystis sp. 3.6 Mb Methanococcus jannaschii 1.7 Mb (Première Archae) Saccharomyces cerevisiae 12.3 Mb (Premier Eucaryote) 1998Caenorhabditis elegans 98 Mb (Premier organisme multicellulaire) 2000Arabidopsis thaliana 115 Mb (Première plante) Drosophila melanogaster 160 Mb (ébauche) Homo sapiens 2 900 MB Annonce internationale 1ère ébauche 90 % (150 000 trous) Les premiers génomes séquencés 1995 Haemophilus influenzae 1.8 Mb Mycoplasma genitalium 0.6 Mb 2004 Homo sapiens 2ème ébauche (99,9 % de l' euchromatine) 2008 Deux individus Projet "1000 genomes" Consortium international 1000 individus à travers le monde
bactéries eucaryotes archaea Banques de données publiques Février 2008: 108 635 736 141 nucléotides 27 439 206 fichiers "génomes entiers" L'accélération des "projets génomes" http://www.genomesonline.org/ 812 génomes complets et publiés 1766 génomes bactériens (en cours) 936 génomes eucaryotes (en cours) 90 génomes d'archaea (en cours) 130 métagénomes
Pourquoi séquencer les génomes ? Biotechnologies fermentations et bioconversions (acetate, acetone, butanol, éthanol, hydrogène ….) additifs alimentaires (alginate, succinate, glutamate … ) production d'enzymes (cellulase, biocatalyse ….) et protéines Environnement: cycles naturels (carbone, azote , conversion de la biomasse …) traitements (pesticides, fongicides, algicides, …) énergie, pétrole, détergents traitements des eaux, détoxification des sols Alimentation: produits laitiers, fromages, suppléments diététiques, fermentations alimentaires … Agronomie: animaux, plantes, et leurs pathogènes, résistance … Biologie et écologie marine: pêche, aquaculture, algues, plancton …. Pharmacie: vitamines, antibiotiques, acides aminés, acide lactique …. Santé humaine: pathogènes, cancer, vaccins, infections nosocomiales, insectes vecteurs … Connaissance: éducation, évolution, origine de la vie, arbre de la vie, compréhension des mécanismes fondamentaux de la vie, biodiversité …
Apicomplexa Ciliophora Chlorophyta Plasmodium falciparum (2002) Plasmodium yoeli yoeli (2002) Cryptosporidium hominis (2004) Cryptosporidium parvum (2004) Theileria annulata (2005) Theileria parva (2005) Toxoplasma gondi Paramecium tetraurelia (2006) Tetrahymena thermophila(2006) Ostreococcus tauri (2006) Rhodophyta Mammalia Conosa Stramenopiles Homo sapiens Pan troglodytes Mus musculus Rattus norvegicus Gallus gallus Tetraodon negrovirids Fugu rubripes Cyanidioschyzon merolae (2004) Galdieria sulphuraria (2005) Entamoeba histolytica (2005) Dictyostelium discoideum (2005) Thalassiosira pseudonana (2004) Euglenozoa Nematoda Ascomycota Echinodermata Viridiplantae Caenorhabditis elegans (1998) Caenorhabditis briggsae (2003) Oscheius tipulae (2006) Meloidogyne incognita Leishmania major (2005) Trypanosoma brucei (2005) Trypanosoma cruzi (2005) Saccharomyces cerevisiae (1996) Schizosaccharomyces pombe (2002) Strongylocentrus purpuratus Arabidospis thaliana Oryza sativa Populus nigra Vitis vinifera Arthropoda Drosophila melanogaster (2000) La génomique comparative (Eucaryotes)
Qu'apprenons nous dans les génomes ? Catalogue complet des gènes et autres éléments Présence de nombreux gènes et autres éléments de fonctions inconnues Processus dynamiques de modification (altération et évolution) du génome
1953 1970-1980 Réplication Réplication ADN ADN Information génétique Transcription réverse Transcription Transcription Epissage Edition Catalyse ARN ARN Traduction Traduction Protéine Protéine Le "dogme central" de la biologie moléculaire (1ère révision) Gène Fonction
Gène ARN O - O O P NH2 NH2 CH3 O 7 7 7 7 8 8 8 8 6 6 5 5 O base 6 5 6 6 6 6 5 5 5 5 C C 9 9 T 9 9 4 4 1 1 4 1 N N NH N N NH N N 4 4 1 1 4 4 1 1 CH2 3 3 2 2 5’ 3 2 O 3 3 2 2 3 3 2 2 O O O C C 4’ H H 1’ A A sucre sucre sucre sucre sucre H C C H 2’ 3’ désoxyribonucléotides thymine cytosine adenine guanine H OH = 5-méthyl uracile O O O - G G N N N N N N N N NH N N NH2 N N N NH NH2 N O O P sucre sucre O base NH2 NH2 CH2 5’ O O 6 5 C C 4’ H H 1’ U 4 1 3 2 H C C H 2’ 3’ O OH OH sucre uracile cytosine adenine guanine ribonucléotides ADN ADN ARN
Intron 1 Intron 2 Intron 3 ARN précurseur transcrit du gène Exon 1 Exon 2 Exon 3 Exon 4 Jonctions des exons + ARN épissé 5' UTR 3' UTR Introns excisés régulation Phase codante dégradation protéine Epissage des ARN ADN Gène
Formation de rétrogènes Exon shuffling Insertion d'un élément mobile ARN exon élement mobile gène ancestral Exon 1 Intron Exon 2 Exon 1 Intron Exon 2 ADNc nouvel exon rétrogene ou Nouvel exon Nouvel épissage ou perte de l'intron fusion de gène Formation de nouveaux sites d'épissage ou perte des introns 1 % des gènes humains, plus de nombreux pseudogènes, sont issus de ce processus ~ 19 % des exons des génomes eucaryotes proviennent de ce processus ~ 4 % des nouveaux exons du génome humain proviennent de ce processus Evènements évolutifs dépendant des ARN
3 5 1 2 4 6 3' UTR 5' UTR Alu J Saguinus Homo Hylobates Lemur Eulemur Tarsius Saimiri Macaca Colobus Pongo Pan Réversion Hominoidea Cercopithecoidea Platyrrhini Tarsioidea Strepsirrhini Alu J exonisation Mutations au site 3' d'épissage Alu J insertion / fixation ca. 10 MYr Exonisation d'éléments mobiles Gène humain RPE2-1 Ribulose-5-phosphate-3-épimerase exon 3 Partie de séquence Alu J devenant un exon codant intron
Duplication totale du génome Ex.: Le génome de la paramécie (49 000 gènes) révèle les traces de trois évènements successifs de duplication (ancêtre ~ 6 000 gènes) Susumu Ohno, 1970 Duplication de segments du génome Ex.: le génome humain montre plusieurs centaines de segments dupliqués (> 5kb) totalisant ~ 150 Mb (5 % du génome). Source d'instabilités génomiques. Perte de gènes Ex.: génotypage de trios parents-enfant normaux révèle 30-50 délétions nouvelles (> 5kb) à chaque génération (total 550 -750 kb) Les gènes se dupliquent et se perdent Gène ancestral mutations Copies de gènes paralogues nouvelles fonctions spécialisation fonctionnelle redondance Le génome n'est qu'un cliché instantané de processus continuels de duplications et de perte de gènes au cours des générations successives
fonctions régulations évolution Exons codants Introns, UTR, pseudogènes Eléments mobiles Autres régions Les éléments des génomes levure homme Gènes (codant des protéines) 5 770 ~ 23 000 Introns 280 > 100 000 Pseudogènes 10 > 25 000 Éléments mobiles ~ 50 > 1 100 000 Nombre de familles de protéines ~ 4 100 ~10 000 Redondance (gènes paralogues) 1,4 x 2,3 x
Buts et outils de la génomique fonctionnelle Buts: connaître les fonctions de tous les gènes comprendre leurs interactions prédire les phénotypes à partir du génotype
1- l'expression des gènes dans différentes conditions est révélatrice de leur fonction 2- les gènes qui participent à une même fonction doivent avoir des expressions corrélées Zone des variations non significatives Condition 2 Condition 1 Gènes dont l'expression est corrélée Principes pour l'interprétation des résultats
Nombreux gènes Gène Nombreux ARN ARN La grande sous-unité du ribosome ARN RNA Complexe fonctionnel Fonction proteins Protéines Les interactions fonctionnelles
2- identification des interactions binaires par artifice génétique (double hybride) Y X ON A B Y X OFF I J K Mutant 1 de J Mutant 2 de J Identifier les interactions des protéines 1- purification biochimique des complexes Marquage de chaque gène par une étiquette moléculaire facilitant la purification de la protéine dans des conditions non dénaturantes Analyse des complexes purifiés par spectrographie de masse
2- Phénotypes synthétiques Mutant B Mutant A+B Mutant A Mutants ---> Mutants ---> Identifier les interactions fonctionnelles des gènes 1- Collections complètes de mutants Collections de délétions avec marquage moléculaire (barcoding). Recherche de phénotypes et d'interactions. Saccharomyces cerevisiae 5 770 gènes (protéines) Collections de gènes surexprimés (augmentation de la quantité de protéine). Recherche de phénotypes et d'interactions. Collections de fusions de gènes pour produire les protéines fluorescentes. Localisation intracellulaire.
fonctions inconnues Nombre de gènes fonctions identifiées temps Integration des résultats des différentes approches : vers la connaissance complète du fonctionnement d'une cellule Génomique comparative Interactions des produits des gènes ARN Génétique Prédire le phénotype Replacer les mécanismes dans l'évolution Localisation intracellulaire
1953 1970-1980 2008 Réplication Réplication Réplication ADN ADN ADN Transcription reverse Transcription multiple Transcription réverse Transcription Transcription ARN Evolution Formation de gènes Epigénèse Epissage Edition Régulation Epissage Edition ARN ARN Traduction Traduction Traduction Protéine ProtéineS Protéine Le "dogme central" de la biologie moléculaire (actuel)
Séquencer le transcriptome Gène Le génome séquencé Le génome fonctionnel ARN Fonction Les fonctions étudiées
Qu'est qu'un gène ? ENCODE Project Consortium 2004 Science306: 636-640 ADN Transcrits primaires Transcrits épissés Protéines Produits fonctionnels ARN nc Gènes Gerstein et al., 2007 Genome Res. 17: 669-681
Pyroséquençage ~250 nuc. 400 000 100 Mb 0,1 Phase solide 25-35 nuc. 40 000 000 1 000 Mb 0,01 80 000 000 2 000 Mb 0,01 Combinaison des technologies: vers le séquençage des individus et des populations entières Les nouvelles techniques de séquençage Méthode longueur des nombre de total par coût relatif lectures lectures tour (run) par nucléotide Sanger ~700 nuc. 96 70 Kb 1
Quelques grands projets en cours ou annoncés ENCyclopedia Of DNA Elements (ENCODE) Universités américaines, NHGRI But: identifier tous les éléments fonctionnels du génome humain 1000 genomes Consortium international But: cartographier le polymorphisme génétique de la population humaine (1000 individus) Origine de la multicellularité NHGRI But: identifier les gènes et complexes impliqués dans l'apparition de la vie multicellulaire (animaux, champignons, protistes) Microbiome humain Plusieurs centres de séquençage américain But: identification exhaustive de la flore microbienne commensale de l'homme Encyclopédie génomique des bactéries et archaea JGI But: étudier toutes les branches phylogénétiques de l'arbre de la vie (procaryote) Bar coding of life 130 organisations, 43 pays But: attribuer une signature moléculaire standard à chaque espèce identifiée
Qu'est ce que la vie ? principes physico-chimiques + hérédité génome