660 likes | 804 Views
2004, l’odyssée des génomes Enjeux scientifiques, médicaux et éthiques. Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Genève – 3 Février 2004. Institut Suisse de Bioinformatique (ISB). Fondation à but non-lucratif créée le 30 mars 1998;
E N D
2004, l’odyssée des génomesEnjeux scientifiques, médicaux et éthiques Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Genève – 3 Février 2004
Institut Suisse de Bioinformatique (ISB) • Fondation à but non-lucratif créée le 30 mars 1998; • Associé à de nombreux partenaires académiques (Universités, écoles polytechniques) et instituts de recherche (ISREC, Ludwig); • Recherche, enseignement, développement et prestations de services en bioinformatique; • Initialement situé à Genève et Lausanne. Depuis 2002 aussi à Bâle; • Dix groupes, ~130 chercheurs en 2004. www.isb-sib.ch
Vue « chimique » et « alimentaire » des constituants du vivant • Au niveau moléculaire: • Eau; • Sels minéraux et métaux; • Lipides; • Sucres: monosaccharides (exemple: glucose); oligosaccharides (exemple: cellulose); • Acides nucléiques (=ADN et ARN); • Protéines Les oligosaccharides, acides nucléiques et protéines sont des macromolécules
Les acides nucléiques • Des chaînes composées de quatre types de nucléotides; • Un nucléotide est formé d’un sucre (ribose dans ARN et deoxyribose dans ADN), d’un groupe phosphate et d’une base; • Les 4 types de bases sont: Adénine (A), Cytosine (C), Guanine (G) et Thymine (T); • L’ADN forme souvent des double brins (double hélice) par complémentarité; • Support de l’information génétique ACGTATGTATCGTGTATGACGTATATGTCATGATGTGA
Les protéines • Des chaînes composées de 20 types d’acides aminés qui ont des caractéristiques physico-chimique distinctes; • Séquences de taille variable: de 10 à 10,000 a.a; • 4,000 protéines différentes chez une bactérie; plus de 20,000 chez l’être humain; • Les protéines forment des structures tridimensionelles complexes; • Des fonctions très variées: structure (collagène); transport (hémoglobine); hormone (insuline); enzyme (trypsine), etc. Met-Ser-Ala-Thr-Arg-Arg-Lys-Ala-Val-Phe-Pro-Ser-Thr-Ile-Tyr M S A T R R K A V F P S T I Y
Structure d’une protéine Séquence d’une protéine
Le "dogme central", introduit par Francis Crick (co-découvreur de lastructure de l'ADN) à la fin des années 50, veut que chez tous les êtresvivants, l'information ne soit transmise que dans un sens: de l'ADN, oùrepose l'information, à l'ARN, une structure transitoire permettant satransmission à une machine de traduction, aux protéines, les constituantsde base qui font fonctionner la cellule et l'organisme entier. Dogme central
Code génétique universel Le code génétique est le système decorrespondance permettant au message génétique (acidesnucléiques) d'être traduit en protéine par une cellule. A chaque séquence de 3 bases consécutives (codon) portées par l'ARN messager,correspond un acide aminé donné et un seul. Il y a 64 combinaisons codon-acide aminé possibles pour 20 acides aminésseulement. Un même acide aminé peut donc être codé par plusieurscodons différents: on parle de "code dégénéré". Mais il existe des exceptions au code génétique «universel»; certains organismes utilisent des variantes de ce code!
L’ADN est organisé en gènes; L’ensemble des gènes forme le génome d’un organisme; La discipline qui a comme champ d’action l’étude des gènes est appelée génomique. La plupart des gènes codent pour des protéines; L’ensemble des protéines exprimées par un organisme est appelé son protéome; La discipline qui a comme champ d’action l’étude des protéines est appelée protéomique. Quelques definitions La génomique et la protéomique font partie de la biologie moléculaire («wet lab»). On utilise l’informatique pour étudier les séquences et les structures de l’ADN et des protéines; on parle alors de bioinformatique («dry lab»).
Retrouvez tous ces héros dans ma prochaine aventure! Les «iques» • Génomique • Transcriptomique • Protéomique • Métabolique • Bioinformatique • Mais aussi biomique, cellomique, crystallomique, diagnomique, epigénomique, glycomique,immunomique, interactomique, métabonomique, opéromique, pathogénomique, phénomique,physiomique, protéomatique, régulomique, gènomique structurelle et la toxicomique!
Quelques clefs pour comprendre le pourquoi et le comment de ces «iques» • Aucune de ces techniques ne peut exister par elle-même, elles sont complémentaires; • Chacune produit des résultats expérimentaux qui permettent d’appréhender une partie spécifique des processus moléculaires du monde vivant; • Aujourd’hui l’activité majeure dans ces domaines scientifiques est la production massive de données. Il s’agit d’une industrialisation du travail de laboratoire; • Qui dit «données» implique l’utilisation de la bioinformatique pour stocker et analyser ces informations!
De nombreuses techniques expérimentales produisent une vaste quantité d’information
Bioinformatique moléculaire: une définition Les applications de l’informatique à la biologie moléculaire Et plus particulièrement l’étude de macromolécules telles que les protéines, les acides nucléiques et les oligosaccharides (sucres)
La bioinformatique: banques de données et logiciels • De nombreuses banques de données: plus de 1,000. De taille et d’importance très variable; • Des outils logiciels pour analyser ces données. Beaucoup de programmes pour analyser les séquences d’ADN et de protéines et les structures 3D; • Une différence essentielle par rapport à un domaine tel que la chimie: la très grande majorité des resources sont gratuites et disponibles sur le web; • Problème: la pérennité du financement de ces resources. Structure 3D de la protéase du virus HIV-1 avec un inhibiteur
La chance d’être bioinformaticien en 2004 • Nous avons le privilège d’être les généralistes du monde «biomoléculaire»; • Un groupe de recherche connaît généralement parfaitement l’ensemble des données concernant un groupe de gènes et de protéines; • Nous avons une connaissance très superficielle de l’ensemble des gènes et génomes et ceci à une époque où chaque jour apporte son lot de découvertes; • Des avancées technologiques ont permis de multiplier la vitesse de séquençage des génomes par un facteur 1,000; • Nous sommes la première génération qui a la possibilité de comprendre les mécanismes du vivant et l’histoire de la vie.
Donc…. • Cette discipline aide à comprendre la signification de certaines des données obtenues à l’aide des “iques”; • La bioinformatique est un composant clef dans le processus de découverte des mécanismes du vivant.
Bref historique des données biomoléculaires • 1953: Découverte de la double hélice d’ADN (Franklin, Crick, Watson) • 1954: 1ère séquence d’une protéine (insuline; Sanger) • 1958: 1ère structure d’une protéine par rayons X (myoglobine; Kendrew) • 1972: Premier séquençage d’ADN • 1977: Techniques de séquençage rapide de l’ADN (Gilbert et Sanger!) • 1986: PCR (la photocopieuse du biologiste!) • 1992: Séquence du chromosome III de la levure (3x105 pb) • 1995: Séquence du génome de la bactérie Haemophilus influenzae (2x106 pb) • 1999: Séquence du génome d’un organisme multicellulaire (Caenorhabditis elegans) (108 pb) • 2000: Séquence du génome humain (3x109 pb) • 2001: Démarrage des projets de génomique structurelle • 2002: Une quantité significative de données de micro-array (micro-tableaux) devient disponible • Jan 2004: 140 génomes microbiens et 20 génomes eukaryotes
Plus de 50% de l’information biomoléculaire disponible aujourd’hui a été obtenue ces trois dernières années
La taille des génomes (en nombre de bases) Viroïde 300 Petit phage (virus infectant une bactérie) 2,000 Virus du SIDA 10,000 Virus de l’herpes 150,000 Mycoplasma genitalium (bactérie parasite) 600,000 Bactérie 1 à 13 millions Levure du boulanger 13 millions Drosophile (mouche) 180 millions Poisson fugu 360 millions Homme 3.2 milliards Pin 68 milliards Salamandre 81 milliards Amibe 670 milliards
Deux observations découlent de la taille des génomes 1) La limite minimale pour un organisme vivant autonome s’établit à environ un million de bases. Il ne s’agit pas d’une limite «théorique», mais d’une constatation découlant de la quantité d’ADN nécessaire au codage des protéines essentielles à la vie (réplication, traduction, métabolisme, structure, etc.); 2) A partir d’une certaine taille il n’y a plus de corrélation entre la taille d’un génome et la complexité de l’organisme.
Mimivirus: le plus grand virus connu actuellement: ~800,000 bases
Une petite archée: Nanoarchaeum equitans • Organisme qui vit en symbiose avec une archée du type Ignicoccus; • Trouvée dans des cheminées hydrothermales au nord de l’Islande; • Se reproduit à une température de 90 degrés; • Génome de 490,885 bases; • 95% du génome code pour des gènes
CCCCTGACGACCGATTCAAAAACCACTTTCCTCTTTTACGGCGCCCTAGCGCTATGGCGGTGAAGACTGCTTGACATTAACATGCCTGTTGAGGCTAGAGAATCCATGCGAAGGCGGTTCGGAAACTGCTTCGAAGGCGTGGGGTGGTGCGGGGGGTGGGATTTGAACCCACGCAGGCCTACGCCATCGGGTCCTAAGCCCGACCCCTTTGGCCAGGCTCGGGCACCCCCGCACCGTGTAGTCTTTAGGTTTAGCTTTCAGGGTTAAAACGGTTTAACACTCATGAGTATCACTGGGCTGGCTGTGACTGGGCTCTGCATTCCCGAGGCCATGCTGCCCGTGAGGAATAACGGGTCTGAGGAGCCGTTGACAGGTTGCCATTTGGCCTTGCCCCCAAAAGTGATGCTGTGGATCACGACCTCCTCGGAGGAGGGGAGCCTCAGCATACACTTTATAATGAAGGCTTTAAGGGTTTAGCCGGATAATGTTGTTGGGGCGTGCAGCGGCAAGTGCTGCAGCTCATGGGTATGGTATGCGGCTTTGCCTGGTGATGCGGTTTGGCCCCCGTTGTCTGCGACGTCTGCGGTGTTAGGAGGGCTGTGGTGCTGCAGCGCCACACGGGAAGGCGGCTCTGCAGGGAGTGCTTTAGGGAGGATATAGTGGGGAGGGTCAGGAGGGAGGTTGAGAGGTGGGGGATGATAGGCCCTGGGGAGACGGTCCTCCTAGGCCTGAGCGGCGGTAAGGACAGCTATGTCCTGCTGGACGCCCTCTCCGAGATAGTCGGGCCCTCGAGGCTGGTGGCGGTGTCTATAGTGGAGGGCATACCGGGGTACAACAGGGAGGGAGATATCGAGAAGATCAGGAGGGTGGCCGCGGCTAGGGGCGTCGACGTGATAGTGACGAGCATAAGGGAGTACGTGGGGGCCAGCCTCTATGAGATATACTCCAGGGCCCGAGGGAGGGGGGCGGGCCACGCCGCCTGCACCTACTGCGGCATAAGCAGGAGGAGGATACTTGCCCTCTACGCCCGCCTCTACGGCGCCCACAAGGTCGCTACGGCCCACAACCTCGACGACGAGGCGCAGACAGCTATAGTGAACTTCCTCAGGGGGGACTGGGTTGGCATGCTGAAAACACACCCCCTCTACAGGAGCGGGGGCGAGGACCTGGTTCCAAGGATAAAGCCTCTTAGGAAAGTCTACGAGTGGGAGACGGCCAGCTACGTGGTACTCCACCGCTACCCCATCCAGGAGGCTGAATGCCCCTTCATAAACATGAACCCAACCCTCAGGGCGAGGGTGAGGACGGCCCTGAGGGTGCTAGAGGAGAGGAGCCCGGGCACCCTGCTCAGGATGATGGAGAGGCTCGACGAGGAGCTGAGGCCGCTGGCCCAGGCCATGAAGCCCTCCTCCCTAGGCAGGTGCGAGAGATGCGGGGAGCCGACCAGCCCGAAGAGGAGGCTCTGCAAGCTCTGCGAGCTCCTGGAGGAGGCCGGGTTCCAGGAGCCCATCTACGCGATCGCAGGGAGAGGCAAGAGATTAAGGCTTCAGAGCCCCACCGCTAGCCCTGGGTGAACGCGCTATGGCAAAGCCAAAGGTTAGCCTGCCGGAGGATGTGGAGCCCCCCAAGGCTATAGTCAAGAAGCCTAGGCTAGTGAAGCTAGGCCCCGTAGACCCGGGGGTCAGGAGGGGAAGGGGGTTCAGCCTAGGCGAGCTCGCGGAGGCTGGGCTAGACGCTAAAAAGGCGAGGAAGCTTGGCCTGCACGTGGACACGAGGAGGAGGACGGTCCACCCGTGGAACGTGGAGGCCCTCAAGAAGTATATAGAGAGGCTTAGAGAGGCGGGCGTAGAGGTCTAGACCCCGGGGCTATATACTACCACTTCGCCCTCCCCATTATACTATCCACATCCACCCTGGCCCTCCCCACCTCCAGGACCTCAATATCCCCCTCAGCCCTGGTGTACACGCTCAAAGACGGCTCCCTGTAGGAGGCCCTGGTCACCACCCCCACGTGAATCACCCCTCCCGCGTGTACGGCGGCTATAAGCCCCCTCTCCCAGCCCTCCCGGAGGACGCGGAGCCCGGAGCCTACTCCGACCCTACCGCCCCTCCTCGCCACAACCACTATGTCCCCGTCAACACTCTCACCATAGAGGGCGGCTGGGTGTAGGGCCTTGAGGGCCTCGTGGGCCAGAGGCTCCCCCCGGAATATCGGCGCGCCAACTATCTCGGCCTCGCCGGGCCTGACCCTCCTCTCCCTCCCTCCCGAGGTCCTAAGGGCTATCAGCCTCTCCCTATGAAGAGCCCTCTCCCCCCGGCTCTTGCCCGCCTCTCCAGCCAGCCTCTCCACAGACAGAGTGTCAAGCCCCCACACCCTCTCGAGCAGCCTGGCCCGTCGGCTGGCTATGCCCACCGCGACTACAAGCCTTGCTCTAGAGGCTATGGCGAGGGCTGCCTTAGACTCGAGCCCCTCCCACAGTGATATCCAGCCATCTGTATCCACTACCACCTGGCTGGCCAGTGAGGCCAATCTAGATGCGCAGGCGAGGTAGCGGGACTCCGACCCCCGGGGGGTGAAGCCGCCGACGAAACACGGCTCGACACTCGAGAACGAGTCGTCTAGGCCCGGGACGGCCACGCCCTGTGGAGACGCCAGCGCCATAAACCCCGGGGCGAAGACCTCGTTCTGGCCTATATCCGCCGACAGCAGTCTATACCCACCACCGCCCCTGTTAACTATCCAAGCCGCTAGTGTGCTCTTACCGGAGTCGCTCGGCCCCACAATAGCCACCCTGCCCCGCTGAGAGGCCTCCCTGGCTATGGAGTCGAACCTGTTGTAAGCCTCCTCCACGCCCCCTGTGGAGACTACACCGGACACAATAGCCCTCCCCTCAACCCTGGCGAGCACCGACCTGCCTGCAGGGACCACTAGAGTAGAGCCCTCCCCCAGCCTTCCACCCAAAACCTCTGCAGCACCCTCTACAACCTCTATCCTCCCCGGGCCGCGGACTAGCGCCGAGCCCCATGCAATCTCCACAGGCAAAGCTTTAAACCCCCAGTGGTAAGATATGTGAACCGGGCCGCGGTAGTATAGCCTGGACTAGTATGCGGGCCTGTCAAGGGCCCCGCCTCCGCCCCACCCTCATTCTACTACACGCTTATCAGGATAAACAGCCGGGCAAACGTTTTTAACCCCGCCGAAATTCATACTCTTCCCGGGGCGGAGGCGGGCCTGCGGAGAGCCCGTGACCCGGGTTCAAATCCCGGCCGCGGCGCCAATAATCCTCGCGGCCCGCCTTCAAGACTCACTAAACCCCGGTTGAGCACCCGCAGCATCGATGCTAAGGCTCGAGCCATGCATAGTGCCCGCGGGGGGTGGGGGGATTTGGCGAGGCCTGTTGAGGCGGTAAAGAGGCTGCTGGAGAGGTGGCTGGAGGGTAGGAGGAGGGGTTATGTCCTTACGCTTGTAGCTCTTAGAAGGCTTGAGGAGAGGGGGGAGGAGGCTACTGTAGAGAGGGTTAGGGAGGAGGGCCTGAGGATTCTGGAGAGGACGGAGGGGAGGATAGACTGGGGTGTTACTAGGGATGAGTACACTGTCAACATGGTCTCCAGCGTTCTTCGCGAGCTGGCCGAGAGCGGCCTTGTCGAGATGGTGGACGGCGGGAGGAGTATCGTCAGGTACAGGATAGCGAGGGATGCTGAGGAGGAGTTCCTCTCCAGCTTCGGCCACCTCCTGCAGCTTGTGAGGATGCCGAAGTAGCGTTAAAGCCCTAGGTGCCAGAGGCCGCCGGAGGCTAAGAGGCCGATGAAGGCCTTGAGAGGCTCTGCCGCCAAGCTATCCCTATCCCTGCTGCTCTTTTGGGCTAGCTACTCGATCTACTACACTATAACGAGGCGTGCTGTAGAGGAGGGCCTAGGAGAGGGATCCTACCTCCTGGGCGTCTTGATGTCGGGGGCTGAGGAGGCGCCGCTCGCGGCGTCAATAGTCCTTGGCTACCTGGCGGACAGGCTAGGCTACCGCTTACCCCTGGCCCTGGGCCTGTTTGAGGCTGGGCTGGTCGCTGCAATGGCCTTCACCCCCCTAGAGACCTACCCCATACTGGCTGGGGCTGCGTCGCTAGTCTACGCCCTCTCATACTCCGCCCTAATGGGCCTCGTCCTGGGTGAGAGCGGGGGGAGCGGCTTCAGGTACAGTGTTATAGCAGCCTTCGGCAGCCTTGGCTGGGCTCTCGGCGGGTTGGCGGGGGGAGCGGCTTACTCCCGCCTGGGGTCACTGGGGCTCCTAGTGGCCGCAGCCCTCATGGCCGCCTCATACCTAGTCGCCCTCTCAGCCTCGCCCCCCCGCGGCGGCGCGGCGCCCAGTGTGGGGGAGACGATAACCGCTCTGAAGGGGGTTCTGCCCCTATTTGCAAGCCTCTCAACCAGCTGGGCGGCCTTGGGCTTCTTCTTCGGGGCTGCCAGCATAAGGCTTAGCGAGGCGCTCGAGAGCCCTATCGCCTACGGGCTAGTGCTGACCACCGTCCCCGCACTCCTAGGCTTCCTGGCGAGGCCTGCGGCGGGCAGGCTGGTCGACAAGGCCGGGGCTGTGGCAGTGCTTGCGTTGTCCAACGCGGCATACTCCCTTCTCGCCCTAGTTTTCGGCCTGCCCACCAGTCCGGCCCTGCTGGCCCTTGCATGGAGCCTGCCCCTATACCCCTTTAGGGATGCCGCCGCGGCCATCGCAGTTAGCAGCAGGCTTGAGAGGAGGCTGCAGGCGACGGCCGCGGGGCTGCTCTCAGCGAGCGAGAGCGTCGGCGGCGCTGCAACCCTTGCCCTGGCACTGCTCCTGGATGGGGGGTTTAGGGAGATGATGACGGCTTCAATAGCCCTTATGCTCCTCTCCACCCTACTCCTGGCCGCAGACCACTCTACGGCTCCACGCCGAGAGCCCTGTCCCCGGCGTCGCCAAGGCCCGGCACTATGAAGTAGTTCTCGTCCAGCTCGGGGTCTAGGGCTAGCGTGTATATGGGGGTGTCGCCGTAGAGGGATGATATGTACTCGACGCCCTGCCTGGACGCTATTATAGAGCCTATAACGACCTTGCTGGCCCCCCTGTCTCTGGCCAGCCTCACGGCCTCCGCCACAGTCTTGCCCGTGGCCAGCATCGGGTCTAGAACGACGGCGGGGCCGTCGAACATGCGGGGTAGCCTGGAGTAGTAGACCTCTATCTTGAGCCTGCCCGGCTCCTCGACCCTCCTGGCTGCTACGAGGGCTATCCTCGCCTCCGGCATCATCGAGGCGAAACCCTCTACCATGGGGAGGCTAGCCCCGAGTATCCCTACGAGGTAGACGGGCCCCGCTGGCGCCAGCTCCTTGGCCTTAGCCCCCAGGGGGGTCTCCACCTCCTCCTCCACCCACCCGAGCTCGCCCGCAATGTACACCGCCAGTATGGAGCCCGCTATCCTGACGTACCTCCTAAACTCCGGGAACCCGGTTGTCCGGTCCCTGAGAACCTTGAGGACGTAGCGCGCTAGGGGTGTTTCGCCCCCAATAACCCTAACTGCCGCCACCATGGGAACCTCTAGGTAGTGGTTGAGGCTCCGGAGCTTAAGAGGGTTAAACTCCAGGATGGCCACCTGGGTGCCGCCGGGGATTGGACAGTAGGGTTCTAGAGTCCGCGTTGAGAGCCCTATCCCGCTACCCCCTCTGCGACCGCTGCCTCGGCAGGCTCTTCGCTAGGCTTGGGAGAGGCTGGAGCAATAGGGAGCGGGGAGAGGCTGTCAAGAGGGTTCTGGTGATGGAGCTTCACAGGAGGGTCCTCGAGGGGGATGAGGCGGCGTTGAAAACCCTGGTCTCTGCAGCTCCGAACATAGGGGAGGTGGCAAGGGATGTCGTGGAGCACCTCTCCCCAGGTTCCTACAGGGAGGGCGGCCCATGCGCTGTCTGCGGCGGGCGGCTGGAGAGTGTTATAGCCTCAGCGGTGGAGGAGGGGTACAGGCTGCTAAGGGCTTACGATATCGAGAGGTTCGTAGTCGGGGTCCGGCTAGAGAGAGGTGTTGCCATGGCTGAGGAGGAGGTAAAGCTGGCCGCCGGCGCCGGGTACGGCGAGTCCATTAAGGCTGAGATCAGGAGGGAGGTGGGCAAGCTCCTGGTGAGCCGGGGTGGAGTGACCGTGGACTTCGACAGCCCTGAAGCGACCCTAATGGTGGAGTTCCCCGGGGGCGGGGTTGACATACAGGTCAACAGCCTGCTCTACAAGGCTAGGTACTGGAAGCTTGCCAGGAACATAAGCCAGGCATACTGGCCCACGCCAGAGGGGCCGAGGTACTTCAGCGTGGAGCAGGCTCTATGGCCGGTTCTAAAGCTCACTGGGGGGGAGAGGCTGGTTGTACACGCTGCTGGCAGGGAGGATGTAGACGCCAGGATGCTGGGCAGCGGGAGGCCCATGATAGTCGAGGTCAAGTCGCCTAGGCGCAGGAGGATCCCGCTTGAGGAGCTGGAGGCGGCCGCCAACGCCGGCGGGAAGGGGCTGGTTAGGTTCAGGTTCGAGACGGCTGCCAAGCGTGCCGAGGTCGCGCTTTACAAGGAGGAGACTGCGAGGGTTAGGAAGGTGTACCGCGCCCTGGTAGCGGTGGAGGGTGGTGTTAGTGAGGTGGATGTTGAAGGGTTGAGGAGGGCTCTCGAGGGCGCGGTTATAATGCAGAGGACGCCCTCCAGGGTCCTCCATAGGAGGCCGGATATACTGAGGAGGCGGAGGCTCTACAGCCTAGACTGCAGCCCCCTGGAGGGGGCGCCTCTGATGGAGTGCATATTGGAGGCGGAAGGGGGTCTCTACATCAAGGAGCTGGTCAGCGGTGATGGCGGGAGAACCAGGCCAAGCTTCGCTGAGGTCCTCGGCAGGGAGGCTGTGTGTATAGAGCTCGACGTGGTGTGGGTGGAGCATGAAGCTCCAGCCGCACCCGGCTAAAGCTAAATTAAGCTGGGCTGAGCAAAATACCGGGGGGAGCGTAGGTTGGTCAAGGCACCTAGAGGCTATAGGAACAGGACTAGGAGGCTGTTGAGGAAGCCTGTGAGGGAGAAGGGCAGCATACCCAGGCTCAGCACCTACCTTAGGGAGTACAGGGTGGGCGATAAGGTGGCTATAATCATAAACCCCTCCTTCCCAGACTGGGGCATGCCCCACAGGAGGTTCCACGGGCTGACGGGAACCGTGGTGGGGAAGAGGGGCGAGGCCTACGAGGTAGAGGTCTATCTGGGTAGGAAGAGGAAGACCCTCTTCGTCCCCCCCGTGCACCTCAAACCCCTCAGCACAGCCGCCGAGAGGCGGGGCAGCTAGAGCTGTCCCCACGGTTCCACGCTGGAGTAGGGGGTGCTAGTGTTGGAGAGGAGGATCCTAGAGTATAAGGCGGTGCCCTACCAGGTAGCCAAGAAGTATATGTACGAGAGGGTTAGGGAGGGCGACATAATATCGATACAGGAGTCGACTTGGGAGTACTTCAGGAAGGTAGTGTTCTGGGACGACCCGGAGGCTGCCTCCGAGCTTGTTGAGGAGATTGTGAAGGAGGGTGTCAGCCGTGAGGCGCGGCGAACATCGCGAGCATATGCCCCAAGACCGAGGGCGAGCTCAGGAGCATTCTCGAGATGGACAGGAGCATAACCTCCGTACACGAGATGGCTAGCAAACTGTACCCCATAGTTTCCAAATACTGCAAGGACTAGACCCCGCCCCCCTTCAGCCCGGGGATTAACAGTTTAATCTCCGCGTCCCAACCATATTTATGTTGATAGCGGCTGTACGGAGAGTGTTGAGAAGTGTCTAGACAGCCCCGCCCCCGCGACAGGAAGCCCCCCCACCAGGGGAGGCCGCAGCCCCACATCGCCGCCCTTGAGGTGGAGGCTATAGTTCTGGACTACATACCCGAGGGCTACCCGAGAGACCCCCACAGGGAGCACCGCAGTAAGCCCGTCGTTCAGGGTCTCGGGGTTAGGAGGCTGCACCTAGTCGACGGTGTCCCCCTCCATGAGGTCGATATACTGGAGCGGGTCACCCTGGCTAGGGAGGTTGTGTATAGCGTCCCCATAGTGGCCCGGCTCCCCGGGGGGGTCGAGAGGAGGGTGAAAAGTGTTACCGTCGCGGTAACATGCCTCCCCGGCCAGGCGCGGGAGGGCGGGGTCAGGGAGATATACTGCTACCCCCTCTCCTACGCCGACCAGGCGACCCTGGAGGCGCTGCAGCAGCTCCTGGGTGAGGGGGACGAGAGGCACAGGTATATACTTGTGGACTCCCCCGACAAGCTCTCCGAGGTGGCCAGAGGTCACGGCCTCTCGGGGAAGATAGTGAGCACGCCCAGAGACCCTATATCCTACCAGGACCTCACCGACGTCGCCAGGGCTACGCTGCCGGACGCTGTGAGGAAGCTGGTCAGGGAGAGGGAGGACTTCTTCGTGGAGTTCTTCAACGTGGCCGAGCCGATAAACATAAGGATACACGCGCTGGAGGCCCTAAAGGGTGTGGGTAAGAAGATGGCTAGGCACCTCCTCCTCGAGAGGGAGAGGCGTAGGTTCACGAGTTTCGAGGAGGTGAAGAAGATTCTGAAGATAGACCCCGCAGAGGCCCTGGCCGAGAAGATAATGGAGGAGATAGAGTGTAGGGACACTGTGAAATACTACTTCTTCGTCGAGCCCTGCGACCCCTCCAAGCCCTACCTAGGCTACACGGAGAGGATGTGGAAGGCCTATGCCCCCCTGACGACCGATTCAAAAACCACTTTCCTCTTTTACGGCGCCCTAGCGCTATGGCGGTGAAGACTGCTTGACATTAACATGCCTGTTGAGGCTAGAGAATCCATGCGAAGGCGGTTCGGAAACTGCTTCGAAGGCGTGGGGTGGTGCGGGGGGTGGGATTTGAACCCACGCAGGCCTACGCCATCGGGTCCTAAGCCCGACCCCTTTGGCCAGGCTCGGGCACCCCCGCACCGTGTAGTCTTTAGGTTTAGCTTTCAGGGTTAAAACGGTTTAACACTCATGAGTATCACTGGGCTGGCTGTGACTGGGCTCTGCATTCCCGAGGCCATGCTGCCCGTGAGGAATAACGGGTCTGAGGAGCCGTTGACAGGTTGCCATTTGGCCTTGCCCCCAAAAGTGATGCTGTGGATCACGACCTCCTCGGAGGAGGGGAGCCTCAGCATACACTTTATAATGAAGGCTTTAAGGGTTTAGCCGGATAATGTTGTTGGGGCGTGCAGCGGCAAGTGCTGCAGCTCATGGGTATGGTATGCGGCTTTGCCTGGTGATGCGGTTTGGCCCCCGTTGTCTGCGACGTCTGCGGTGTTAGGAGGGCTGTGGTGCTGCAGCGCCACACGGGAAGGCGGCTCTGCAGGGAGTGCTTTAGGGAGGATATAGTGGGGAGGGTCAGGAGGGAGGTTGAGAGGTGGGGGATGATAGGCCCTGGGGAGACGGTCCTCCTAGGCCTGAGCGGCGGTAAGGACAGCTATGTCCTGCTGGACGCCCTCTCCGAGATAGTCGGGCCCTCGAGGCTGGTGGCGGTGTCTATAGTGGAGGGCATACCGGGGTACAACAGGGAGGGAGATATCGAGAAGATCAGGAGGGTGGCCGCGGCTAGGGGCGTCGACGTGATAGTGACGAGCATAAGGGAGTACGTGGGGGCCAGCCTCTATGAGATATACTCCAGGGCCCGAGGGAGGGGGGCGGGCCACGCCGCCTGCACCTACTGCGGCATAAGCAGGAGGAGGATACTTGCCCTCTACGCCCGCCTCTACGGCGCCCACAAGGTCGCTACGGCCCACAACCTCGACGACGAGGCGCAGACAGCTATAGTGAACTTCCTCAGGGGGGACTGGGTTGGCATGCTGAAAACACACCCCCTCTACAGGAGCGGGGGCGAGGACCTGGTTCCAAGGATAAAGCCTCTTAGGAAAGTCTACGAGTGGGAGACGGCCAGCTACGTGGTACTCCACCGCTACCCCATCCAGGAGGCTGAATGCCCCTTCATAAACATGAACCCAACCCTCAGGGCGAGGGTGAGGACGGCCCTGAGGGTGCTAGAGGAGAGGAGCCCGGGCACCCTGCTCAGGATGATGGAGAGGCTCGACGAGGAGCTGAGGCCGCTGGCCCAGGCCATGAAGCCCTCCTCCCTAGGCAGGTGCGAGAGATGCGGGGAGCCGACCAGCCCGAAGAGGAGGCTCTGCAAGCTCTGCGAGCTCCTGGAGGAGGCCGGGTTCCAGGAGCCCATCTACGCGATCGCAGGGAGAGGCAAGAGATTAAGGCTTCAGAGCCCCACCGCTAGCCCTGGGTGAACGCGCTATGGCAAAGCCAAAGGTTAGCCTGCCGGAGGATGTGGAGCCCCCCAAGGCTATAGTCAAGAAGCCTAGGCTAGTGAAGCTAGGCCCCGTAGACCCGGGGGTCAGGAGGGGAAGGGGGTTCAGCCTAGGCGAGCTCGCGGAGGCTGGGCTAGACGCTAAAAAGGCGAGGAAGCTTGGCCTGCACGTGGACACGAGGAGGAGGACGGTCCACCCGTGGAACGTGGAGGCCCTCAAGAAGTATATAGAGAGGCTTAGAGAGGCGGGCGTAGAGGTCTAGACCCCGGGGCTATATACTACCACTTCGCCCTCCCCATTATACTATCCACATCCACCCTGGCCCTCCCCACCTCCAGGACCTCAATATCCCCCTCAGCCCTGGTGTACACGCTCAAAGACGGCTCCCTGTAGGAGGCCCTGGTCACCACCCCCACGTGAATCACCCCTCCCGCGTGTACGGCGGCTATAAGCCCCCTCTCCCAGCCCTCCCGGAGGACGCGGAGCCCGGAGCCTACTCCGACCCTACCGCCCCTCCTCGCCACAACCACTATGTCCCCGTCAACACTCTCACCATAGAGGGCGGCTGGGTGTAGGGCCTTGAGGGCCTCGTGGGCCAGAGGCTCCCCCCGGAATATCGGCGCGCCAACTATCTCGGCCTCGCCGGGCCTGACCCTCCTCTCCCTCCCTCCCGAGGTCCTAAGGGCTATCAGCCTCTCCCTATGAAGAGCCCTCTCCCCCCGGCTCTTGCCCGCCTCTCCAGCCAGCCTCTCCACAGACAGAGTGTCAAGCCCCCACACCCTCTCGAGCAGCCTGGCCCGTCGGCTGGCTATGCCCACCGCGACTACAAGCCTTGCTCTAGAGGCTATGGCGAGGGCTGCCTTAGACTCGAGCCCCTCCCACAGTGATATCCAGCCATCTGTATCCACTACCACCTGGCTGGCCAGTGAGGCCAATCTAGATGCGCAGGCGAGGTAGCGGGACTCCGACCCCCGGGGGGTGAAGCCGCCGACGAAACACGGCTCGACACTCGAGAACGAGTCGTCTAGGCCCGGGACGGCCACGCCCTGTGGAGACGCCAGCGCCATAAACCCCGGGGCGAAGACCTCGTTCTGGCCTATATCCGCCGACAGCAGTCTATACCCACCACCGCCCCTGTTAACTATCCAAGCCGCTAGTGTGCTCTTACCGGAGTCGCTCGGCCCCACAATAGCCACCCTGCCCCGCTGAGAGGCCTCCCTGGCTATGGAGTCGAACCTGTTGTAAGCCTCCTCCACGCCCCCTGTGGAGACTACACCGGACACAATAGCCCTCCCCTCAACCCTGGCGAGCACCGACCTGCCTGCAGGGACCACTAGAGTAGAGCCCTCCCCCAGCCTTCCACCCAAAACCTCTGCAGCACCCTCTACAACCTCTATCCTCCCCGGGCCGCGGACTAGCGCCGAGCCCCATGCAATCTCCACAGGCAAAGCTTTAAACCCCCAGTGGTAAGATATGTGAACCGGGCCGCGGTAGTATAGCCTGGACTAGTATGCGGGCCTGTCAAGGGCCCCGCCTCCGCCCCACCCTCATTCTACTACACGCTTATCAGGATAAACAGCCGGGCAAACGTTTTTAACCCCGCCGAAATTCATACTCTTCCCGGGGCGGAGGCGGGCCTGCGGAGAGCCCGTGACCCGGGTTCAAATCCCGGCCGCGGCGCCAATAATCCTCGCGGCCCGCCTTCAAGACTCACTAAACCCCGGTTGAGCACCCGCAGCATCGATGCTAAGGCTCGAGCCATGCATAGTGCCCGCGGGGGGTGGGGGGATTTGGCGAGGCCTGTTGAGGCGGTAAAGAGGCTGCTGGAGAGGTGGCTGGAGGGTAGGAGGAGGGGTTATGTCCTTACGCTTGTAGCTCTTAGAAGGCTTGAGGAGAGGGGGGAGGAGGCTACTGTAGAGAGGGTTAGGGAGGAGGGCCTGAGGATTCTGGAGAGGACGGAGGGGAGGATAGACTGGGGTGTTACTAGGGATGAGTACACTGTCAACATGGTCTCCAGCGTTCTTCGCGAGCTGGCCGAGAGCGGCCTTGTCGAGATGGTGGACGGCGGGAGGAGTATCGTCAGGTACAGGATAGCGAGGGATGCTGAGGAGGAGTTCCTCTCCAGCTTCGGCCACCTCCTGCAGCTTGTGAGGATGCCGAAGTAGCGTTAAAGCCCTAGGTGCCAGAGGCCGCCGGAGGCTAAGAGGCCGATGAAGGCCTTGAGAGGCTCTGCCGCCAAGCTATCCCTATCCCTGCTGCTCTTTTGGGCTAGCTACTCGATCTACTACACTATAACGAGGCGTGCTGTAGAGGAGGGCCTAGGAGAGGGATCCTACCTCCTGGGCGTCTTGATGTCGGGGGCTGAGGAGGCGCCGCTCGCGGCGTCAATAGTCCTTGGCTACCTGGCGGACAGGCTAGGCTACCGCTTACCCCTGGCCCTGGGCCTGTTTGAGGCTGGGCTGGTCGCTGCAATGGCCTTCACCCCCCTAGAGACCTACCCCATACTGGCTGGGGCTGCGTCGCTAGTCTACGCCCTCTCATACTCCGCCCTAATGGGCCTCGTCCTGGGTGAGAGCGGGGGGAGCGGCTTCAGGTACAGTGTTATAGCAGCCTTCGGCAGCCTTGGCTGGGCTCTCGGCGGGTTGGCGGGGGGAGCGGCTTACTCCCGCCTGGGGTCACTGGGGCTCCTAGTGGCCGCAGCCCTCATGGCCGCCTCATACCTAGTCGCCCTCTCAGCCTCGCCCCCCCGCGGCGGCGCGGCGCCCAGTGTGGGGGAGACGATAACCGCTCTGAAGGGGGTTCTGCCCCTATTTGCAAGCCTCTCAACCAGCTGGGCGGCCTTGGGCTTCTTCTTCGGGGCTGCCAGCATAAGGCTTAGCGAGGCGCTCGAGAGCCCTATCGCCTACGGGCTAGTGCTGACCACCGTCCCCGCACTCCTAGGCTTCCTGGCGAGGCCTGCGGCGGGCAGGCTGGTCGACAAGGCCGGGGCTGTGGCAGTGCTTGCGTTGTCCAACGCGGCATACTCCCTTCTCGCCCTAGTTTTCGGCCTGCCCACCAGTCCGGCCCTGCTGGCCCTTGCATGGAGCCTGCCCCTATACCCCTTTAGGGATGCCGCCGCGGCCATCGCAGTTAGCAGCAGGCTTGAGAGGAGGCTGCAGGCGACGGCCGCGGGGCTGCTCTCAGCGAGCGAGAGCGTCGGCGGCGCTGCAACCCTTGCCCTGGCACTGCTCCTGGATGGGGGGTTTAGGGAGATGATGACGGCTTCAATAGCCCTTATGCTCCTCTCCACCCTACTCCTGGCCGCAGACCACTCTACGGCTCCACGCCGAGAGCCCTGTCCCCGGCGTCGCCAAGGCCCGGCACTATGAAGTAGTTCTCGTCCAGCTCGGGGTCTAGGGCTAGCGTGTATATGGGGGTGTCGCCGTAGAGGGATGATATGTACTCGACGCCCTGCCTGGACGCTATTATAGAGCCTATAACGACCTTGCTGGCCCCCCTGTCTCTGGCCAGCCTCACGGCCTCCGCCACAGTCTTGCCCGTGGCCAGCATCGGGTCTAGAACGACGGCGGGGCCGTCGAACATGCGGGGTAGCCTGGAGTAGTAGACCTCTATCTTGAGCCTGCCCGGCTCCTCGACCCTCCTGGCTGCTACGAGGGCTATCCTCGCCTCCGGCATCATCGAGGCGAAACCCTCTACCATGGGGAGGCTAGCCCCGAGTATCCCTACGAGGTAGACGGGCCCCGCTGGCGCCAGCTCCTTGGCCTTAGCCCCCAGGGGGGTCTCCACCTCCTCCTCCACCCACCCGAGCTCGCCCGCAATGTACACCGCCAGTATGGAGCCCGCTATCCTGACGTACCTCCTAAACTCCGGGAACCCGGTTGTCCGGTCCCTGAGAACCTTGAGGACGTAGCGCGCTAGGGGTGTTTCGCCCCCAATAACCCTAACTGCCGCCACCATGGGAACCTCTAGGTAGTGGTTGAGGCTCCGGAGCTTAAGAGGGTTAAACTCCAGGATGGCCACCTGGGTGCCGCCGGGGATTGGACAGTAGGGTTCTAGAGTCCGCGTTGAGAGCCCTATCCCGCTACCCCCTCTGCGACCGCTGCCTCGGCAGGCTCTTCGCTAGGCTTGGGAGAGGCTGGAGCAATAGGGAGCGGGGAGAGGCTGTCAAGAGGGTTCTGGTGATGGAGCTTCACAGGAGGGTCCTCGAGGGGGATGAGGCGGCGTTGAAAACCCTGGTCTCTGCAGCTCCGAACATAGGGGAGGTGGCAAGGGATGTCGTGGAGCACCTCTCCCCAGGTTCCTACAGGGAGGGCGGCCCATGCGCTGTCTGCGGCGGGCGGCTGGAGAGTGTTATAGCCTCAGCGGTGGAGGAGGGGTACAGGCTGCTAAGGGCTTACGATATCGAGAGGTTCGTAGTCGGGGTCCGGCTAGAGAGAGGTGTTGCCATGGCTGAGGAGGAGGTAAAGCTGGCCGCCGGCGCCGGGTACGGCGAGTCCATTAAGGCTGAGATCAGGAGGGAGGTGGGCAAGCTCCTGGTGAGCCGGGGTGGAGTGACCGTGGACTTCGACAGCCCTGAAGCGACCCTAATGGTGGAGTTCCCCGGGGGCGGGGTTGACATACAGGTCAACAGCCTGCTCTACAAGGCTAGGTACTGGAAGCTTGCCAGGAACATAAGCCAGGCATACTGGCCCACGCCAGAGGGGCCGAGGTACTTCAGCGTGGAGCAGGCTCTATGGCCGGTTCTAAAGCTCACTGGGGGGGAGAGGCTGGTTGTACACGCTGCTGGCAGGGAGGATGTAGACGCCAGGATGCTGGGCAGCGGGAGGCCCATGATAGTCGAGGTCAAGTCGCCTAGGCGCAGGAGGATCCCGCTTGAGGAGCTGGAGGCGGCCGCCAACGCCGGCGGGAAGGGGCTGGTTAGGTTCAGGTTCGAGACGGCTGCCAAGCGTGCCGAGGTCGCGCTTTACAAGGAGGAGACTGCGAGGGTTAGGAAGGTGTACCGCGCCCTGGTAGCGGTGGAGGGTGGTGTTAGTGAGGTGGATGTTGAAGGGTTGAGGAGGGCTCTCGAGGGCGCGGTTATAATGCAGAGGACGCCCTCCAGGGTCCTCCATAGGAGGCCGGATATACTGAGGAGGCGGAGGCTCTACAGCCTAGACTGCAGCCCCCTGGAGGGGGCGCCTCTGATGGAGTGCATATTGGAGGCGGAAGGGGGTCTCTACATCAAGGAGCTGGTCAGCGGTGATGGCGGGAGAACCAGGCCAAGCTTCGCTGAGGTCCTCGGCAGGGAGGCTGTGTGTATAGAGCTCGACGTGGTGTGGGTGGAGCATGAAGCTCCAGCCGCACCCGGCTAAAGCTAAATTAAGCTGGGCTGAGCAAAATACCGGGGGGAGCGTAGGTTGGTCAAGGCACCTAGAGGCTATAGGAACAGGACTAGGAGGCTGTTGAGGAAGCCTGTGAGGGAGAAGGGCAGCATACCCAGGCTCAGCACCTACCTTAGGGAGTACAGGGTGGGCGATAAGGTGGCTATAATCATAAACCCCTCCTTCCCAGACTGGGGCATGCCCCACAGGAGGTTCCACGGGCTGACGGGAACCGTGGTGGGGAAGAGGGGCGAGGCCTACGAGGTAGAGGTCTATCTGGGTAGGAAGAGGAAGACCCTCTTCGTCCCCCCCGTGCACCTCAAACCCCTCAGCACAGCCGCCGAGAGGCGGGGCAGCTAGAGCTGTCCCCACGGTTCCACGCTGGAGTAGGGGGTGCTAGTGTTGGAGAGGAGGATCCTAGAGTATAAGGCGGTGCCCTACCAGGTAGCCAAGAAGTATATGTACGAGAGGGTTAGGGAGGGCGACATAATATCGATACAGGAGTCGACTTGGGAGTACTTCAGGAAGGTAGTGTTCTGGGACGACCCGGAGGCTGCCTCCGAGCTTGTTGAGGAGATTGTGAAGGAGGGTGTCAGCCGTGAGGCGCGGCGAACATCGCGAGCATATGCCCCAAGACCGAGGGCGAGCTCAGGAGCATTCTCGAGATGGACAGGAGCATAACCTCCGTACACGAGATGGCTAGCAAACTGTACCCCATAGTTTCCAAATACTGCAAGGACTAGACCCCGCCCCCCTTCAGCCCGGGGATTAACAGTTTAATCTCCGCGTCCCAACCATATTTATGTTGATAGCGGCTGTACGGAGAGTGTTGAGAAGTGTCTAGACAGCCCCGCCCCCGCGACAGGAAGCCCCCCCACCAGGGGAGGCCGCAGCCCCACATCGCCGCCCTTGAGGTGGAGGCTATAGTTCTGGACTACATACCCGAGGGCTACCCGAGAGACCCCCACAGGGAGCACCGCAGTAAGCCCGTCGTTCAGGGTCTCGGGGTTAGGAGGCTGCACCTAGTCGACGGTGTCCCCCTCCATGAGGTCGATATACTGGAGCGGGTCACCCTGGCTAGGGAGGTTGTGTATAGCGTCCCCATAGTGGCCCGGCTCCCCGGGGGGGTCGAGAGGAGGGTGAAAAGTGTTACCGTCGCGGTAACATGCCTCCCCGGCCAGGCGCGGGAGGGCGGGGTCAGGGAGATATACTGCTACCCCCTCTCCTACGCCGACCAGGCGACCCTGGAGGCGCTGCAGCAGCTCCTGGGTGAGGGGGACGAGAGGCACAGGTATATACTTGTGGACTCCCCCGACAAGCTCTCCGAGGTGGCCAGAGGTCACGGCCTCTCGGGGAAGATAGTGAGCACGCCCAGAGACCCTATATCCTACCAGGACCTCACCGACGTCGCCAGGGCTACGCTGCCGGACGCTGTGAGGAAGCTGGTCAGGGAGAGGGAGGACTTCTTCGTGGAGTTCTTCAACGTGGCCGAGCCGATAAACATAAGGATACACGCGCTGGAGGCCCTAAAGGGTGTGGGTAAGAAGATGGCTAGGCACCTCCTCCTCGAGAGGGAGAGGCGTAGGTTCACGAGTTTCGAGGAGGTGAAGAAGATTCTGAAGATAGACCCCGCAGAGGCCCTGGCCGAGAAGATAATGGAGGAGATAGAGTGTAGGGACACTGTGAAATACTACTTCTTCGTCGAGCCCTGCGACCCCTCCAAGCCCTACCTAGGCTACACGGAGAGGATGTGGAAGGCCTATGCC Le génome humain est 380,000 fois plus long que la séquence qui est représentée sur cette dia
Parallèle entre l’étude des textes et l’étude des génomes Alphabet Mot Phrase Chapitre Livre Les 4 bases: A, C, G, T Codon (3 bases codant pour un acide aminé) Gène Chromosome Génome
Grammaire et style • Le génome de chaque espèce a une grammaire/style spécifique qui dépend de: • La taille du génome; • Le nombre et la topologie des chromosomes; • La composition en bases; • Le pourcentage et la structure des régions non codantes; • La structure des gènes (intron/exons, éléments de régulation, etc.) Comme pour les textes, il est possible de reconnaître un style, d’observer les similitudes entre les «auteurs» (espèces) et même de détecter les plagiats!!
La diversité biologique On estime de 3 à 30 millions le nombre d’espèces sur terre; l’imprécision est inhérente aux méthodes d’estimation ainsi qu’au flou quant à la définition de ce qu’est une espèce 1,8 millions ont été répertoriées Au total, 50 millions d’espèces auraient vécu sur terre En 2004: 300 génomes (sans compter les virus), plus de 100’000 espèces sont représentées dans les banques de séquence.
Contribution relative des différentes formes de vie à la biodiversité totale
La phylogénie basée sur la comparaison des génomes classe les êtres vivants en trois “règnes” ou lignées généalogiques: eucaryotes, eubactéries et (archées) archébactéries Savoir d’ou l’on vient permet de mieux comprendre les processus du monde vivant
Comment on reconstruit l’évolution à partir d’informations moléculaires HBA Homme VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGHG HBA Chauve-sris VLSSADKTNIKAAWDKVGGNAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGHG HBA Boeuf VLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGHG HBA Cochon VLSAADKANVKAAWGKVGGQAGAHGAEALERMFLGFPTTKTYFPHF-NLSHGSDQVKAHG HBA Alligator VLSMEDKSNVKAIWGKASGHLEEYGAEALERMFCAYPQTKIYFPHF-DMSHNSAQIRAHG HBA Poule VLSAADKNNVKGIFTKIAGHAEEYGAETLERMFTTYPPTKTYFPHF-DLSHGSAQIKGHG HBA Carpe SLSDKDKAAVKGLWAKISPKADDIGAEALGRMLTVYPQTKTYFAHWADLSPGSGPVKKHG *: *: ::. * . . **::* *:: :* :* **.*: ::* .* : :* HBA Homme KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP HBA Chauve-sris KKVGDALTNAVGHLDDLPGALSALSDLHAYKLRVDPVNFKLLSHCLLVTLANHLPSDFTP HBA Boeuf AKVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFTP HBA Cochon QKVADALTKAVGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHHPDDFNP HBA Alligator KKVFSALHEAVNHIDDLPGALCRLSELHAHSLRVDPVNFKFLAHCVLVVFAIHHPSALSP HBA Poule KKVVAALIEAANHIDDIAGTLSKLSDLHAHKLRVDPVNFKLLGQCFLVVVAIHHPAALTP HBA Carpe KVIMGAVGDAVSKIDDLVGGLAALSELHAFKLRVDPANFKILAHNVIVVIGMLYPGDFPP : *: .* ::**: . *. **:***..*****.**::*.: . * .. . HBA Homme AVHASLDKFLASVSTVLTSKYR HBA Chauve-sris AVHASLDKFLASVSTVLTSKYR HBA Boeuf AVHASLDKFLANVSTVLTSKYR HBA Cochon SVHASLDKFLANVSTVLTSKYR HBA Alligator EIHASLDKFLCAVSAVLTSKYR HBA Poule EVHASLDKFLCAVGTVLTAKYR HBA Carpe EVHMSVDKFFQNLALALSEKYR : : ***: :. .*: ***
HBA_HUMAN -MVLSPADKTNVKAAWGKVGA---HAGEYGAEALERMFLSFPTTKTYFPHFDLSH-----HBAZ_HUMAN -MSLTKTERTIIVSMWAKIST---QADTIGTETLERLFLSHPQTKTYFPHFDLHP-----HBB_HUMAN MVHLTPEEKSAVTALWGKV-----NVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVHBD_HUMAN MVHLTPEEKTAVNALWGKV-----NVDAVGGEALGRLLVVYPWTQRFFESFGDLSSPDAVHBE_HUMAN MVHFTAEEKAAVTSLWSKM-----NVEEAGGEALGRLLVVYPWTQRFFDSFGNLSSPSAIHBG_HUMAN MGHFTEEDKATITSLWGKV-----NVEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAIMYG_HUMAN -MGLSDGEWQLVLNVWGKVEA---DIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMGLB_BUSCA --GLDGAQKTALKESWKVLGADGPTMMKNGSLLFGLLFKTYPDTKKHFKHFDDATFA-AM : : : * : * : :: .* * * * HBA_HUMAN -GSAQVKGHGKKVADALTNAVAHVD--DMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVHBAZ_HUMAN -GSAQLRAHGSKVVAAVGDAVKSID--DIGGALSKLSELHAYILRVDPVNFKLLSHCLLVHBB_HUMAN MGNPKVKAHGKKVLGAFSDGLAHLD--NLKGTFATLSELHCDKLHVDPENFRLLGNVLVCHBD_HUMAN MGNPKVKAHGKKVLGAFSDGLAHLD--NLKGTFSQLSELHCDKLHVDPENFRLLGNVLVCHBE_HUMAN LGNPKVKAHGKKVLTSFGDAIKNMD--NLKPAFAKLSELHCDKLHVDPENFKLLGNVMVIHBG_HUMAN MGNPKVKAHGKKVLTSLGDAIKHLD--DLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTMYG_HUMAN KASEDLKKHGATVLTALGGILKKKG--HHEAEIKPLAQSHATKHKIPVKYLEFISECIIQGLB_BUSCA DTTGVGKAHGVAVFSGLGSMICSIDDDDCVBGLAKKLSRNHLARGVSAADFKLLEAVFKZ . : ** * .. . : . . : . : : :.:: : HBA_HUMAN TLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR------HBAZ_HUMAN TLAARFPADFTAEAHAAWDKFLSVVSSVLTEKYR------HBB_HUMAN VLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH------HBD_HUMAN VLARNFGKEFTPQMQAAYQKVVAGVANALAHKYH------HBE_HUMAN ILATHFGKEFTPEVQAAWQKLVSAVAIALAHKYH------HBG_HUMAN VLAIHFGKEFTPEVQASWQKMVTAVASALSSRYH------MYG_HUMAN VLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQGGLB_BUSCA FLDEATQRKATDAQKDADGALLTMLIKAHV---------- * . : : : .
Un problème pour la reconstruction de l’historique de la vie sur terre: les transferts horizontaux Il s’agit du transfert de gènes entre espèces. Phénomène courant chez les micro-organismes (bactéries, archées), moins chez les eucaryotes Nous sommes donc tous des organismes transgéniques. La peur des OGM est à la fois fondée (risques de transferts) et infondée (la nature est déjà «habituée» à gérer ce mécanisme).
Compromis entre «Last common ancestor» et «Last universal ancestor» LUCA: Last Universal Common Ancestor LUCA devait posséder plus ou moins l’ensemble des caractéristiques présentes dans les trois règnes. Il s’agissait donc d’un organisme complexe sur le plan moléculaire avec un génome à ADN.
A la recherche des gènes…. • On pourrait penser que lorsque l’on obtient la séquence d’un génome, il est facile de détecter les gènes et de traduire ces gènes en protéines; • C’est partiellement vrai chez les bactéries et archées dont la grammaire génomique est caractérisée par: • Une très grande densité des gènes (70% à 95% du génome code pour des gènes); • Des structures de gènes simples: pas d’introns, régions régulatrices petites et peu complexes.
Un exemple illustrant la densité d’un génome bactérien: la carte d’une partie du génome de Bacillus subtilis Chez les bactéries: 1 million de paires de bases <=> 1’000 gènes
Mais, chez les eucaryotes…. • Une grammaire complexe: • Il y a beaucoup de régions non-codantes; • Les gènes sont morcelés (exons/introns); • Leurs régions régulatrices peuvent être d’une extrême complexité; • Plusieurs gènes peuvent partager une même région du génome; • Même après avoir détecté un gène, il n’est pas évident de pouvoir prédire son ou ses transcrits: • Epissage alternatif; • Edition de l’ARN messager
Un exemple du résultat de l’analyse d’une région du génome humain La solution: séquençage d’EST et de cDNA complets
Du génome au protéome génome protéome ~ 25’000 gènes humains ~ 1'000'000 protéines humaines Modifications post-traductionelles des protéines (PTMs) Epissage alternatif des mARN Augmentation 5-10 X Augmentation 2-5 X transcriptome ~ 100’000 transcrits humains Ê Augmentation de la complexité
Les protéines (1/2) • Le nombre de permutations possibles pour une protéine de 100 acides aminés est de 20100, beaucoup plus que le nombre d’atomes dans l’univers; • Dans chaque espèce, il y a des protéines «universelles» et d’autres qui sont propres à une ou à un groupe d’espèces; • Ce sont les nanomachines de la vie; aucun phénomène biologique ne peut avoir lieu sans l’aide d’une ou plusieurs protéines;
Les protéines (2/2) • Elles permettent d’aller aux limites de ce qui est possible au niveau moléculaire. Exemples: • Capture de l’énergie solaire (photosynthèse); • Enzymes: permettent de faciliter des réactions qui sinon ne seraient pas possibles dans le cadre de notre biosphère sans apport énergétique important. Exemple: la fixation de l’azote moléculaire; • La technologie actuelle n’arrive pas encore à la cheville de ce que la nature a réussi à façonner en 3 milliards d’années d’évolution.
La banque de données Swiss-Prot http://www.expasy.org/sprot/ crèée en 1986 Une étroite collaboration entre l’Institut Suisse de Bioinformatique (ISB) et l’Institut Européen de Bioinformatique (EBI)
Scientific publications GENOMIC DATA 3D Structures & Drug design Laboratory experiments Genetic studies
Plus de 1’200’000 protéines sont décrites dans Swiss-Prot et TrEMBL Elles proviennent de plus de 60’000 espèces
www.expasy.org Disponible sur ExPASy, Le premier serveur web dans le domaine des sciences de la vie. ExPASy a été développé depuis 1993 à genève 350 millions de connections sur ExPASy et ses sites miroirs en Australie, Bolivie, Canada, Chine, Corée, Etats-Unis et Taiwan
Le groupe Swiss-Prot travaille en collaboration avec Ensemble ils produisent UniProt, “The Universal Protein Resource
Le séquençage du génome humain: lorsque les relations publiques et la politique prennent le pas sur la science