1 / 46

Décoder les génomes

Décoder les génomes. ALLIER Biologie eT Informatique. Hugues Roest Crollius Ecole Normale Supérieure. La Génomique. Le Génome - est le support de l’information génétique - est grand. La Génomique nécessite la production de données à grande échelle - grands projets collaboratifs

shadow
Download Presentation

Décoder les génomes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Décoder les génomes ALLIER Biologie eT Informatique Hugues Roest Crollius Ecole Normale Supérieure

  2. La Génomique Le Génome - est le support de l’information génétique - est grand La Génomique nécessite la production de données à grande échelle - grands projets collaboratifs - automatisation Les problèmes: - le stockage - intégrer et centraliser les données - interroger et analyser les données

  3. La production des données de génomique Les données: de quoi s’agit-il? Adénine Thymine Génome Guanine Cytosine Chromosome Cellule Chromosome Paire de bases ADN T A G C ADN C G A T Squelette phosphate C G T A C G Séquence d’ADN

  4. La production des données de génomique De l’expérience manuelle aux systèmes automatisés Applied Biosystems 3730 Broad Institute (USA) 1990 2008

  5. 200 100 Gb La production des données de génomique Une croissance exponentielle (09 JUIN 2008) Ornithorynque 2008 J. Watson Macaque C. Venter Opossum 2007 2006 Chimpanzé Chien 2005 Rat Tetraodon 2004 Poule 2003 2002 Fugu Souris Progression du volume de données de séquences stockées dans les bases de données publiques Homo 2001 2000 Arabette Drosophile 1999 1998 Nématode 1997 1996 Levure 1995 H. influenzae Sources : EMBL statistics

  6. La production des données de génomique Une grande diversité 16 463 812 séquences distribuées selon 8135 positions géographiques Sources : EMBL statistics

  7. La production des données de génomique Une grande diversité Distribution des données de séquences par groupes taxonomiques: Les vertébrés représentent 70% du total Autres vertébrés Champignons Autres rongeurs Humain Bactéries Plantes Invertébrés Souris Autres mammifères Source:EMBL statistics

  8. La production des données de génomique L’informatique est impliquée tout au long du processus de production: - contrôle des machines à séquencer automatiques - Interprétation des signaux fluorescents produits par les machines - contrôles qualité - transfert de l’information de séquence - assemblage des génomes - stockage dans des bases de données - distribution à la communauté des chercheurs Quelles sont les bases de donnée?

  9. Les bases de données en génomique Génériques: Genbank National Center for Biotechnology Information (NCBI) DDBJ DNA Databank of Japan Echange quotidien de données EMBL-bank European BioInformatics Institute (EBI) Spécialisées: Ensembl Animaux vertébrés Genome Animaux Plantes (céréales, vigne,…) Bactéries Et bien d’autres…

  10. L’information de séquence Est: - informatisée - standardisée - centralisée - de très haute qualité Une situation idéale pour l’analyse par des outils informatiques. Mais quelle information est « codée » dans le génome, et comment l’identifier?

  11. Le contenu en information d’un génome La raison principale qui motive le séquençage d’un génome est d’accéder à son contenu en gènes Mais un génome contient également des instructions pour: - spécifier où et quand utiliser (exprimer) un gène - compacter l’ADN de chaque cellule (~2 mètres) dans le noyau - maintenir l’intégrité de la molécule d’ADN - … Qu’est ce qu’un gène ?

  12. Le dogme central de la biologie moléculaire (le point de vue du biologiste) ARN ADN Protéine Sayo-Art Science Illustration pour la NSF

  13. Qu’est ce qu’un gène? ADN Apolipoprotein E precursor APOE Doublecortine DCX Kératine KRT31 L’ADN des gènes portant les instructions nécessaires à la synthèse des protéines ne représente que 1,5 % des bases du génome humain Le nombre total de gènes dans le génome humain a longtemps été une inconnue, et n’est pas encore déterminé avec précision. Il est estimé aujourd’hui à environ 23000 gènes.

  14. Identifier la position d’un gène dans le génome (le point de vue du bioinformaticien) • Les génomes sont trop grands pour espérer identifier les gènes un par un, par des approches ciblées et spécifiques à chacun d’eux. • Il faut des approches systématiques, automatiques • Une stratégie possible consiste à découvrir les « clés » qu’utilise la cellule pour lire les instructions, par des moyens informatiques • Annoter les gènes des génomes de manière automatique a été un objectif majeur de la bioinformatique pendant les 12 dernières années.

  15. Identifier la position d’un gène dans le génome (le point de vue du bioinformaticien) GGAAGGAGCCATAGCCCAGGCAGGAGGGCTGAGGACCTCTGGTGGCGGCCCAGGGCTTCCAGCATGTGCCCTAGGGGAAGCAGGGGCCAGCTGGCAAGAGCAGGGGGTGGGCAGAAAGCTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCAGGGTCCTCTTGCTCAAGGTGTAGTGGCAGCACGCCCACCTGCTGGCAGCTGGGGACACTGCCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTATAGGGAAACACCCGGAGCATATGCTGTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAAAGTAAAAAATAAATATGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAGCAATGTCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGGTGAAGCCCTGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATGATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATGTAGTTTAAACGAGATTGCCAGCACCGGGTATCATTCACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCATAGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAGTAAGTAGTGCTTGTGCTCATCTCCTTGGCTGTGATACGTGGCCGGCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGTCTGCTGCCATCGGAGCCCAAAGCCGGGCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCTGCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCTGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCTCTGGTGGAGAACCTGTGCATGAAGGCTGTCAACCAGTCCATAGGCAAGCCTGGCTGCCTCCAGCTGGGTCGACAGACAGGGGCTGGAGAAGGGGAGAAGAGGAAAGTGAGGTTGCCTGCCCTGTCTCCTACCTGAGGCTGAGGAAGGAGAAGGGGATGCACTGTTGGGGAGGCAGCTGTAACTCAAAGCCTTAGCCTCTGTTCCCACGAAGGCAGGGCCATCAGGCACCAAAGGGATTCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCACCCTGTCCTGGACACGCTGTTGGCCTGGATCTGAGCCCTGGTGGAGGTCAAAGCCACCTTTGGTTCTGCCATTGCTGCTGTGTGGAAGTTCACTCCTGCCTTTTCCTTTCCCTAGAGCCTCCACCACCCCGAGATCACATTTCTCACTGCCTTTTGTCTGCCCAGTTTCACCAGAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTGCCTGGCGCTGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGCAGGGA

  16. Qu’est ce qu’un gène? Apolipoprotein E precursor APOE Doublecortine DCX Kératine KRT31 Récepteur olfactif OR6N1 exon intron CTTGCAGATGTCGATGCTGGCAGTCA-----ATGAGGTTACATGGCCACAGGTA---GAGTGGCTGCAGATGACTGA

  17. Identifier la position d’un gène… GGAAGGAGCCATAGCCCAGGCAGGAGGGCTGAGGACCTCTGGTGGCGGCCCAGGGCTTCCAGCATGTGCCCTAGGGGAAGCAGGGGCCAGCTGGCAAGAGCAGGGGGTGGGCAGAAAGCTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCAGGGTCCTCTTGCTCAAGGTGTAGTGGCAGCACGCCCACCTGCTGGCAGCTGGGGACACTGCCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTATAGGGAAACACCCGGAGCATATGCTGTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAAAGTAAAAAATAAATATGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAGCAATGTCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGGTGAAGCCCTGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATGATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATGTAGTTTAAACGAGATTGCCAGCACCGGGTATCATTCACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCATAGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAGTAAGTAGTGCTTGTGCTCATCTCCTTGGCTGTGATACGTGGCCGGCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGTCTGCTGCCATCGGAGCCCAAAGCCGGGCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCTGCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCTGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCTCTGGTGGAGAACCTGTGCATGAAGGCTGTCAACCAGTCCATAGGCAAGCCTGGCTGCCTCCAGCTGGGTCGACAGACAGGGGCTGGAGAAGGGGAGAAGAGGAAAGTGAGGTTGCCTGCCCTGTCTCCTACCTGAGGCTGAGGAAGGAGAAGGGGATGCACTGTTGGGGAGGCAGCTGTAACTCAAAGCCTTAGCCTCTGTTCCCACGAAGGCAGGGCCATCAGGCACCAAAGGGATTCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCACCCTGTCCTGGACACGCTGTTGGCCTGGATCTGAGCCCTGGTGGAGGTCAAAGCCACCTTTGGTTCTGCCATTGCTGCTGTGTGGAAGTTCACTCCTGCCTTTTCCTTTCCCTAGAGCCTCCACCACCCCGAGATCACATTTCTCACTGCCTTTTGTCTGCCCAGTTTCACCAGAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTGCCTGGCGCTGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGCAGGGA

  18. Identifier la position d’un gène de manière automatique Les signaux de début (ATG), de fin (TAA,TAG, TGA) et de bornes d’intron (GT et AG) ne sont pas suffisamment discriminant (ou spécifiques): seul certains parmi tous les signaux disponibles sont réellement utilisés pour marquer les limites des gènes. Il faut donc rajouter de l’information.

  19. Le dogme central de la biologie moléculaire ARN ADN Protéine Sayo-Art Science Illustration pour la NSF

  20. Le séquençage des ARN messagers Une source d’information pour annoter les gènes dans le génome GCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCGTCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCAGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCT GCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCGTCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCAGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCT Annotation bioinformatique Noyau Cellule ADN ATGCCCTTCCCCAGCATCAGGTCTCCAGAGCCTTGCGGTGGCCTATAAAGCCTCCTAG ARN Séquençage Protéine Séquence du génome

  21. Analyser la séquence d’un génome Identifier une séquence particulière Le génome humain est composé de 3 milliards de bases A,T,C et G. Comment connaître la positions exacte d’une séquence d’ARN de 100 bases, parmi les différents chromosomes humain, c’est-à-dire parmi les 3 milliards de bases? Cela a revient à rechercher son nom et prénom dans la liste du nom et prénom de tous les français et tous les allemands listés dans le désordre, sans espaces. Un algorithme a été développé dans ce but: BLAST Développé en 1990 par des informaticiens aux USA, leur article a été cité plus de 23.000 fois depuis (4 citations par jour en moyenne), or en moyenne un article n’est cité que 24 fois. Il s’agit du logiciel le plus utilisé dans les Sciences du Vivant dans le monde. Comment fonctionne BLAST ?

  22. BLAST (Basic Local Alignment Search Tool) GGAAGGAGCCATAGCCCAGGCAGGAGGGCTGAGGACCTCTGGTGGCGGCCCAGGGCTTCCAGCATGTGCCCTAGGGGAAGCAGGGGCCAGCTGGCAAGAGCAGGGGGTGGGCAGAAAGCTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCAGGGTCCTCTTGCTCAAGGTGTAGTGGCAGCACGCCCACCTGCTGGCAGCTGGGGACACTGCCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTATAGGGAAACACCCGGAGCATATGCTGTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAAAGTAAAAAATAAATATGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAGCAATGTCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGGTGAAGCCCTGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATGATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATGTAGTTTAAACGAGATTGCCAGCACCGGGTATCATTCACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCATAGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAGTAAGTAGTGCTTGTGCTCATCTCCTTGGCTGTGATACGTGGCCGGCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGTCTGCTGCCATCGGAGCCCAAAGCCGGGCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCTGCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCTGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCTCTGGTGGAGAACCTGTGCATGAAGGCTGTCAACCAGTCCATAGGCAAGCCTGGCTGCCTCCAGCTGGGTCGACAGACAGGGGCTGGAGAAGGGGAGAAGAGGAAAGTGAGGTTGCCTGCCCTGTCTCCTACCTGAGGCTGAGGAAGGAGAAGGGGATGCACTGTTGGGGAGGCAGCTGTAACTCAAAGCCTTAGCCTCTGTTCCCACGAAGGCAGGGCCATCAGGCACCAAAGGGATTCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCACCCTGTCCTGGACACGCTGTTGGCCTGGATCTGAGCCCTGGTGGAGGTCAAAGCCACCTTTGGTTCTGCCATTGCTGCTGTGTGGAAGTTCACTCCTGCCTTTTCCTTTCCCTAGAGCCTCCACCACCCCGAGATCACATTTCTCACTGCCTTTTGTCTGCCCAGTTTCACCAGAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTGCCTGGCGCTGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGCAGGGA ATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACG

  23. BLAST (Basic Local Alignment Search Tool) Séquence « requête » “mot” de taille W = 11 bases A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C Match exact Séquence « cible » T T A C G C G A T G T A G A C A G C G T A G C A A T G T T G C

  24. BLAST (Basic Local Alignment Search Tool) Séquence requête A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C G T A T G C A G C G T A G C A A Séquence cible × × T T A C G C G A T G T A G A C A G C G T A G C A A TG T T G +5+5-4-4 Matrice de score A T G C N A 5 -4 -4 -4 -2 T -4 5 -4 -4 -2 G -4 -4 5 -4 -2 C -4 -4 -4 5 -2 N -2 -2 -2 -2 -1 Somme = -8 paramètre X= seuil à ne pas dépasser = -21

  25. BLAST (Basic Local Alignment Search Tool) Etape 1: ancrage par un mot de taille définie (paramètre W) Etape 2: extensions de chaque côté (paramètre X) Si l’on recherche une identification 100% exacte, alors X=0 Sur un ordinateur familial, la dernière version de BLAST trouve la position correcte d’une séquence de 100 bases dans le génome humain en moins de 2 minutes.

  26. Identifier les gènes dans un génome Nécessite d’associer l’identification de signaux (début, fin, bornes des introns) avec des informations obtenues à partir de l’expression des gènes (ARN). Est-ce ce suffisant? Identifier les signaux (début, fin, bornes des introns Informations dérivées de l’expression des gènes (ARNs) Annotation automatique des gènes Génomique comparative

  27. La génomique comparative Bactérie Chimpanzé J.C. Venter Levure Ver Mouche Humain Souris Poule 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 08 09 1990 Au delà du génome humain, ceux de bien d’autres espèces ont été séquencés, pour les mêmes raisons: accéder à leurs gènes. Ces ressources permettent d’appliquer une stratégie de génomique comparative,très puissante pour aider à l’annotation des gènes.

  28. 100 50 La génomique comparative Evolution des vertébrés Requin Chondrichthyes Tetraodon Fugu Poissons Epinoche Percomorpha Medaka Actinopterigii Teleostei Poisson zèbre Otocephala Amphibiens Crapaud Osteichthyes Oiseaux Poule Sarcopterigii Tetrapoda Ornithorynque Prototheria Amniota Opossum Metatheria Mammalia Tatou Xenarthra Tenrec Theria Eléphant Hérisson Insectivora Eutheria Mammifères Vache Chien Carnivora Macaque Boreoeutheria Catarrhini Humain Humain Euarchontoglire Chimpanzé Lapin Lagomorpha Rat Murinae Souris Souris Millions d’années 450 400 350 300 250 200 150 0

  29. La génomique comparative Une ressource pour l’annotation des gènes Exemple: Le gène de la kératine, protéine entrant dans la composition des poils, des ongles et des cheveux chez les mammifères. L’homme et la souris ont hérité leur gène de kératine de leur dernier ancêtre commun. La fonction de la protéine est toujours la même, il est donc raisonnable de supposer que le gène de la kératine contient toujours des instructions (une séquence) très similaire entre l’homme et la souris. Comparer la séquence du génome de l’homme et de la souris permettrait d’identifier les deux gènes en une seule opération. cacagacctggaa-caaactaaagccagacacatactATGGACACCAAGG…… ctcagactcagagacaacgtgaagctgaacacacaccATGGATACCAAGG…… ……GAGGAGCTCCAGCAGAAGgtaagattcctaagaac……ttctagATCTTGTG…… ……GAGGAGCTGCAGCAGAAGgtaaga-gctcagcaag……ttctagATCTTGTG……

  30. La génomique comparative Une ressource pour l’annotation des gènes Tous les mammifères possèdent à peu près le même nombre de gènes, et partagent les mêmes grandes fonctions de la vie - reproduction - développement - système nerveux central - système digestif - système musculaire - …. On estime que les gènes présents dans le génome de la souris ou du chien peuvent être informatifs pour identifier les gènes humains (ou vice-versa) simplement par alignement de séquence. Généralisation: Toutes les informations importantes contenues dans le génome (codage des protéines et autres…) sont susceptibles d’êtres partagées entre espèces différentes et donc d’être découvertes par alignement de séquences.

  31. Identifier les gènes dans un génome Identifier les signaux (début, fin, bornes des introns Informations dérivées de l’expression des gènes (ARNs) Annotation automatique des gènes Analyse du texte - alphabet - grammaire - informatique - algorithmique - statistique Génomique expérimentale - échantillons biologiques - molécules - biologie moléculaire - bioinformatique Génomique comparative Séquençage haut débit - procédé industriel - évolution - bioinformatique

  32. Historique des estimations du nombre de gènes dans le génome Estimations publiées Estimations non publiées 160 000 Publication génome humain 140 000 120 000 100 000 80 000 60 000 40 000 20 000 07 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06

  33. Identifier les régions fonctionnelles dans les génomes Au delà des gènes codant les protéines, que reste-t-il à découvrir? Aujourd’hui (juin 2008) , 22740 gènes ont été annotés dans le génome humain. 1°) Une énigme: Certaines régions du génomes ne sont pas des gènes, mais sont 100% identiques entre l’homme et la souris sur de longue distances : régions « ultra conservées ». Quelles sont leurs fonctions? TTGCCATTCATTAATAATGCTCACAATAAGATTAAATCATTCTGGAAAAT-CTCATAAAATCCCC TTGCCATTCATTAATAATGCTCACAATAAGATTAAATCATTCTGGAAAAT-CTCATAAAATCCCC TTGCCATTCATTAGTTATGTTCACAATAAGATTACCAACTCCCGGGACTAGCTCATC-------

  34. Identifier les régions fonctionnelles dans les génomes Au delà des gènes codant les protéines, que reste-t-il à découvrir? Un gène pour fonctionner au bon moment et au bon endroit, a lui-même besoin d’instructions, qui sont également contenue dans la séquence du génome: les séquences de régulation. Il n’existe pas de signaux connus qui soient systématiquement associés à ces régions. Les méthodes expérimentales sont très laborieuses et coûteuses. ✗ ✗ Identifier les signaux Informations dérivées de l’expression des gènes (ARNs) Annotation automatique des régions de régulation Génomique comparative

  35. Identifier les régions de régulation La génomique comparative à la rescousse Le gène MCM2 code une protéine importante pour la réplication des chromosomes. Il possède 16 exons bien conservés au cours de l’évolution, des primates aux poissons. Navigateur de Génome à UCSC : http://genome.ucsc.edu/

  36. Il contient de multiple signaux « STOP » Donc, ce n’est à priori pas un exon « oublié » Identifier les régions de régulation La génomique comparative à la rescousse Le gène GATA2 code pour une protéine importante pour la mise en place du système vasculaire au cours du développement. Il possède 6 exons bien conservés au cours de l’évolution, des primates aux poissons

  37. Identifier les régions de régulation Une expérience de biologie ProtéineLacZ + Β-lactamase = Couleur bleue Région inconnue LacZ Système vasculaire du sac vitellin Embryon de souris 21 jours Artère ombilicale Veine ombilicale Khandekar, M. et al. Development. 2007 May;134(9):1703-12.

  38. Identifier les régions de régulation L’analyse bioinformatique fournit une piste importante: - la région est conservée au cours de l’évolution, donc elle a une fonction importante - mais ce n’est pas un fragment de gène L’expérience de biologie moléculaire confirme: la région est une région de régulation qui spécifie l’endroit et le moment où le gène doit être exprimé.

  39. Conclusion Séquencer les génomes, identifier l’information qu’ils contiennent et comprendre sa signification nécessite à toutes les étapes une alliance étroite entre biologie et informatique.

More Related