1 / 22

Bases de données

Bases de données. Applications en biologie. Explosion des données. Croissance de Genbank. Nombreux Domaines d’application. http://www.infobiogen.fr/deambulum/index.php. Types de données. Les séquences GENBANK, methDb (DNA methylation database) , Human SNP Database

Download Presentation

Bases de données

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bases de données Applications en biologie

  2. Explosion des données Croissance de Genbank Hervé PHILIPPE – BIN1001

  3. Nombreux Domaines d’application http://www.infobiogen.fr/deambulum/index.php Hervé PHILIPPE – BIN1001

  4. Types de données • Les séquences • GENBANK, methDb (DNA methylation database), Human SNP Database • Les données cartographiques • GENATLAS • Les données structurales • NDB (Nucleic Acids Database), PDB (Proteins Database) • Les données d'expression • KEGG (Kyoto Encyclopedia of Genes and Genomes) • Les données génomiques • GNN (Genome News Network), ENSEMBL • Les données fonctionnelles • KEGG , UM-BBD (The University of Minnesota Biocatalysis/Biodegradation Database) Hervé PHILIPPE – BIN1001

  5. Enjeux des bases de données • Diffusion des connaissances : • rapidité d’accès à l’information • facilité d’interrogation • mise à jour régulière • Gestion de l’explosion des entrées • Gestion de l’hétérogénéité des données • Réponse à des besoins très divers Hervé PHILIPPE – BIN1001

  6. Toujours plus de diffusion 1968 • Atlas of Protein Sequences (Dayhoff) • mise à jour annuelle – 50 protéines • bandes magnétiques sur abonnement • CD sur abonnement • EMBL, genbank • serveurs FTP → bases de données locales • sites web • mise à jour quotidienne – plusieurs millions de séquences ≈1970 ≈1980 ≈1990 ≈2000 2005 Hervé PHILIPPE – BIN1001

  7. Faiblesses des banques généralistes • Hétérogénéité dans la nature des séquences • ADN nucléaire ou mitochondrial, ARN (t, r, m, ….), génome • Variabilité de l’état des connaissances • caractérisation biologique beaucoup plus lente que le séquençage • Erreurs dans les séquences • origine du fragment • liées à la technologie : séquençage des extrémités difficile • liées à la méthodologie : 3% d’erreur lors du séquençage des EST • Biais d’échantillonnage • des espèces • des gènes • redondance des données → création de banques spécialisées Hervé PHILIPPE – BIN1001

  8. Intégration des données • données hétérogènes • interopérabilité : exploitation conjointe de différentes bases pour un besoin unique • représentation unifiée des données • détection de nouvelles corrélations • environnement informatique homogène • définition d’ontologies • thésaurus de nommage • interface répondant à une diversité de besoins Hervé PHILIPPE – BIN1001

  9. créée en 1988 • 1982 : Genbank • faciliter l’utilisation des bases de données et des logiciels • accès unique à des données diverses • séquences • génomes • structures Hervé PHILIPPE – BIN1001

  10. Intégration des données • Formats standards de sauvegarde • FASTA, NEXUS, PUZZLE … • Interrogation multi-bases • DBGET • EMBL, Genbank, Swissprot, PIR, PRF, LITDB, PDB, PDBSTR, EPD, Prosite, Ligand, PMD, AA-Index, OMIM • Entrez • Medline, GenBank, EMBL, DDBJ, PIR, SwissProt, PRF et PDB Hervé PHILIPPE – BIN1001

  11. créée en 1971 • depuis 1998, gérée par le RCSB, Research Collaboratory for Structural Bioinformatics • base de données unifiée pour collecter et distribuer TOUTES les informations ayant trait à la structure tertiaire des protéines et des acides nucléiques • ≈ 30 000 structures • 2004 (par mois) : • 5 000 000 de fichiers téléchargés • 400 structures déposées Hervé PHILIPPE – BIN1001

  12. GPGRDB Hervé PHILIPPE – BIN1001

  13. « CSI » Auckland : une base de données pour la conservation et l’identification des espèces de Cétacés par analyses ADN http://www.dna-surveillance.auckland.ac.nz/ Ross, H. A., G. M. Lento, M. L. Dalebout, M. Goode, G. Ewing, P. McLaren, A. G. Rodrigo, S. Lavery, and C. S. Baker.(2003) DNA Surveillance: Web-based molecular identification of whales, dolphins and porpoises. J. Hered. 94: 111-114. Baker, C. S., M. L. Dalebout, S. Lavery, and H. A. Ross. (2003) www.DNA-surveillance: appliedmolecular taxonomy for species conservation and discovery. Trends Ecol. Evol.18: 271-272. Hervé PHILIPPE – BIN1001

  14. Origines et buts Origine : Identification des espèces de Cétacés chassées illégalement par l’analyse ADN d’échantillons achetés sur les marchés Coréens et Japonais Baker CS, Palumbi S (1994). Which whales are hunted - A molecular genetic approach to monitoring whaling. Science265: 1538-1539. Buts : Fournir une base de données de séquences d’ADN de référence afin d’identifier formellement les espèces de Cétacés à des fins taxonomiques et de conservation Hervé PHILIPPE – BIN1001

  15. Principe Échantillons « biologiques » Séquençage d’ADN (ex. gène du Cytochrome b) >inconnu cytb ATGATCAACATTCGAAAAACACACCCATTAATAAAAATTATCAACAACGCATTTATTGATCTTCCCACTCCATCAAACATCTCCTCATGATGAAACTTTGGTTCATTACTCGGTCTCTGCCTAATCATACAAATTCTTACAGGCTTATTCCTAGCAATACACTACACACCAGACACTACAATAGCCTTTTCATCAGTTGCACACATCTGCCGAGACGTTAACTATGGTTGAATTATCCGATACCTACATGCAAATGGAGCTTCCATATTTTTTATCTGCCTTTACGCACACATTGGACGCGGTCTATATTACGGCTCTTATATTTTTCAAAAAACATGAAATATTGGAGTAATTTTACTCTTCATAGTTATAGCTACTGCATTT Comparaison à la base de données de séquences de références obtenues à partir de spécimens formellement identifiés par construction d’un arbre phylogénétique Hervé PHILIPPE – BIN1001

  16. Exemple d’applications Découverte d’une nouvelle espèce de baleine à bec (Ziphiidae) à partir de l’analyse ADN de spécimens échoués Mesoplodon perrini >inconnu cytb ATGATCAACATTCGAAAAACACACCCATTAATAAAAATTATCAACAACGCATTTATTGATCTTCCCACTCCATCAAACATCTCCTCATGATGAAACTTTGGTTCATTACTCGGTCTCTGCCTAATCATACAAATTCTTACAGGCTTATTCCTAGCAATACACTACACACCAGACACTACAATAGCCTTTTCATCAGTTGCACACATCTGCCGAGACGTTAACTATGGTTGAATTATCCGATACCTACATGCAAATGGAGCTTCCATATTTTTTATCTGCCTTTACGCACACATTGGACGCGGTCTATATTACGGCTCTTATATTTTTCAAAAAACATGAAATATTGGAGTAATTTTACTCTTCATAGTTATAGCTACTGCATTT Dalebout ML, Mead JG, Baker CS, Baker AN & van Helden AL (2002). A new species of beakedwhale Mesoplodon perrini sp. n. (Cetacea: Ziphiidae) discovered through phylogenetic analyses of mitochondrial DNA sequences. Marine Mammal Science 18: 577-608. Hervé PHILIPPE – BIN1001

  17. « Barcoding Life » : une base de données pour inventorier la biodiversité par le séquençage de gènes « Code-barres » http://www.barcodinglife.org/ Hebert PD, Cywinska A, Ball SL, deWaard JR (2003). Biological identifications through DNA barcodes. Proc R Soc Lond BS 270:313-321. Hervé PHILIPPE – BIN1001

  18. Origines et buts Idée Originale : Utiliserla séquence d’un gène ubiquiste comme « code-barre » afin d’inventorier la diversité biologique par son séquençage chez toutes les espèces vivantes Hebert PD, Cywinska A, Ball SL, deWaard JR (2003). Biological identifications through DNA barcodes.Proc R Soc Lond BS 270:313-321. Buts : Fournir une base de données permettant d’identifier chaque espèce animale par la séquence d’environ 600 nucléotides du gène mitochondrial de la Cytochrome Oxydase I et d’informations associées Hervé PHILIPPE – BIN1001

  19. Contenu de la base de données Hervé PHILIPPE – BIN1001

  20. Exemple d’application Distinction de 10 espèces différentes correspondant à la spécialisation alimentaire des chenilles d’un papillon tropical (Astraptes fulgerator) Hebert PD, Penton EH, Burns JM, Janzen DH, Hallwachs W (2004). Ten species in one: DNA barcoding reveals cryptic species in the neotropical skipper butterfly Astraptes fulgerator.Proc Natl Acad Sci USA101:14812-14817. Hervé PHILIPPE – BIN1001

  21. Quelques exemples Hervé PHILIPPE – BIN1001

  22. GPCRDB Hervé PHILIPPE – BIN1001

More Related