230 likes | 332 Views
Bases de données. Applications en biologie. Explosion des données. Croissance de Genbank. Nombreux Domaines d’application. http://www.infobiogen.fr/deambulum/index.php. Types de données. Les séquences GENBANK, methDb (DNA methylation database) , Human SNP Database
E N D
Bases de données Applications en biologie
Explosion des données Croissance de Genbank Hervé PHILIPPE – BIN1001
Nombreux Domaines d’application http://www.infobiogen.fr/deambulum/index.php Hervé PHILIPPE – BIN1001
Types de données • Les séquences • GENBANK, methDb (DNA methylation database), Human SNP Database • Les données cartographiques • GENATLAS • Les données structurales • NDB (Nucleic Acids Database), PDB (Proteins Database) • Les données d'expression • KEGG (Kyoto Encyclopedia of Genes and Genomes) • Les données génomiques • GNN (Genome News Network), ENSEMBL • Les données fonctionnelles • KEGG , UM-BBD (The University of Minnesota Biocatalysis/Biodegradation Database) Hervé PHILIPPE – BIN1001
Enjeux des bases de données • Diffusion des connaissances : • rapidité d’accès à l’information • facilité d’interrogation • mise à jour régulière • Gestion de l’explosion des entrées • Gestion de l’hétérogénéité des données • Réponse à des besoins très divers Hervé PHILIPPE – BIN1001
Toujours plus de diffusion 1968 • Atlas of Protein Sequences (Dayhoff) • mise à jour annuelle – 50 protéines • bandes magnétiques sur abonnement • CD sur abonnement • EMBL, genbank • serveurs FTP → bases de données locales • sites web • mise à jour quotidienne – plusieurs millions de séquences ≈1970 ≈1980 ≈1990 ≈2000 2005 Hervé PHILIPPE – BIN1001
Faiblesses des banques généralistes • Hétérogénéité dans la nature des séquences • ADN nucléaire ou mitochondrial, ARN (t, r, m, ….), génome • Variabilité de l’état des connaissances • caractérisation biologique beaucoup plus lente que le séquençage • Erreurs dans les séquences • origine du fragment • liées à la technologie : séquençage des extrémités difficile • liées à la méthodologie : 3% d’erreur lors du séquençage des EST • Biais d’échantillonnage • des espèces • des gènes • redondance des données → création de banques spécialisées Hervé PHILIPPE – BIN1001
Intégration des données • données hétérogènes • interopérabilité : exploitation conjointe de différentes bases pour un besoin unique • représentation unifiée des données • détection de nouvelles corrélations • environnement informatique homogène • définition d’ontologies • thésaurus de nommage • interface répondant à une diversité de besoins Hervé PHILIPPE – BIN1001
créée en 1988 • 1982 : Genbank • faciliter l’utilisation des bases de données et des logiciels • accès unique à des données diverses • séquences • génomes • structures Hervé PHILIPPE – BIN1001
Intégration des données • Formats standards de sauvegarde • FASTA, NEXUS, PUZZLE … • Interrogation multi-bases • DBGET • EMBL, Genbank, Swissprot, PIR, PRF, LITDB, PDB, PDBSTR, EPD, Prosite, Ligand, PMD, AA-Index, OMIM • Entrez • Medline, GenBank, EMBL, DDBJ, PIR, SwissProt, PRF et PDB Hervé PHILIPPE – BIN1001
créée en 1971 • depuis 1998, gérée par le RCSB, Research Collaboratory for Structural Bioinformatics • base de données unifiée pour collecter et distribuer TOUTES les informations ayant trait à la structure tertiaire des protéines et des acides nucléiques • ≈ 30 000 structures • 2004 (par mois) : • 5 000 000 de fichiers téléchargés • 400 structures déposées Hervé PHILIPPE – BIN1001
GPGRDB Hervé PHILIPPE – BIN1001
« CSI » Auckland : une base de données pour la conservation et l’identification des espèces de Cétacés par analyses ADN http://www.dna-surveillance.auckland.ac.nz/ Ross, H. A., G. M. Lento, M. L. Dalebout, M. Goode, G. Ewing, P. McLaren, A. G. Rodrigo, S. Lavery, and C. S. Baker.(2003) DNA Surveillance: Web-based molecular identification of whales, dolphins and porpoises. J. Hered. 94: 111-114. Baker, C. S., M. L. Dalebout, S. Lavery, and H. A. Ross. (2003) www.DNA-surveillance: appliedmolecular taxonomy for species conservation and discovery. Trends Ecol. Evol.18: 271-272. Hervé PHILIPPE – BIN1001
Origines et buts Origine : Identification des espèces de Cétacés chassées illégalement par l’analyse ADN d’échantillons achetés sur les marchés Coréens et Japonais Baker CS, Palumbi S (1994). Which whales are hunted - A molecular genetic approach to monitoring whaling. Science265: 1538-1539. Buts : Fournir une base de données de séquences d’ADN de référence afin d’identifier formellement les espèces de Cétacés à des fins taxonomiques et de conservation Hervé PHILIPPE – BIN1001
Principe Échantillons « biologiques » Séquençage d’ADN (ex. gène du Cytochrome b) >inconnu cytb ATGATCAACATTCGAAAAACACACCCATTAATAAAAATTATCAACAACGCATTTATTGATCTTCCCACTCCATCAAACATCTCCTCATGATGAAACTTTGGTTCATTACTCGGTCTCTGCCTAATCATACAAATTCTTACAGGCTTATTCCTAGCAATACACTACACACCAGACACTACAATAGCCTTTTCATCAGTTGCACACATCTGCCGAGACGTTAACTATGGTTGAATTATCCGATACCTACATGCAAATGGAGCTTCCATATTTTTTATCTGCCTTTACGCACACATTGGACGCGGTCTATATTACGGCTCTTATATTTTTCAAAAAACATGAAATATTGGAGTAATTTTACTCTTCATAGTTATAGCTACTGCATTT Comparaison à la base de données de séquences de références obtenues à partir de spécimens formellement identifiés par construction d’un arbre phylogénétique Hervé PHILIPPE – BIN1001
Exemple d’applications Découverte d’une nouvelle espèce de baleine à bec (Ziphiidae) à partir de l’analyse ADN de spécimens échoués Mesoplodon perrini >inconnu cytb ATGATCAACATTCGAAAAACACACCCATTAATAAAAATTATCAACAACGCATTTATTGATCTTCCCACTCCATCAAACATCTCCTCATGATGAAACTTTGGTTCATTACTCGGTCTCTGCCTAATCATACAAATTCTTACAGGCTTATTCCTAGCAATACACTACACACCAGACACTACAATAGCCTTTTCATCAGTTGCACACATCTGCCGAGACGTTAACTATGGTTGAATTATCCGATACCTACATGCAAATGGAGCTTCCATATTTTTTATCTGCCTTTACGCACACATTGGACGCGGTCTATATTACGGCTCTTATATTTTTCAAAAAACATGAAATATTGGAGTAATTTTACTCTTCATAGTTATAGCTACTGCATTT Dalebout ML, Mead JG, Baker CS, Baker AN & van Helden AL (2002). A new species of beakedwhale Mesoplodon perrini sp. n. (Cetacea: Ziphiidae) discovered through phylogenetic analyses of mitochondrial DNA sequences. Marine Mammal Science 18: 577-608. Hervé PHILIPPE – BIN1001
« Barcoding Life » : une base de données pour inventorier la biodiversité par le séquençage de gènes « Code-barres » http://www.barcodinglife.org/ Hebert PD, Cywinska A, Ball SL, deWaard JR (2003). Biological identifications through DNA barcodes. Proc R Soc Lond BS 270:313-321. Hervé PHILIPPE – BIN1001
Origines et buts Idée Originale : Utiliserla séquence d’un gène ubiquiste comme « code-barre » afin d’inventorier la diversité biologique par son séquençage chez toutes les espèces vivantes Hebert PD, Cywinska A, Ball SL, deWaard JR (2003). Biological identifications through DNA barcodes.Proc R Soc Lond BS 270:313-321. Buts : Fournir une base de données permettant d’identifier chaque espèce animale par la séquence d’environ 600 nucléotides du gène mitochondrial de la Cytochrome Oxydase I et d’informations associées Hervé PHILIPPE – BIN1001
Contenu de la base de données Hervé PHILIPPE – BIN1001
Exemple d’application Distinction de 10 espèces différentes correspondant à la spécialisation alimentaire des chenilles d’un papillon tropical (Astraptes fulgerator) Hebert PD, Penton EH, Burns JM, Janzen DH, Hallwachs W (2004). Ten species in one: DNA barcoding reveals cryptic species in the neotropical skipper butterfly Astraptes fulgerator.Proc Natl Acad Sci USA101:14812-14817. Hervé PHILIPPE – BIN1001
Quelques exemples Hervé PHILIPPE – BIN1001
GPCRDB Hervé PHILIPPE – BIN1001