240 likes | 374 Views
Banques de données de séquences biologiques. Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS 5558. Guy Perrière. Terminés et publiés Terminés non publiés Séquençage en cours Total. Bactéries 124 92 286 502. Archées 16 3 20 39. Eucaryotes 16
E N D
Banques de données de séquences biologiques Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS 5558 Guy Perrière
Terminés et publiés Terminés non publiés Séquençage en cours Total Bactéries 124 92 286 502 Archées 16 3 20 39 Eucaryotes 16 9 241 (133) 266 (158) Projets génomes • Génomes eucaryotes séquencés et publiés: • A. gambiae, A. thaliana, C. elegans, C. intestinalis, D. melanogaster, E. cuniculi, G. theta, H. sapiens, M. musculus, N. crassa, O. sativa ssp. indica, O. sativa ssp. japonica, P. falciparum, P. yoelii, S. cerevisiae, S. pombe.
Banques de séquences • Premières compilations papier dès 1965 (Atlas of Protein Sequences). • Développement de banques de données informatisées au début des années 80: • Rapidité d’accès. • Premières analyses bioinformatiques réalisées sur de nombreuses séquences: • Usage des codons (Grantham et al., 1981).
Nucléotides EMBL GenBank DDBJ Protéines (1) TrEMBL GenPept Protéines (2) SWISS-PROT PIR† Les banques généralistes • Plusieurs banques ont été conçues dans différents laboratoires au début des années 80: • La disponibilité de toutes ces banques pose plu-sieurs problèmes: • Incompatibilité des formats, quelle banque utiliser?
NRDB SWISS-PROT PIR GenPept PDB OWL† SWISS-PROT PIR GenPept NRL_3D SP/TrEMBL SWISS-PROT TrEMBL Banques composites • Une solution a la prolifération des banques est de créer des banques composites. • Malheureusement, plusieurs banques de ce type ont également été développées! • NRDB et SWISS-PROT/TrEMBL suppriment uniquement la redondance exacte.
Provenance des séquences • Les données proviennent de soumissions directes par les auteurs: • Numéro d’accession délivré par les centres de saisie (EMBL / GenBank / DDBJ). • Les soumissions sont réalisées par l’inter-médiaire du réseau Internet. • Les séquences recueillies sont échangées quotidiennement: • Le contenu des trois banques est identique.
11 10 9 Log(Nb. résidus) 8 7 6 GenBank EMBL PIR SWISS-PROT 5 02/91 08/83 11/84 02/86 05/87 08/88 11/89 05/92 08/93 11/94 02/96 05/97 08/98 11/99 02/01 05/02 08/03 Date Croissance des données
Contenu de GenBank • 35,6109 nucléotides. • 29,8106 séquences. • 1470659 gènes (protéines et ARN). • 329891 références bibliographiques. • 120,8 giga-octets sur disque. • Augmentation de 34,2% en 12 mois. • 18-24h pour transférer l’intégralité de Gen-Bank via Internet.
Homo sapiens Mus musculus Zea mays Canis familiaris Rattus norvegicus Bos taurus Gallus gallus Brassica oleacera Arabidopsis thaliana Danio rerio 24,1% 17,4% 6,2% 3,0% 2,8% 2,1% 2,0% 2,0% 1,9% 1,8% Échantillonnage taxonomique • 145371 espèces pour lesquelles on a au moins une séquence. • Dix espèces (0,07‰) représentent 63,3% du nombre total. • 76053 espèces ne sont représentées que par une séquence! Les dix espèces les plus représentées dans GenBank
{ { { La redondance • Un problème majeur est celui de la redon-dance. • De nombreuses en-trées sont dupliquées: • 20% des séquences de vertébrés. • Les doublons présen-tent souvent des dif-férences. Duplications partielles ou complètes dans les séquences
Erreurs dans les banques • De nombreuses erreurs figurent dans les banques de séquences nucléotidiques: • Au niveau des annotations: • Imprécisions, omissions et erreurs. • Incohérences entre différents champs. • Dans les séquences elles-mêmes: • Erreurs de séquençage. • Compression, lecture des gels. • Insertion de vecteurs de clonage.
Banques spécialisées • De très nombreuses banques spécialisées ont été développées : • Génomes complets ou en cours de séquençage: • Association à des projets de cartographie (euca-ryotes pluricellulaires). • Familles de gènes: • Consacrées à certains organismes (procaryotes, vertébrés) ou à des familles particulières (immuno-globulines, récepteurs nucléaires). • Domaines et signatures.
Organisme Bacillus subtilis Escherichia coli Procaryotes divers Saccharomyces cerevisiae Plasmodium falciparum Caenorhabditis elegans Arabidopsis thaliana Banques disponibles SubtiList Colibri ECDC (E. coli Database Collection) GenoList PkGDB (Prokaryotic Genomes Database) CMR (Comprehensive Microbial Resource) EMGLib (Enhanced Microbial Genomes Libray) Micado (Microbial Advanced Database Organization) MYGD (MIPS Yeast Genome Database) SGD (Saccharomyces Genome Database) YPD (Yeast Proteome Database) PlasmoDB (P. falciparum Database) WormBase WormPD (Worm Protein Database) TAIR (The Arabidopsis Information Resource) Banques génomiques
Banques de familles de gènes • De nombreuses études requièrent de dispo-ser de séquences homologues : • Recherche de parties codantes. • Détection des erreurs de séquençage. • Études des voies métaboliques. • Phylogénie moléculaire. • Transferts horizontaux. • Structure des protéines.
Banque ProtoMap ProClass CluSTr SYSTERS COGs HOBACGEN HOGENOME HOVERGEN RTKdb NuReBase ABCdb Basée sur SWISS-PROT PIR/PROSITE SWISS-PROT/TrEMBL SWISS-PROT/PIR Genome SWISS-PROT/TrEMBL SWISS-PROT/TrEMBL SWISS-PROT/TrEMBL SWISS-PROT/TrEMBL GenPept SWISS-PROT/TrEMBL Contenu Tous organismes Tous organismes Tous organismes Tous organismes Génomes complets Bactéries et archées Génomes complets Vertébrés Recepteurs à tyrosine kinases Recepteurs nucléaires de métazoaires Transporteurs ABC de bactéries Banques disponibles
Consultation et interrogation • Se font essentiellement par accès à des serveurs au travers d’Internet: • Pas de prise en compte des problèmes de gestion des banques par les utilisateurs: • Stockage des données. • Mises à jour. • Simplicité d’utilisation. • Moyens d’accès: • Logiciels clients dédiés (Entrez, FamFetch). • Comptes utilisateurs (INFOBIOGEN). • SitesWeb.
Le serveur du PBIL • Accès à un ensemble d’outils pour l’analyse des séquences nucléiques et protéiques: • Banques de séquences généralistes (GenBank, EMBL, SWISS-PROT, PIR). • Banques spécialisées développées dans notre groupe (HOBACGEN, HOVERGEN, HOGENOME, RTKdb, NuReBase). • Programmes de recherche de similarités et d’alignement (BLAST, -BLAST, FASTA, SSEARCH) • Programmes de modélisation moléculaire (12 méthodes différentes).
Accès aux banques • Requêtes sur les séquences: • Nom, numéros d’accession, mots-clés, références bibliographiques, taxonomie, etc. • Requêtes sur les familles: • Numéros d’accession, critères taxonomiques. • Visualisation des données: • Séquences, alignements et arbres phylogéné-tiques.
Requêtes sur les séquences Sequence list
Pour conclure… • Les données figurant dans ces banques sont en accès libre (soumission et consultation): • Fond commun utilisable par l’ensemble de la communauté des chercheurs. • Problèmes de la qualité des données: • Nécessité de disposer de personnes en charge du contrôle des annotations. • Il existe de très nombreuses banques disponibles (863 recensées par Lion Biosciences!): • Problèmes de l’interconnection et de l’interopérabilité des données.
Remerciements • Laboratoire de Biométrie et Biologie Évolutive: • Simon Penel, Laurent Duret, Manolo Gouy, Céline Delucinge. • Unité de Recherche INRIA Rhône-Alpes: • Jean-François Dufayard. • Centre de Génétique Moléculaire et Cellulaire: • Julien Grassot, Frédéric Tingaud. • Laboratoire de Biologie Moléculaire et Cellulaire: • Marc Robinson, Jorge Duarte, David Ruau.