Banques de données de séquences biologiques

Banques de données de séquences biologiques Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS 5558 Guy Perrière

Terminés et publiés Terminés non publiés Séquençage en cours Total Bactéries 124 92 286 502 Archées 16 3 20 39 Eucaryotes 16 9 241 (133) 266 (158) Projets génomes • Génomes eucaryotes séquencés et publiés: • A. gambiae, A. thaliana, C. elegans, C. intestinalis, D. melanogaster, E. cuniculi, G. theta, H. sapiens, M. musculus, N. crassa, O. sativa ssp. indica, O. sativa ssp. japonica, P. falciparum, P. yoelii, S. cerevisiae, S. pombe.

Banques de séquences • Premières compilations papier dès 1965 (Atlas of Protein Sequences). • Développement de banques de données informatisées au début des années 80: • Rapidité d’accès. • Premières analyses bioinformatiques réalisées sur de nombreuses séquences: • Usage des codons (Grantham et al., 1981).

Nucléotides EMBL GenBank DDBJ Protéines (1) TrEMBL GenPept Protéines (2) SWISS-PROT PIR† Les banques généralistes • Plusieurs banques ont été conçues dans différents laboratoires au début des années 80: • La disponibilité de toutes ces banques pose plu-sieurs problèmes: • Incompatibilité des formats, quelle banque utiliser?

NRDB SWISS-PROT PIR GenPept PDB OWL† SWISS-PROT PIR GenPept NRL_3D SP/TrEMBL SWISS-PROT TrEMBL Banques composites • Une solution a la prolifération des banques est de créer des banques composites. • Malheureusement, plusieurs banques de ce type ont également été développées! • NRDB et SWISS-PROT/TrEMBL suppriment uniquement la redondance exacte.

Provenance des séquences • Les données proviennent de soumissions directes par les auteurs: • Numéro d’accession délivré par les centres de saisie (EMBL / GenBank / DDBJ). • Les soumissions sont réalisées par l’inter-médiaire du réseau Internet. • Les séquences recueillies sont échangées quotidiennement: • Le contenu des trois banques est identique.

11 10 9 Log(Nb. résidus) 8 7 6 GenBank EMBL PIR SWISS-PROT 5 02/91 08/83 11/84 02/86 05/87 08/88 11/89 05/92 08/93 11/94 02/96 05/97 08/98 11/99 02/01 05/02 08/03 Date Croissance des données

Contenu de GenBank • 35,6109 nucléotides. • 29,8106 séquences. • 1470659 gènes (protéines et ARN). • 329891 références bibliographiques. • 120,8 giga-octets sur disque. • Augmentation de 34,2% en 12 mois. • 18-24h pour transférer l’intégralité de Gen-Bank via Internet.

Homo sapiens Mus musculus Zea mays Canis familiaris Rattus norvegicus Bos taurus Gallus gallus Brassica oleacera Arabidopsis thaliana Danio rerio 24,1% 17,4% 6,2% 3,0% 2,8% 2,1% 2,0% 2,0% 1,9% 1,8% Échantillonnage taxonomique • 145371 espèces pour lesquelles on a au moins une séquence. • Dix espèces (0,07‰) représentent 63,3% du nombre total. • 76053 espèces ne sont représentées que par une séquence! Les dix espèces les plus représentées dans GenBank

{ { { La redondance • Un problème majeur est celui de la redon-dance. • De nombreuses en-trées sont dupliquées: • 20% des séquences de vertébrés. • Les doublons présen-tent souvent des dif-férences. Duplications partielles ou complètes dans les séquences

Erreurs dans les banques • De nombreuses erreurs figurent dans les banques de séquences nucléotidiques: • Au niveau des annotations: • Imprécisions, omissions et erreurs. • Incohérences entre différents champs. • Dans les séquences elles-mêmes: • Erreurs de séquençage. • Compression, lecture des gels. • Insertion de vecteurs de clonage.

Banques spécialisées • De très nombreuses banques spécialisées ont été développées : • Génomes complets ou en cours de séquençage: • Association à des projets de cartographie (euca-ryotes pluricellulaires). • Familles de gènes: • Consacrées à certains organismes (procaryotes, vertébrés) ou à des familles particulières (immuno-globulines, récepteurs nucléaires). • Domaines et signatures.

Organisme Bacillus subtilis Escherichia coli Procaryotes divers Saccharomyces cerevisiae Plasmodium falciparum Caenorhabditis elegans Arabidopsis thaliana Banques disponibles SubtiList Colibri ECDC (E. coli Database Collection) GenoList PkGDB (Prokaryotic Genomes Database) CMR (Comprehensive Microbial Resource) EMGLib (Enhanced Microbial Genomes Libray) Micado (Microbial Advanced Database Organization) MYGD (MIPS Yeast Genome Database) SGD (Saccharomyces Genome Database) YPD (Yeast Proteome Database) PlasmoDB (P. falciparum Database) WormBase WormPD (Worm Protein Database) TAIR (The Arabidopsis Information Resource) Banques génomiques

Banques de familles de gènes • De nombreuses études requièrent de dispo-ser de séquences homologues : • Recherche de parties codantes. • Détection des erreurs de séquençage. • Études des voies métaboliques. • Phylogénie moléculaire. • Transferts horizontaux. • Structure des protéines.

Banque ProtoMap ProClass CluSTr SYSTERS COGs HOBACGEN HOGENOME HOVERGEN RTKdb NuReBase ABCdb Basée sur SWISS-PROT PIR/PROSITE SWISS-PROT/TrEMBL SWISS-PROT/PIR Genome SWISS-PROT/TrEMBL SWISS-PROT/TrEMBL SWISS-PROT/TrEMBL SWISS-PROT/TrEMBL GenPept SWISS-PROT/TrEMBL Contenu Tous organismes Tous organismes Tous organismes Tous organismes Génomes complets Bactéries et archées Génomes complets Vertébrés Recepteurs à tyrosine kinases Recepteurs nucléaires de métazoaires Transporteurs ABC de bactéries Banques disponibles

Consultation et interrogation • Se font essentiellement par accès à des serveurs au travers d’Internet: • Pas de prise en compte des problèmes de gestion des banques par les utilisateurs: • Stockage des données. • Mises à jour. • Simplicité d’utilisation. • Moyens d’accès: • Logiciels clients dédiés (Entrez, FamFetch). • Comptes utilisateurs (INFOBIOGEN). • SitesWeb.

Le serveur du PBIL • Accès à un ensemble d’outils pour l’analyse des séquences nucléiques et protéiques: • Banques de séquences généralistes (GenBank, EMBL, SWISS-PROT, PIR). • Banques spécialisées développées dans notre groupe (HOBACGEN, HOVERGEN, HOGENOME, RTKdb, NuReBase). • Programmes de recherche de similarités et d’alignement (BLAST, -BLAST, FASTA, SSEARCH) • Programmes de modélisation moléculaire (12 méthodes différentes).

Accès aux banques • Requêtes sur les séquences: • Nom, numéros d’accession, mots-clés, références bibliographiques, taxonomie, etc. • Requêtes sur les familles: • Numéros d’accession, critères taxonomiques. • Visualisation des données: • Séquences, alignements et arbres phylogéné-tiques.

Requêtes sur les séquences Sequence list

Accès aux séquences

Accès aux familles

Visualisation des données

Pour conclure… • Les données figurant dans ces banques sont en accès libre (soumission et consultation): • Fond commun utilisable par l’ensemble de la communauté des chercheurs. • Problèmes de la qualité des données: • Nécessité de disposer de personnes en charge du contrôle des annotations. • Il existe de très nombreuses banques disponibles (863 recensées par Lion Biosciences!): • Problèmes de l’interconnection et de l’interopérabilité des données.

Remerciements • Laboratoire de Biométrie et Biologie Évolutive: • Simon Penel, Laurent Duret, Manolo Gouy, Céline Delucinge. • Unité de Recherche INRIA Rhône-Alpes: • Jean-François Dufayard. • Centre de Génétique Moléculaire et Cellulaire: • Julien Grassot, Frédéric Tingaud. • Laboratoire de Biologie Moléculaire et Cellulaire: • Marc Robinson, Jorge Duarte, David Ruau.

Banques de données de séquences biologiques

Banques de données de séquences biologiques

Presentation Transcript

HABILITATION ELECTRIQUE

MENACE D’ACCOUCHEMENT PREMATURE

Infections sur cathéters vasculaires

Composés hybrides w -Alcanol / Hydroquinone à activité neurotrophique. Synthèse et étude des propriétés physicochimique

La transmission de la vie chez l’homme

LA PREVENTION DES ACCIDENTS AVEC EXPOSITION AU SANG ET FLUIDES BIOLOGIQUES (AES) EN DIALYSE

Accidents d’exposition aux liquides biologiques en MG

Physiopathologie de l'infection et de l'inflammation Signes cliniques et biologiques de l'infection et de l'inflammatio

Infections génitales hautes et conséquences sur la fertilité Fécondité en Afrique (rôle des IST et du VIH)

LES CAPTEURS

Finance d’entreprise

Base physique IRM Séquences « Echo de Spin » et « Echo de Gradients »

Techniques aléatoires d'allocation de fréquences pour les réseaux satellitaires

LA MALADIE D’ALZHEIMER

Colonel Dominique GRANDJEAN Vétérinaire en Chef Service de Santé et de Secours Médical

INSUFFISANCE RESPIRATOIRE AÏGUE Étiologie, signes cliniques, biologiques et radiologiques

UE Spécifique

Objectifs de l’atelier

L’Obésité

Infections nosocomiales

DEA-INFO Analyse et Compression de Séquences Vidéos

Master Staps