220 likes | 255 Views
Interopérabilité et qualité dans le contexte de Swiss-Prot. Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire IN’Tech; 23 Octobre 2003. Swiss-Prot.
E N D
Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire IN’Tech; 23 Octobre 2003
Swiss-Prot • Created in July 1986; since 1987, a collaboration of the SIB and the EMBL/EBI; from 2003 onward it is the central part of the UniProt project; • Annotated, non-redundant, cross-referenced, documented protein sequence knowledge resource; • 136’000 sequences; 125’000 references; 1’200’000 cross-references; ~320 Mb of annotations; • About 935’000 sequences in TrEMBL, the Swiss-Prot computer-annotated supplement; • Weekly releases; available from about 50 servers, the main source being ExPASy.
The ExPASy WWW server www.expasy.org 10 years of continuous service to the user community • First molecular biology server on the Web (August 1993); ~320 million access since; • Dedicated to proteomics: • Databases: Swiss-Prot, PROSITE, Swiss-2DPAGE, etc.; • Many 2D/MS protein identification/characterization and sequence analysis tools; • Mirror sites in Australia, Bolivia, Canada, China, Korea, Taiwan and USA. Soon in Brazil.
The contents of the Swiss-Prot protein knowledgebase • Sequences! • ANNOTATIONS • References • Taxonomic data • Keywords • Cross-references • Documentation • Function(s); role(s) • Post-translational modifications • Domains • Subcellular location • Protein/protein interactions • Similarities • Diseases, mutagenesis • Conflicts and variants
ID CYC_HUMAN STANDARD; PRT; 104 AA. AC P00001; Q96BV4; DT 21-JUL-1986 (Rel. 01, Created) DT 21-JUL-1986 (Rel. 01, Last sequence update) DT 15-JUN-2002 (Rel. 41, Last annotation update) DE Cytochrome c. GN CYC. OS Homo sapiens (Human), and OS Pan troglodytes (Chimpanzee). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606, 9598; RN [1] RP SEQUENCE. RC SPECIES=Human; TISSUE=Heart; RA Matsubara H., Smith E.L.; RT "The amino acid sequence of human heart cytochrome c."; RL J. Biol. Chem. 237:3575-3576(1962). RN [2] RP SEQUENCE. RC SPECIES=Human; TISSUE=Heart; RA Matsubara H., Smith E.L.; RT "Human heart cytochrome c. Chymotryptic peptides, tryptic peptides, RT and the complete amino acid sequence."; RL J. Biol. Chem. 238:2732-2753(1963). RN [3] RP SEQUENCE FROM N.A. RC SPECIES=Human; RX MEDLINE=89071748; PubMed=2849112; RA Evans M.J., Scarpulla R.C.; RT "The human somatic cytochrome c gene: two classes of processed RT pseudogenes demarcate a period of rapid molecular evolution."; RL Proc. Natl. Acad. Sci. U.S.A. 85:9625-9629(1988). RN [4] RP SEQUENCE FROM N.A. RC SPECIES=Human; TISSUE=Amygdala; RA Ansorge W., Wirkner U., Mewes H.-W., Weil B., Wiemann S.; RL Submitted (MAR-2002) to the EMBL/GenBank/DDBJ databases. RN [5] RP SEQUENCE FROM N.A. RC SPECIES=Human; RC TISSUE=Bone marrow, Brain, Skeletal muscle, Skin, and Urinary bladder; RA Strausberg R.; RL Submitted (FEB-2002) to the EMBL/GenBank/DDBJ databases. RN [6] RP SEQUENCE, AND COMPOSITION OF CHYMOTRYPTIC PEPTIDES. RC SPECIES=P.troglodytes; RX MEDLINE=69150225; PubMed=4975694; RA Needleman S.B., Margoliash E.; RL Unpublished results, cited by: RL Margoliash E., Fitch W.M.; RL Ann. N.Y. Acad. Sci. 151:359-381(1968). RN [7] RP REVIEW ON ROLE IN APOPTOSIS. RX PubMed=9515723; RA Skulachev V.P.; RT "Cytochrome c in the apoptotic and antioxidant cascades."; RL FEBS Lett. 423:275-280(1998). CC -!- FUNCTION: Electron carrier protein. The oxidized form of the CC cytochrome c heme group can accept an electron from the heme group CC of the cytochrome c1 subunit of cytochrome reductase. Cytochrome c CC then transfers this electron to the cytochrome oxidase complex, CC the final protein carrier in the mitochondrial electron-transport CC chain. CC -!- FUNCTION: Play a role in apoptosis. Suppression of the anti- CC apoptotic members or activation of the pro-apoptotic members of CC the Bcl-2 family leads to altered mitochondrial membrane CC permeability resulting in release of cytochrome c into the CC cytosol. Binding of cytochrome c to Apaf-1 triggers the activation CC of caspase-9, which then accelerates apoptosis by activating other CC caspases. CC -!- SUBCELLULAR LOCATION: Mitochondrial matrix. CC -!- PTM: Binds one heme group per molecule. CC -!- SIMILARITY: Belongs to the cytochrome c family. DR EMBL; M22877; AAA35732.1; -. DR EMBL; AL713681; CAD28485.1; -. DR EMBL; BC005299; AAH05299.1; -. DR EMBL; BC008475; AAH08475.1; -. DR EMBL; BC008477; AAH08477.1; -. DR EMBL; BC009578; AAH09578.1; -. DR EMBL; BC009579; AAH09579.1; -. DR EMBL; BC009582; AAH09582.1; -. DR EMBL; BC009587; AAH09587.1; -. DR EMBL; BC009602; AAH09602.1; -. DR EMBL; BC009607; AAH09607.1; -. DR EMBL; BC014359; AAH14359.1; -. DR EMBL; BC014361; AAH14361.1; -. DR EMBL; BC015130; AAH15130.1; -. DR EMBL; BC016006; AAH16006.1; -. DR EMBL; BC021994; AAH21994.1; -. DR EMBL; BC022330; AAH22330.1; -. DR PIR; A31764; CCHU. DR PIR; A00002; CCCZ. DR HSSP; P00004; 1WEJ. DR MIM; 123970; -. DR InterPro; IPR000345; CytC_heme_bind. DR InterPro; IPR003088; Cyt_CI. DR InterPro; IPR002327; Cyt_CIAB. DR Pfam; PF00034; cytochrome_c; 2. DR PRINTS; PR00604; CYTCHRMECIAB. DR ProDom; PD000375; Cyt_CIAB; 1. DR PROSITE; PS00190; CYTOCHROME_C; 1. KW Mitochondrion; Electron transport; Respiratory chain; Heme; KW Acetylation; Polymorphism; Apoptosis. FT INIT_MET 0 0 FT MOD_RES 1 1 ACETYLATION. FT BINDING 14 14 HEME (COVALENT). FT BINDING 17 17 HEME (COVALENT). FT METAL 18 18 IRON (HEME AXIAL LIGAND). FT METAL 80 80 IRON (HEME AXIAL LIGAND). FT VARIANT 65 65 M -> L (IN 10% OF HUMAN). FT /FTId=VAR_002204. FT CONFLICT 17 17 C -> Y (IN REF. 5; AAH15130). SQ SEQUENCE 104 AA; 11617 MW; D47C9B513DF1C5C2 CRC64; GDVEKGKKIF IMKCSQCHTV EKGGKHKTGP NLHGLFGRKT GQAPGYSYTA ANKNKGIIWG EDTLMEYLEN PKKYIPGTKM IFVGIKKKEE RADLIAYLKK ATNE //
Cross -references Keywords
The golden goals of Swiss-Prot • Annotated; • Complete; • Non-redundant; • Highly cross-referenced; • Available from a variety of servers and through sequence analysis software tools; • Associated with a wide-range of documentation.
TrEMBL: a platform for the improvement of automatic annotion tools • Two important factors: • It is not possible to «manually» cope with the speed with which new data is coming out; • We do not want to dilute the quality of Swiss-Prot • The solution: • TrEMBL (TRanslation of EMBL): contains all what is not yet in Swiss-Prot; • TrEMBL is automatically generated and annotated; • After a lot of testing; some sequence analysis tools will be applied systematically: SignalP, TMHMM, REP, InterPro domain assignement, etc.; • Rule based annotation expert systems are being developed and will be applied to TrEMBL starting in early 2004; • EVIDENCE TAGS are added to any part of a TrEMBL entry not derived from the original EMBL entry.
Cross-references • Explicitly cross-referenced to 53 databases. Such as DNA (EMBL/GenBank/DDBJ), 3D-structure (PDB), domain/families (PROSITE, InterPro, Pfam, etc.), genomic (MIM, MGD, FlyBase, SGD, SubtiList, etc.), 2D-gel (Swiss-2DPAGE), specialized db (REBASE, TRANSFAC, etc.); • Implicitly cross-referenced to 30 additional db on the WWW (DIP, Ensembl, GeneCards, etc.); • Additional links at the level of the taxonomy (NCBI taxonomy browser and NewT); references (PubMed and journal full texts); comments (specialized Web pages) and features (dbSNP).
PTM GlycoSuiteDB PhosSite Sequence EMBL PIR Domains, sites, families HAMAP InterPro PIRSF Pfam PRINTS ProDom PROSITE SMART TIGRFAMs Organism-specific dbSNP DictyDb EcoGene FlyBase GeneDB_SPombe Genew GK Gramene HIV Leproma ListiList MaizeDB MGD MypuList OMIM SagaList SGD StyGene SubtiList TIGR TubercuList WormPep ZFIN Swiss-Prot explicit links 2D-gel electrophoresis ANU-2DPAGE Aarhus/Ghent-2DPAGE COMPLUYEAST-2DPAGE ECO2DBASE HSC-2DPAGE MAIZE-2DPAGE PHCI-2DPAGE PMMA-2DPAGE Siena-2DPAGE SWISS-2DPAGE Miscellaneous GermOnline GO MEROPS REBASE TRANSFAC Structure HSSP PDB
Controlled vocabularies in Swiss-Prot • Taxonomy (species names and classification); • Strain names; • Plasmid names; • Tissues; • Protein names and synonyms; • Catalytic activity (ENZYME db); • Gene names; Human(HUGO/Genew), Mouse(MGD), Yeast(SGD), Drosophila(Flybase) Bacterial (EcoGene/SubtiList); • Keywords (list -> dictionary); • Author names!; • Journal abbreviations; • Feature keys and some descriptions (PTM); • CC similarity statements (BELONGS/CONTAINS); • In the near future: COFACTOR, PATHWAY, SUBUNIT.
Certains problèmes • Un manque de rigueur de la part de la communauté des sciences de la vie à utiliser et à faire évoluer des règles de nomenclature; • L’extraordinaire hétérogénéité de l’information biologique, que ce soit au niveau de la qualité, du type de données ou de leur représentation; • Les ontologies telles que GO (Gene Ontology) sont une aide précieuse pour permettre de représenter des processus biologiques, mais malheureusement elles sont souvent utilisées hors de leur contexte et souvent mal appliquées.
La qualité (1/3) • La qualité de l’information “primaire”: séquence et structure va en augmentant grâce aux avancées technologiques; • La qualité de l’information “secondaire”: l’interprétation des résultats expérimentaux est en constante baisse. La pression “publish or perish” devient de plus en plus forte et par conséquent: • Ne permet pas aux chercheurs de prendre le temps de réfléchir; • La compétition étant féroce, il est difficile de bénéficier de l’expertise de collègues travaillant dans le même domaine; • Comme il est presque impossible de décrire des résultats négatifs, ceux-ci sont mis à la trappe; • Il faut savoir se “vendre” et donc tirer les conclusions vers ce qui est le plus porteur et ceci souvent au mépris du bon sens.
La qualité (2/3) • Paradoxalement: • Les auteurs des informations collectées par Swiss-Prot ne sont pas toujours les mieux à même d’assurer une qualité et une consistence maximum; • La qualité des informations ne dépend que très peu du «prestige» de la source primaire de l’information. En d’autres termes il y a autant d’erreurs dans «Nature» ou «Science» que dans un journal bien moins loti en «impact factor»:
La qualité (3/3) • Formation des annotatrices/annotateurs. Deux ans pour devenir «indépendent», mais un apprentissage constant; • Chaque entrée de Swiss-Prot est toujours vue par deux personnes et vérifiée par des logiciels qui contrôlent le contenu et la consistence de l’information; • Nous développons des systèmes experts pour aider à trouver les erreurs possibles. C’est loin d’être trivial car une exception n’est souvent pas une erreur, mais la conséquence de l’extraordinaire variété du monde vivant.
Le contraulle de kallité Est essentiel pour toute banque de données, il est crucial dans le domaine des sciences de la vie. Dans Swiss-Prot nous passons une partie importante de notre temps à cette activité
The Swiss-Prot staff at SIB and EBI • Group leaders: Amos Bairoch,Rolf Apweiler • Annotators/curators:Andrea Auchincloss, Kristian Axelsen,Kirsty Bates,Margaret Biswas,Marie-Claude Blatter Garin,Brigitte Boeckmann, Silvia Braconi Quintaje, Paul Browne, Eveyl Camon, Danielle Coral, Elisabeth Coudert,Tania de Oliveira Lima, Kirill Degtyarenko, Sylvie Dethiollaz, Anne Estreicher,Livia Famiglietti,Nathalie Farriol-Mathis,Stephanie Federico, Serenella Ferro,Gill Fraser, John Garavelli, RaffaellaGatto, Vivienne Gerritsen,Arnaud Gos,Nadine Gruaz-Gumowski,Ursula Hinz,Chantal Hulo,Nicolas Hulo, Janet James, Florence Jungo, Vivien Junker,Youla Karavidopoulou,Maria Krestyaninova,Kati Laiho, Minna Lehvaslaiho,Michele Magrane,Karine Michoud, Virginie Mittard,Madelaine Moinat,Nicola Mulder,Claire O'Donovan, Sandra Orchard, Sandrine Pilbout, Sylvain Poux,Manuela Prüss,Sorogini Reynaud, Catherine Rivoire, Bernd Röchert,Michel Schneider, Christian Sigrist,André Stutz, Shyamala Sundaram, Michael Tognoli,Sandra van den Broek,Eleanor Whitfield • Programmers and system administrators: Daniel Barrell, David Binns, Laurent Bollondi, Sergio Contrino, Michael Darsow, Edouard deCastro, Séverine Duvaud, Alexander Fedetov, Astrid Fleischmann, Wolfgang Fleischmann,Elisabeth Gasteiger,Alain Gateau,Andre Hackmann, Henning Hermjakob, Ivan Ivanyi, Eric Jain ,Alexander Kanapin, Paul Kersey, Ernst Kretschmann,Corinne Lachaize, Maria-Jesus Martin,Xavier Martin, John O ’Rourke, Tom Oinn, Isabelle Phan, Astrid Rakow, Nicole Redaschi, Kai Runte, Florence Servant, Allyson Williams, Dan Wu • Research staff: Pavel Dobrokhotov, Alexandre Gattiker, Margus Luk, Anne Morgat, Anne-Lise Veuthey • Clerical and secretarial assistance: Veronique Mangold, Claudia Sapsezian, Margaret Shore-Nye, Laure Verbregue