990 likes | 1.14k Views
Molekularbiologische Datenbanken. QUELLEN: http://nar.oxfordjournals.org/content/vol35/suppl_1/index.dtl. Thoralf Töpel: Web-basierte Informationssysteme in der molekularen Bioinformatik, Vorlesung, SoSe 05. Überblick I. Problem: Datenbank <-> DATENBANK
E N D
Molekularbiologische Datenbanken QUELLEN:http://nar.oxfordjournals.org/content/vol35/suppl_1/index.dtl Thoralf Töpel: Web-basierte Informationssysteme in der molekularen Bioinformatik, Vorlesung, SoSe 05
Überblick I • Problem: Datenbank <-> DATENBANK • Warum gibt es öffentlich zugängliche molekularbiologische Datenbanken? • Data Submission = Veröffentlichung • Veröffentlichung: • Austausch von Informationen und Daten • Erlangung von Reputation • Molekularbiologische Datenbanken (MDB): Veröffentlichungen, nicht Tupel • Definitionen erforderlich!!! -> Verweis auf Vorlesung
Überblick II • Paper, Bücher, Reports • 1907 / 1927: Chemical/Biological Abstracts • Sekundärliteratur: Abstracts, bibliographische Daten • 1972 Medline • Publication Index (einer von vielen) • PubMed: http://www.ncbi.nlm.nih.gov/entrez • Aktuell: • > 15.000.000 Artikel: http://www.ncbi.nlm.nih.gov/Literature/ • > 19.000 Journals: ftp://ftp.ncbi.nih.gov/pubmed/J_Medline.txt • Online Links zu Volltextartikeln
Überblick III • Erste Sequenzen: Proteine • Länger bekannt und untersucht, einfacher zugänglich • DNA: Zellkern, kompakte Packung, große Länge, Instabilität • Erste Proteinsequenz 1951 (Sanger & Tuppy): Seitenkette von Insulin • Sammlung ab Anfang der 1960er (Dayhoff et al. 1965) • Protein Sequence Atlas: Buchform, 1968-1978 • Motivation: Evolutionäre Untersuchungen • 1980: Protein Information Resource (seit 1988: PIR-Int.) • 1986: SWISS-PROT: Genf (Amos Bairoch) plus EBI
Überblick IV Wachstum von Uni-ProtKB/SWISS-PROT: Quelle: http://www.expasy.org
Überblick V • Proteine falten sich in komplexe Strukturen, die entscheidend für die Funktion ist • Strukturaufklärung • Röntgenkristallographie (seit 50‘er Jahren: • Nuclear Magnetic Resonance (NMR) • Protein Data Bank (PDB): • Seit 1971 in Brookhaven • Seit 1999: Rutger University • Cambridge Structural Database: 1965
Überblick VI Wachstum von PDB Quelle: http://www.rcsb.org
Überblick VII:DNA-Sequenzierung • Doppelhelix der DNA: 1953 (Watson, Crick) • Entwicklung DNA Sequenzierung Beginn der 1970er (Sanger, 1972 ): „radioactive dideoxy sequencing“ • Sammlungen von DNA Sequenzen • Los Alamos National Laboratory seit 1979GenBank am NCBI (National Center f Biotech. Information) • European Molecular Biology Laboratory 1980EMBL am EBI (European Bioinformatics Institute) • DNA DataBank of Japan: 1986DDBJ am NIG (National Inst. of Genetics) • Int. Nuc. Sequence DB Collaboration seit ca. 1986 • Täglicher Austausch • Jeweils verantwortlich für submittete Sequenzen
Überblick VIII Wachstum von EMBL Quelle: http://www.ebi.ac.uk
Überblick IX • „Vernetzung“ Quelle:http://www.genome.ad.jp/dbget/dbget.links.html
Probleme I (Quelle: U. Leser) • Text -> Daten • Alle (großen) öffentlichen Datenbanken entstanden aus Büchern • Sammlungen bekannter Daten einer Art: DNA, Proteinsequenz, Proteinstruktur • Jährliche / Quartalsweises Erscheinen • Buch – Band – CD – FTP – WWW • Flaches, textorientiertes Datenmodell • Aufbau nach „Entries“ • Viele Beschreibungen in freier Textform • Für Menschen, nicht Computer
Probleme II (Quelle: U. Leser) • Schwierigkeiten • Hohe Redundanz (Literatur, ...) • Keine Vergleichbarkeit freier Beschreibungen • Keine Standardparser einsetzbar (Grammatiken) • Controlled Vocabularies schwierig (keine FK) • Schlechte „Skalierbarkeit“ • Vorteil • Lesbarkeit: Übersichtlich • Einfach editierbar, keine Einschränkungen • Entwicklung: Trennung von Speicherformat, Austauschformat, Benutzerinterface
Probleme III (Quelle: U. Leser) • Kontinuierliche Entwicklung !!! • Sukzessive Übernahme von DB Techniken
Eigenschaften I (Quelle: U. Leser) • Passiv oder aktiv • Model 1: • Alle Daten werden submittet • Sinn: Archivierung, ID Vergabe und „roher“ Zugriff • Verpflichtung durch Journals, Geldgeber, Gewissen • Beispiele: Genbank/EMBL..., PDB, ... • Model 2: • Aktiv sammeln: Journals, andere Datenquellen, ... • Sinn: Integration, Veredlung, Vollständigkeit • Ermöglicht zentralen Zugriff ohne Verpflichtung • Beispiele: SWISS-PROT, PIR, ... • Mischformen: • GDB - Human Genome Database: The Official World-Wide Database for the Annotation of the Human Genome
Eigenschaften I (Quelle: U. Leser) • Passiv oder aktiv ??
Eigenschaften II (Quelle: U. Leser) • Database Curation • Curation: Verbesserung, „Heilung“ • Modell 1: • Submitter/Quelle ist Datenherr • Keine (inhaltlichen) Veränderungen • Beispiele: Genbank, ArrayExpress, ... • Modell 2: • Daten werden laufend verbessert • Hoher (manueller) Aufwand • Beispiele: SWISS-PROT, MGD - Mouse Genome DB, MIPS, ...
Eigenschaften III (Quelle: U. Leser) • Redundanz • Model 1: • Alles aufnehmen • Modell 2: • Entfernen gleicher oder sehr ähnlicher Einträge • Was ist sehr ähnlich ? • Homologes Protein in anderer Spezies ? • Homologes Gen an anderer Position ? • Muss festgelegt werden ! • Beispiel SP: Redundanzminimierung durch Editoren • Beispiel UniGene: Redundanzminimierung durch Algorithmen
Eigenschaften IV (Quelle: U. Leser) • Integration • Modell 1 • DB als Archiv unverbundener Objekte • Problemloses Löschen / Hinzufügen von Objekten • Modell 2 • Objekte als Knoten in einem komplexen Geflecht • Neue „Knoten“ können Änderungskaskaden auslösen • Verschiedene Integrationstiefen • Links zu anderen Quellen • DBGET • Integr8 (web portal provides easy access to integrated information about deciphered genomes and their corresponding proteomes) • automatische Integration anhand definierter Kriterien (ENSEMBL: a software system which produces and maintains automatic annotation on selected eukaryotic genomes ) • Manuelle Integration anhand Wissen des Editors (SP) • DBGET / DBLINK: Datenbank aus Links
Eigenschaften IV - Beispiel zu Modell 2 (Quelle: U. Leser) Datenherkunft unklar! Integrated X-Chromosome Database
Eigenschaften V (Quelle: U. Leser) • Fokus • Organismus, Gewebe, Chromosome, ... • Datentyp: Sequenzen, Strukturen, Motive, ... • „Tiefe Datenbanken“ • Wenig Klassen, viele Objekte • EMBL, ArrayExpress, GDB, 2D Page (SWISS-2DPAGETwo-dimensional polyacrylamide gel electrophoresis database) ... • „Breite Datenbanken“ • „Viele Klassen, wenig Objekte“ • Chromosom-/ Spezies-/ Krankheitsspezifisch • MGD, MIPS, Genecards, ...
Eigenschaften V - Beispiel (Quelle: U. Leser) Genomics Unified Schema (GUS) is an extensive relational database schema and associated application framework designed to store, integrate, analyze and present functional genomics data. The GUS schema supports a wide range of data types including genomics, gene expression, transcript assemblies, proteomics and others. It emphasizes standards-based ontologies and strong-typing.
Eigenschaften VI (Quelle: U. Leser) • Position in „Wissensschöpfungskette“ • Primärdatenbanken • Nahe am Experiment • Wenig Verarbeitung (kurze Annotationspipelines) • Keine „Konsensdaten“ • Genbank/EMBL, PDB, UniGene • Sekundärdatenbanken • Intensive Arbeit zur Datenverbesserung • Reichhaltige Annotation und Verlinkung • Intensive Integration und Curationüber Datentypen hinweg • SWISS-PROT, MGD, OMIM, ... • Tertiärdatenbanken • Datenbanken von „Annotationstypen“ oder „Featuretypen“ • GeneOntology, PFAM, PRINTs, InterPro, CATH, ....
Eigenschaften VII (Quelle: U. Leser) • Zweck • Lange bestehend, international organisiert • Referenzdatenbanken, öffentliches Archiv • Genbank, SWISS-PROT, PIR, PDB, ... • Projektbezogen, One-Shot • Existieren ca. bis zur Veröffentlichung • Ergebnis einer Datenanalyse • Hochaktuell für kurze Zeit • Labor-Datenbanken • Verzahnung mit LIMS (Laboratory Info. Mang. S.) • Grundlage der Datenanalyse • Speichert Rohdaten (Traces, Bilder, MS-Spektren)
Eigenschaften VII - Beispiel Genexpressionsdaten (Quelle: U. Leser)
Eigenschaften VIII (Quelle: U. Leser) • Technik • Verwendete Technologie • Relationale DBMS (Oracle, Sybase, Informix) • Objektorientierte DBMS (Versant, Objectstore) • XML Datenbanken (Tamino, XIS) • Proprietäre Techniken (ACeDB, Icarus/SRS) • Flatfiles • Zugriffsmechanismen • Anfragesprachen: SQL, XQuery, OQL, • Canned Queries, Webforms • Indexmechanismen, Keywordsuche • Navigation
Anforderungen • Datenmenge • GenBank-Flatfiles 110 GB (2/2003) • SWISS-PROT, TrEMBL Oracle-Export 1 GB (2/2003) • Flexibilität • Forschungsfragen ändern sich • Design muß Wartbarkeit und Flexibilität ermöglichen • Schemaänderungen, neue Datentypen, Optimierungen, Integration • Offenheit • Zugriff durch unterschiedliche Clients, geeignete Export-Formate • Datenqualität • Unscharfe, widersprüchliche Daten durch Experimente
Klassifikation • Jährliche Sonderausgabe der „Nucleic Acids Research“ (seit 1996) • seit 2004 „Database Issue“ • Molecular Biology Database • Collection • http://nar.oupjournals.org • 2005 : 719 DBs • 2006 : 858 DBs
Nukleotidsequenzdatenquellen • Labors, Sequenzierkonsortien, Patentanmeldungen hinterlegen ihre Sequenzen • GenBank (National Center for Biotechnology Information, NIH) • EMBL-Bank (European Molecular Biology Laboratory, EMBL-EBI) • DDBJ: DNA Database of Japan • International Nucleotide Sequence Database Collaboration • Täglicher Abgleich der Sequenzen • Inhaltlich deckungsgleich • Separate Eingabepunkte für neue Sequenzen • Unterschiede im Speicherformat und Annotation • Abstimmung der Datenformate
Nukleotidsequenzdatenquellen (2) • Bedingung für Veröffentlichung eines Artikels in Fachzeitschrift • = Einbringung der neuen Nukleotidsequenz in DB • Inhalt • Daten und Annotation für eine einzige, zusammenhängende Sequenz • Auch Sammlung mehrerer veröffentlichter Artikel als überlappende Fragmente • Lebensgeschichte: ohne Annotation – vorläufig – ungeprüft – Standard • Selten „stirbt“ ein Eintrag • Eigenschaftstabelle (feature table) verweist auf Abschnitte, die • bestimmte Funktionen ausführen oder beeinflussen • mit anderen Molekülen in Wechselwirkung treten • sich auf die Replikation auswirken • an der Rekombination beteiligt sind • Wiederholungseinheiten darstellen • eine Sekundär- oder Tertiärstruktur besitzen • überarbeitet oder korrigiert wurden
EMBL - Database • = EMBL Nucleotide Sequence Database • Inhalt stieg in einem Jahr von 27,2 auf 42,3 Mill. Einträge (Sept. 2004) • Verfügbare Daten: vierteljährlich komplette DB, tägliche Updates • Bevorzugte Dateneingabe über WebIn • Zugriff über • SRS, FTP • Dbfetch, EMBL Sequence Version Archive (SVA) • Strukturierte Wertepaare AC X64011; S78972; • Feature Table: Key Location/Qualifiers CDS 23..400 /product="alcohol dehydrogenase" /gene="adhI" • The feature CDS is a coding sequence beginning at base 23 and ending at base 400, has a product called 'alcohol dehydrogenase' and is coded for by a gene called "adhI".
EMBL: Format ID LISOD standard; genomic DNA; PRO; 756 BP.XX AC X64011; S78972;XXSV X64011.1XXDT 28-APR-1992 (Rel. 31, Created)DT 30-JUN-1993 (Rel. 36, Last updated, Version 6)XXDE Listeria ivanovii sod gene for superoxide dismutaseXXKW sod gene; superoxide dismutase.XXOS Listeria ivanoviiOC Bacteria; Firmicutes; Bacillus/Clostridium group;OC Bacillus/Staphylococcus group; Listeria.XXRN [1]RX MEDLINE; 92140371.RA Haas A., Goebel W.;RT "Cloning of a superoxide dismutase gene from Listeria ivanovii byRT functional complementation in Escherichia coli and characterization of theRT gene product.";RL Mol. Gen. Genet. 231:313-322(1992).XXDR SWISS-PROT; P28763; SODM_LISIV.XXFH Key Location/QualifiersFHFT source 1..756FT /db_xref="taxon:1638"FT /organism="Listeria ivanovii"FT /strain="ATCC 19119"FT /mol_type="genomic DNA"FT RBS 95..100…
EMBL: WebIn • Submitter Information • Release Date Information • Sequence Data, Description and Source Information • Reference Citation Information • Feature Information (e.g. coding regions, regulatory signals etc.)
EMBL: SRS 4.3 | Nukleotidsequenzdatenquellen
EMBL: XML-Unterstützung • EMBL + XML = XEMBL • CORBA-basierter WWW-Dienst • Erzeugung von XML-Files aus EMBL-Flat-Files • Zur Zeit Unterstützung von DTD‘S von BSML und AGAVE ( Architecture for Genomic Annotation, Visualization and Exchange) • Zugriff über SOAP ( Simple Object Access Protocol vom W3-Konsortium) bzw. CGI-Aufrufe 4.3 | Nukleotidsequenzdatenquellen
EMBL: Überblick 4.3 | Nukleotidsequenzdatenquellen
Die Genbank–Sequenzdatenbank • Anbieter: National Institutes of Health (NIH) erzeugt vom National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/ • Inhalt: alle öffentlich verfügbaren RNA, DNA und Protein-Sequenzen mit Annotationen • täglicher Abgleich mit EMBL und DDBJ • Untergliederung in Divisionen: • phylogentisch (Verwandschaft, Abstammung) • technologisch: Wie wird Sequenz generiert? • Releases: 2x monatlich mit täglichen Updates • Nicht entwickelt für Zugriff mittels Computer!!!
GenBank: Format • Informationseinheit: GBFF (GenBank Flatfile) • Header • LOCUS eind. Name, Sequenzlänge, Molekültyp, Datum • DEFINITION biologische Zusammenfassung • ACCESSION Schlüssel • VERSION Angabe der letztgültigen Version • KEYWORDS nicht-standardisierte Beschreibung der Sequenz • SOURCE/ORGANISM Trivialname/wiss. Name des Organismus • REFERENCE Block mit mind. einer Referenz • Features • Source Quelle des verwendeten biol. Materials • CDS Sequenzabschnitt für Aminosäuresequenz • … • Nukleotidsequenz
GenBank: Format (2) LOCUS LISOD 756 bp DNA linear BCT 30-JUN-1993DEFINITION Listeria ivanovii sod gene for superoxide dismutase.ACCESSION X64011 S78972VERSION X64011.1 GI:44010KEYWORDS sod gene; superoxide dismutase.SOURCE Listeria ivanovii ORGANISM Listeria ivanovii Bacteria; Firmicutes; Bacillales; Listeriaceae; Listeria. REFERENCE 1 (bases 1 to 756) AUTHORS Haas,A. and Goebel,W. TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by functional complementation in Escherichia coli and characterization of the gene product JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992) MEDLINE 92140371REFERENCE 2 (bases 1 to 756) AUTHORS Kreft,J. TITLE Direct Submission JOURNAL Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg, FRGFEATURES Location/Qualifiers source 1..756 /organism="Listeria ivanovii" /strain="ATCC 19119" /db_xref="taxon:1638" /mol_type="genomic DNA" RBS 95..100 /gene="sod" gene 95..746 /gene="sod" CDS 109..717 /gene="sod" /EC_number="1.15.1.1" /codon_start=1 /transl_table=11 /product="superoxide dismutase" … 4.3 | Nukleotidsequenzdatenquellen
Proteinsequenzdatenquellen • Meistens aus Nukleinsäuresequenzen abgeleitet • Typische Vertreter: • Swiss-Prot (Schweizer Institut für Bioinformatik, EMBL) • PIR (Georgetown University Washington, MIPS München, Japan) • TrEMBL (EMBL) • UniProt (Swiss-Prot + TrEMBL+ PIR)
Swiss-Prot • Kommentierte Proteinsequenzdatenbank • Umfangreiche Bemerkungen (Annotationen), geringe Redundanz, Links zu anderen Datenquellen • Entwicklung seit 1986 an der Universität Genf, Schweiz • Partnerschaftlich vom EMBL-EBI und dem SIB (Swiss Institute of Bioinformatics) betrieben • Aminosäurensequenz, Annotationen, Verweise, Synonyme, Literaturreferenzen, Schlüsselworte • Format der Daten orientiert sich an der EMBL–Nukleotidsequenzdatenbank • Umfang: Proteinsequenz, Version, Vorgänger, Autor, Datum, Länge, Methode, letzte Änderung, Organismus, Sequenzfeatures, Links, Ref. • Engpässe und somit zeitliche Verzögerungen während des Annotationsverfahres • 1996 Entwicklung von TrEMBL, Rechner–annotierte Einträge (Translation of EMBL nucleotide sequence database)
Swiss-Prot: Format 4.4 | Proteinsequenzdatenquellen
Swiss-Prot: Dienste Bildquelle: http://www.expasy.org/sitemap.html