1 / 97

Molekularbiologische Datenbanken

Molekularbiologische Datenbanken. QUELLEN: http://nar.oxfordjournals.org/content/vol35/suppl_1/index.dtl. Thoralf Töpel: Web-basierte Informationssysteme in der molekularen Bioinformatik, Vorlesung, SoSe 05. Überblick I. Problem: Datenbank <-> DATENBANK

holleb
Download Presentation

Molekularbiologische Datenbanken

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Molekularbiologische Datenbanken QUELLEN:http://nar.oxfordjournals.org/content/vol35/suppl_1/index.dtl Thoralf Töpel: Web-basierte Informationssysteme in der molekularen Bioinformatik, Vorlesung, SoSe 05

  2. Überblick I • Problem: Datenbank <-> DATENBANK • Warum gibt es öffentlich zugängliche molekularbiologische Datenbanken? • Data Submission = Veröffentlichung • Veröffentlichung: • Austausch von Informationen und Daten • Erlangung von Reputation • Molekularbiologische Datenbanken (MDB): Veröffentlichungen, nicht Tupel • Definitionen erforderlich!!! -> Verweis auf Vorlesung

  3. Überblick II • Paper, Bücher, Reports • 1907 / 1927: Chemical/Biological Abstracts • Sekundärliteratur: Abstracts, bibliographische Daten • 1972 Medline • Publication Index (einer von vielen) • PubMed: http://www.ncbi.nlm.nih.gov/entrez • Aktuell: • > 15.000.000 Artikel: http://www.ncbi.nlm.nih.gov/Literature/ • > 19.000 Journals: ftp://ftp.ncbi.nih.gov/pubmed/J_Medline.txt • Online Links zu Volltextartikeln

  4. Überblick III • Erste Sequenzen: Proteine • Länger bekannt und untersucht, einfacher zugänglich • DNA: Zellkern, kompakte Packung, große Länge, Instabilität • Erste Proteinsequenz 1951 (Sanger & Tuppy): Seitenkette von Insulin • Sammlung ab Anfang der 1960er (Dayhoff et al. 1965) • Protein Sequence Atlas: Buchform, 1968-1978 • Motivation: Evolutionäre Untersuchungen • 1980: Protein Information Resource (seit 1988: PIR-Int.) • 1986: SWISS-PROT: Genf (Amos Bairoch) plus EBI

  5. Überblick IV Wachstum von Uni-ProtKB/SWISS-PROT: Quelle: http://www.expasy.org

  6. Überblick V • Proteine falten sich in komplexe Strukturen, die entscheidend für die Funktion ist • Strukturaufklärung • Röntgenkristallographie (seit 50‘er Jahren: • Nuclear Magnetic Resonance (NMR) • Protein Data Bank (PDB): • Seit 1971 in Brookhaven • Seit 1999: Rutger University • Cambridge Structural Database: 1965

  7. Überblick VI Wachstum von PDB Quelle: http://www.rcsb.org

  8. Überblick VII:DNA-Sequenzierung • Doppelhelix der DNA: 1953 (Watson, Crick) • Entwicklung DNA Sequenzierung Beginn der 1970er (Sanger, 1972 ): „radioactive dideoxy sequencing“ • Sammlungen von DNA Sequenzen • Los Alamos National Laboratory seit 1979GenBank am NCBI (National Center f Biotech. Information) • European Molecular Biology Laboratory 1980EMBL am EBI (European Bioinformatics Institute) • DNA DataBank of Japan: 1986DDBJ am NIG (National Inst. of Genetics) • Int. Nuc. Sequence DB Collaboration seit ca. 1986 • Täglicher Austausch • Jeweils verantwortlich für submittete Sequenzen

  9. Überblick VIII Wachstum von EMBL Quelle: http://www.ebi.ac.uk

  10. Überblick IX • „Vernetzung“ Quelle:http://www.genome.ad.jp/dbget/dbget.links.html

  11. Probleme I (Quelle: U. Leser) • Text -> Daten • Alle (großen) öffentlichen Datenbanken entstanden aus Büchern • Sammlungen bekannter Daten einer Art: DNA, Proteinsequenz, Proteinstruktur • Jährliche / Quartalsweises Erscheinen • Buch – Band – CD – FTP – WWW • Flaches, textorientiertes Datenmodell • Aufbau nach „Entries“ • Viele Beschreibungen in freier Textform • Für Menschen, nicht Computer

  12. Probleme II (Quelle: U. Leser) • Schwierigkeiten • Hohe Redundanz (Literatur, ...) • Keine Vergleichbarkeit freier Beschreibungen • Keine Standardparser einsetzbar (Grammatiken) • Controlled Vocabularies schwierig (keine FK) • Schlechte „Skalierbarkeit“ • Vorteil • Lesbarkeit: Übersichtlich • Einfach editierbar, keine Einschränkungen • Entwicklung: Trennung von Speicherformat, Austauschformat, Benutzerinterface

  13. Probleme III (Quelle: U. Leser) • Kontinuierliche Entwicklung !!! • Sukzessive Übernahme von DB Techniken

  14. Eigenschaften I (Quelle: U. Leser) • Passiv oder aktiv • Model 1: • Alle Daten werden submittet • Sinn: Archivierung, ID Vergabe und „roher“ Zugriff • Verpflichtung durch Journals, Geldgeber, Gewissen • Beispiele: Genbank/EMBL..., PDB, ... • Model 2: • Aktiv sammeln: Journals, andere Datenquellen, ... • Sinn: Integration, Veredlung, Vollständigkeit • Ermöglicht zentralen Zugriff ohne Verpflichtung • Beispiele: SWISS-PROT, PIR, ... • Mischformen: • GDB - Human Genome Database: The Official World-Wide Database for the Annotation of the Human Genome

  15. Eigenschaften I (Quelle: U. Leser) • Passiv oder aktiv ??

  16. Eigenschaften II (Quelle: U. Leser) • Database Curation • Curation: Verbesserung, „Heilung“ • Modell 1: • Submitter/Quelle ist Datenherr • Keine (inhaltlichen) Veränderungen • Beispiele: Genbank, ArrayExpress, ... • Modell 2: • Daten werden laufend verbessert • Hoher (manueller) Aufwand • Beispiele: SWISS-PROT, MGD - Mouse Genome DB, MIPS, ...

  17. Eigenschaften II - Beispiel (Quelle: U. Leser)

  18. Eigenschaften III (Quelle: U. Leser) • Redundanz • Model 1: • Alles aufnehmen • Modell 2: • Entfernen gleicher oder sehr ähnlicher Einträge • Was ist sehr ähnlich ? • Homologes Protein in anderer Spezies ? • Homologes Gen an anderer Position ? • Muss festgelegt werden ! • Beispiel SP: Redundanzminimierung durch Editoren • Beispiel UniGene: Redundanzminimierung durch Algorithmen

  19. Eigenschaften IV (Quelle: U. Leser) • Integration • Modell 1 • DB als Archiv unverbundener Objekte • Problemloses Löschen / Hinzufügen von Objekten • Modell 2 • Objekte als Knoten in einem komplexen Geflecht • Neue „Knoten“ können Änderungskaskaden auslösen • Verschiedene Integrationstiefen • Links zu anderen Quellen • DBGET • Integr8 (web portal provides easy access to integrated information about deciphered genomes and their corresponding proteomes) • automatische Integration anhand definierter Kriterien (ENSEMBL: a software system which produces and maintains automatic annotation on selected eukaryotic genomes ) • Manuelle Integration anhand Wissen des Editors (SP) • DBGET / DBLINK: Datenbank aus Links

  20. Eigenschaften IV - Beispiel zu Modell 2 (Quelle: U. Leser)

  21. Eigenschaften IV - Beispiel zu Modell 2 (Quelle: U. Leser) Datenherkunft unklar! Integrated X-Chromosome Database

  22. Eigenschaften IV - Beispiel zu Modell 2 (Quelle: U. Leser)

  23. Eigenschaften V (Quelle: U. Leser) • Fokus • Organismus, Gewebe, Chromosome, ... • Datentyp: Sequenzen, Strukturen, Motive, ... • „Tiefe Datenbanken“ • Wenig Klassen, viele Objekte • EMBL, ArrayExpress, GDB, 2D Page (SWISS-2DPAGETwo-dimensional polyacrylamide gel electrophoresis database) ... • „Breite Datenbanken“ • „Viele Klassen, wenig Objekte“ • Chromosom-/ Spezies-/ Krankheitsspezifisch • MGD, MIPS, Genecards, ...

  24. Eigenschaften V - Beispiel (Quelle: U. Leser) Genomics Unified Schema (GUS) is an extensive relational database schema and associated application framework designed to store, integrate, analyze and present functional genomics data. The GUS schema supports a wide range of data types including genomics, gene expression, transcript assemblies, proteomics and others. It emphasizes standards-based ontologies and strong-typing.

  25. Eigenschaften VI (Quelle: U. Leser) • Position in „Wissensschöpfungskette“ • Primärdatenbanken • Nahe am Experiment • Wenig Verarbeitung (kurze Annotationspipelines) • Keine „Konsensdaten“ • Genbank/EMBL, PDB, UniGene • Sekundärdatenbanken • Intensive Arbeit zur Datenverbesserung • Reichhaltige Annotation und Verlinkung • Intensive Integration und Curationüber Datentypen hinweg • SWISS-PROT, MGD, OMIM, ... • Tertiärdatenbanken • Datenbanken von „Annotationstypen“ oder „Featuretypen“ • GeneOntology, PFAM, PRINTs, InterPro, CATH, ....

  26. Eigenschaften VI - Beispiel (Quelle: U. Leser)

  27. Eigenschaften VII (Quelle: U. Leser) • Zweck • Lange bestehend, international organisiert • Referenzdatenbanken, öffentliches Archiv • Genbank, SWISS-PROT, PIR, PDB, ... • Projektbezogen, One-Shot • Existieren ca. bis zur Veröffentlichung • Ergebnis einer Datenanalyse • Hochaktuell für kurze Zeit • Labor-Datenbanken • Verzahnung mit LIMS (Laboratory Info. Mang. S.) • Grundlage der Datenanalyse • Speichert Rohdaten (Traces, Bilder, MS-Spektren)

  28. Eigenschaften VII - Beispiel Genexpressionsdaten (Quelle: U. Leser)

  29. Eigenschaften VIII (Quelle: U. Leser) • Technik • Verwendete Technologie • Relationale DBMS (Oracle, Sybase, Informix) • Objektorientierte DBMS (Versant, Objectstore) • XML Datenbanken (Tamino, XIS) • Proprietäre Techniken (ACeDB, Icarus/SRS) • Flatfiles • Zugriffsmechanismen • Anfragesprachen: SQL, XQuery, OQL, • Canned Queries, Webforms • Indexmechanismen, Keywordsuche • Navigation

  30. Anforderungen • Datenmenge • GenBank-Flatfiles 110 GB (2/2003) • SWISS-PROT, TrEMBL Oracle-Export 1 GB (2/2003) • Flexibilität • Forschungsfragen ändern sich • Design muß Wartbarkeit und Flexibilität ermöglichen • Schemaänderungen, neue Datentypen, Optimierungen, Integration • Offenheit • Zugriff durch unterschiedliche Clients, geeignete Export-Formate • Datenqualität • Unscharfe, widersprüchliche Daten durch Experimente

  31. Klassifikation • Jährliche Sonderausgabe der „Nucleic Acids Research“ (seit 1996) • seit 2004 „Database Issue“ • Molecular Biology Database • Collection • http://nar.oupjournals.org • 2005 : 719 DBs • 2006 : 858 DBs

  32. Klassifikation (2)

  33. Nukleotidsequenzdatenquellen • Labors, Sequenzierkonsortien, Patentanmeldungen hinterlegen ihre Sequenzen • GenBank (National Center for Biotechnology Information, NIH) • EMBL-Bank (European Molecular Biology Laboratory, EMBL-EBI) • DDBJ: DNA Database of Japan • International Nucleotide Sequence Database Collaboration • Täglicher Abgleich der Sequenzen • Inhaltlich deckungsgleich • Separate Eingabepunkte für neue Sequenzen • Unterschiede im Speicherformat und Annotation • Abstimmung der Datenformate

  34. Nukleotidsequenzdatenquellen (2) • Bedingung für Veröffentlichung eines Artikels in Fachzeitschrift • = Einbringung der neuen Nukleotidsequenz in DB • Inhalt • Daten und Annotation für eine einzige, zusammenhängende Sequenz • Auch Sammlung mehrerer veröffentlichter Artikel als überlappende Fragmente • Lebensgeschichte: ohne Annotation – vorläufig – ungeprüft – Standard • Selten „stirbt“ ein Eintrag • Eigenschaftstabelle (feature table) verweist auf Abschnitte, die • bestimmte Funktionen ausführen oder beeinflussen • mit anderen Molekülen in Wechselwirkung treten • sich auf die Replikation auswirken • an der Rekombination beteiligt sind • Wiederholungseinheiten darstellen • eine Sekundär- oder Tertiärstruktur besitzen • überarbeitet oder korrigiert wurden

  35. EMBL - Database • = EMBL Nucleotide Sequence Database • Inhalt stieg in einem Jahr von 27,2 auf 42,3 Mill. Einträge (Sept. 2004) • Verfügbare Daten: vierteljährlich komplette DB, tägliche Updates • Bevorzugte Dateneingabe über WebIn • Zugriff über • SRS, FTP • Dbfetch, EMBL Sequence Version Archive (SVA) • Strukturierte Wertepaare AC X64011; S78972; • Feature Table: Key Location/Qualifiers CDS 23..400 /product="alcohol dehydrogenase" /gene="adhI" • The feature CDS is a coding sequence beginning at base 23 and ending at base 400, has a product called 'alcohol dehydrogenase' and is coded for by a gene called "adhI".

  36. EMBL: Format ID LISOD standard; genomic DNA; PRO; 756 BP.XX AC X64011; S78972;XXSV X64011.1XXDT 28-APR-1992 (Rel. 31, Created)DT 30-JUN-1993 (Rel. 36, Last updated, Version 6)XXDE Listeria ivanovii sod gene for superoxide dismutaseXXKW sod gene; superoxide dismutase.XXOS Listeria ivanoviiOC Bacteria; Firmicutes; Bacillus/Clostridium group;OC Bacillus/Staphylococcus group; Listeria.XXRN [1]RX MEDLINE; 92140371.RA Haas A., Goebel W.;RT "Cloning of a superoxide dismutase gene from Listeria ivanovii byRT functional complementation in Escherichia coli and characterization of theRT gene product.";RL Mol. Gen. Genet. 231:313-322(1992).XXDR SWISS-PROT; P28763; SODM_LISIV.XXFH Key Location/QualifiersFHFT source 1..756FT /db_xref="taxon:1638"FT /organism="Listeria ivanovii"FT /strain="ATCC 19119"FT /mol_type="genomic DNA"FT RBS 95..100…

  37. EMBL: WebIn • Submitter Information • Release Date Information • Sequence Data, Description and Source Information • Reference Citation Information • Feature Information (e.g. coding regions, regulatory signals etc.)

  38. EMBL: Dbfetch

  39. EMBL: SRS 4.3 | Nukleotidsequenzdatenquellen

  40. EMBL: XML-Unterstützung • EMBL + XML = XEMBL • CORBA-basierter WWW-Dienst • Erzeugung von XML-Files aus EMBL-Flat-Files • Zur Zeit Unterstützung von DTD‘S von BSML und AGAVE ( Architecture for Genomic Annotation, Visualization and Exchange) • Zugriff über SOAP ( Simple Object Access Protocol vom W3-Konsortium) bzw. CGI-Aufrufe 4.3 | Nukleotidsequenzdatenquellen

  41. EMBL: Überblick 4.3 | Nukleotidsequenzdatenquellen

  42. Die Genbank–Sequenzdatenbank • Anbieter: National Institutes of Health (NIH) erzeugt vom National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/ • Inhalt: alle öffentlich verfügbaren RNA, DNA und Protein-Sequenzen mit Annotationen • täglicher Abgleich mit EMBL und DDBJ • Untergliederung in Divisionen: • phylogentisch (Verwandschaft, Abstammung) • technologisch: Wie wird Sequenz generiert? • Releases: 2x monatlich mit täglichen Updates • Nicht entwickelt für Zugriff mittels Computer!!!

  43. GenBank: Format • Informationseinheit: GBFF (GenBank Flatfile) • Header • LOCUS eind. Name, Sequenzlänge, Molekültyp, Datum • DEFINITION biologische Zusammenfassung • ACCESSION Schlüssel • VERSION Angabe der letztgültigen Version • KEYWORDS nicht-standardisierte Beschreibung der Sequenz • SOURCE/ORGANISM Trivialname/wiss. Name des Organismus • REFERENCE Block mit mind. einer Referenz • Features • Source Quelle des verwendeten biol. Materials • CDS Sequenzabschnitt für Aminosäuresequenz • … • Nukleotidsequenz

  44. GenBank: Format (2) LOCUS LISOD 756 bp DNA linear BCT 30-JUN-1993DEFINITION Listeria ivanovii sod gene for superoxide dismutase.ACCESSION X64011 S78972VERSION X64011.1 GI:44010KEYWORDS sod gene; superoxide dismutase.SOURCE Listeria ivanovii ORGANISM Listeria ivanovii Bacteria; Firmicutes; Bacillales; Listeriaceae; Listeria. REFERENCE 1 (bases 1 to 756) AUTHORS Haas,A. and Goebel,W. TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by functional complementation in Escherichia coli and characterization of the gene product JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992) MEDLINE 92140371REFERENCE 2 (bases 1 to 756) AUTHORS Kreft,J. TITLE Direct Submission JOURNAL Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg, FRGFEATURES Location/Qualifiers source 1..756 /organism="Listeria ivanovii" /strain="ATCC 19119" /db_xref="taxon:1638" /mol_type="genomic DNA" RBS 95..100 /gene="sod" gene 95..746 /gene="sod" CDS 109..717 /gene="sod" /EC_number="1.15.1.1" /codon_start=1 /transl_table=11 /product="superoxide dismutase" … 4.3 | Nukleotidsequenzdatenquellen

  45. GenBank: Suche

  46. Proteinsequenzdatenquellen • Meistens aus Nukleinsäuresequenzen abgeleitet • Typische Vertreter: • Swiss-Prot (Schweizer Institut für Bioinformatik, EMBL) • PIR (Georgetown University Washington, MIPS München, Japan) • TrEMBL (EMBL) • UniProt (Swiss-Prot + TrEMBL+ PIR)

  47. Swiss-Prot • Kommentierte Proteinsequenzdatenbank • Umfangreiche Bemerkungen (Annotationen), geringe Redundanz, Links zu anderen Datenquellen • Entwicklung seit 1986 an der Universität Genf, Schweiz • Partnerschaftlich vom EMBL-EBI und dem SIB (Swiss Institute of Bioinformatics) betrieben • Aminosäurensequenz, Annotationen, Verweise, Synonyme, Literaturreferenzen, Schlüsselworte • Format der Daten orientiert sich an der EMBL–Nukleotidsequenzdatenbank • Umfang: Proteinsequenz, Version, Vorgänger, Autor, Datum, Länge, Methode, letzte Änderung, Organismus, Sequenzfeatures, Links, Ref. • Engpässe und somit zeitliche Verzögerungen während des Annotationsverfahres • 1996 Entwicklung von TrEMBL, Rechner–annotierte Einträge (Translation of EMBL nucleotide sequence database)

  48. Swiss-Prot: Format 4.4 | Proteinsequenzdatenquellen

  49. Swiss-Prot: Format (2)

  50. Swiss-Prot: Dienste Bildquelle: http://www.expasy.org/sitemap.html

More Related