450 likes | 551 Views
IT-Zertifikat der Phil.Fak. Kurs 4: Daten- und Metadatenstandards. Patrick Sahle Daten- und Metadaten SS 09. TEI (Text Encoding Initiative) Einstieg http://www.youtube.com/watch?v=4sHYDfITjHY http://www.bobdylan.com/#/songs/subterranean-homesick-blues
E N D
IT-Zertifikat der Phil.Fak Kurs 4: Daten- und Metadatenstandards Patrick Sahle Daten- und Metadaten SS 09
TEI (Text Encoding Initiative) • Einstieg • http://www.youtube.com/watch?v=4sHYDfITjHY • http://www.bobdylan.com/#/songs/subterranean-homesick-blues • http://etcl.uvic.ca/wp-content/uploads/tei/Encoded_Dylan_Lyrics.xml
TEI (Text Encoding Initiative) • Basics: Wikipedia • Grundansatz (Auszeichnung als Abstraktion) • Schieflagen? Anwendungsbereich?
TEI (Text Encoding Initiative) • Ein Beispiel: • site: http://graves.uvic.ca/ • file: http://graves.uvic.ca/get_markup.xq?id=entries1935-02 • TEI verstehen und benutzen • Einstieg: http://www.tei-c.org/index.xml • Elemente: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/REF-ELEMENTS.html
TEI (Text Encoding Initiative) • TEI Strukturen • P5: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/index.html • ongoing activities: http://www.tei-c.org/Activities/index.xml
TEI (Text Encoding Initiative) • TEI anwenden • Das Roma-Tool: http://www.tei-c.org/Roma/
Dublin Core (DC) • Einstieg: • http://de.wikipedia.org/wiki/Dublin_Core • http://en.wikipedia.org/wiki/Dublin_Core (besser!) • http://dublincore.org/ • Organisatorischer, historischer und konzeptioneller Hintergrund
Dublin Core • einfacher Satz an Elementen/Begriffen zur Beschreibung von Objekten auf der Metadatenebene • core elements, version 1.1, ISO 15836 (2003): • http://dublincore.org/documents/dces/ • identifier • format, type, language • title, subject, coverage, description • creator, publisher, contributor, rights, provenance • relation, source • date
Dublin Core • "Dublin Core Simple" (15 Elemente) vs. • "Dublin Core Qualified" (element refinements) • "Begriffe im Namensraum DCTerms" (55 Elemente):http://dublincore.org/documents/dcmi-terms/
Dublin Core • … definiert Begriffe / Konzepte, keine Syntax • … kann ausgedrückt werden z.B. mittels HTML oder XML <head> <meta name="DC.title" content="DC Einführung"/> <meta name="DC.creator" content="Patrick Sahle"/> <meta name="DCTERMS,created" content="2009-01-20" /> <metadata xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" /> <dc:title>DC Einführung</dc:title> <dc:creator>Patrick Sahle</dc:creator> <dcterms:created>2009-01-20</dcterms:created>
Dublin Core • Anwendungsbeispiel: BSB-Digitalisate an der OAI-Schnittstelle • <metadata> <dc:title>Reichstagshandbuch. </dc:title> <dc:publisher>Reichsdr.</dc:publisher> <dc:date>1924</dc:date> <dc:format>text/xml</dc:format> <dc_identifier>http://nbn-resolving.de/urn:nbn:de:bvb:12-bsb00000002-6</dc_identifier></metadata> • <metadata> <dc:title>Reichstagshandbuch. </dc:title> <dc:publisher>Reichsdr.</dc:publisher> <dc:date>1924</dc:date> <dc:format>text/xml</dc:format> <dc_identifier>http://nbn-resolving.de/urn:nbn:de:bvb:12-bsb00000003-1</dc_identifier></metadata>
DC revisited • Vor und Nachteile? • Lob der Einfachheit! • Informationsreduktion? (Strategien) • Gebunden an Perspektiven und Wissensbereiche • Was ist das Objekt? • Granularität, Seitenbezug • Typ, Ontologischer Status
Rekapitulation: Dublin Core (DC) • "Scope" • Ansatz • Datenstandard, kein Datenformat • Syntax? HTML und XML. • Dublin Core Simple / Dublin Core Qualified • Vor- und Nachteile? Problematisierung?
Dublin Core • Anwendungsbeispiel: OPAL • http://www.opal-niedersachsen.de/
Dublin Core • Anwendungsbeispiel: OPAL • myOpal xmlDownload ein Beispiel aussuchen • Was ist hier los? Ist das noch Dublin Core? • Lokale Anwendung! Dokumentation: "Application Profile" • Leicht übersetzbar auf Standard-"Dublin Core"
DC revisited • Vor und Nachteile? • Lob der Einfachheit! • Informationsreduktion? (Strategien) • Gebunden an Perspektiven und Wissensbereiche • Was ist das Objekt? • Granularität, Seitenbezug • Typ, Ontologischer Status
OAI = Open Archives Initiative (eigentlich: OAI-PMH = Protocol for Metadata Harvesting)
OAI • Einstieg: • http://de.wikipedia.org/wiki/Open_Archives_Initiative • http://en.wikipedia.org/wiki/Open_Archives_Initiative • http://www.openarchives.org/ • http://www.openarchives.org/OAI/openarchivesprotocol.html • Beispiel für eine Schnittstelle zur Kommunikation von (Meta-)Daten über das Internet • Wichtige Begriffe: Data-Provider, Service-Provider
OAI • Datenkommunikation über http-Request • Basisadresse + Script (+ Verb (+ Argument)?)* • Sechs "Verben" zur Kommunikation • Identify [wer bist du?] • ListMetadataFormats [was sprichst du?] • ListSets [was hast du für Sammlungen?] • ListIdentifiers [gib mir deine Identifier] • ListRecords [gib mir Datensätze] • GetRecords [gib mir Datensätze] • Sechs "Argumente": metadataPrefix, identifier, from, until, set, resumptionToken
OAI • Beispielanwendungen • OAISTER (Service Provider): http://www.oaister.org/ • ZVDD (Data Provider): http://www.digitalisiertedrucke.de/ • http://www.digitalisiertedrucke.de/oai2d.py?verb=ListSets • BSB (Data Provider): http://www.bsb-muenchen.de/ • http://mdz1.bib-bvb.de/~db/OAI/oai2.php?verb=Identify • CEEC (Data Provider): http://www.ceec.uni-koeln.de/ • http://www.ceec.uni-koeln.de/ceec-oai/kleioc?verb=Identify
OAI • Beispielanwendung CEEC • Handschrift Dom 213 • Bild: http://www.ceec.uni-koeln.de/ceec-cgi/kleioc/0010/exec/pagesma/%22kn28-0213_001.jpg%22/segment/%22body%22 • Beschreibung: http://www.ceec.uni-koeln.de/ceec-cgi/kleioc/0010/exec/katl/%22kn28-0213%22 • XML (TEI-like): http://www.ceec.uni-koeln.de/projekte/CEEC/database/descriptions/kn28-0213.xml • OAI (oai_dc): http://www.ceec.uni-koeln.de/ceec-oai/kleioc?verb=GetRecord&metadataPrefix=oai_dc&identifier=kn28-0213
Rekapitulation: OAI (PMH) • "Scope" • http-Requests • "Schnittstelle"; Data-Provider, Service-Provider • Sechs "Verben" (Identify, ListMetadataFormats, ListSets, ListIdentifiers, ListRecords, GetRecords), mehrere "Argumente" • oai_dc plus weitere Metadatenformate
Metadaten im BAM-Sektor • (Bibliotheken / Archive / Museen – a.k.a Cultural Heritage) • Bibliotheken: METS • Archive: EAD • Museen: museumdat
Metadaten in Bibliotheken • Bibliographische Daten • MAB2 • MARC ( RDA) • MODS • DC • Komplexe digitale Objekte • METS / MODS
METS / MODS (Zusammenfassung) • "Scope" • Problemlage • verschiedene Sichten auf ein Objekt • Grundprinzip • Verbindung verschiedener Arten von Metadaten(METS-header, descriptive metadata, administrative metadata, files, structural map, links) • Nochmals ein Beispiel? (Ponickau)
7 Abschnitte eines METS-Dokuments <mets> <metsHdr/> - Der Kopfteil - METS Header <dmdSec/> - Erschließungsangaben - Descriptive Metadata <amdSec/> -Verwaltungsangaben - Administrative Metadata <fileSec/> - Dateiabschnitt - File Section <structMap/> - Strukturbeschreibung – Structural Map <structLink/> - Strukturverknüpfungen – Structural Links <behaviorSec/> - Verhalten – Behavior </mets>
METS als Containerformat <mets> … <dmdSec> <mdWrap> <xmlData> <!– Metadaten aus anderem namespace--> </xmlData> </mdWrap> </dmdSec> … </mets>
Rekapitulation: Metadaten in Bibliotheken • Traditionell: Bibliographische Daten • Ausweitung: Komplexe digitale Objekte • Standard: METS / MODS • "Scope" • Problemlage • verschiedene Sichten auf ein Objekt • Grundprinzipien • Verbindung unterschiedlicher Metadaten (METS-header, descriptive metadata, administrative metadata, files, structural map, links) • "Containerformat"
Metadaten im Archiv: EAD • Die Heimat von EAD: http://www.loc.gov/ead/ • wikipedia: http://de.wikipedia.org/wiki/Encoded_Archival_Description ,http://en.wikipedia.org/wiki/Encoded_Archival_Description • Scope • Bestandteile: • 146 Elemente zur Beschreibung von Findmitteln und Archivalien • eadHeader (über die EAD-Datei) • archDesc • did (Zum Gesamtbestand) • dsc / c… (Beschreibung über geschachtelte Container) • Beispiel: http://www.bundesarchiv.de/, http://www.bundesarchiv.de/findbuecher/sapmo/Zdaofindxml/EAD-Dateien/Lehmann
Rekapitulation: Metadaten in Archiven; EAD • Scope • Findmittel, nicht Archivalien • Bestandteile: • eadHeader (über die EAD-Datei) • archDesc • did (Zum Gesamtbestand) • dsc / c… (Beschreibung über geschachtelte Container) • Übung: Vergleichen Sie EAD mit TEI und METS …
Metadaten in Museen • HIDA-MIDAS (Marburger Informations-, Dokumentations- und Administrations-System) • VRA Core 4.0 (http://www.vraweb.org/projects/vracore4/index.html) • CDWA (http://www.getty.edu/research/conducting_research/standards/cdwa/) • museumdat (http://museum.zib.de/museumdat/ , http://www.museumdat.org/ , http://de.wikipedia.org/wiki/Museumdat )
Rekapitulation: Metadaten im Museum; Beispiel: Museumdat • Scope • Zielstellung • Harvesting, Datenaustausch • Bezug zu anderen Standards • CDWA Lite, CIDOC CRM • Beschreibungsbereiche: Objektklassifikation, Identi- fikation, Beschreibung, Ereignisse, Beziehungen, Administration
Semantic Web – Zusammenfassung • Problem: Wie kann die "Bedeutung" von Daten für den Computer verwertbar gemacht werden? • Lösung: Explikation, Annotation, Metadaten, Taxonomien, Authority Files (Normdaten), eindeutige Identifikatoren (z.B. auch URIs), Ontologien, standardisierte Ausdrucksformen
RDF – Zusammenfassung • (Fallback: http://de.wikipedia.org/wiki/Resource_Description_Framework) • RDF – Resource Description Framework • Formale Beschreibung von Informationen ("Resourcen") • Aussagen werden als Tripel modelliert • Subjekt – Prädikat – Objekt • … sind selbst wieder als URI identifiziert (oder auch nur Strings) • RDF als Datenmodell und als Syntax (XML, N3) • Frage: Verhältnis von RDF und DC? • RDFS als Schema für die formale Beschreibung ein- facher Ontologien (Konstrukte: Klassen und Eigenschaften)
OWL – Zusammenfassung • (Fallback: http://de.wikipedia.org/wiki/Web_Ontology_Language) • Web Ontology Language • Sprache zur formalen Beschreibung von Ontologien • Baut auf RDF auf und geht über RDFS hinaus • Konstrukte: Klassen, Eigenschaften, Instanzen
Noch Zeit? Übung: Wir semantisieren Regest 9 (nur konzeptionell natürlich)
CDWA / CDWA Lite • Die Heimat von CDWA: http://www.getty.edu/research/conducting_research/standards/cdwa/, http://www.getty.edu/research/conducting_research/standards/cdwa/cdwalite.html • wikipedia: http://en.wikipedia.org/wiki/CDWA • Scope • CDWA vs. CDWA Lite • Charakteristika
CDWA-Lite Beispiel: http://www.getty.edu/research/conducting_research/standards/cdwa/cdwalite/oai1_painting_gm_816.cdwalite
Museumdat • Die Heimat von Museumdat: http://www.museumdat.org/ • Scope • Zielstellung • Harvesting, Datenaustausch • Bezug zu anderen Standards • CDWA Lite, CIDOC CRM • Beschreibungsbereiche: Objektklassifikation, Identi- fikation, Beschreibung, Ereignisse, Beziehungen, Administration
CIDOC-CRM • Ausgangspunkte • http://de.wikipedia.org/wiki/CIDOC_Conceptual_Reference_Model • http://en.wikipedia.org/wiki/CIDOC_Conceptual_Reference_Model • Die Heimat von CIDOC-CRM: http://cidoc.ics.forth.gr/
Semantic Web – Zusammenfassung • Problem: Wie kann die "Bedeutung" von Daten für den Computer verwertbar gemacht werden? • Lösung: Explikation, Annotation, Metadaten, Taxonomien, Authority Files (Normdaten), eindeutige Identifikatoren (z.B. auch URIs), Ontologien, standardisierte Ausdrucksformen
RDF – Zusammenfassung • (Fallback: http://de.wikipedia.org/wiki/Resource_Description_Framework) • RDF – Resource Description Framework • Formale Beschreibung von Informationen ("Resourcen") • Aussagen werden als Tripel modelliert • Subjekt – Prädikat – Objekt • … sind selbst wieder als URI identifiziert (oder auch nur Strings) • RDF als Datenmodell und als Syntax (XML, N3) • Frage: Verhältnis von RDF und DC? • RDFS als Schema für die formale Beschreibung ein- facher Ontologien (Konstrukte: Klassen und Eigenschaften)
RDF – Beispiel <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/"> <rdf:Description rdf:about="http://en.wikipedia.org/wiki/Tony_Benn"> <dc:title>Tony Benn</dc:title> <dc:publisher>Wikipedia</dc:publisher> </rdf:Description> </rdf:RDF>
OWL – Zusammenfassung • (Fallback: http://de.wikipedia.org/wiki/Web_Ontology_Language) • Web Ontology Language • Sprache zur formalen Beschreibung von Ontologien • Baut auf RDF auf und geht über RDFS hinaus • Konstrukte: Klassen, Eigenschaften, Instanzen