250 likes | 366 Views
Eine Biografie aus ADB/NDB als XML. Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin. XML – (eXtensible Markup Language). Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten Namen der Elemente und Attribute sind frei wählbar
E N D
Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin
XML – (eXtensible Markup Language) • Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten • Namen der Elemente und Attribute sind frei wählbar • Dateistruktur durch DTD oder XML Schema definierbar • Heute: Metasprache in Text (TEI, XHTML), Grafik (SVG, X3D), Geodaten, Video (SMIL), Webservices (SOAP, WSDL), Datenbanken (Xquery) …
Vorteile von XML • Für Mensch und Maschine verständliche Informationen (semantic Web) • Lizenzfreiheit • Plattformunabhängigkeit • Medienneutralität • Einsatz in verschiedenen Systemen • Konvertierung in andere Dateiformate
Quelle für die Auszeichnung • Biografie aus ADB / NDB am Beispiel von „Curt Goetz“ • Grafik • Ohne OCR (Texterkennung) • Deshalb nicht durchsuchbar • Große Dateigröße
Ziel der Auszeichnung in XML • Druchsuchbarer Text (geringe Dateigröße und suchmaschinenkonform) • Verlinkungen innerhalb des Textes für schnelle Navigation • (Evtl. Kopplung an die Originalgrafik bei älteren Texten) • Schnelle Konvertierung in andere Formate (PDF, Datenbanken, CD-ROM) • Semantische Struktur • Für jede Personenbiografie eine Datei
Das wichtigste Element: <person> • Element <person> ist das Kernstück einer Biografie • Alle vorkommenden Personen werden damit ausgezeichnet und bekommen eine eindeutige ID • Berufe und Personenbeschreibungen werden an die ID gekoppelt. • Für die inter-biografische Verbindung wichtig!
Beispiel des Elements <person> • <persongeschlecht="männlich„ id="Goetz_Curt_1"> • Attribute • geschlecht = (männlich | weiblich) • ID besteht aus Nachname_Vorname_Zahl • Die Zahl in der ID soll verschiede Personen mit gleichem Vor- und Nachnamen unterscheiden • Dateinamen sind identisch mit Person ID (Goetz_Curt_1.xml)
Analyse der Kurzinfo • Name, Vorname • Beruf • Geburtsdatum/ -ort; Sterbadatum / -ort • Konfession • Orthographisch: • Hervorhebungen (fett bei „Goetz“; kursiv bei „Curt“) • Entities (Stern, Kreuz )
Auszeichnung der Kurzinfo • Name wird hervorgehoben • Entities werden eingefügt († für Kreuz) • Beruf wird an person gekoppelt durch person_ref • Beruf bekommt eine Kategorie
Absätze im Original • Absätze werden durch <absatz>...</absatz> gekennzeichnet
Analyse der Familie • Vater • Mutter • Ehepartner(in) • Kinder • Ineinander verschachtelte Personenbeschreibungen (teilweise sehr komplex) • Symbole, für die es keine Entities gibt (Eheringe)
Auszeichnung des Vaters • Abschnitt innerhalb <familie> • Personen bekommen ID • Nähere Beschreibungen in <beschreibung> mit Referenz an die Person ID durch Attribut person_ref
Auszeichnung der Mutter • Komplexe Verschachtelung • Struktur Nur noch im Strukturbaum ersichtlich
Auszeichnung des Ehepartners • Eheringe als Bilddatei! • Mehrere <ehepartner> möglich • <scheidung> kann eingefügt werden (bei Goetz nicht nötig) • Kinder als <kind_der_ehe vater_id=„xy“ mutter_id=„xy“>
Analyse der „eigentlichen“ Biografie • Durchgehender Text • Weitere Personen kommen vor • In anderen Biografien: Studium, Institut und Studienjahre • Mehrere Absätze
Auszeichnung der „eigentlichen“ Biografie • Wird von <biographie> umschlossen • Personen werden ausgezeichnet mittels ID
Analyse der Werke • Kategorie (Werkstyp) • Titel • Erscheinungsjahr • Sonstige Bemerkungen
Auszeichnung der Werke • <werk> bekommt Attrribute typ und jahr • Titel in <werk_name> • Sonstiges innerhalb <werk>
Seitenumbrüche im Original • Seitenumbrüche werden in der XML repräsentiert durch <seite umbruch="588|589"/> • Übergang von einer Seite zur anderen durch | • Auch Seitenzahlen nach anderem Format möglich • (XV|XVI; 10a|10b; 45.1|45.2 …) • Vorteil: PDF wird 1:1 repräsentiert
Analyse des Literaturnachweises • Autor • Titel • Erscheinungsjahr • Verlag oder Seitennummer • Literaturnachweise getrennt durch Semikolon • Querverweise zu anderen Personen (Wilhelm Rocco)
Auszeichnung des Literaturnachweises Einzelne Einträge in <lit-eintrag> • Sinvoll in autor, titel, jahr usw. zu trennen? • Kopplung der Einträge an ID (wegen W. Rocco) ?
Analyse des Fundstelle • Werk • Autor • Seitenzahlen • Bandnummer • Mehrere Funstellen möglich • Unterscheidung zwischen Haupteintrag und Nebeneintrag
Auszeichnung der Fundstelle • Am Anfang der Datei in <meta> • <fundstelle> hat alle Angaben als Attribute und als Text • Autor separat in <autor> getaggt mit persönlicher ID
Standartisierung der Struktur • Für eine einheitliche Struktur für alle Einträge in der ADB / NDB: • Mehrere verschiedene Strukturtypen taggen • Eine DTD oder ein XML-Schema definieren • Dokumentation der DTD • Welche Elemente können in welchen enthalten sein?