280 likes | 406 Views
TEI. Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09. TEI. Konsortium • „Text Encoding Initiative“ seit 1987 mit Teilnehmern aus Industrie, Bildungsinstitutionen u.v.m., inzwischen TEI-Konsortium
E N D
TEI Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI Konsortium • „Text Encoding Initiative“ seit 1987 mit Teilnehmern aus Industrie, Bildungsinstitutionen u.v.m., inzwischen TEI-Konsortium • TEI bezeichnet sowohl das Konsortium, als auch einen Standard zur Kodierung und zum Austausch von Textdokumenten • TEI P5 Guidelines veröffentlicht 2007 • TEI-Lite -> abgespeckte Version • mehr unter www.tei-c.org Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI Benutzer • Benutzer gleich Entwickler: Textwissenschaftler, z.B. Literaturwissenschaftler und Linguisten Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI Zweck • Unabhängig von Betriebssystemen und Anwendungssoftware elektronisch Texte zu kodieren -> dauerhaftere elektronische Texteditionen -> Loslösung von proprietären Systemen der Textspeicherung wie MS-Word und auf andere Ziele ausgelegte Standards wie HTML Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI Zweck • „Text als abstrakte Entität [ist das] Produkt und muss in einem portablen Format vorliegen, aus dem sich die möglichen Publikationsformen ohne großen Aufwand generieren lassen“ (http://computerphilologie.uni-muenchen.de/praxis/teiprax.html) Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI TEI und SGML • TEI ist SGML-konform (genau wie HTML) -> verarbeitbar von jeder SGML Software • TEI besteht wie alle SGML-konformen Systeme aus drei Teilen: Die Deklaration mit Grundeinstellungen (TEI.DCL) Die Document Typ Definition (TEI-DTD, die bei Tei aus mehreren Teilen besteht, die je nach Bedürfnis aktiviert oder deaktiviert werden können 3. Eine oder mehrere Dateiinstanzen, ausgezeichnet entsprechend den Regeln der DTD Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI TEI-Guidelines P5 • P1 erschien 1990 • P4 (2002) erste XML-Version der Guidelines • P5 ist seit 2007 die neueste Version der Guidelines, Anpassung an XML wurde z.B. noch verstärkt, außerdem textinterne Verlinkung, Multimediakompatibilität und Schriftverarbetiung verbessert • Möglichkeit der Übertragung von P4 zu P5 Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI Aufbau • verschiedene Module mit Elementen • beispielsweise Elemente für Dokumentenstruktur, Auszeichnung von Gedichten und Dramen, Markierung einzelner Zeilen und Seiten, Tabellen, textkritische Anmerkungen, Terminologien, Wörterbücher -> Strukturelle Teile eines Textes -> Typographische Elemente -> andere Textfeatures (wie Orte von Illustrationen) Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI Aufbau • Kern von Modulen enthält allgemeine Elemente wie <p/> für Absätze • Kern kann erweitert werden um weitere Module -> differenzierte Auszeichnung von Textmerkmalen Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI Grundstruktur der Dokumente • Jedes TEI-Dokument hat einen Kopf <TEIHEADER> und einen Textkörper <TEXT> • Der Inhalt des Textelements kann vielfach gegliedert werden, bspw. durch <FRONT>, <BODY> und <BACK> für Bücher Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI Ein Minimalheader sieht so aus: <TEIHEADER> <FILEDESC> <TITLESTMT> <TITLE>Titel des Werks: elektronische Edition</TITLE> <AUTHOR>Autor des Werks</AUTHOR> <RESPSTMT> <RESP>erstellt von</RESP> <NAME>Name des Editors</NAME> </RESPSTMT> </TITLESTMT> <PUBLICATIONSTMT> <PUBLISHER> Vertrieb des Textes durch XXX</PUBLISHER> </PUBLICATIONSTMT> <SOURCEDESC> <BIBL>Bibliographische Angaben zur Vorlage</BIBL> </SOURCEDESC> </FILEDESC> </TEIHEADER> Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI Beispiele für TEI-Elemente • <P></P> Absatz • <EMPH></EMPH> Betonung • <NOTE></NOTE> „Fussnote“, Anmerkung Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI „customizing“ • Das TEI Schema kann aufgrund seines Umfangs einfacher verwendet werden wenn man es „customized“ • Dazu wird das ODD und das Roma-Tool verwendet • über das Internet wird in Roma customized und das Ergebnis als ODD-Datei abgespeichert • TEI Lite ist beispielsweise so eine customization Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI ODD - „One Document Does It All“ • Quellformat in Metasprache in dem die TEI geschrieben ist • enthält Fragmente des Schemas, „prose documentation“ und „reference documentation“ • daraus können formale Schemata generiert werden wie DTD oder XML Schema, außerdem die TEI Guidelines • ODD Spezifikation ist normalesTEI XML Dokument, das das tagdocs Modul verwendet • mit ODD kann die P5 Version des TEI XML an die eigenen Bedürfnisse angepasst (“customized“) werden Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI Roma-Tool • webbasierte Anwendung • ein System von XSLT Stylesheets das ODD-Files manipuliert • Erstellung P5 kompatibler Schemas und Dokumentationen wie DTD aus einem XML Dokument, das das TEI ODD Markup benutzt - nötiges Programm um die in einem ODD Markups verwendenden TEI XML Dokument customized TEI in eine DTD oder ein anderes Schema zu kompilieren Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI TEI-DTD • idealerweise so angebeben, dass mehrere Dokumente darauf zugreifen können: <!DOCTYPE TEI.2 PUBLIC „-//TEI//TEI P3 //EN“> • PUBLIC legt fest, dass die Zeichenkette „-//...“ die DTD identifiziert Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI TEI-DTD • weiterhin muss in einer Datei namens „catalog“ die >Zuordnung von public identifiern und systemdateien geschehen, z.B. PUBLIC „-//TEI//TEI P3 //EN“> „c:\tei\dtd\tei2.dtd“ • weil TEI mehrere DTD verwendet, muss zum Element DOCTYPE hinzugefügt werden, welche, z.B. <!DOCTYPE TEI.2 SYSTEM "tei2.dtd" [ <!ENTITY % TEI.prose 'INCLUDE'> <!ENTITY % TEI.textcrit 'INCLUDE'> ]> • Diese Ergänzung der DOCTYPE-Angabe ist faktisch eine Ergänzung der DTD Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI TEI-Tag Sets • zwei Klassen: Base Tag Sets und Additional Tag Sets, außerdem Core Tag Set (eh vorhanden, muss nicht ausgewählt werden) • es kann nur ein Base Tag Set gewählt werden, aber beliebig viele Additional Tag Sets • die Zusammensetzbarkeit der Tag Sets wurde als Pizza Concept bezeichnet das mit dem Pizza Chef geregelt wurde, heute Roma Tool Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI TEI-Tag Sets - Beispiele für Base Tag Sets • TEI.prose -> Auszeichnung von Prosa • TEI.verse -> ...von Lyrik • TEI.drama -> ...von Dramen • TEI.spoken -> ...von Transkriptionen gesprochener Sprache • TEI.dictionaries -> ...von Wörterbüchern • TEI.terminology -> ...von terminologischen Datenbanken • TEI.mixed -> ...von Texten, die Tags aus mehreren der anderen Kategorien benötigen • TEI.general -> wie mixed aber nur ein Base Tag set pro Korpuseinheit Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI TEI-Tag Sets - Beispiele für Additional Tag Sets • TEI.linking -> Auszeichnungselemente, um Texte mit Hyperlinks zu verbinden und zu segmentieren • TEI.textcrit -> ... für textkritischen Apparat • TEI.transcr -> ... für Transkription von Primärquellen • TEI.figures -> ... für Grafiken, Illsutrationen, Formeln Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI TEI-Tag Sets - Beispiel • Verstexte einschließlich einiger Handschriftenproduktionen und eines kritischen Apparats sollen ausgezeichnet und mittels Hyperlink miteinander verbunden werden: <!DOCTYPE TEI.2 SYSTEM "tei2.dtd" [ <!ENTITY % TEI.verse 'INCLUDE'> <!ENTITY % TEI.textcrit 'INCLUDE'> <!ENTITY % TEI.transcr 'INCLUDE'> <!ENTITY % TEI.linking 'INCLUDE'> <!ENTITY % TEI.figures 'INCLUDE'> <!ENTITY % isolat1 PUBLIC "ISO 8879-1986//ENTITIES Added Latin 1//EN"> %isolat1; ]> Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI TEI Praxisanwendung... Dokumentenanalyse Digitalisierung Textauszeichnung Publikation Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI TEI Praxisanwendung... Dokumentenanalyse und Auswahl von Tag Sets • Sichtung des Materials, theoretische Vorentscheidung -> was ist der Verwendungszweck einer Edition? -> welche Textmerkmale sollen durch Kodierung erfasst werden? -> welche sollen dem Benutzer zugänglich sein? Wie? (Bsp. Kapitel, direkte Rede bei Roman) • kann unabhängig von TEI geschehen, aber auch mit Hilfe von TEI Handbüchern Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI TEI Praxisanwendung... Digitalisierung Erstellen elektronischer Bilder, Textgewinnung durch manuelle Eingabe oder Texterkennung Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI TEI Praxisanwendung... 3. Textauszeichnung Versehen des gewonnen Textes mit den notwendigen Auszeichnungen, um die Elemente in TEI zu kodieren, die aufgrund der Dokumentenanalyse als bewahrenswert gelten Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI TEI Praxisanwendung... 4. Publikation Anpassung an zur Publikation gewählte Medien (Browser, Buchdruck...) Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI • TEI ist ein defacto standard in „humanities computing“ Projekten, vor allem zum Austausch von Texten zwischen verschiedenen Projekten und Archiven. • Fragen? Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI Quellen • http://www.tei-c.org • http://computerphilologie.uni-muenchen.de/praxis/teiprax.html • http://de.wikipedia.org/wiki/Text_Encoding_Initiative •http://en.wikipedia.org/wiki/ODD_(One_Document_Does_it_all) • http://www.tei-c.org/Support/Learn/tutorials.xml • http://www.tei-c.org/Talks/MITH/index.xml (alle Internetquellen zuletzt eingesehen am 08.01.09 10:00 cet) Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09