180 likes | 280 Views
UzK HKI CCeH IDE. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne Center for eHumanities Institut für Dokumentologie und Editorik. Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle. 6. Sitzung, 31. Mai 2010. Formalia
E N D
UzKHKICCeHIDE Universität zu KölnHistorisch-Kulturwissenschaftliche InformationsverarbeitungCologne Center for eHumanitiesInstitut für Dokumentologie und Editorik Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle 6. Sitzung, 31. Mai 2010
Formalia • Teilnehmerliste 6. Sitzung, 31. Mai 2010
Davon ausgehend beschäftigen wir uns jetzt konkreter mit der "Modellierung", wie Sie der Verarbeitung und / oder Visualisierung von Texten zu Grunde liegt. Dazu lesen Sie bitte den anhängenden Text (Fallback für alle Fälle). DeRose, Steven J.; Durand, David D.; Mylonas, Elli; Renear, Allen H.: What is Text, Really? In: Journal of Computer Documentation 21/3 (1997), S. 1-24. Dieser Text (der eigentlich von 1990 ist) beschreibt einen Grundansatz in der Modellierung von Texten durch Markup. Die hier geschilderten Ansätze haben dann letztlich auch zu dem Standard für elektronische Texte in den Geisteswissenschaften, den Guidelines der Text Encoding Initiative (TEI), geführt. Wer sich nicht sicher ist, einen ausreichenden Überblick über die TEI zu haben, der sollte zur Vorbereitung der Stunden die Website der TEI besuchen (http://www.tei-c.org/index.xml) und sich vor allem über die aktuellen Guidelines P5 orientieren. 6. Sitzung, 31. Mai 2010
In der letzten Stunde haben wir ein zentrales Konzept zur Modellierung von Texten kennen gelernt: Das OHCO-Modell, nach dem Texte eine geordnete Hierarchie von Inhaltsobjekten sind. • Und wir haben die Praxis gesehen. Die Guidelines des TEI erheben den Anspruch, für alle Textsorten aller Zeiten und für alle Perspektiven der Forschung ein ausreichendes Modell zur Verfügung zu stellen. • Also sind alle Probleme gelöst und alle Menschen glücklich. Oder auch nicht. Die Kritik an Markup, OHCO und TEI ist so alt wie diese Ansätze selbst. Zu den aktuellen Positionen auf der eher relativierenden oder "dissidenten Seite" gehören • Vertreter einer pluralistischen Texttheorie, die in OHCO und TEI keine gleichmäßige Berücksichtigung aller Sichten auf Text sehen • Kritiker, die "embedded markup" für grundsätzlich unzureichend halten um komplexere Anforderungen an die Textcodierung zu erfüllen. • Für die zweite Gruppe lesen Sie bitte:Schmidt, Desmond: The Inadequacy of Embedded Markup for Cultural Heritage Texts. In: Literary and Linguistic Computing. Advance Access published online on April 16, 2010. 6. Sitzung, 31. Mai 2010
Modellierung von "Text" • … Rekapitulation … • Was bedeutet OHCO? • Warum ist (nach Renear e.a.) der OHCO-Ansatz gut geeignet für die Modellierung von Texten in elektronischen Medien? 6. Sitzung, 31. Mai 2010
Markup als Modell • … Charakteristika … • Explizit • Hierarchisch • Datenbankartig • Applikativ / Deskriptiv • Semistrukturiert • Komplex • Inkrementell • Multiperspektivisch • Netzwerkartig • Nicht Redundanzfrei • Lesbar 6. Sitzung, 31. Mai 2010
Modellierung von "Text" • … im Lichte des gelesenen Beitrages … • OHCO? • Modellierung / Strukturierung / Beschreibung vs. Formatierung und Verarbeitung • Modellierung des "life cycles" von Dokumenten? Renear: (1) composition, (2) production, (3) usage • Vorteile des OHCO-Ansatzes • (1) Einfache (abstrakte) Erstellung, Alternative Dokumentsichten, einfache Werkzeuge, kollaborative Erstellung (gemeinsame, abstrakte Sprache) • (2) Trennungvon Struktur und Formatierung, gleichmäßige Formatierung, Einfachheit der Formatänderung • (3) Text als Datenbank, Verständlichkeit der Daten, Retrieval, Spezialisierte Nutzungen 6. Sitzung, 31. Mai 2010
Modellierung von "Text" • … im Lichte des gelesenen Beitrages … • Durchsetzung von OHCO als Punkt in einer historischen Entwicklung • Abstraktion vs. WYSIWYG • Beides zusammen? • Perspektiven 1990 • Multiple Hierarchien in den Griff kriegen • Zusätzliche Netzwerkstrukturen (Hypertext-Konzept) • Versioning • Die Grundbehauptung der Modellierung • Text ist eine OHCO 6. Sitzung, 31. Mai 2010
Die TEI als Realisierung des OHCO-Modells? 6. Sitzung, 31. Mai 2010
Die TEI als Realisierung des OHCO-Modells? • Die TEI definiert "content objects" … • … sonst nichts? • Multiperspektivität • Multigranularität 6. Sitzung, 31. Mai 2010
Was ist Text? Ein pluralistischer Textbegriff'? Die TEI in einem pluralistischen Textbegriff? “What is text? I am not so naïve as to imagine that question could ever be finally settled. Asking such a question is like asking ‘How long is the coast of England?’.” Jerome McGann … text is what you look at. And how you look at it … 6. Sitzung, 31. Mai 2010
TEXT TEXT I W TEXT TEXT S F TEXT TEXT D Z Vielfalt der Textbegriffe Text als Idee, Intention, Inhalt, Bedeutung, Semantik Text als Werk, Struktur Text als (visuelles) Zeichen Text als Dokument (materiell, indivi-duell), Text als Medi(um/al) Text als sprachlicher Ausdruck, linguisti-scher Code, Serie von Wörtern Text als Fassung
Lokalisierung der TEI ( … wir sind immer noch Textplatoniker … )
Desmond Schmidt: The inadequacy of embedded markup for cultural heritage texts • Eindrücke? Verortung … • "Markup-Begriffe" nach Schmidt (S. 2) • Satzanmerkungen, Spaces, alles außer Zeichendaten, embedded codes, alles außer "content" • der historische Ansatz • Markup als Replikation von Strukturen gedruckter Werke • TEI als Lösung und als Problem • OHCO, weil es einfach zu verarbeiten ist • Sein Fazit: • Man hat markup übernommen, weil es da war und weil es einfach zu verarbeiten war, nicht weil es besonders passend war 6. Sitzung, 31. Mai 2010
Desmond Schmidt: The inadequacy of embedded markup for cultural heritage texts • Was will er? Was ist sein Problem? • XML hat Probleme mit überlappenden Hierarchien • OHCO1-2-3 vs. Overlap • Overlap ist immer noch ungelöst • XML ist eine historische Zufälligkeit, prägt aber unser Verständnis von Text; XML soll dauerhaft sein, ist aber nicht zukunftssicher • XML ist eine "textual command language" und damit nicht zeitgemäß 6. Sitzung, 31. Mai 2010
Desmond Schmidt: The inadequacy of embedded markup for cultural heritage texts • Implizite Probleme im Schmidt-Ansatz • Was ist "Text"? Wie ist die Trennung von Text und Markup • Worauf zielt er eigentlich? Was meint er mit Markup? • Wie die TEI angewendet wird … • Die TEI als Regelsatz … • XML als eine generalisierte Auszeichnungssprache … • "Embedded" Markup Languages … • Das Konzept von Auszeichnungssprachen … • Diskussionswürdig: S. 13 • Sein Lösungsansatz: MVP = Multi-Version Documents • Allgemeingültigkeit? • Verhältnis seines Ansatzes zu Markup 6. Sitzung, 31. Mai 2010
Desmond Schmidt: The inadequacy of embedded markup for cultural heritage texts • … hat eine interessante Diskussion angestoßen … • http://lists.digitalhumanities.org/pipermail/humanist/2010-April/date.html#start (und die folgenden Monate) • … eine der Antworten … • http://cocoon.lis.illinois.edu:8080/lis590dpl/wapiez/LMNL/clix-sonnets?type=sonnets • Schauen Sie sich vor allem die "map (SVG)" an 6. Sitzung, 31. Mai 2010
Aber wie sollte man Texte nun wirklich modellieren? • Wie weit kommt man mit markup? • Ist markup vielleicht doch der Weisheit letzter Schluss? • Oder was kommt nach markup? • ? 6. Sitzung, 31. Mai 2010