820 likes | 914 Views
ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen. Christian Chiarcos chiarcos@uni-potsdam.de. Großflächige Akzeptanz und Ausweitung empirischer, v.a. korpusbasierter Arbeiten in den letzten 20 Jahren. „ There‘s no data like more data. “
E N D
ANNIS und SPLICRNeue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de
Großflächige Akzeptanz und Ausweitung empirischer, v.a. korpusbasierter Arbeiten in den letzten 20 Jahren. „There‘s no data like more data.“ • Neue technische und methodische Anforderungen für die Arbeit mit linguistischen Datensammlungen
Probleme bei der Arbeit mit Korpora • Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer • Nachhaltige Archivierung und Dokumentation ? • Die Vielfalt linguistischer Annotationen nimmt immer mehr zu • Zusammenführung verschiedener Annotationen, die mit verschiedenen Spezialwerkzeugen geschaffen wurden ? • Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition • Wie kann Otto Normallinguist vor Fehlschlüssen bewahrt werden ?
OLiA Ontologien linguistischer Annotationen SPLICR Sustainability Platform for Linguistic Corpora and Resources ANNIS Datenbank der Annotationen zur Informationsstruktur Probleme bei der Arbeit mit Korpora • Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer • Nachhaltige Archivierung und Dokumentation ? • Die Vielfalt linguistischer Annotationen nimmt immer mehr zu • Zusammenführung verschiedener Annotationen, die mit verschiedenen Spezialwerkzeugen geschaffen wurden ? • Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition • Wie kann Otto Normallinguist vor Fehlschlüssen bewahrt werden ?
OLiA Ontologien linguistischer Annotationen SPLICR Sustainability Platform for Linguistic Corpora and Resources ANNIS Datenbank der Annotationen zur Informationsstruktur Probleme bei der Arbeit mit Korpora SFB 632 Information Structure
ANNIS & SPLICR • ANNIS (SFB632 „Informationsstruktur“) • Querying und Visualisierung von Mehrebenenannotationen • SPLICR (SFB441 „Linguistische Datenstrukturen“) • Nachhaltige Archivierung linguistischer Daten • Ontologien linguistischer Annotationen ... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen • Schlussworte
ANNIS • SFB 632 „Informationsstruktur“ Potsdam, HU Berlin • Projekt „Linguistische Datenbank“ (Stede/Lüdeling) • Datenbank für die dort aufgebauten Annotationen zur Informationsstruktur • 10 Datenprojekte unterschiedlicher linguistischer Disziplinen Typologie, Historische Sprachwissenschaft, Korpuslinguistik, Computerlinguistik
ANNISBesondere Anforderungen Mehrebenenannotation • Diskursphänomene erfordern die Betrachtung unterschiedlicher linguistischer Beschreibungsebenen • Morphologie und Syntax • Semantik • Phonologie und Prosodie • Anaphorik • Diskursstruktur • Informationsstruktur und Informationsstatus
ANNISBesondere Anforderungen Mehrebenenannotation • Annotation von Diskursphänomenen erfordert unterschiedliche spezialisierte Werkzeuge • Toolbox/Shoebox • Exmaralda/ELAN • Annotate/Synpathy • MMAX/Palinka • RSTTool Links ergänzen
ANNISBesondere Anforderungen Mehrebenenannotation • Annotation von Diskursphänomenen erfordert unterschiedliche spezialisierte Werkzeuge • Keines dieser Werkzeuge erlaubt, auf andere Annotationsebenen zuzugreifen oder diese angemessen darzustellen • Integration der Daten in einer einzigen Datenbank • Anfragen über mehrere Annotationsebenen hinweg
MehrebenenannotationSyntaxannotation NP NK NK NK einstige Fußball-Weltmacht Die ART ADJA NN Annotate, Synpathy
MehrebenenannotationDiskursstruktur RST Tool
MehrebenenannotationPartitur-Annotation Exmaralda
ANNIS ANNIS Linguistische Datenbank Annotierte Daten Suche, Visualisierung, Export Morphologie, Syntax, Anaphorik, Diskursstruktur, Partitur-Annotationen Gemeinsames Datenformat PAULA Potsdamer Austauschformat für linguistische Annotationen
ANNISBesondere Anforderungen • Anfragen über mehrere Annotationsebenen hinweg • Gemeinsames Datenbankformat für unterschiedliche Daten • Direkter Einsatz in der empirischen Forschung • Komfortable und mächtige Suchmöglichkeiten • Statistische Funktionalität
ANNISANNIS 1 (2003-2006) • entwickelt 2003-2006 • Anfragesprache ANNIS-QL • Partituransicht • reine Hauptspeicherlösung • im Browser zu benutzen • lokale Installation möglich • kann auf Anfrage zugänglich gemacht werden
ANNISAnfragesprache ANNIS-QL • Anfragen über mehrere Annotationsschichten • ... um Wechselwirkungen zu studierengivenness=‘giv‘ & syncat=‘pp‘ & rhetrel=‘contrast‘ • ... um abweichende Annotationsentscheidungen zu identifizierenann1::givenness=‘new‘ & ann2::givenness=‘giv‘ & #1 _=_ #2 • ... um Annotationen auf Vollständigkeit zu prüfenaboutness=‘ref‘ & givenness=‘‘ & #1 _=_ #2
ANNISANNIS 2 (seit 2006) • entwickelt seit Mitte 2006 • in Kooperation mit Ulf Leser, HU Berlin • Weiterentwicklung von ANNIS 1 • graphischer Editor für ANNIS-QL-Anfragen • relationale DB (PostGreS) • Erweiterung von ANNIS-QL • differenzierte Visualisierung für unterschiedliche Datentypen • reine Serveranwendung
ANNIS 2Baumsuche* * Mehrfache Vorfeldbesetzung (TIGER)
ANNIS 2Ergebnisliste* * Mehrfache Vorfeldbesetzung (TIGER)
ANNIS 2Aktueller Status • momentan ein Forschungsprototyp • „Erprobungsphase“ mit interessierten Kooperationspartnern • offizielles Release Anfang 2009 geplant • Testzugänge dann möglich • soll langfristig quelloffen zur Verfügung gestellt werden • aktuelle Entwicklungen • Verbesserung der Stabilität und Performanz • Erweiterung der Datenbasis • verbesserte statistische Funktionalität • Export einer Trefferliste in einem Tabellenformat
ANNIS & SPLICR • ANNIS • Querying und Visualisierung von Mehrebenenannotationen • SPLICR • Nachhaltige Archivierung linguistischer Daten • Ontologien linguistischer Annotationen ... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen • Schlussworte
SPLICRInfrastruktur für ein Nachhaltigkeitsarchiv • Sustainability Platform for Linguistic Corpora and Resources • Kooperationsprojekt „Nachhaltigkeit linguistischer Daten“ (Reis/Hinrichs) • Datenbank für die nachhaltige Archivierung der Daten aller beteiligten SFBs • SFB 441 „Linguistische Datenstrukturen“, Tübingen • SFB 538 „Mehrsprachigkeit“, Hamburg • SFB 632 „Informationsstruktur“, Potsdam/HU Berlin
SPLICRBesondere Anforderungen • Nachhaltige Archivierung • Daten sollen langfristig zugänglich gemacht werden • Entscheidungshilfe dafür, welche Korpora ein Nutzer anfordern sollte • Daten sollen sich dem Nutzer ohne langwieriges Studium der Dokumentation erschließen • Direkt lesbares Datenformat (XML)
SPLICRBesondere Anforderungen • SPLICR dient zum Nachweis und zur Erhaltung existierender Ressourcen • heterogene Datenbasis • Daten werden nur so weit verändert, wie für die Datenbankrepräsentation notwendig • Vorlagen-basierte Anfragen • auf Robustheit optimiert weniger auf Performanz • keine Statistikfunktionalität • Abfragen für jeweils nur eine Ressource und eine Annotationsebene
SPLICRSuchfunktionalität • Volltextsuche • Suche nach Zeichenfolgen in den Originaldaten • Konzeptsuche • Suche nach Annotationen mit Hilfe kurzer konzeptueller Beschreibungen Rückgabekontext „Clause“ statt //ntNode[@cat=‘S‘] Annotationsschicht „Parts of Speech“ statt //*/pos/@genau:value Annotationswert „Auxilliary Verb, finite“ statt //*/pos[@genau:value=‘VAFIN‘] • Baumsuche • sucht nach Annotationen oder Annotationskonzepten • erweitert Konzeptsuche um Dominanz- und Präzedenzrelationen
SPLICRPräsentation der Suchergebnisse • verschiedene Visualisierungen der XML-Struktur der Daten • Textansicht • alle Annotationen ausgeblendet • Boxansicht • ähnlich der ANNIS-Partituransicht • Baumansicht • Visualisierung des XML-Baumes nicht notwendigerweise ein Baum im linguistischen Sinne • XML • formatierte Ausgabe der XML-Daten
SPLICR • wird nach Beendigung des Nachhaltigkeitsprojektes (Dezember 2008) in Betrieb genommen • erfasst die Daten und Metadaten der erfassten Ressourcen • die Konzeptsuche erfordert zusätzlich, die Annotationen und das Korpusformat auf bestimmte Weise zu dokumentieren • Ontologien linguistischer Annotationen
ANNIS & SPLICR • ANNIS • Querying und Visualisierung von Mehrebenenannotationen • SPLICR • Nachhaltige Archivierung linguistischer Daten • Ontologien linguistischer Annotationen ... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen • Schlussworte
OLiAMotivation • Überwindung der Kluft zwischen real existierender Annotation und den Intuitionen ihrer Nutzer • verbesserte Aufbereitung • konzeptbasierte Suche • gesteigerte Transparenz • Dokumentation von Annotationen • Formalisierung von Annotationsschemata • Abbildung zwischen Annotationen auf eine wohldefinierte Basisterminologie
OLiAMotivation: Annotation vs. Intuition • Annotationsschemata erzwingen eine eindeutige Kategorisierung sämtlicher Phänomene • Neben theoretischen Überlegungen gehen aber auch pragmatische Designentscheidungen in Annotationsschemata ein • in unterschiedlichen Korpora/Annotationsschemata abweichend • „Otto Normallinguist“ muss Strategien entwickeln, Tag-Definitionen schnell zu erfassen, um mit den Daten arbeiten zu können
OLiAMotivation: Annotation vs. Intuition • Strategien zum Deuten von linguistischen Annotationen • Die „intuitive“ Methode • Was sich wie „Hilfsverb“ anhört, meint das sicher auch. • Die Analogie-Methode • Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben definiert werden. Das ist hier sicherlich genauso. • Die „Schau-mer-mal“-Methode • Was war doch gleich das Tag für Hilfsverben im Korpus ? • Die „richtige“ Methode • Was sagt eigentlich die Dokumentation ?
OLiAMotivation: Annotation vs. Intuition • Strategien zum Deuten von linguistischen Annotationen • Die „intuitive“ Methode • Was sich wie „Hilfsverb“ anhört, meint das sicher auch. • Die Analogie-Methode • Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben definiert werden. Das ist hier sicherlich genauso. • Die „Schau-mer-mal“-Methode • Was war doch gleich das Tag für Hilfsverben im Korpus ? • Die „richtige“ Methode • Was sagt eigentlich die Dokumentation ? Minimaler Aufwand Maximaler Aufwand
OLiAAnnotation vs. Intuition • Die „intuitive“ Methode • Was sich wie „Hilfsverb“ anhört, meint das sicher auch • Naja, nicht bei Morphy* • Und auch nicht bei STTS** * http://www.wolfganglezius.de/doku.php?id=public:cl:morphy (15.10.08) ** Schiller et al. (1999), S.29
OLiAAnnotation vs. Intuition • Die Analogie-Methode • „Hilfsverb“ bezeichnet also eigentlich potentielle Hilfsverben • Naja, nicht im Connexor-Tagset* Aber glaub mir, das ist nicht das Ende, denn das ist noch lange nicht gekommen. * http://www.connexor.eu/technology/machinese/demo/syntax/ (15.10.08)
OLiAAnnotation vs. Intuition • Die „Schau-mer-mal“-Methode • Was war doch gleich das Tag für Hilfsverben im Korpus ? • erster Beleg in TIGERSampler: VAFIN
? ? OLiAAnnotation vs. Intuition • Die „richtige“ Methode • Was sagt eigentlich die Dokumentation ? • Manchmal etwas zu viel • TüBa-D/Z: 146 Seiten* • Susanne: 483 Seiten** • Manchmal etwas zu wenig • Z.B. als reine Tag-Liste • Vor allem aber: Jedes Annotationsschema auf seine eigene Weise * H. Telljohann et al. (2006), Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z) ** G. Sampson (1996), The Susanne corpus and analytic scheme
OLiADie Idee • Formale Modellierung der linguistischen Basisterminologie „Referenzmodell“* • Formale Spezifikation der Terminologie jedes einzelnen Annotationsschemas „Annotationsmodell“ • Annotationskonzepte werden als Subkonzepte von Referenzkonzepten spezifiziert „Linking“ • kann komplex sein** * Bezogen auf die in SPLICR und ANNIS vorliegenden Annotationen ** Annotationskonzept C, Referenzkonzepte A,B
OLiADie Idee • Formalisierung • Abweichungen von Referenzdefinitionen klar herausgestellt Hilfsverben in STTS: • explizit und eindeutig • kompakte Repräsentation • XML-basierte Formalismen • leicht in menschenlesbare Darstellung konvertierbar HTML-Dokumentation • OWL/DL
OLiADie Idee • Formalisierung • Abweichungen von Referenzdefinitionen klar herausgestellt Hilfsverben in STTS: • explizit und eindeutig • kompakte Repräsentation • XML-basierte Formalismen • leicht in menschenlesbare Darstellung konvertierbar HTML-Dokumentation • Formalisierung als Ontologie (OWL/DL)
OLiAOntologien in der Informationsverarbeitung • Ontologie • Konzeptualisierung einer bestimmten Domäne • z.B. eine Taxonomie linguistischer Termini • hierarchisch und relational strukturiert • OWL (Web Ontology Language)* • formale Beschreibungssprache für Ontologien • XML-basiert • Semantic Web • * Web Ontology Language, http://www.w3.org/2004/OWL/ (10.10.08)