1 / 82

Christian Chiarcos chiarcos@uni-potsdam.de

ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen. Christian Chiarcos chiarcos@uni-potsdam.de. Großflächige Akzeptanz und Ausweitung empirischer, v.a. korpusbasierter Arbeiten in den letzten 20 Jahren. „ There‘s no data like more data. “

oriel
Download Presentation

Christian Chiarcos chiarcos@uni-potsdam.de

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANNIS und SPLICRNeue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de

  2. Großflächige Akzeptanz und Ausweitung empirischer, v.a. korpusbasierter Arbeiten in den letzten 20 Jahren. „There‘s no data like more data.“ • Neue technische und methodische Anforderungen für die Arbeit mit linguistischen Datensammlungen

  3. Probleme bei der Arbeit mit Korpora • Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer • Nachhaltige Archivierung und Dokumentation ? • Die Vielfalt linguistischer Annotationen nimmt immer mehr zu • Zusammenführung verschiedener Annotationen, die mit verschiedenen Spezialwerkzeugen geschaffen wurden ? • Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition • Wie kann Otto Normallinguist vor Fehlschlüssen bewahrt werden ?

  4. OLiA Ontologien linguistischer Annotationen SPLICR Sustainability Platform for Linguistic Corpora and Resources ANNIS Datenbank der Annotationen zur Informationsstruktur Probleme bei der Arbeit mit Korpora • Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer • Nachhaltige Archivierung und Dokumentation ? • Die Vielfalt linguistischer Annotationen nimmt immer mehr zu • Zusammenführung verschiedener Annotationen, die mit verschiedenen Spezialwerkzeugen geschaffen wurden ? • Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition • Wie kann Otto Normallinguist vor Fehlschlüssen bewahrt werden ?

  5. OLiA Ontologien linguistischer Annotationen SPLICR Sustainability Platform for Linguistic Corpora and Resources ANNIS Datenbank der Annotationen zur Informationsstruktur Probleme bei der Arbeit mit Korpora SFB 632 Information Structure

  6. ANNIS & SPLICR • ANNIS (SFB632 „Informationsstruktur“) • Querying und Visualisierung von Mehrebenenannotationen • SPLICR (SFB441 „Linguistische Datenstrukturen“) • Nachhaltige Archivierung linguistischer Daten • Ontologien linguistischer Annotationen ... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen • Schlussworte

  7. ANNIS • SFB 632 „Informationsstruktur“ Potsdam, HU Berlin • Projekt „Linguistische Datenbank“ (Stede/Lüdeling) • Datenbank für die dort aufgebauten Annotationen zur Informationsstruktur • 10 Datenprojekte unterschiedlicher linguistischer Disziplinen Typologie, Historische Sprachwissenschaft, Korpuslinguistik, Computerlinguistik

  8. ANNISBesondere Anforderungen Mehrebenenannotation • Diskursphänomene erfordern die Betrachtung unterschiedlicher linguistischer Beschreibungsebenen • Morphologie und Syntax • Semantik • Phonologie und Prosodie • Anaphorik • Diskursstruktur • Informationsstruktur und Informationsstatus

  9. ANNISBesondere Anforderungen Mehrebenenannotation • Annotation von Diskursphänomenen erfordert unterschiedliche spezialisierte Werkzeuge • Toolbox/Shoebox • Exmaralda/ELAN • Annotate/Synpathy • MMAX/Palinka • RSTTool Links ergänzen

  10. ANNISBesondere Anforderungen Mehrebenenannotation • Annotation von Diskursphänomenen erfordert unterschiedliche spezialisierte Werkzeuge • Keines dieser Werkzeuge erlaubt, auf andere Annotationsebenen zuzugreifen oder diese angemessen darzustellen • Integration der Daten in einer einzigen Datenbank • Anfragen über mehrere Annotationsebenen hinweg

  11. MehrebenenannotationSyntaxannotation NP NK NK NK einstige Fußball-Weltmacht Die ART ADJA NN Annotate, Synpathy

  12. MehrebenenannotationAnaphorik MMAX

  13. MehrebenenannotationDiskursstruktur RST Tool

  14. MehrebenenannotationPartitur-Annotation Exmaralda

  15. ANNIS ANNIS Linguistische Datenbank Annotierte Daten Suche, Visualisierung, Export Morphologie, Syntax, Anaphorik, Diskursstruktur, Partitur-Annotationen Gemeinsames Datenformat PAULA Potsdamer Austauschformat für linguistische Annotationen

  16. ANNISBesondere Anforderungen • Anfragen über mehrere Annotationsebenen hinweg • Gemeinsames Datenbankformat für unterschiedliche Daten • Direkter Einsatz in der empirischen Forschung • Komfortable und mächtige Suchmöglichkeiten • Statistische Funktionalität

  17. ANNISANNIS 1 (2003-2006) • entwickelt 2003-2006 • Anfragesprache ANNIS-QL • Partituransicht • reine Hauptspeicherlösung • im Browser zu benutzen • lokale Installation möglich • kann auf Anfrage zugänglich gemacht werden

  18. ANNISSuchfenster, Textansicht, Partituransicht (ANNIS 1)

  19. ANNISAnfragesprache ANNIS-QL • Anfragen über mehrere Annotationsschichten • ... um Wechselwirkungen zu studierengivenness=‘giv‘ & syncat=‘pp‘ & rhetrel=‘contrast‘ • ... um abweichende Annotationsentscheidungen zu identifizierenann1::givenness=‘new‘ & ann2::givenness=‘giv‘ & #1 _=_ #2 • ... um Annotationen auf Vollständigkeit zu prüfenaboutness=‘ref‘ & givenness=‘‘ & #1 _=_ #2

  20. ANNISANNIS 2 (seit 2006) • entwickelt seit Mitte 2006 • in Kooperation mit Ulf Leser, HU Berlin • Weiterentwicklung von ANNIS 1 • graphischer Editor für ANNIS-QL-Anfragen • relationale DB (PostGreS) • Erweiterung von ANNIS-QL • differenzierte Visualisierung für unterschiedliche Datentypen • reine Serveranwendung

  21. ANNIS 2Baumsuche* * Mehrfache Vorfeldbesetzung (TIGER)

  22. ANNIS 2Ergebnisliste* * Mehrfache Vorfeldbesetzung (TIGER)

  23. ANNIS 2Ergebnispräsentation: Baumansicht

  24. ANNIS 2Ergebnispräsentation: Koreferenz-Ansicht

  25. ANNIS 2Aktueller Status • momentan ein Forschungsprototyp • „Erprobungsphase“ mit interessierten Kooperationspartnern • offizielles Release Anfang 2009 geplant • Testzugänge dann möglich • soll langfristig quelloffen zur Verfügung gestellt werden • aktuelle Entwicklungen • Verbesserung der Stabilität und Performanz • Erweiterung der Datenbasis • verbesserte statistische Funktionalität • Export einer Trefferliste in einem Tabellenformat

  26. ANNIS & SPLICR • ANNIS • Querying und Visualisierung von Mehrebenenannotationen • SPLICR • Nachhaltige Archivierung linguistischer Daten • Ontologien linguistischer Annotationen ... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen • Schlussworte

  27. SPLICRInfrastruktur für ein Nachhaltigkeitsarchiv • Sustainability Platform for Linguistic Corpora and Resources • Kooperationsprojekt „Nachhaltigkeit linguistischer Daten“ (Reis/Hinrichs) • Datenbank für die nachhaltige Archivierung der Daten aller beteiligten SFBs • SFB 441 „Linguistische Datenstrukturen“, Tübingen • SFB 538 „Mehrsprachigkeit“, Hamburg • SFB 632 „Informationsstruktur“, Potsdam/HU Berlin

  28. SPLICRBesondere Anforderungen • Nachhaltige Archivierung • Daten sollen langfristig zugänglich gemacht werden • Entscheidungshilfe dafür, welche Korpora ein Nutzer anfordern sollte • Daten sollen sich dem Nutzer ohne langwieriges Studium der Dokumentation erschließen • Direkt lesbares Datenformat (XML)

  29. SPLICRBesondere Anforderungen • SPLICR dient zum Nachweis und zur Erhaltung existierender Ressourcen • heterogene Datenbasis • Daten werden nur so weit verändert, wie für die Datenbankrepräsentation notwendig • Vorlagen-basierte Anfragen • auf Robustheit optimiert weniger auf Performanz • keine Statistikfunktionalität • Abfragen für jeweils nur eine Ressource und eine Annotationsebene

  30. SPLICRRessourcenüberblick und -auswahl

  31. SPLICRSuchfunktionalität • Volltextsuche • Suche nach Zeichenfolgen in den Originaldaten • Konzeptsuche • Suche nach Annotationen mit Hilfe kurzer konzeptueller Beschreibungen Rückgabekontext „Clause“ statt //ntNode[@cat=‘S‘] Annotationsschicht „Parts of Speech“ statt //*/pos/@genau:value Annotationswert „Auxilliary Verb, finite“ statt //*/pos[@genau:value=‘VAFIN‘] • Baumsuche • sucht nach Annotationen oder Annotationskonzepten • erweitert Konzeptsuche um Dominanz- und Präzedenzrelationen

  32. SPLICRKonzeptsuche

  33. SPLICRBaumsuche

  34. SPLICRPräsentation der Suchergebnisse • verschiedene Visualisierungen der XML-Struktur der Daten • Textansicht • alle Annotationen ausgeblendet • Boxansicht • ähnlich der ANNIS-Partituransicht • Baumansicht • Visualisierung des XML-Baumes nicht notwendigerweise ein Baum im linguistischen Sinne • XML • formatierte Ausgabe der XML-Daten

  35. SPLICRErgebnisansicht: Boxansicht

  36. SPLICRErgebnisansicht: Baumansicht

  37. SPLICR • wird nach Beendigung des Nachhaltigkeitsprojektes (Dezember 2008) in Betrieb genommen • erfasst die Daten und Metadaten der erfassten Ressourcen • die Konzeptsuche erfordert zusätzlich, die Annotationen und das Korpusformat auf bestimmte Weise zu dokumentieren • Ontologien linguistischer Annotationen

  38. ANNIS & SPLICR • ANNIS • Querying und Visualisierung von Mehrebenenannotationen • SPLICR • Nachhaltige Archivierung linguistischer Daten • Ontologien linguistischer Annotationen ... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen • Schlussworte

  39. OLiAMotivation • Überwindung der Kluft zwischen real existierender Annotation und den Intuitionen ihrer Nutzer • verbesserte Aufbereitung • konzeptbasierte Suche • gesteigerte Transparenz • Dokumentation von Annotationen • Formalisierung von Annotationsschemata • Abbildung zwischen Annotationen auf eine wohldefinierte Basisterminologie

  40. OLiAMotivation: Annotation vs. Intuition • Annotationsschemata erzwingen eine eindeutige Kategorisierung sämtlicher Phänomene • Neben theoretischen Überlegungen gehen aber auch pragmatische Designentscheidungen in Annotationsschemata ein • in unterschiedlichen Korpora/Annotationsschemata abweichend • „Otto Normallinguist“ muss Strategien entwickeln, Tag-Definitionen schnell zu erfassen, um mit den Daten arbeiten zu können

  41. OLiAMotivation: Annotation vs. Intuition • Strategien zum Deuten von linguistischen Annotationen • Die „intuitive“ Methode • Was sich wie „Hilfsverb“ anhört, meint das sicher auch. • Die Analogie-Methode • Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben definiert werden. Das ist hier sicherlich genauso. • Die „Schau-mer-mal“-Methode • Was war doch gleich das Tag für Hilfsverben im Korpus ? • Die „richtige“ Methode • Was sagt eigentlich die Dokumentation ?

  42. OLiAMotivation: Annotation vs. Intuition • Strategien zum Deuten von linguistischen Annotationen • Die „intuitive“ Methode • Was sich wie „Hilfsverb“ anhört, meint das sicher auch. • Die Analogie-Methode • Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben definiert werden. Das ist hier sicherlich genauso. • Die „Schau-mer-mal“-Methode • Was war doch gleich das Tag für Hilfsverben im Korpus ? • Die „richtige“ Methode • Was sagt eigentlich die Dokumentation ? Minimaler Aufwand Maximaler Aufwand

  43. OLiAAnnotation vs. Intuition • Die „intuitive“ Methode • Was sich wie „Hilfsverb“ anhört, meint das sicher auch • Naja, nicht bei Morphy* • Und auch nicht bei STTS** * http://www.wolfganglezius.de/doku.php?id=public:cl:morphy (15.10.08) ** Schiller et al. (1999), S.29

  44. OLiAAnnotation vs. Intuition • Die Analogie-Methode • „Hilfsverb“ bezeichnet also eigentlich potentielle Hilfsverben • Naja, nicht im Connexor-Tagset* Aber glaub mir, das ist nicht das Ende, denn das ist noch lange nicht gekommen. * http://www.connexor.eu/technology/machinese/demo/syntax/ (15.10.08)

  45. OLiAAnnotation vs. Intuition • Die „Schau-mer-mal“-Methode • Was war doch gleich das Tag für Hilfsverben im Korpus ? • erster Beleg in TIGERSampler: VAFIN

  46. ? ? OLiAAnnotation vs. Intuition • Die „richtige“ Methode • Was sagt eigentlich die Dokumentation ? • Manchmal etwas zu viel • TüBa-D/Z: 146 Seiten* • Susanne: 483 Seiten** • Manchmal etwas zu wenig • Z.B. als reine Tag-Liste • Vor allem aber: Jedes Annotationsschema auf seine eigene Weise * H. Telljohann et al. (2006), Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z) ** G. Sampson (1996), The Susanne corpus and analytic scheme

  47. OLiADie Idee • Formale Modellierung der linguistischen Basisterminologie „Referenzmodell“* • Formale Spezifikation der Terminologie jedes einzelnen Annotationsschemas „Annotationsmodell“ • Annotationskonzepte werden als Subkonzepte von Referenzkonzepten spezifiziert „Linking“ • kann komplex sein** * Bezogen auf die in SPLICR und ANNIS vorliegenden Annotationen ** Annotationskonzept C, Referenzkonzepte A,B

  48. OLiADie Idee • Formalisierung • Abweichungen von Referenzdefinitionen klar herausgestellt Hilfsverben in STTS: • explizit und eindeutig • kompakte Repräsentation • XML-basierte Formalismen • leicht in menschenlesbare Darstellung konvertierbar HTML-Dokumentation • OWL/DL

  49. OLiADie Idee • Formalisierung • Abweichungen von Referenzdefinitionen klar herausgestellt Hilfsverben in STTS: • explizit und eindeutig • kompakte Repräsentation • XML-basierte Formalismen • leicht in menschenlesbare Darstellung konvertierbar HTML-Dokumentation • Formalisierung als Ontologie (OWL/DL)

  50. OLiAOntologien in der Informationsverarbeitung • Ontologie • Konzeptualisierung einer bestimmten Domäne • z.B. eine Taxonomie linguistischer Termini • hierarchisch und relational strukturiert • OWL (Web Ontology Language)* • formale Beschreibungssprache für Ontologien • XML-basiert • Semantic Web • * Web Ontology Language, http://www.w3.org/2004/OWL/ (10.10.08)

More Related