250 likes | 391 Views
Linguistische Annotationen. Universität zu Köln Studiengang Informationsverarbeitung WS 2014 /15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014. Andreas Vogt E-Mail: avogt5 @ smail.uni-koeln.de. Gliederung. Wo werden linguistische Annotationen verwendet?
E N D
Linguistische Annotationen Universität zu Köln Studiengang InformationsverarbeitungWS 2014/15HS AnnotationssystemeProf. Dr Thaller 23. Oktober 2014 • Andreas VogtE-Mail: avogt5@smail.uni-koeln.de
Gliederung • Wo werden linguistische Annotationen verwendet? • Was ist Korpuslinguistik? • Was ist ein Korpus? • Korpusabfragen • Welche linguistische Merkmale werden annotiert? • Wie werden linguistische Merkmale annotiert bzw. mit welchen System können sie sinnvoll annotiert werden? Anforderungen an das Annotationssystem
Korpuslinguistik • Forschungsfeld zwischen Informatik, Computerlinguistik und Linguistik • Aufbau, der Aufbereitung und der Auswertung von (elektronischen) Korpora • Empirischer Ansatz in der Linguistik (↔ Introspektion, Sprecherurteile) • Korpora als empirische Basis für Theoriebildung und Überprüfung theoretischer Annahmen an authentischen Sprachdaten • qualitative und quantitative Analysen
Korpus „Ein Korpus ist eine Sammlung schriftlicheroder gesprochenerÄußerungen. Die Daten des Korpus sind typischerweisedigitalisiert, d.h. auf Rechnerngespeichert und maschinenlesbar. Die Bestandteile des Korpus, dieTexte, bestehenaus den Daten selbst sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind.“ Lemnitzer/Zinsmeister: Korpuslinguistik. Eine Einführung, S. 7
Korpus • Primärdaten (Textdokumente, Gesprächstranskriptionen, Bild-, Ton- und Videodateien) • Metadaten (Titel, Autor, Erscheinungsdatum Ort bzw. Aufnahmedatum, -ort, -dauer, Gesprächsbeteiligte, Anlass, Transkriptionsstandard) • Linguistische Annotationen • Werkzeuge zur Abfrage des Korpus • Korpus ≠ digitalisierte Textsammlung • Korpus ≠ Suchwerkzeug im WWW
Grundbegriffe Grundbegriffe • Token (Wortvorkommen): Jedes Vorkommen eines Wortes in einem fortlaufenden Text • Wortform: Wort unabhängig davon, wie häufig es vorkommt • Lexem: semantisch bestimmte Wortschatzeinheiten. Z. B. alle Formen des Verbs „sein“ Auf Grundlage der Primärdaten kann eineKorpusabfragenur auf den Wortformen operieren -> einfache Suche nach Strings oder Substrings -> Mustersuche über reguläre Ausdrücke Homographieproblem komplexere Analysen ermöglichen(z. B. Suche nach typischen Akkusativobjekten zum Verb „finden“)
Linguistische Annotationen „Als linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen, die den Primärdaten des Korpus in digitaler Form beigefügt sind“ Storrer Linguistische Merkmale: • Part-of-speech (POS, Wortartenannotation) • Lemmatisierung • Semantische Lesarten • Auszeichnung morphosyntaktischer Eigenschaften • Syntaktische Strukturen (Phrasen, topologische Felder) • Pragmatik: Koreferenz • Weitere Merkmale: z. B. Sprecher Wortebene Subwortebene ?? mehrere Wörter Bezieht sich auf einzelne Wörter auch über Satzgrenzen hinweg Eine Äußerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen
Linguistische Annotationen2 • Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert. POS-Tagging und Lemmatisierung funktionieren sehr gut, die automatische Wortsinndisambiguierung wird zumindest besser. • Fehler wird es bei der automatischen Annotierung immer geben. Manuelle Korrektur ist wünschenswert -> Umgang mit Fehlern, Korrekturmöglichkeit? • Die Merkmalskategorien variieren mit dem zugrundegelegten Grammatikmodell! -> allgemeines, möglichst theorieneutrales Auszeichnungssystem?
Part-of-Speech-Tagging • Tagset: Legt das Inventar und die Bedeutung von (POS-)Tags fest • Stuttgart-Tübingen-Tagset (STTS) http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-1999.pdf Kleines Tagset: 54 Tags z.B. ADJA: attributives Adjektiv PPOS: Possesivpronomen NN: Appelativa NE: Eigennamen Großes Tagset(inkl. Morphologischer Informationen): Kombinatorisch mehrere Hundert „Tags“ mit ganzem/ADJA:Pos.Mask.Dat.Sg.StEinsatz
XML als Basis linguistischer Annotation • XML als Metasprache ist in der linguistischen Annotation fest etabliert • Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI, XCES) • XML findet Verwendung u.a.: • BNC British National Corpus http://www.natcorp.ox.ac.uk/ (TEI) • DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-XCES) • DWDSDigitales Wörterbuch der deutschen Sprachehttp://www.dwds.de/ (TEI-P5)
Eignung von XML • Trennung von Primärtext und Annotation durchxml-Struktur gegeben <annotation1 attr1=value1> primärtext</annotation> • Formalismen zur Erstellung vonDokumentgrammatiken (dtd, Relax-NG), die Anzahl und Art der Elemente, ihre Verschachtelung und mögliche Attribute festlegen • Standards: TEI, XCES,…: meist generische Annotationsformate in Kombination mit festen Datenkategorien, z. B. keine Festlegung auf ein bestimmtes POS-Tagset
Beispiel aus dem BNC • <wtext>written text • <pb> page break • <s> sentence • <p> paragraph • <div> division • <c> punctuation mark • <w> word • Attribute: • c5 CLAWS5 Tagset • hwroot/Stamm des Wortes • pos Part of Speech �<wtext�type="FICTION">��<pb�n="5"/>��<div�level="1">���<head>����<s�n="1">�����<w�c5="NN1"�hw="chapter"�pos="SUBST">CHAPTER </w>�����<w�c5="CRD"�hw="1"�pos="ADJ">1</w>����</s>���</head>���<p>����<s�n="2">�����<c�c5="PUQ">‘</c>�����<w�c5="CJC"�hw="but"�pos="CONJ">But</w>�����<c�c5="PUN">,</c>�����<c�c5="PUQ">’ </c>�����<w�c5="VVD"�hw="say"�pos="VERB">said </w>�����<w�c5="NP0"�hw="owen"�pos="SUBST">Owen</w>�����<c�c5="PUN">,</c>�����<c�c5="PUQ">‘</c>�����<w�c5="AVQ"�hw="where"�pos="ADV">where </w>�����<w�c5="VBZ"�hw="be"�pos="VERB">is </w>�����<w�c5="AT0"�hw="the"�pos="ART">the </w>�����<w�c5="NN1"�hw="body"�pos="SUBST">body</w>�����<c�c5="PUN">?</c>�����<c�c5="PUQ">’</c>����</s>���</p>�� .... Vgl. http://www.natcorp.ox.ac.uk/docs/URG/cdifbase.html#cdifsgml
Einschränkungen von XML Nachteile: • Darstellung multipler, sich überlappender Annotationenproblematisch • Begrenzter semantischer Gehalt, d. h. einzig die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung
Überlappende Annotationen 1 KonstruiertesBeispieleinerTranskription: Peter: “Hey Paul! Would you give me” Paul: „the hammer?“ Aufgabe: Es soll nicht nur die Satzstruktur festgehalten werden, sondern auch die Äußerungen den Sprechern zugeordnet werden
Überlappende Annotationen 2 <pos> <sentence id="0"> <u who="Peter"> <word wid="0" pos="NNP">Hey</word> <word wid="1" pos="NNP">Paul</word> <word wid="2" pos=".">!</word> </sentence> <sentence id="1"> <word wid="0" pos="MD">Would</word> <word wid="1" pos="PRP">you</word> <word wid="2" pos="VB">give</word> <word wid="3" pos="PRP">me</word> </u> <u who="Paul"> <word wid="4" pos="DT">the</word> <word wid="5" pos="NN">hammer</word> <word wid="6" pos=".">?</word> </sentence> </pos>
Überlappende Annotationen 3 • Problem: überlappende Annotationen sind in XML nicht repräsentierbar (vgl. Definition vonWohlgeformtheit • Lösungen • Multiple Dokumente • Fragmentierungen • Standoff-Notation
Lösungen • Multiple Dokumente Speicherung jeweils einer Annotationsebene inkl. Primärdaten in einer Datei • Vorteile • Jede Datei ist vollständig und einzeln verwendbar • Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser) • Für jede Annotationsebene kann eine separate Dokumentgrammatik erstellt • werden • Nachteile • Primärdaten werden redundant gespeichert • Bezug der Annotationen untereinander nur schwer und aufwändig zu • realisieren • Geringe Robustheit bzgl. Integrität der Primärdaten
Lösungen 2 2. Fragmentierungen Aufbrechen der einzelnen überlappenden Elemente in kleinere Teilfragmente, die sich ohne Überlappungen in die Dokumentstruktur einbetten lassen • Vorteile • Durch Hinzufügen des part-Attributs wird die logische • Zusammengehörigkeit der Fragmente deutlich gemacht • SelfOverlap durch Verwendung des next-Attributs prinzipiell abbildbar • Nachteile • Bei vielfacher Überlappung unübersichtlich • Schlecht maschinell verarbeitbar • Keine Unterscheidung von Inklusion und Dominanzbeziehungen
Lösungen 3 3. Standoff-Notation Trennung von Primärdaten und Markup und anschließendeReferenzierung durch Zeigemechanismen • Vorteile • Beliebig viele Annotationsebenen kombinierbar, auch Sub-Wort-Ebene • Prinzipiell gut skalierbar, da Verwendung von beliebiger Anzahl von Dateien möglich • Widersprechende Auszeichnung möglich • Nachteile • Für menschliche Leser sehr schlecht verarbeitbar • Maschinelle Verarbeitung problematisch • Je nach Ansatz geringe Robustheit bzgl. Integrität der Primärdaten
TEI • Die TEIGuidelines sind seit über 20 Jahren weltweit im Einsatz • Neue Fassungen sind entwederabwärtskompatibel oder erlaubendie Transformationbestehender Daten • Für die Annotation linguistischer Daten bietet die TEI Elemente zur • Segmentierung hinunter auf Zeichenenebene • Die TEI unterstützt eine Vielzahl an Mechanismen zur Speicherung multiplerAnnotationen • Für die Auszeichnung konkreter linguistischer Merkmale fehlen ElementeundAttribute– hier müssen externe Ressourcen herangezogen werden • Das Tagset ist sehr komplex und ermöglicht mehrere Wege, umPhänomene zubeschreiben, daher zusätzliche AnnotationGuidelines notwendig
XCES • Teil der EAGLES Guidelines (Expert Advisory Group on Language • Engineering Standards) • XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding Standards (CES), das eine Modifikation der TEI-P3 Richtlinien ist • Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblenXCES-Versiongearbeitet (IDS-XCES) • XCES sieht eine Kodierung der Primärdaten (in Form einer Basisannotation) sowiedie Annotation der eigentlichen linguistischen Phänomene vor • Metadaten (analog zur TEI) werden in einer externen Datei gespeichert • Annotationsebenen werden mittels Merkmalsstrukturen (definiert inder DokumentgrammatikcesAna) kodiert; die eigentliche Annotation erfolgt inStandoff-Notationauf Basis der Primärdatenkodierung
XCES Beispiel: Metadaten <?xml version="1.0" encoding="UTF-8"?> <cesHeader creator="KBS" date.created="20050222"> <fileDesc> <titleStmt> <title>The StoryContinues</title> <author>FerdEggan</author> </titleStmt> <sourceDesc><!-- [...] --></sourceDesc> </fileDesc> <profileDesc> <textClass> <domain>Fiction</domain> <subdomain>General fiction</subdomain> <!-- [...] --> </textClass> <annotations> <annotation ann.loc="TheStory.txt" type="content">Text content</annotation> <annotation ann.loc="TheStory-logical.xml" type="logical">Logical structure</annotation> <!-- [...] --> </annotations> </profileDesc> </cesHeader> Primärdaten <?xml version="1.0" encoding="UTF-8"?> <cesDocxmlns="http://www.xces.org/schema/2003" version="0.4"> <text> <body> <p>The Story Continues . . . a serial enovel by FerdEggan</p> <p>1 Welcome to Hotel Real Desert</p> <p>But he never fell into the error of arresting his intellectual development by any formal acceptance of creed or system, or of mistaking, for a house in which to live, an inn that is but suitable for the sojourn of a night in which there are no stars and the moon is in travail</p> <p>The Hotel</p> <p>Hotel is next door to a perfect metaphor for the mind, and thus for psychoanalysis. In my father’s house are many mansions?To get there you have to leave somewhere else...</p> <! [...] > </body> </text> </cesDoc>
XCES Beispiel 2 Annotationen <?xml version="1.0" encoding="UTF-8"?> <cesAnaxmlns="http://www.xces.org/schema/2003" version="1.0.4"> <struct type="cesDoc" from="0" to="400307"> <feat name="xmlns" value="http://www.xces.org/schema/2003"/> <feat name="version" value="1.0.4"/> </struct> <struct type="text" from="2" to="400306"/> <struct type="body" from="5" to="400304"/> <struct type="div" from="9" to="73"/> <struct type="p" from="14" to="69"> <feat name="id" value="p1"/> </struct> <struct type="head" from="77" to="108"> <feat name="type" value="h1"/> </struct> <struct type="p" from="112" to="414"> <feat name="id" value="p2"/> </struct> <struct type="hi" from="409" to="410"> <feat name="rend" value="sup"/> </struct> <!-- [...] --> </cesAna>
Quellen • Storrer: „Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie“ (http://www.studiger.tu-dortmund.de/images/Pre_storrer-korpuslinguistik-2.pdf 23.10.2014) • Lemnitzer, L. / Zinsmeister, H.(2006): Korpuslinguistik: Eine Einführung. Tübingen: Narr. • http://www.maik-stuehrenberg.de/files/Stuehrenberg-Kolloquium2012.pdf (23.10.2014) • http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-1999.pdf (23.10.2014)