200 likes | 414 Views
Richtlinien für die Annotation von Koreferenzen. Kerstin Kunz. I) Koreferenz als kognitives Kohärenzmittel. Kognition. Informationsverarbeitung Vernetzungen von Wissenssystemen Interdependenz und Interaktion von kognitiven Prozessen
E N D
Richtlinien für die Annotation von Koreferenzen Kerstin Kunz
Kognition • Informationsverarbeitung • Vernetzungen von Wissenssystemen • Interdependenz und Interaktion von kognitiven Prozessen • Konzeptualisierung: Repräsentation von Realitätsbereichen • Sprache als kognitives Subsystem • Textrezeption: Repräsentation des Textes im Textweltmodell
Kohärenz • Verbindung von Sätzen zu einem inhaltlich-logischen Zusammenhang • Explizite Verknüpfungsstrategien • Textoberfläche: z.B. temporal, lokal, pronominal • Kohäsion • Implizite Verknüpfungsstrategien • Schlussfolgerung des Rezipienten • Aktivierung des Kontextwissen • Aktivierung des Weltwissen => Inferenzen • => Koreferenz: explizite und implizite Relationen
Koreferenz • Textinterner und textexterner Referenzbezug • Textextern: Antezedent, Anapher(n) – Referent • Textintern: Antezedent - Anapher(n) • Referenzidentität • Begriffserweiterung: direkte und indirekte anaphorische Relationen
Antezedent Anaphern Ein Mann .... Er .... Der Mann .... Der Mensch ... Ein anderer Mann Koreferenz Referent
Direkte Anaphern • Referenzidentität: • Antezedent, direkte Anaphern => außerprachlicher Referent • Fortführung des Themas • Relationstypen • Rekurrenz • Synonymie • Hyponymie – Hyperonymie • Pronominale Wiederaufnahme
Indirekte Anaphern • Keine Referenzidentität zwischen Anker und indirekter Anapher • Beibehaltung der Referenzdomäne durch semantische und konzeptuelle Relationen • Thematische Rhematisierung • Relationstypen • Semantische Relationen • Aktivierung von Wissen aus dem mentalen Lexikon • Meronymie-basiert: Teil-von Beziehungen • Konzeptuelle Relationen • Aktivierung von Wissen aus dem Weltwissensspeicher • Schema-basiert: Aktivierung eines expliziten Schemas • Inferenz-basiert: implizite Weltwissensaktivierung
II) Annotationsschema für die manuelle Annotation von Koreferenzen im MMAX
Annotieren mit dem MMAX • DTD • Attribut-Fenster • Markables • Pointer • Set membership • Search-Fenster • Kappa-Statistik
Das Search-Fenster
Das Textkorpus • Wirtschaftsmeldungen der Frankfurter Rundschau • Insgesamt: 326 Meldungen; 125646 Token • Tigerkorpus
Das Annotationsschema • Antezedent • Bezugsausdruck für direkte und indirekte Anaphern • 2) Typen direkter Anaphern • Rekurrenz: total, partiell • IS-A-Relationen: Synonymie, Hyperonymie, Hyponymie • Pronominaler Bezug: PPER, PDS, PPOS
Das Annotationsschema • 3) Typen indirekter Anaphern • Meronymie: • Part-whole, entity-attribute, entity-member, place-area • Schema-basiert: • Conceptual, inferral
Probleme bei der Annotation • Restriktionen durch das Tool • Repräsentation mentaler Textrezeption durch maschinelles Annotationstool • Eindimensionalität • Pointing relation • Unterscheidung zwischen Anker und Antezedent • Zuordnung anaphorische Relation - Antezedent • Membership Relation
Probleme bei der Annotation 2) Restriktionen durch Klassifizierung • Eindeutige Festlegung der einzelnen Relationstypen • Mischtypenproblematik • Subjektivität des Annotierers
Ausblick • Textsortenvergleich • Multilingualer Vergleich • Annotation durch mindestens zwei Annotierer