310 likes | 398 Views
Semimanuelle Generierung und Auswertung von Alternativentexten. Christian Chiarcos chiarcos@ling.uni-potsdam.de. IDS Jahrestagung Mannheim, 18.03.2005. I Motivation Variation sprachlicher Mittel. referentielle Ausdrücke
E N D
Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005
I MotivationVariation sprachlicher Mittel • referentielle Ausdrücke • bezeichnen prototypische „Objekte“ in der Diskurswelt (Diskursreferent, Karttunen 1975) • wirken kohärenzstiftend ð beeinflussen Wahrnehmung und Verständlichkeit ð Instrument zur Strukturierung von Texten
I MotivationVariation sprachlicher Mittel • referentielle Ausdrücke variieren bzgl. • ihrer morphosyntaktischen Kategorie (REF) Was wollte dein Kollege vorhin von der Gärtnerin ? Hans kaufte bei ihrBlumen. Pronomen Hans kaufte bei Maria Blumen. Eigenname Hans kaufte bei der Frau Blumen. definite NP Hans kaufte bei dieser Frau Blumen. NP + dem.prn
I MotivationVariation sprachlicher Mittel • referentielle Ausdrücke variieren bzgl. • ihrer morphosyntaktischen Kategorie (REF) • der Wortstellung (WS) • der grammatischen Rollen (GR) • diese Variabilität ist nicht vollständig durch syntaktische und semantische Restriktionen determiniert
I MotivationProbleme • Strenge einer Kodierungsentscheidung • stilistische Präferenz oder sprachlich restriktiv • „Goldstandard-Problem“ für die Textgenerierung • natürliche Texte können suboptimal sein • Übereinstimmung ist damit kein hinreichendes Gütekriterium • verschränkte Variabilität • Abweichungen bzgl. der erwarteten Kodierung auf einer Ebene (z.B. REF) können durch Abweichungen auf einer anderen (z.B. WS) kompensiert werden
II AlternativentexteHintergrund • Ziel • Untersuchung dieser Freiheitsgrade • Untersuchung kontextueller Parameter • Grundidee (Mellish & Yeh 1997) • Lückentext • Probanden wählen für jede Lücke aus verschiedenen vorgegebenen Alternativen • diese Kodierungsentscheidung kann mit der eines Textgenerierungssystems verglichen werden
II AlternativentexteZielstellung • Betrachtung mehrer Ebenen sprachlicher Variation • REF, WS, GR • Sicherstellung hinreichender Überlappung • kurze Texte (15-20 Sätze) • skalierbare Variabilität der Lückentexte • REF • REF+WO • REF+WO+GR
II AlternativentexteBasisdaten • Potsdamer Kommentarkorpus (Stede 2004) • deutschsprachige Zeitungskommentare • auf verschiedenen Ebenen annotiert • Morphosyntax (TIGER) • Koreferenz (PoCoS) • rhetorische Struktur (URML) • Informationsstruktur (SFB 632) • integratives Metaformat (ANNIS)
II AlternativentexteErzeugung und Einsatz • Erzeugung • aus morphosyntaktisch (TIGER) und Koreferenz- (PoCoS) annotierten Texten wird ein Projekt-Skelett erzeugt, • dann semimanuell mit Alternativen angereichert • Einsatz • menschliche Probanden werden mit dem daraus erstellten Lückentext („Entscheidungsbaum“) konfrontiert • Kodierungsentscheidungen („Pfade“) werden separat gespeichert
Variation der grammatischen Rollen (Passivierung, Verbwechsel) GR (+ ) Variation des referentiellen Ausdrucks und Kongruenzprüfung REF + WS Variation der Worstellung (+ ) II AlternativentexteSemimanuelle Anreicherung Koreferenz- Annotation morphosyntaktische Annotation Alternativenannotation Projekt-Skelett nur eine Alternative enthaltend (den originalen Text) Alternativentext Alternativen- annotiert
III XALTEin Format für Alternativentexte • XML-basiert • standoff-Architektur • verteiltes Format • mehrere Ebenen der Annotation • beziehen sich auf dieselben Basisdaten • werden separat gespeichert • modulare Struktur • erweiterbar • platzeffizient
III XALTEin Format für Alternativentexte base.xml die Worte des Textes ref.xml segments.xml text.xml für jeden Referenten verschiedene referen- tielle Ausdrücke für jeden Satz alternative Ab- folgen von Wor- ten und Ver- weisen auf Referenten die Abfolge der Segmente in einem Text
III XALTEin Format für Alternativentexte base.xml die Worte des Textes ref.xml segments.xml text.xml vom Nutzer oder Autor gewählte Kodierungsalter- nativen für jeden Referenten verschiedene referen- tielle Ausdrücke für jeden Satz alternative Ab- folgen von Wor- ten und Ver- weisen auf Referenten die Abfolge der Segmente in einem Text paths.xml
III XALTBeispiel base.xml ref.xml segments.xml text.xml Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml
III XALTBeispiel word_1: was word_2: wollte word_3: dein .... base.xml ref.xml segments.xml text.xml Was1 wollte2 dein3 Kollege4 vorhin5 von6 der7 Gärtnerin8 ?9 paths.xml
ref_3: [dein]2 Kollege der Kollege [dein]2 netter Kollege der Kollege Hans Hans der Hans dieser Hans ... text.xml III XALTBeispiel base.xml ref.xml segments.xml [Was]1 wollte [[dein]2 Kollege]3 vorhin von [der Gärtnerin]4 ? paths.xml
III XALTBeispiel seg_1: alt_1 alt_2 ... ref_1 ref_3 word_2 word_2 ref_3 word_5 word_5 ref_1 word_6 word_6 ref_4 ref_4 word_9 word_9 base.xml ref.xml segments.xml text.xml Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml
III XALTBeispiel seg_1: alt_1 ... ref_1 („was“) word_2 („wollte“) ref_3 („dein Kollege“) word_5 („vorhin“) word_6 („von“) ref_4 („der Gärtnerin“) word_9 („?“) base.xml ref.xml segments.xml text.xml Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml
Entscheidungsknoten: referentielle Ausdrücke III XALTBeispiel seg_1: alt_1 ... ref_1 („was“) word_2 („wollte“) ref_3 („dein Kollege“) word_5 („vorhin“) word_6 („von“) ref_4 („der Gärtnerin“) word_9 („?“) base.xml ref.xml segments.xml text.xml Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml
Entscheidungsknoten: Form der Äußerung III XALTBeispiel seg_1: alt_1 alt_2 ... ... ref_3 („Hans“) word_2 („wollte“) word_5 („vorhin“) ref_1 („was“) word_6 („von“) ref_4 („der G.“) word_9 („?“) base.xml ref.xml segments.xml text.xml Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml
III XALTBeispiel text_1: alt_text_1 seg_1 seg_2 base.xml ref.xml segments.xml text.xml [Was wollte dein Kollege vorhin von der Gärtnerin ?]1 paths.xml [Hans kaufte bei ihr Blumen.]2
III XALTEin partieller Entscheidungsbaum seg_1 alt_1 alt_2 was dein Kollege der Hans ref_1 ... ref_3 wollte wollte vorhin ref_3 dein Kollege der Hans ... was ref_1 von vorhin von ref_4 ref_4 der Gärtnerin der Gärtnerin ... ... ihr ihr ? ?
III XALTEin Pfad seg_1 alt_1 was dein Kollege der Hans ref_1 ... ref_3 wollte wollte vorhin ref_3 dein Kollege der Hans ... was ref_1 von vorhin von ref_4 ref_4 der Gärtnerin der Gärtnerin ... ... ihr ihr ? ?
III XALTBeispiel seg_1 alt_1 base.xml was ... ref_1 wollte ref.xml segments.xml text.xml ref_3 dein Kollege der Hans ... vorhinvon ref_4 paths.xml der Gärtnerin ... ihr pathid = „orig“ ?
IV Anwendung und Auswertungpaths.xml • ordnet in jedem Pfad jedem Entscheidungsknoten eine getroffene Kodierungsentscheidung zu • gestattet die Rekonstruktion des Textes • enthält zusätzlich Verweise auf • die Form des referentiellen Ausdrucks (REF) • grammatische Relationen (GR) • Wortstellung (WS) • alleiniger Gegenstand der empirischen Auswertung
IV Anwendung und AuswertungStatistische Auswertung • empirische Erfassung der Voraussagekraft verschiedener Kontextfaktoren für das Eintreten und die Variabilität einer gewählten Realisierungsoption • Relevanz- („importance/salience“) Indikatoren • Givenness- („contextual boundedness/salience“) Indikatoren • praktisch hochrelevant für Aspekte der Maschinellen Textgenerierung, -zusammenfassung und -interpretation
IV Anwendung und AuswertungTheoretische Interpretation • Vergleich von Voraussagen verschiedener Theorien zu referentieller Kohärenz und Anaphernresolution anhand empirischer Daten • Centering Theory (Grosz et al. 1995) • Givón (2001) • Sgall et al. (1986) • ...
IV Anwendung und AuswertungEvaluation der Textgenerierung • automatisch abgeleitete Kodierungspräferenzen werden mit manuell gewählten verglichen • der Grad der Übereinstimmung, gewichtet mit der Variabilität einer Kodierungsentscheidung, kann als Gütefunktion verwendet werden • Im Unterschied zum Goldstandard-Ansatz wird dabei über mehrere Varianten in einem festen lokalen Kontext generalisiert • Minimierung von individuellen/stilistischen Artefakten
A Platzkomplexität • wir betrachten einen Satz mit transitivem Verb, zwei Argumenten, einem Adjunkt und einem Adverb Hans kaufte gestern bei Maria Blumen.
A PlatzkomplexitätHans kaufte gestern bei Maria Blumen. • REF • pro Referent durch eine große Konstante abschätzbar, z.B. 10, daher 103=1000 • GR • Passivierung: 2 • Verbalternation: mind. 2 (verkaufen) • WS • Vorfeldbesetzung + Variation im Mittelfeld ca. 4!=24 Permutationen • Varianten pro Satz • 1.000 * 4 * 24 = 96.000
A PlatzkomplexitätHans kaufte gestern bei Maria Blumen. • in Abhängigkeit von der Länge n eines Satzes • base.xml O(log n + n) • ref.xml O(n*log n) • linear: max. konstant viele neue Referenten pro Satz mit konstant beschränkbarer Länge • segment.xml O(n!*nc*log n) • nur aus Verweisen bestehend • text.xml O(1) • gesamt • verteilt O(n!*nc*log n) • monolithisch O(n!*nc)