Semantic Role Labeling

PG 520Intelligence Service Semantic Role Labeling Regina Fritsch, Martin Böhmer

Regina Fritsch, Martin Böhmer Agenda • Einleitung • SRL Systeme • Probabilistisch • SVM • Maximum Entropy Model • Unsupervised SRL • CoNLL 2005 • SRL Live-Demonstration • Fazit

Regina Fritsch, Martin Böhmer Einleitung| probabilistisches SRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Semantic Roles I • die Bedeutungsfunktion eines Satzteils auf den ganzen Satz • semantische Relation der Satzbestandteile zum Prädikat • Konzept seit Ende der 60er Jahre • Grammatikmodelle nutzen SR • Syntax & Semantik in einem Modell erfassen • Universalgrammatik für alle Sprachen

Regina Fritsch, Martin Böhmer Einleitung| probabilistisches SRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Semantic Roles II nach Fillmore (1971): • Agent - führt die Handlung aus • Die nächste Frage stellt der Kollege Burgbacher. • Experiencer – nimmt etwas wahr, fühlt • Sie haben den Vorschlag gehört. • Instrument– Mittel, mit dem eine Handlung ausgeführt wird • Die Wahl findet mit verdeckten Stimmkarten, also geheim, statt. • Object(oft auch Theme) – verändert sich durch die Handlung • Die Regierung hat ein Denkmal errichtet. • Time – Zeit des Geschehens • Darüber werden wir morgen beraten.

Regina Fritsch, Martin Böhmer Einleitung| probabilistisches SRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Semantic Roles III • Location – Ort des Geschehens • Sie dürfen Ihre Stimmkarte nur in der Wahlkabine ankreuzen. • Goal – der Ort zu dem sich etwas bewegt • Wir sind wieder in die Mitte Europas gerückt, was das Wachstum anbelangt. • Path – Weg des Geschehens • Im Übrigen haben die USA hervorragend mit den menschenverachtenden Taliban verhandelt, und zwar über eine Gaspipeline durch Afghanistan. • Source – der Ort von dem aus sich etwas bewegt • Herr Kollege Brüderle, setzen Sie sich doch einmal aufs Fahrrad und fahren von Ihrem Heimatort ausin Richtung Westennach Frankreich.

Regina Fritsch, Martin Böhmer Einleitung| probabilistisches SRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Semantic Role Labeling Definition: • Gruppierung von Wörtern in Sätzen • Zuordnung von semantischen Rollen häufiges Vorgehen: • Betrachtung der Verben,semantische Rollen sind deren Argumente • Verwendung syntaktischer Information

Regina Fritsch, Martin Böhmer Einleitung | probabilistisches SRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Probabilistisches SRL • behandeln wie ähnliche Probleme • POS, Syntaxanalyse… • nutzen statistischer Techniken • Unterteilung in 2 Teilaufgaben • Identifizierung der Frameelementgrenzen • jedem Frameelement SR zuweisen • im weiteren: • per Hand annotierte Grenzen • Ergebnisse später in etwa gleich

Regina Fritsch, Martin Böhmer Einleitung | probabilistisches SRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Merkmale I • Phrase Type (pt): • syntaktischer Typ des Satzteils (NP, VP, S…) • Governing Categoryv (gov): • von einer NP wird der nächste Vorfahr S oder VP gesucht • Vorfahr S: Subjekt • Vorfahr VP: Objekt • für andere Typen als NP nur wenig Effekt • Position: • Komponente vor oder hinter dem Prädikat

Regina Fritsch, Martin Böhmer Einleitung | probabilistisches SRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Merkmale III • Voice: • Unterscheidung zwischen aktiven und passiven Verben • ca. 5 % der Verben sind passiv (FrameNet database) • Head Word (h): • Hauptwort des Satzteils • zur Bestimmung der grammatischen Funktion • Bsp. NP: the old fashioned door • Bsp. VP: might be hit • Bsp. PP: on the table

Regina Fritsch, Martin Böhmer Einleitung | probabilistisches SRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Wahrscheinlichkeiten III • andere Schemata um λ-Werte zu wählen haben relativ wenig Effekt • Bewertung hängt vom nur vom Ranking der W‘keiten ab, nicht den exakten Werten Backoff Kombination

Regina Fritsch, Martin Böhmer Einleitung | probabilistisches SRL|SRL mit SVM| SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Rückblick SVM • vektorbasiert, beliebig viele Dimensionen • binärer Klassifizierer • One vs. All (OVA) • n Klassen  n Klassifizierer • hoher Datenaufwand • Paarweiser Vergleich • n Klassen  n * (n-1) / 2 Klassifizierer • Trainingsdaten ist im Vergleich zu OVA kleiner • Klassifizierung: f(x) = w · x + b

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL |SRL mit SVM| SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Feature Repräsentation Problem: SVM arbeitet numerisch • Lösung: Binärer Featurevektor • alle möglichen Wörter, Tags, ... bilden je eine Komponente des Vektors • Beobachtung:Vektor hat schnell >100.000 Dimensionen,ist aber nur dünn (sparse) mit 1 besetzt • speichere nur „1“-Indizes (sparse vector) • SVM benutzt als Rechenoperation nur Skalarprodukt • alle „0“-Komponenten entfallen aus Berechnung • weitere Lösungen: TF / IDF basierte Werte

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL |SRL mit SVM| SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Nutzung der SVM • POS-Tagging • Chunk Identification • Erkennen von zusammenhängendenWörtern (= Chunk) • kein vollständiges syntaktisches Parsen • IOB-Notation (Inside, Outside, Beginning) • Semantic Role Labeling

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL |SRL mit SVM| SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Chunk Identification: Beispiel • Eingabe: Text mit POS-Tags[PPER Ich] [VAFI habe] [VVPP ausgesagt] , [ART die][ADJA schwarzen] [NN Koffer] [PTKNEG nicht][VVPP genommen] [PTKZU zu] [VAINF haben]. • Ausgabe: Text mit IOB-Tags[B-NP Ich] [B-VP habe] [I-VP ausgesagt] , [B-NP die][I-NP schwarzen] [I-NP Koffer] [O nicht][B-VP genommen] [I-VP zu] [I-VP haben].

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL |SRL mit SVM| SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit YamChaYet another Multipurpose Chunk Annotator • Bester beim CoNLL2000 Shared Task, Chunking • Funktion • Basis: SVM mit paarweiser Klassifizierung • Eingabe: Text mit POS-Tags • Features • wj Wort j (j = -2, …, 2) • tj POS-Tag von Wort j (j = -2, …, 2) • ci chunk label i (i = -2, -1)

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL |SRL mit SVM| SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Labeling Verfahren • Constituent-by-constituent (C-by-C) • Basis: vollständiges syntaktisches Parsen • Syntaxbaum eines Satzes wird zur einer Kette seiner Komponenten linearisiert • Komponentenweise Klassifikation • Phrase-by-phrase (P-by-P) • Chunking • Word-by-word (W-by-W) • Chunking

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL |SRL mit SVM| SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit SRL nach Pradhan et al. 2005 • Erweiterung von vorgestelltem, statistischen Ansatz von Gildea & Jurasky 2002 • SVM statt Wahrscheinlichkeiten • neue Features • Vergleich von • C-by-C mit vollständigem syntaktisches Parsen(deep / full parse) • W-by-W mit vollständigem syntaktisches Parsen • W-by-W oberflächliches Parsen(shallow parse)

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL |SRL mit SVM| SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Deep-Parse-SystemPradhan et al. 2005 Neue Features • NER: Person, Organization, Location, Date, ... • POS-Tag des Headwords • Verb clusteringZusammenfassung von Verben mit ähnlichen Bedeutungen und Argumentfolgen • Verb sense information • wiegen (Gewicht): Wiegende(r), Gewogenes • wiegen (Kind): Wiegende(r), Kind

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL |SRL mit SVM| SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Deep-Parse-SystemPradhan et al. 2005 Einfluss der Features • Senkung der Leistung: • NERViele Komponenten enthalten NE, sind aber keine Charakteristika eines Prädikats • Steigerung der Leistung: • Head-Word • Path • Headword POS-Tag • Verb cluster • Verb sense

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL |SRL mit SVM| SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Vergleich: deep vs. shallow Pradhan et al. 2005 Ergebnisse • Korpus: PropBank (July 2002)Sektion 02-21: Training, 00: Dev.-Test, Rest: Test • Hauptunterschied:Ableitung des Path Features

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Maximum Entropy Model Schätze die Wahrscheinlichkeit für Auftreten einer Klasse a in Kontext b ab • Wahrscheinlichkeitsverteilung p(a,b) • Klasse a: POS-Tag, semantische Rolle, … • Kontext b: Text, Satz, Wörter, … • Basis: Beobachtungen, Beispiele

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Entropie A Menge möglicher Klassen B Menge möglicher Kontexte E = A x B Menge aller Kombinationen S = A x B endliche Trainingsmenge W‘keitsvt. von x in S (Beobachtung) W‘keitsvt. von x in E (Vorhersage)

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Beobachtungen Beobachtungen (ai, bi) werden mittels k Features fi repräsentiert (i = 1, …, k): fi : E → {0, 1} Daraus folgen Bedingungen für Modell:

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit MEM: Beispiel A = {a, b}, B = {0, 1} ? ? ? ?

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Unsupervised SRL • ohne manuell getaggte Daten zuordnen • initiale eindeutige Zuordnungen anhand eines Verblexikons • erstellen eines Wahrscheinlichkeitsmodells um die restlichen Daten zuzuordnen • beim iterieren: • anwachsen der annotierten Daten • herabsetzen der Schwelle des W’keitsmodells → alle Rollen sind getaggt

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Frame Matching • für jedes Verb die möglichen Rollen seiner Argumente berechnen + Argumentslots (Subjekt, Objekt, ind. Objekt, Adverbial) • Argumente haben Menge an möglichen Rollen, welche die Slots füllen könnten • einelementige Menge → Rolle zuordnen • bildet gelabelte Anfangsdaten • Wahrscheinlichkeitsmodell trainieren

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Frame Matching • %Frame: Anteil der Slots im Frame die vorhergesagt / belegt werden konnten • %Sent: Anteil der zugeordneten Argumente in Bezug auf die vorhergesagten Slots • Score eines Frames = %Frame + %Sent

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Rollenauswahl • P(r|v,s,n) = Anzahl des Auftretens der Kombination Verb, Slot und Nomen • Auswahl: top zwei die den Schwellenwert minEvidence erreichen • Güte: Logarithmus des Verhältnisses • Schwellenwertlog_ratio muss erreicht werden • Rolle mit der höheren W‘keit zuweisen • Schwellenwert hoch initialisiert, mit der Zeit immer weiter herabsetzen

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Ergebnisse • Korpus: random 20% des „British National Corpus“ • unmöglich: keine Kandidatenlisten vorhanden • viele Zuordnungen bereits während des FrameMatchings → Supervised Methoden • alle Zielslots: bezieht auch Fehler die in Vorverabeitungsschritten gemacht wurden mit ein

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Computational Natural Language Learning - 2005 Shared Task • 19 teilnehmende Teams • 3 Monate Bearbeitungszeit • gegeben: • Wörter, POS-Tags, Chunks, Abschnitte im Start-End-Format, NE, Zielverben • Argumentzuordnung zu SR (nicht für Lernmenge verfügbar) • neu in 2005: • kompletter Syntaxbaum • Vergrößerung der Trainingsdaten • neue Testmenge aus dem Brown-Korpus • Trainingsdaten: • PropBank Korpus, WSJ – Teil des PennTreeBank Korpus

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit SRL - Systeme • Kombination ist wichtig: • 8 von 19: bis auf einen alle in TopTen • schlechte F1-Score: • meist weniger Merkmale genutzt Auszug der Merkmalstypen ausgewählter Systeme:

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 | Fazit Ergebnisse • F1-Score ≈ 80: Anstieg um10 Punkte (2004) • 5-fache Vergrößerung der Trainingsmenge • komplette Syntaxbäume als Eingabe • verfeinerte Kombinationsverfahren entwickelt • weit weg von Wunschergebnissen • Brown-Korpus etwa um 10 Punkte schlechter • SRL-Modul in einer realen Anwendung → F1-Score ≈ 70

Regina Fritsch, Martin Böhmer Demonstration http://l2r.cs.uiuc.edu/~cogcomp/srl-demo.php

Regina Fritsch, Martin Böhmer Einleitung | probabilistischesSRL | SRL mit SVM | SRL mit ME | unsupervised SRL | CoNLL-05 |Fazit Fazit • Verschiedene Verfahren • Dominanz des Path / Headwod Feature • Kombinierte Systeme sind die besten • Reale Anwendungen: F1≈ 70% • Chance: Domainanpassung • Nutzung • Fragebeantwortung • Information Extraction • Summarization • Maschinelle Übersetzung

Regina Fritsch, Martin Böhmer Fragen, Anmerkungen?

Regina Fritsch, Martin Böhmer Anhang Literatur I • Engels, Eva & Vikner, Sten: 2006, „Satzglieder, Kasus und semantische Rollen: eine Einführung“. Tidsskrift for Sprogforskning 4.1, S. 17-37. • Krifka, Manfred: „Argumentenstruktur und Verbsemantik“, Vorlesungsskript - WS 2004/05. • Meyer, Paul et al.: 2002. „Synchronic English Linguistics. An Introduction“. Narr, Tübingen. • Gildea, Daniel & Jurafsky, Daniel: 2000, „Automatic labeling of semantic roles“. Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, S. 512 – 520. • Gildea, Daniel & Jurafsky, Daniel: 2002; „Automatic labeling of semantic roles“. Computational Linguistics 28(3), S. 245 – 288. • Pradhan, S., Hacioglu, K., Krugler, V., Ward, W., Martin, J. H., and Jurafsky, D.: 2005, „Support Vector Learning for Semantic Argument Classification“. Mach. Learn. 60, 1-3 (Sep. 2005), S. 11-39. • Swier, Robert & Stevenson, Suzanne: 2004, „Unsupervised semantic role labelling“. In Proc. of the 2004 Conf. on EMNLP, p. 95 – 102.

Regina Fritsch, Martin Böhmer Anhang Literatur II • Kudoh, T. and Matsumoto, Y.: 2000, „Use of support vector learning for chunk identification“. In Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning - Volume 7 (Lisbon, Portugal, September 13 - 14, 2000). • Joachims, T.: 1999. „Making large-scale support vector machine learning practical“. In Advances in Kernel Methods: Support Vector Learning, B. Schölkopf, C. J. Burges, and A. J. Smola, Eds. MIT Press, Cambridge, MA, 169-184. • Ratnaparkhi, A.: 1994, „A Simple Introduction to Maximum Entropy Models for Natural Language Processing“. Technical report, Institute for Research in Cognitive Science, University of Pennsylvania 3401 Walnut Street, Suite 400A Philadelphia, PA 19104-6228, May. IRCS Report 97 - 08. • Hacioglu, K.: 2004, „Semantic role labeling using dependency trees“. In Proceedings of the 20th international Conference on Computational Linguistics (Geneva, Switzerland, August 23 - 27, 2004). • Roger Levy, Lecture 12: „Deep semantics dependencies & semantic rolesStatNLP“, Winter 2008, UCSD Linguistics.

Semantic Role Labeling