220 likes | 371 Views
Lernen paradigmatischer Relationen auf iterierten Kollokationen. Biemann, C. Bordag, S., Quasthoff, U. Universität Leipzig GermaNet Workshop 2004 Tübingen 10.10.2003. Wortmengen.
E N D
Lernen paradigmatischer Relationen auf iterierten Kollokationen Biemann, C. Bordag, S., Quasthoff, U. Universität Leipzig GermaNet Workshop 2004 Tübingen 10.10.2003
Wortmengen • Ziel ist das automatische Erweitern von homogenen Wortmengen, z.B. GermaNet-Synsets oder Teilbäume der Hyponymhierarchie • Wir sammeln Verfahren und wenden diese evtl. in Kombination an • Vorstellung: Der Rechner als „Assoziator“Eingabe: wenige Beispiele- Erkennen der Relation- Ausgabe weiterer InstanzenDies kann auch semi-supervized geschehen • Dazu nötig: - großer Korpus- Features- Lernverfahren
Kollokationen • Linguistische KollokationenIdiome im Sprachgebrauch, wie z.B.den Löffel abgeben, ins Gras beißen, das A und O • Statistische KollokationenWörter, die signifikant öfter miteinander auftreten als bei unabhängigem Auftreten zu erwartenHund – Katze, Herrchen, Leine Schwanz, gebissen,... Blume – blaue, Knopfloch, Justizsprecherin, blüht, Rose, Duft, ... In diesem Vortrag geht es um statistische Kollokationen.
Kollokationen im www.Wortschatz.uni-leipzig.de • Berechnung für 500 Millionen Tokens • Kollokationen auf Satzebene und Nachbarschaftsebene • Common-birthday-Maß • Ordnung nach Signifikanz • Visualisierung über Simulated Annealing • Signifikante Satzkollokationen für Hund: • Katze (1367), Balto (518), Herrchen (514), Leine (393), Schwanz (378), gebissen (365), bellt (354), Tier (348), beißt (302), du (293), Halter (273), harter (260), seinem (259), Mann (242), Gassi (242), tgl (224), Hunde (214), bellte (204), Katz (204), Frauchen (198), Herzen (189), Tierheim (180), Frau (175), Mensch (169), bellen (168), Helden (163), Prokyon (155), spazieren (150), mich (146), ...
Phänomene im Kollokationsgraphen Cluster Mehrdeutigkeit
Iterieren von Kollokationen • (Satz)kollokationen erster Stufe:Wörter, die sig. häufig miteinander im Satz auftreten • Kollokationen zweiter Stufe:Wörter, die sig. häufig miteinander in Kollokationsmengen erster Stufe auftreten • Kollokationen n-ter Stufe:Wörter, die sig. häufig miteinander in Kollokationsmengen (n-1)ter Stufe auftreten Bei der Berechnung der nächsten Stufe sind die Signifikanzen der vorherigen Stufe irrelevant Schwellwert oder Abschneiden
Eigenschaften von iterierten Kollokationen • Intuitives Verständnis: NB-Kollokationen 1. Stufe ~ syntagmatische Relationen Satzkollokationen 1. Stufe ~ syntagmatische,paradigmatische Relationen Kollokationen 2. Stufe ~ paradigmatische Relationen Kollokationen höherer Stufe ~ ? • Iteration bewahrt Cluster ab Größe 3. • Manche Wortmengen erweisen sich gegenüber Iteration stabil • i.a. gibt es weniger Kollokationen n-ter Stufe als (n-1)-ter Stufe. • Berechnungen bis Stufe 10 liegen vorBeispiel für TOP 20 NB-Kollokationen 10. Stufe für „erklärte“: sagte, schwärmte, lobt, schimpfte, meinte, jubelte, lobte, resümierte, schwärmt, Reinhard Heß, ärgerte, kommentierte, urteilte, analysierte, bilanzierte, freute, freute sich, Bundestrainer, freut ,gefreut
Filtern von Kollokationsmengen • Bei der Suche von Synonymen, Hyponymen oder Kohyponymen interessieren i.d.R. nur Wörter derselben Wortart • Kollokationen zu Wörtern können nach Wortart gefiltert werden. • Einfacher Filter für Wortarten:- POS-Tagging des Korpus- Ermitteln möglicher Tags zu Wortform- Kollokate nach gleichen Tags filternVorsicht: Berechnung muss auf allen Kollokaten erfolgen
Schnitt von Kollokationsmengen Herz-Bube Becker bedient - folgenden - gereizt - Karo-Buben - Karo-Dame - Karo-König - Karte - Karten - Kreuz-Ass - Kreuz-Dame - Kreuz-Hand - Kreuz-König - legt - Mittelhand - Null ouvert - Pik - Pik-Ass - Pik-Dame - schmiert - Skat - spielt - Spielverlauf - sticht - übernimmt - zieht - Agassi - Australian Open - Bindewald - Boris - Break - Chang - Dickhaut - - gewann - Ivanisevic - Kafelnikow - Kiefer - Komljenovic - Leimen - Matchball - Michael Stich - Monte Carlo - Prinosil - Sieg - Spiel - spielen - Steeb - Teamchef - Tiria Stich Achtelfinale - Aufschlag - Boris Becker - Daviscup - Doppel - DTB - Edberg - Finale - Graf - Haas - Halbfinale - Match - Pilic - Runde - Sampras - Satz - Tennis - Turnier - Viertelfinale - Weltrangliste - Wimbledon Alleinspieler - Herz - Herz-Dame - Herz-König - Hinterhand - Karo - Karo-As - Karo-Bube - Kreuz-As - Kreuz-Bube - Pik-As - Pik-Bube - Pik-König - Vorhand - Becker - Courier - Einzel - Elmshorn - French Open - Herz-As - ins - Kafelnikow - Karbacher - Krajicek - Kreuz-As - Kreuz-Bube - Michael Stich - Mittelhand - Pik-As - Pik-Bube - Pik-König Stich
Beispiel: NBKollokationen Stufe2 warm, kühl, kalt • Schnitt der nach ADJ gefilterten Kollokationen für warm, kühl, kalt ergibt:abgekühlt, aufgeheizt, eingefroren, erhitzt, erwärmt, gebrannt, gelagert, heiß, heruntergekühlt, verbrannt, wärmer • Emotionale Lesart „abgeklärt“ für kühl, kalt wird eliminiert
Auffinden von XonymenSynonyme, Antonyme, (Ko)-Hyponyme... • Idee: Schnitt der Kollokationsmengen zweier Xonyme enthält Xonyme • Lexikalische Ambiguität eines Eingabewortes verunreinigt nicht die Ergebnismenge • Vorgehen:- Ermittle Wortart für Eingabewörter- Ermittle Kollokationen für Eingabewörter- Filtere diese nach Wortarten der Eingabewörter- Schneide die Kollokationen- Ausgabe des Ergebnisses • Ranking über Signifikanzstärken der Kollokate • Evaluation für Nachbarschaftskollokationen zweiter und dritter Stufe
Beispiele für Schnitt+Filter Ackerbau [Gerste, Hanf] [NN] [Sonnenblumen, Getreide, Raps, Weizen, Böden, Gemüse, Früchte, Obst, Kaffee, Nahrungsmittel, Tabak, Pflanzen, Kartoffeln, Trauben, Wein, Bananen, Hirse, Kakao, Opium, Soja, Tomaten, Baumwolle, Heu, Reis, Cannabis, Futter, ... Berufe [Maler, Handwerker] [NN] [Künstler, Architekt, Architekten, Schauspieler, Journalist, Wissenschaftler, Musiker, Arzt, Politiker, Jurist, Ingenieur, Physiker, Kaufmann, Trainer, Lehrer, Mann, Sänger, Unternehmer, Manager, Journalisten, Studenten, Kollegen, Frauen] Kleidungsstücke und Sachen, die wehen oder fliegen und so [Socken, Unterhosen] [NN] [Fahne, Schuhe, Flecken, Hose, Jacke, Fahnen, Rosen, Uniform, Bluse, Blumen, Mantel, Pullover, Hemd, Farbe, Haut, Weste, Kleidung, Hosen, Handschuhe, Ritter, Schal, Anzug, Jeans, Mütze, Riese, Wolke, Blätter, Sonne, Tücher, Vogel, Wolken, Strich, T-Shirts, Kasten, Engel, Kleider, Trikot, Zettel, Hai, Krawatte, Flaggen, Perücke, T-Shirt, Hut, Farben, Pracht, Schilder, Linien, Schwan]
Mini-Evaluation • Durchführung für verschiedene Datenquellen, NB-Kollokationen zweiter und dritter Stufe • Anteile in TOP 5 höher als in TOP 10 Rankingmethode ist geeignet • Schnitt zwischen Kollokaten zweiter und dritter Stufe fast immer leer mehrere Stufen machen Sinn • Quantität zufriedenstellend, durch größere Korpora erhöhbar • Qualität zum vollautomatischen Erweitern noch nicht ausreichend
Unterscheidung von Kohyponymen und Hyperonymen • Ausgangspunkt: Wort A und Kollokate B1,B2,...,Bn • Satzkollokationen 1. Stufe • Zwei Kennwerte: - Kollokationsstärke zwischen A und B- Ähnlichkeit der Kollokationsmengen von A und B • Beobachtung:- Kohyponyme haben hohe Kollokationsstärke, da sie (z.B. in Aufzählungen) häufig in einem Satz auftreten, sowie ähnliche Kollokationsmengen (Kontexte)- Hyperonyme haben geringe Kollokationsstärke, und ähnliche Kontexte- linguistische Kollokationen besitzen hohe Kollokationsstärke, unähnliche Kontexte • Qualität: Funktioniert für einige Wörter gut, für einige nicht.
Pendeln auf Kollokationen • Gegeben: mittelgroße Wortmenge (10-100 Wörter) einer Sachgruppe • Gesucht: weitere Wörter aus dieser Sachgruppe • Quelle z.B. Dornseiff (Neuauflage 2003)über 1000 Sachgruppen, weiter in Untergruppen geteilt, nach Wortart sortiert • Annahme: - Kollokationen von bekannten Wörter einer Sachgruppe enthalten unbekannte Wörter bilden Kandidaten- Kandidaten sind dann gut, falls deren Kollokationen schon bekannte Wörter enthalten
Pendeln: Suche und Verifikation Algorithmus:Wortmenge WSolange neue Wörter w gefunden werden Kandidaten K = Kollokate von w anderer Wortart für alle K aus k falls Kollokate von k genug Wörter aus W anderer Wortart beinhalten: füge k zu W hinzu 19.23 Hieb- und Stichwaffe (DORNSEIFF 2003) Waffe • Stichwaffe · Bajonett · Damaszener · Degen · Dolch · Florett · Lanze · Säbel · Schwert · Sense · Speer · Spieß • Messer · Fahrtenmesser · Jagdmesser · Klinge · Stilett • Hiebwaffe · Baseballschläger · Faustkeil · Keule · Knüppel · Morgenstern · Prügel · Schlagring · Schlagstock · Stock · Totschläger • Bumerang · Hellebarde · Streitaxt · Tomahawk • Armatur · Bewaffnung · Rüstung · Wehr • Arsenal · Rüstkammer · Waffenkammer · Waffenlager · Zeughaus • bewaffnen · rüsten · wappnen • einprügeln · einschlagen · einstechen · erschlagen · erstechen · prügeln · schlagen · stechen · verprügeln · zuschlagen · zustechen Neues zu 19.23 Abrißbirne · Axt · Drahtesel · Eisenstange · Fäuste · Golfschläger · Hüften · Lüfte · Peitsche · Pendel · Racket · Sattel · Schläger · Skins · Takt · Tanzbein · Unterleib · Zepter · einschlug · ersticht · fechten · ficht · kreuzen · rammt · schwang · schwangen · schwingen · schwingt · traktiert · zückt · zückte
Zusammenfassung • Diverse Verfahren, um homogene Wortmengen zu finden, können schnell Kandidaten zur Erweiterung von GermaNet generieren • Entscheidung über die Aufnahme muss manuell geschehen • Automatisches Einordnen wegen verschiedener Granularität innerhalb GermaNets schwierig • Manche Synsets nicht geeignet, da Wörter zu niederfrequent • Unterscheidung zwischen den Xonymen teilweise statistisch möglich. Für feinere Unterscheidung sind evtl. patternbasierte Verfahren nötig