1 / 20

Lernen paradigmatischer Relationen auf iterierten Kollokationen

Lernen paradigmatischer Relationen auf iterierten Kollokationen. Biemann, C. Bordag, S., Quasthoff, U. Universität Leipzig GermaNet Workshop 2004 Tübingen 10.10.2003. Wortmengen.

jayden
Download Presentation

Lernen paradigmatischer Relationen auf iterierten Kollokationen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Lernen paradigmatischer Relationen auf iterierten Kollokationen Biemann, C. Bordag, S., Quasthoff, U. Universität Leipzig GermaNet Workshop 2004 Tübingen 10.10.2003

  2. Wortmengen • Ziel ist das automatische Erweitern von homogenen Wortmengen, z.B. GermaNet-Synsets oder Teilbäume der Hyponymhierarchie • Wir sammeln Verfahren und wenden diese evtl. in Kombination an • Vorstellung: Der Rechner als „Assoziator“Eingabe: wenige Beispiele- Erkennen der Relation- Ausgabe weiterer InstanzenDies kann auch semi-supervized geschehen • Dazu nötig: - großer Korpus- Features- Lernverfahren

  3. Kollokationen • Linguistische KollokationenIdiome im Sprachgebrauch, wie z.B.den Löffel abgeben, ins Gras beißen, das A und O • Statistische KollokationenWörter, die signifikant öfter miteinander auftreten als bei unabhängigem Auftreten zu erwartenHund – Katze, Herrchen, Leine Schwanz, gebissen,... Blume – blaue, Knopfloch, Justizsprecherin, blüht, Rose, Duft, ... In diesem Vortrag geht es um statistische Kollokationen.

  4. Kollokationen im www.Wortschatz.uni-leipzig.de • Berechnung für 500 Millionen Tokens • Kollokationen auf Satzebene und Nachbarschaftsebene • Common-birthday-Maß • Ordnung nach Signifikanz • Visualisierung über Simulated Annealing • Signifikante Satzkollokationen für Hund: • Katze (1367), Balto (518), Herrchen (514), Leine (393), Schwanz (378), gebissen (365), bellt (354), Tier (348), beißt (302), du (293), Halter (273), harter (260), seinem (259), Mann (242), Gassi (242), tgl (224), Hunde (214), bellte (204), Katz (204), Frauchen (198), Herzen (189), Tierheim (180), Frau (175), Mensch (169), bellen (168), Helden (163), Prokyon (155), spazieren (150), mich (146), ...

  5. Phänomene im Kollokationsgraphen Cluster Mehrdeutigkeit

  6. Iterieren von Kollokationen • (Satz)kollokationen erster Stufe:Wörter, die sig. häufig miteinander im Satz auftreten • Kollokationen zweiter Stufe:Wörter, die sig. häufig miteinander in Kollokationsmengen erster Stufe auftreten • Kollokationen n-ter Stufe:Wörter, die sig. häufig miteinander in Kollokationsmengen (n-1)ter Stufe auftreten Bei der Berechnung der nächsten Stufe sind die Signifikanzen der vorherigen Stufe irrelevant  Schwellwert oder Abschneiden

  7. Idealisiertes Beispiel für Kollokationen höherer Stufe

  8. Idealisiertes Beispiel für Kollokationen höherer Stufe II

  9. Eigenschaften von iterierten Kollokationen • Intuitives Verständnis: NB-Kollokationen 1. Stufe ~ syntagmatische Relationen Satzkollokationen 1. Stufe ~ syntagmatische,paradigmatische Relationen Kollokationen 2. Stufe ~ paradigmatische Relationen Kollokationen höherer Stufe ~ ? • Iteration bewahrt Cluster ab Größe 3. • Manche Wortmengen erweisen sich gegenüber Iteration stabil • i.a. gibt es weniger Kollokationen n-ter Stufe als (n-1)-ter Stufe. • Berechnungen bis Stufe 10 liegen vorBeispiel für TOP 20 NB-Kollokationen 10. Stufe für „erklärte“: sagte, schwärmte, lobt, schimpfte, meinte, jubelte, lobte, resümierte, schwärmt, Reinhard Heß, ärgerte, kommentierte, urteilte, analysierte, bilanzierte, freute, freute sich, Bundestrainer, freut ,gefreut

  10. Filtern von Kollokationsmengen • Bei der Suche von Synonymen, Hyponymen oder Kohyponymen interessieren i.d.R. nur Wörter derselben Wortart • Kollokationen zu Wörtern können nach Wortart gefiltert werden. • Einfacher Filter für Wortarten:- POS-Tagging des Korpus- Ermitteln möglicher Tags zu Wortform- Kollokate nach gleichen Tags filternVorsicht: Berechnung muss auf allen Kollokaten erfolgen

  11. Schnitt von Kollokationsmengen Herz-Bube Becker bedient - folgenden - gereizt - Karo-Buben - Karo-Dame - Karo-König - Karte - Karten - Kreuz-Ass - Kreuz-Dame - Kreuz-Hand - Kreuz-König - legt - Mittelhand - Null ouvert - Pik - Pik-Ass - Pik-Dame - schmiert - Skat - spielt - Spielverlauf - sticht - übernimmt - zieht - Agassi - Australian Open - Bindewald - Boris - Break - Chang - Dickhaut - - gewann - Ivanisevic - Kafelnikow - Kiefer - Komljenovic - Leimen - Matchball - Michael Stich - Monte Carlo - Prinosil - Sieg - Spiel - spielen - Steeb - Teamchef - Tiria Stich Achtelfinale - Aufschlag - Boris Becker - Daviscup - Doppel - DTB - Edberg - Finale - Graf - Haas - Halbfinale - Match - Pilic - Runde - Sampras - Satz - Tennis - Turnier - Viertelfinale - Weltrangliste - Wimbledon Alleinspieler - Herz - Herz-Dame - Herz-König - Hinterhand - Karo - Karo-As - Karo-Bube - Kreuz-As - Kreuz-Bube - Pik-As - Pik-Bube - Pik-König - Vorhand - Becker - Courier - Einzel - Elmshorn - French Open - Herz-As - ins - Kafelnikow - Karbacher - Krajicek - Kreuz-As - Kreuz-Bube - Michael Stich - Mittelhand - Pik-As - Pik-Bube - Pik-König Stich

  12. Beispiel: NBKollokationen Stufe2 warm, kühl, kalt • Schnitt der nach ADJ gefilterten Kollokationen für warm, kühl, kalt ergibt:abgekühlt, aufgeheizt, eingefroren, erhitzt, erwärmt, gebrannt, gelagert, heiß, heruntergekühlt, verbrannt, wärmer • Emotionale Lesart „abgeklärt“ für kühl, kalt wird eliminiert

  13. Auffinden von XonymenSynonyme, Antonyme, (Ko)-Hyponyme... • Idee: Schnitt der Kollokationsmengen zweier Xonyme enthält Xonyme • Lexikalische Ambiguität eines Eingabewortes verunreinigt nicht die Ergebnismenge • Vorgehen:- Ermittle Wortart für Eingabewörter- Ermittle Kollokationen für Eingabewörter- Filtere diese nach Wortarten der Eingabewörter- Schneide die Kollokationen- Ausgabe des Ergebnisses • Ranking über Signifikanzstärken der Kollokate • Evaluation für Nachbarschaftskollokationen zweiter und dritter Stufe

  14. Beispiele für Schnitt+Filter Ackerbau [Gerste, Hanf] [NN] [Sonnenblumen, Getreide, Raps, Weizen, Böden, Gemüse, Früchte, Obst, Kaffee, Nahrungsmittel, Tabak, Pflanzen, Kartoffeln, Trauben, Wein, Bananen, Hirse, Kakao, Opium, Soja, Tomaten, Baumwolle, Heu, Reis, Cannabis, Futter, ... Berufe [Maler, Handwerker] [NN] [Künstler, Architekt, Architekten, Schauspieler, Journalist, Wissenschaftler, Musiker, Arzt, Politiker, Jurist, Ingenieur, Physiker, Kaufmann, Trainer, Lehrer, Mann, Sänger, Unternehmer, Manager, Journalisten, Studenten, Kollegen, Frauen] Kleidungsstücke und Sachen, die wehen oder fliegen und so [Socken, Unterhosen] [NN] [Fahne, Schuhe, Flecken, Hose, Jacke, Fahnen, Rosen, Uniform, Bluse, Blumen, Mantel, Pullover, Hemd, Farbe, Haut, Weste, Kleidung, Hosen, Handschuhe, Ritter, Schal, Anzug, Jeans, Mütze, Riese, Wolke, Blätter, Sonne, Tücher, Vogel, Wolken, Strich, T-Shirts, Kasten, Engel, Kleider, Trikot, Zettel, Hai, Krawatte, Flaggen, Perücke, T-Shirt, Hut, Farben, Pracht, Schilder, Linien, Schwan]

  15. Mini-Evaluation • Durchführung für verschiedene Datenquellen, NB-Kollokationen zweiter und dritter Stufe • Anteile in TOP 5 höher als in TOP 10  Rankingmethode ist geeignet • Schnitt zwischen Kollokaten zweiter und dritter Stufe fast immer leer  mehrere Stufen machen Sinn • Quantität zufriedenstellend, durch größere Korpora erhöhbar • Qualität zum vollautomatischen Erweitern noch nicht ausreichend

  16. Unterscheidung von Kohyponymen und Hyperonymen • Ausgangspunkt: Wort A und Kollokate B1,B2,...,Bn • Satzkollokationen 1. Stufe • Zwei Kennwerte: - Kollokationsstärke zwischen A und B- Ähnlichkeit der Kollokationsmengen von A und B • Beobachtung:- Kohyponyme haben hohe Kollokationsstärke, da sie (z.B. in Aufzählungen) häufig in einem Satz auftreten, sowie ähnliche Kollokationsmengen (Kontexte)- Hyperonyme haben geringe Kollokationsstärke, und ähnliche Kontexte- linguistische Kollokationen besitzen hohe Kollokationsstärke, unähnliche Kontexte • Qualität: Funktioniert für einige Wörter gut, für einige nicht.

  17. Beispiel: Elefant

  18. Pendeln auf Kollokationen • Gegeben: mittelgroße Wortmenge (10-100 Wörter) einer Sachgruppe • Gesucht: weitere Wörter aus dieser Sachgruppe • Quelle z.B. Dornseiff (Neuauflage 2003)über 1000 Sachgruppen, weiter in Untergruppen geteilt, nach Wortart sortiert • Annahme: - Kollokationen von bekannten Wörter einer Sachgruppe enthalten unbekannte Wörter bilden Kandidaten- Kandidaten sind dann gut, falls deren Kollokationen schon bekannte Wörter enthalten

  19. Pendeln: Suche und Verifikation Algorithmus:Wortmenge WSolange neue Wörter w gefunden werden Kandidaten K = Kollokate von w anderer Wortart für alle K aus k falls Kollokate von k genug Wörter aus W anderer Wortart beinhalten: füge k zu W hinzu 19.23 Hieb- und Stichwaffe (DORNSEIFF 2003) Waffe • Stichwaffe · Bajonett · Damaszener · Degen · Dolch · Florett · Lanze · Säbel · Schwert · Sense · Speer · Spieß • Messer · Fahrtenmesser · Jagdmesser · Klinge · Stilett • Hiebwaffe · Baseballschläger · Faustkeil · Keule · Knüppel · Morgenstern · Prügel · Schlagring · Schlagstock · Stock · Totschläger • Bumerang · Hellebarde · Streitaxt · Tomahawk • Armatur · Bewaffnung · Rüstung · Wehr • Arsenal · Rüstkammer · Waffenkammer · Waffenlager · Zeughaus • bewaffnen · rüsten · wappnen • einprügeln · einschlagen · einstechen · erschlagen · erstechen · prügeln · schlagen · stechen · verprügeln · zuschlagen · zustechen Neues zu 19.23 Abrißbirne · Axt · Drahtesel · Eisenstange · Fäuste · Golfschläger · Hüften · Lüfte · Peitsche · Pendel · Racket · Sattel · Schläger · Skins · Takt · Tanzbein · Unterleib · Zepter · einschlug · ersticht · fechten · ficht · kreuzen · rammt · schwang · schwangen · schwingen · schwingt · traktiert · zückt · zückte

  20. Zusammenfassung • Diverse Verfahren, um homogene Wortmengen zu finden, können schnell Kandidaten zur Erweiterung von GermaNet generieren • Entscheidung über die Aufnahme muss manuell geschehen • Automatisches Einordnen wegen verschiedener Granularität innerhalb GermaNets schwierig • Manche Synsets nicht geeignet, da Wörter zu niederfrequent • Unterscheidung zwischen den Xonymen teilweise statistisch möglich. Für feinere Unterscheidung sind evtl. patternbasierte Verfahren nötig

More Related