Bestimmung der richtigen Wortbedeutung

Bestimmung der richtigen Wortbedeutung

Einfache Vorstellung • Einige Wörter haben mehr als eine Bedeutung (z.B. Bank, Hahn, Schloss, Titel, Kopf, ...) • Ein Wort hat endlich viele, diskrete Bedeutungen, die in einem Wörterbuch, Thesaurus oder anderen Referenzquellen verankert sind • Die Bestimmung der Bedeutung geschieht mit Hilfe des Kontexts

Das Problem ist komplizierter • Ein Wort hat selten eindeutige, klar abgetrennte Bedeutungen (wie „Bank“) • Oft besteht ein Zusammenhang zwischen den Bedeutungen, sie sind nicht klar trennbar • Beispiel: „title“ - Name/heading of a book, work of art or music - Material at the start of the film - The right of legal ownership of land - The document that is evidence of this right - An appellation of respect attached to a person‘s name

Definition der Wortbedeutung • Variante:Bereits vorhandene Definitionen aus einem Lexikon/Wörterbuch übernehmen • Kein einheitlicher Standard, Unterschiede in Anzahl und Art der Bedeutungen • Teilweise sind Zuordnungen von Bedeutungen in einem Wörterbuch nicht konsistent • Beispiel „This work doesn‘t have a title“

Bedeutungsbestimmung vs. Tagging • Andere Art von Mehrdeutigkeit ist syntaktischer Natur • z.B. „butter“ – Substantiv, Verb („you should butter your toast“) • Starker Unterschied zw. Gebrauch als Verb und Gebrauch als Substantiv => Tagging ein Teilproblem? • Bestimmung von Bedeutungen = Vergabe von semantischen Tags => Kann mit Tagging erledigt werden

Tagging als separates Problem • Trennung, da unterschiedliche Natur der Probleme • Unterschiedliche Methoden: • Deskriptoren für syntaktische Methoden relevant • Wörter mit einer relativ großen „Entfernung“ im Satz wichtig für Bestimmung der Wortbedeutung

Bayesische Klassifikation • Betrachtung eines großen Kontextfensters um das zu klärende Wort • Annahme: Jedes Wort trägt zur Bedeutungsklärung bei • Keine speziellen Merkmale werden ausgewählt. Stattdessen Kombination der Hinweise auf eine Bedeutung berücksichtigt

Bayesische Entscheidungsregel • Bestimme die Wortbedeutung als b‘, wenn P(b‘|c) > P(bk|c) für b‘ != bk • Optimal, da Fehlerwahrscheinlichkeit minimiert wird • Wenn P(bk|c) nicht bekannt ist, Berechnung mit Bayes-Formel: • P(bk) ist a priori-Wahrscheinlichkeit der Wortbedeutung bk

Naiver Bayesischer Klassifikator • Annahme: Kontextattribute sind unabhängig: • Vernachlässigung der Struktur und Reihenfolge des Kontextes • Vereinfachung ermöglicht Nutzung des effizienten Modells bedingter Wahrscheinlichkeiten • Ungeeignet, wenn starke Zusammenhänge zwischen den Kontextattributen bestehen

Entscheidungsregel für naiven Klassifikator • Wähle Bedeutung b‘, wenn maximal ist

Trainingsalgorithmus Für alle Bedeutungen bk des Worts w für alle Wörter vj des Wörterbuchs end end Für alle Bedeutungen bk des Worts w End Für alle Bedeutungen bk des Worts w score(bk)=logP(bk) für alle Wörter vj im Kontextfenster score(bk)=score(bk)+logP(vj|bk) end end Wähle bk mit dem größtem score(bk)

Hinweise auf eine Bedeutung • Betrachte das Wort „drug“

Informationstheoretische Methode • Bayesischer Klassifikator vernachlässigt Wortabhängigkeiten im Kontext • Wortbedeutung kann mittels eines Indikators (eines typischen Worts im Kontext) ermittelt werden • Folgender Algorithmus ordnet einer Bedeutung eine Menge von Indikatoren zu. • Seien {b1,...,bm} unterschiedliche Bedeutungen und {i1,..., in} die Menge der Indikatoren

Flip-Flop Trainingsalgorithmus Finde eine zufällige Partition P={P1,P2} von {b1,...,bm} while (improving) do finde Partition Q={Q1, Q2} von {i1,...,in}, so dass I(P,Q) maximal ist finde Partition P ={P1,P2} von {b1,...,bm}, so dass I(P,Q) maximal ist end

Was bedeutet „Hahn“? • {b1,...,bm} = {Vogel, Absperrvorrichtung, Teil des Waffenschlosses} • {i1,...,in} = {krähen, reparieren, installieren, schlafen,ersetzen} • Sei Partition P = {P1,P2} mit P1={Vogel}, P2={Absperrvorrichtung, Schlossteil} • Für welche Partition Q ist die Entropie I(P,Q) maximal?

Beispiel • Partition Q1 = {krähen, schlafen}, Q2 = {installieren, reparieren, ersetzen} gibt uns den größten Informationsgewinn im Hinblick auf Unterscheidung von P1 und P2 • Brute-force Suche nach der besten Partition hat exponentielle Laufzeit • Flip-Flop ist linear in der Laufzeit

Anwendung • Algorithmus für alle mögliche Positionen des Indikators im Kontext laufen lassen • Indikatorposition mit dem größtem Informationsgewinn für beide Bedeutungen wählen • Den Wert des Indikators ij an dieser Position bestimmen • Wenn ij ist in Q1, ordne dem Wort die Bedeutung 1 zu, wenn in Q2 – Bedeutung 2.

Merkmale des IT-Algorithmus • Überwachtes Lernen, da die Trainingstexte gekennzeichnet sein müssen • Oft in Übersetzungssystemen verwendet • Anstatt Wortbedeutungen werden ihre Übersetzungen betrachtet • 20% Verbesserung

Nutzung eines Wörterbuchs • Idee: Wortdefinitionen sind oft gute Indikatoren für die definierte Bedeutung • c-Kontext, Dk – Menge aller Wörter in Def. von bk, Ev –Menge aller Wörter in den Def. von allen Bedeutungen von v • Für alle Bedeutungen bk des Worts w score(bk)=overlap(Dk, Uv in c Ev) end

Verbesserungsmöglichkeiten • overlap – Mächtigkeit der Schnittmenge oder geeignete Metrik • Mehrere Iterationen des Algorithmus • Ev umfasst nicht alle, sondern in vorigen Iteration als relevant gefundene Bedeutungen • Erweiterung jedes Worts im Kontext durch die Liste seiner Synonyme

Thesaurus-basierte Verfahren • Nutzung der semantischen Kategorien • Idee: Die Wortbedeutung wird durch die Kategorie bestimmt, die dem Kontext zugeordnet wird

Unsupervised disambiguation • Zuordnung von Bedeutungen nicht möglich • Allerdings Bestimmung unterschiedlicher semantischer Gruppen realisierbar • Clustering und Identifizierung unterschiedlicher Wortbedeutungen sind möglich

Bestimmung der richtigen Wortbedeutung

Bestimmung der richtigen Wortbedeutung

Presentation Transcript

Bestimmung der Elementarladung nach Millikan

Bestimmung von Lernergebnissen und quivalenzvergleich

Graphische Bestimmung einer Brechungszahl

Automatische Verfahren zur Bestimmung der Hörschwelle

Wir entwickeln Lösungen Mit der KGSt auf dem richtigen Kurs

Bestimmung des ggT zweier Zahlen Bestimmung nach Definition –Implementierung

dein Erbe dient deiner Bestimmung

Der Auftrag weist den richtigen Weg

Die Frage nach der richtigen Ordnung – Ein Streitgespräch

Bestimmung der Regressionsgewichte in der multiplen Regression

Einbeziehung der 3-D-Struktur in die Bestimmung von Landschaftsfunktionen

Protein- bestimmung

Die Bestimmung von Radialgeschwindigkeiten

Der Weg zum richtigen Wein

Bestimmung von Näherungs-koordinaten

Anbetung ist unsere Bestimmung

Bestimmung der Bodeneigenschaften am Antennenstandort

richtigen

Tipps für die Suche nach der richtigen Autositz

Richtig schön mit der richtigen Kosmetik

Im richtigen Licht

Vorteile bei der Wahl des richtigen Umzugsunternehmen