180 likes | 274 Views
Automatische Akquisition linguistischen Wissens. Extraktion Morphologischen Wissens Problemstellung - Facetten der Morphologie Anwendungen MDL Modell Referat: Goldsmith Optionales Referat: Kazakovs 01 paper, speziell den Teil mit induktiver Logik erklären oder Creutz mit Morfessor.
E N D
Automatische Akquisition linguistischen Wissens Extraktion Morphologischen Wissens • Problemstellung - Facetten der Morphologie • Anwendungen • MDL Modell • Referat: Goldsmith • Optionales Referat: Kazakovs 01 paper, speziell den Teil mit induktiver Logik erklären oder Creutz mit Morfessor Automatische Akquisition linguistischen Wissens
1. Problemstellung • Um Problemstellung zu demonstrieren wird Wortform „glückliche“ als Beispiel herangezogen • Wortstamm ist „glück“ • -lich ist ein +ADJ suffix • -e ist eine mehrdeutige Endung: +feminin oder +plural • Daraus folgt auch Bedeutungsmehrdeutigkeit: • Die glückliche Familie • Das waren glückliche Begebenheiten • Weitere Wortformen des gleichen Lemmas: • glückliche glücklicher glücklichste glückte glückend Glück … • Inhaltlich verwandte Wörter (Assoziationen…): • fröhlich(e), witzig(e), unglücklich(e), gemütlich(e), schrecklich(e) Automatische Akquisition linguistischen Wissens
1.1. Bestandteile einer morphologischen Analyse • Komplette morphologische Analyse umfasst viele Einzelanalysen: • Grundformreduktion ( glückliche→ glücklich → glück ) • Lemmatisierung (glückliche → /glück/) • Derivation (Glück → glücklich) • Alternation (fahren → fuhren) • Komposita (Haushalt → Haus-halt) • Konjugationsklassen (schrieb geschrieben schreiben) • Deklinationsklassen (er ihm) • Klassifikation von freien vs. Gebundenen Morphemen (glück vs. -lich) • Analyse sollte komplett, vollständig automatisch und ohne vorheriges Wissen über die Sprache erfolgen Automatische Akquisition linguistischen Wissens
1.2. Prior knowledge • Beispiele für Wissen über Sprache • Definition von Konsonanten und Vokalen • -lich ist ein Suffix • In dieser Sprache gibt es Grapheme aus mehreren Buchstaben (sch) • -e ist ein Suffix, aber nicht bei Schule, Junge, usw. • Beispiele für sprachspezifische Hypothesen: • Sprache ist allgemein eher Suffixlastig • Sprache hat mehr Konsonanten als Vokale • Sprache hat immer Morphologie, Wörter und Sätze Automatische Akquisition linguistischen Wissens
1.3. Sprachunabhängige Hypothesen • Sprachunabhängige Hypothesen sind etwas absolut universell, d.h. sie gelten für alle Sprachen • Momentan eher Erkenntnis bei Typologen, dass die meisten bisher gefundenen Universalien nicht wirklich universell sind • Oder so abstrakt, dass sie nichts nutzen (z.B. Jede Sprache hat eine Grammatik) • Beispiel für mögliches Universal: Es gibt in jeder Sprache Substantive, Verben und Adjektive, wenn es Wörter in dieser Sprache gibt • Oder sie sind nur „positiv“, also sie können für eine Sorte von Sprachen gelten, damit aber nichts über andere Sorten aussagen • In manchen Sprachen gibt es Genus und in manchen von den wird er auf morphologischer Ebene ausgedrückt, in den anderen auf Wortebene • Wenn eine Sprache Morphologie hat, ist sie entweder Präfix- oder Suffixlastig Automatische Akquisition linguistischen Wissens
1.4. Strukturrestriktionen Konkrete Hypothesen sind in zwei Ebenen unterteilt: • Syntagmatische als Restriktionen zwischen Morphemen oder Wörtern • Reihenfolge von Präfix, Stamm, Suffix, etc. • Bei glückliche Kookkurrenz von glück mit -lich und –e • Im Satz (… diese glückliche Geschichte … ) Kookkurrenz der beteiligten Wörter • Paradigmatische als Selektionskriterium zwischen Morphemen oder Wörtern: • Statt –lich kann bei glück auch –en oder -s vorkommen, aber nicht –ung oder –ster • In ähnlichen Sätzen kann statt glücklich auch traurig oder witzig vorkommen Automatische Akquisition linguistischen Wissens
1.5. Verwendete Allgemeine Hypothesen • Sprachliche Ebenen und syntagmatische sowie paradigmatische Relationen zwischen den Einheiten auf jeder Ebene • Also können auch Einheiten einer Ebene zu Einheiten auf höherer Ebene kombiniert werden • Linearität von Äußerungen • resultiert unter anderem darin, dass Regeln zur Eingrenzung des Suchraums und besseren Kodierung entstehen • Prinzip des geringsten Aufwandes • Dadurch wird eine Balance angestrebt, sich nicht zuviel merken zu müssen und dennoch möglichst wenig sagen zu müssen • Redundanz • Dadurch werden nicht zunächst alle Zweierkombinationen ausgenutzt, bevor Dreierkombinationen erfunden werden Automatische Akquisition linguistischen Wissens
1.5. Vorgehensweise • Für jegliche Art der fortgeschrittenen Analyse (Clustern nach Art des Phänomens, Bestätigung von Hypothesen) müssen die einzelnen zu analysierenden Elemente zunächst beobachtbar sein. • Auf dem Wortlevel für meiste Sprachen kein Problem • Morpheme müssen jedoch erst getrennt werden, um beobachtbar zu werden • Erstes Ziel ist daher eine möglichst präzise Trennung von Morphemen • Allerdings, wie später deutlich wird, ist das in einigen Fällen nicht unabhängig von den zugrunde liegenden Hypothesen. Beispiel: Soll bei Sonne und sonnig sonn als Wortstamm genommen werden (also Sonn-e) oder Sonne (demnach kein –e) Automatische Akquisition linguistischen Wissens
1.6. Zusammenfassung • Erster Schritt ist, Einheiten zu finden: • freie und gebundene Morpheme • Zweiter Schritt ist, syntagmatische und paradigmatische Beziehungen zwischen den Einheiten zu finden: • Dabei Wörter (oder Phrasen?) als Sätze und Morpheme als Einheiten • Daraus ergeben sich Kontexte und Kontextvergleiche • Dritter Schritt, syn- und paradigmatische Relationen konkretisieren (Klassifikation, Clustering, …) • syntagmatisch: Konjugation, Deklination, … • paradigmatisch: Alternation, frei oder gebunden, … • Ergebnis: • Menge von abstrakten Klassen, die der von Menschen eingeführten Ordnung namens Morphologie am ehesten entspricht • Oder: Andere Ordnung, sofern sie irgend einen Nutzen hat Automatische Akquisition linguistischen Wissens
2. Anwendungen • Erstellung von Wörterbüchern • Analyse neuer Sprachen • Information Retrieval • Query expansion, • bzw. besseres Indexing (dies aber nicht einfach damit zu verbessern, aber einfach zu verschlechtern!) • Empirische Bestätigung oder Falsifizierung linguistischer Theorien • Generierung von Unterrichtsmaterial • Musterbasiertes Lernen • Kompression! Automatische Akquisition linguistischen Wissens
3.1. MDL Ansatz • Prinzipiell wird nur von Wortliste ausgegangen, Existenz von Kontextinformation wird ausgeblendet • Grundlegende Idee ist auch, dass Morphologie daher kommt, dass im Gehirn Teile von Wörtern zu Wortformen kombiniert werden und diese Teile eine Art Optimum darstellen • Optimum erreicht durch maximale Widerverwendbarkeit der einzelnen Teile • Da Optimum dann einfach Alphabet wäre ist also Gegenfaktor die Bedingung der verlustfreien Rekonstruierbarkeit gegeben • Dadurch müssen Links gespeichert werden und je mehr verschiedene Links, umso mehr Platz wird benötigt Automatische Akquisition linguistischen Wissens
3.1. Kazakovs Genetische Algorithmen Der erste Ansatz erschien um das Jahr 1997 herum • (Kazakov 97) und (Kazakov 00), sowie (Kazakov 01) • Genetischer Algorithmus, welcher versucht zu einer gegebenen Liste von Wörtern herauszufinden, wie jedes Wort so getrennt werden kann, damit möglichst viele Teile wiederverwendet werden witz|ig, witz|ige, witz|iger, traur|ige, traur|iger, traur|ig optimal, da nur 6 Elemente zu speichern → witz, traur, ig, ige, iger • Später wurde induktive logische Programmierung verwendet, um aus gewonnen Erstdaten neue Regeln zu lernen, die dann wiederum auf alle Wörter angewendet für mehr Trennungen und bessere Performanz sorgen sollten. Automatische Akquisition linguistischen Wissens
3.1.1. Beispiel Kazakovs Algorithmus 0. Iteration, zufällige Initialisierung: Fitness w|itzig, witz|ige, witzige|r, tr|aurige, trauri|ger, tr|aurig 1/12 witz|ig, wit|zige, witz|iger, tra|urige, tra|uriger, tra|urig 1/11 witz|ig, w|itzige, wit|ziger, trau|rige, tr|auriger, trau|rig 1/11 1. Iteration, beibehalten der bestenExemplare, Generierung neuer, Mutation: witz|ig, wit|zige, witz|iger, tra|urige, tra|uriger, tra|urig 1/11 witz|ig, w|itzige, wit|ziger, trau|rige, tr|auriger, trau|rig 1/11 witz|ig, w|itzige, witz|iger, trau|rige, tra|uriger, trau|rig 1/10 witz|ig, wit|zige, wit|ziger, tra|urige, tr|auriger, trauri|g 1/10 2. Iteration, beibehalten der besten Exemplare, Generierung neuer, Mutation: … bis maximale Fitness 1/6 Automatische Akquisition linguistischen Wissens
3.2. Weitere Entwicklungen • Später vor allem durch Goldmsith weitere Entwicklungen • Formulierte gleiche Idee anders: Es geht darum, ein maximal „eingepacktes“ Lexikon zu erstellen • Lexikon + Linkliste + Affixliste • Jedes der drei Elemente benötigt für x Elemente lnx Bits pro Element. Somit läßt sich einfach ausrechnen, dass es besser ist, • pro Liste 8 Elemente zu speichern (nur 3 Bit pro Element, also 3*8*3=72 insgesamt), • als z.B. 80 in einer Liste (also mind. 7 Bit, also 7*80*1=560Bit) • Details siehe Referat Automatische Akquisition linguistischen Wissens
4. Evaluierungen Verwandte Wortformen (ohne Morphemgrenzen): Jeder Morphologiealgorithmus kann letztlich genutzt werden, um verwandte Wortformen zu finden. Wie viele von den richtig und wie viele überhaupt gefunden wurden lässt sich dann messen (Schone & Jurafsky 01) Verwandte Wortformen (mit Morphemgrenzen): Morphologiealgorithmus kann genutzt werden, um festzustellen, wie oft gefundene Grenzen z.B. Wortstämme und deren Gruppen eindeutig identifizieren: abol-ition/abol-ish oder aboli-tion/aboli-sh jeweils korrekt, aber nicht abol-ition/aboli-sh (Goldsmith 01) Applikationsbasiert: Messen, ob Applikation, die diese Morphologie nutzt besser funktioniert also ohne oder mit anderer Morphologie (Hafer & Weiss 74) Automatische Akquisition linguistischen Wissens
4.1. Evaluierungen II Morphemgrenzen messen: Für jede gefundene Morphemgrenze messen, ob sie richtig, falsch oder nicht gefunden wurde • Pro Grenze (Creutz & Lagus 05) • Precision = alle richtigen vs. alle gefundenen Grenzen • Recall = gefundene vs. Alle zu findenden • Oder pro Wort (ob alle Grenzen richtig sind) (Kazakov 97) • Precision = alle richtig zerlegten Wörter vs. richtig + falsch (kleiner Trick: Wörter, die gar nicht zerlegt werden sollen und auch nicht zerlegt werden, gelt dann als richtig… das ist besonders toll im Englischen) • Recall = alle richtig zerlegten Wörter vs. alle zu zerlegenden Wörter Affixlisten angeben, so dass Leser selbst entscheiden kann (Argamon et al. 04) Keine Evaluierung (Déjean 98) Schliesslich unterscheiden sich alle Evaluierungen darin, welche Datenquellen sie verwenden Automatische Akquisition linguistischen Wissens
Referate • Goldsmith 01 (Implementierung auf des Autors Webseite finden und vorführen): • Kazakov 97 & 01 (Für diesen gibt es an der Abteilung eine Implementierung, sollte beim Referat verwendet werden) Automatische Akquisition linguistischen Wissens