160 likes | 245 Views
Automatische Akquisition linguistischen Wissens. Vollautomatisches bestimmen von Relationen Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme Syntaktische Relationen Grammar induction Semantische Relationen Hyperonyme, meronyme Referat: Weeds 03 und 04 papers.
E N D
Automatische Akquisition linguistischen Wissens Vollautomatisches bestimmen von Relationen • Anforderungen • Welches Wissen und welches nicht • Komplexitätsprobleme • Syntaktische Relationen • Grammar induction • Semantische Relationen • Hyperonyme, meronyme • Referat: Weeds 03 und 04 papers Automatische Akquisition linguistischen Wissens
1.1. Anforderungen • Welche Art Wissen könnte überhaupt (wirklich vollautomatisch) extrahiert werden und welche nicht? • Domänenunabhängig gibt es stets Synonyme, Meronyme und Hyperonyme. • Aber welche genau, ist Domänenabhängig • Welche Relationen gibt es noch? • Domänenabhängig gibt es spezielle Relationen, die in anderen Domänen keinen Sinn ergeben, bzw. nicht existent sind • Chemische Stoffe in Medizin haben Relation des Reagierens oder Nicht-reagierens miteinander, welche z.B. Endo- oder Exoterm sein kann. • Idealerweise Algorithmus derart allgemein, dass alle „findbaren“ Relationen gefunden werden • Findbar: Durch eigenen Sprachgebrauch, bzw. sprachl. Strukturen markiert • Beispiel die chemischen Strukturen sind einach an Morphologie erkennbar Automatische Akquisition linguistischen Wissens
1.2. Komplexitätsprobleme • Theoretisch wäre es möglich, Evaluierung zu definieren und anschließend alle Möglichkeiten von Features und Clusterverfahren durchprobieren. • Analyse des generierten Verfahren ergäbe dann „verstehen“ des erwünschten Phänomens. • Demgegenüber steht allerdings, dass selbst eine der Möglichkeiten auf modernen PCs Wochen dauern kann, d.h. auch Mit Hilfe des Moorschen Gesetzes lässt sich voraussehen, dass das keine gute Lösung. • Clustern von 100K Wörtern unter Ausnutzung von Features: • Nachbarschaftskookkurrenzen (nur links, nur rechts, beides) (eher syntaktisch) • Mit Fenstergrösse (gemischt) • Satzkookkurrenzen (eher semantisch?) • Partielle Satzstrukturen (grammatische Strukturen?) • Mit verschiedenen Clusterverfahren, Parametereinstellungen usw. Automatische Akquisition linguistischen Wissens
2.1. Syntaktische Strukturen • Extraktion syntaktischer Strukturen (was über reines Wortklassentagging hinausgeht) schon dadurch schwierig, weil Ziel unklar • Sollen Dependenzstrukturen gefunden werden? • Oder Kontextfreie Grammatik? • Oder lediglich Subjekt- Objekt (also vereinfachte Dependenz) • Oder vielleicht das, was extrahierbar ist und Arbeit besteht dann darin, die extrahierten Strukturen zu verstehen? • Ausserdem unklar, in welche Sorten von Datenstrukturen überhaupt abgebildet werden soll • Reichen bereits einfache Terminalregeln? • Oder Bäume? • Oder müssen es komplexe Graphen sein? Automatische Akquisition linguistischen Wissens
2.2. Grammar Induction • Grammar Induction [..] can be formulated as the task of discovering common structures in examples which are supposed to be generated by the same process. (Pierre Dupont) • Auch genannt automata induction oder grammatical inference • Allerdings wird darunter meist das Lernen von z.B. einem sehr konkreten DFA von gelabelten Daten verstanden. • 4456 2 (4456 String, 2 Zeichen im Alphabet) • Akzeptiert/nichtAkzepiert Laenge <und dann string> • 1 11 0 0 1 0 0 0 0 0 1 0 0 • 0 15 0 0 0 0 0 1 1 1 0 1 0 0 0 1 1 • 1 12 1 1 0 0 1 1 0 1 0 1 0 0 • 0 14 0 1 1 1 1 1 0 1 1 1 0 0 1 0 • Zu dem allen ist auch noch Anzahl der Zustände des DFA bekannt Automatische Akquisition linguistischen Wissens
2.4. Aktueller Stand • Sehr einfache Beispiele von DFA können gelernt werden, Anwendbarkeit auf Sprache bislang jedoch sehr fragliche • Forschung findet auf sehr formalem Level statt (Automatische und Sprachen, Logiktheorie) • Einige andere Projekte vielversprechend • z.B. GraSp von Henrichsen, in welchem versucht wird, zunächst Kategorien herzuleiten durch Clustern und auf diesen Kategorien wieder zu clustern. Ergebinsse allerdings bislang noch etwas kryptisch Automatische Akquisition linguistischen Wissens
3.1. Semantische Strukturen • Es ist fraglich, ob so genannte semantische Strukturen überhaupt Strukturen sind, in dem Sinne als dass sie in allen Sprache mehr oder weniger „gleich“ vorkommen • Intuitiv ist es klar, dass es Antonyme wohl in jeder Sprache gibt, ebenso wie Über- und Unterbegriffe • Es gibt auch aus der formalen Semantik Formalismen, diese zu beschreiben, welche allerdings wieder ein intuitives Verständnis von Sprache oder der Welt voraussetzen • Bsp. Merkmalsemantik: Mann -> +lebendig Leiche -> -lebendig • Allerdings, was ist ‘lebendig’ und wie findet man dieses? • “Semantische Strukturen” könnten allerdings auch als zweiwertige Wortklassen verstanden werden: • Prädikat Substantiv(Berg)=1 • Prädikat Antonym(hoch,tief)=1 Automatische Akquisition linguistischen Wissens
3.2. Beobachtbarkeit • Eine andere Frage ist, ob sich diese “Strukturen” auch wirklich an der Oberfläche der Sprache direkt oder indirekt beobachten lassen • Woran erkennt man in dem Beispiel ‘Ein hoher Berg und ein tiefes Tal.’ die Antonyme? Für Computer sieht das doch eigentlich in diesem Sinne so aus: • Ein xxx Berg und ein yyy Tal. • Durch indirekte Beobachtungen Wissen dass gleiche Wortklasse • Weiterhin als modifizierer vor einer Gruppe von Wörtern, die evtl. irgend etwas gemeinsam haben • Auf der einen Seite Berg, Baum, Turm, usw. • Auf der anderen Seite Tal, Fluss, Meer, usw. • Vielleicht genügt das bereits, um herauszufinden, dass das zwei einander widersetzliche Adjektive sind? Automatische Akquisition linguistischen Wissens
3.3. Ober- und Unterbegriffe • Idee basiert auf zwei Voraussetzungen: • Wenn ein Wort wi ein Kohyponym von wj ist, dann werden sie auffällig oft miteinander vorkommein und ähnliche globale Kontexte besitzen • Wenn ein Wort wi Oberbegriff von wj ist, dann werden sie zwar selten miteinander auftreten, jedoch ähnliche globale Kontexte besitzen • Beispiel: • The cat eats the mouse. The dog hunts the cat. The cow gives milk. The cat, the dog, mouse and even the cow are all mammals. • Das kann auch visualisiert werden. • X-Achse als Ähnlichkeit der globalen Kontexte • Z-Achse gemeinsames Auftreten Automatische Akquisition linguistischen Wissens
3.4. Elefantenbeispiel Automatische Akquisition linguistischen Wissens
3.5. Reales Beispiel Automatische Akquisition linguistischen Wissens
3.6. Automatisch verifizierte Beispiele Automatische Akquisition linguistischen Wissens
3.7. Probleme mit derartigen Ansätzen • Semantische Strukturen sind deutlich komplexer als syntaktische oder solche auf niedrigeren sprachlichen Ebenen • Offenbar sollten erst Teile des Problems gelöst werden, bevor nächstkomplexes Thema (erfolgreich) in Angriff genommen werden kann • Hier ist nicht bekannt, bei welchem Wort es überhaupt Sinn macht (Wortklassen) • Richtung unbekannt (nicht einfach Frequenz) • Morphologische Information nicht genutzt (Elefant-en, Tier-e) • Meronyme spielt ähnliche Rolle wie Kohyponymie, wird dafür aber „Zoo“ statt „Tier“ präferieren • Ist Zoo und Elefant Teil-von? • Ambiguitätsprobleme • Wortähnlichkeit auf anderen Kontexten? Automatische Akquisition linguistischen Wissens