230 likes | 353 Views
Automatische Akquisition linguistischen Wissens. Extraktion Morphologischen Wissens II Semantikbasierte Ansätze Letter successor variety basierte Ansätze Kombinierte Ansätze Referat: Schone und Jurafskys papers und Algorithmus Referat 2: Baronis Ansatz. 1. Allgemein Semantikbasierte Ansätze.
E N D
Automatische Akquisition linguistischen Wissens Extraktion Morphologischen Wissens II • Semantikbasierte Ansätze • Letter successor variety basierte Ansätze • Kombinierte Ansätze • Referat: Schone und Jurafskyspapers und Algorithmus • Referat 2: Baronis Ansatz Automatische Akquisition linguistischen Wissens
1. Allgemein Semantikbasierte Ansätze • Hier ist Idee darauf basiert, dass inhaltlich ähnliche Wortformen (mit einem der vielen bereits vorgestellten Verfahren als inhaltlich ähnlich berechnet) auch grammatisch ähnlich sein sollten • Das würde bedeuten, dass in der Liste der als ähnlich berechneten Wortformen • Wortformen mit dem gleichen Stamm, oder • Wortformen mit einer gleichen grammatischen Markierung auftreten • Z.B. glücklich, witzig, unglücklich, Glück • Danach ließe sich ja eine Gruppe von Wortformen, die besonders ähnlich • Problematisch sind z.B. Alternationen und sehr kurze Stämme • Diese Sorte von Ansätzen soll in Referaten vorgestellt werden Automatische Akquisition linguistischen Wissens
1.1. Alternativ eine Art Konstituentenanalyse • Konstituentenanalyse würde bedeuten, dass man heraussucht, welche andere Wörter in eine Menge von gleichartigen Kontexten passt: Beispiel Wort glückliche • … war es eine glückliche/gute/traurige/schlechteEntscheidung • … saß die glückliche/gute/traurigeMutter • Vereinfachtes Modell davon ist Nachbarschaftskookkurrenzbasierte Ähnlichkeitsberechnung: • Berechne signifikante Nachbarn • Finde entsprechend den Nachbarn ähnliche Wörter • Wende danach Letter Successor Variety von Harris an Automatische Akquisition linguistischen Wissens
2. Letter successor variety • Letter successor variety: Harris (55) where word-splitting occurs if the number of distinct letters that follows a given sequence of characters surpasses the threshold. • Es soll also gemessen werden, wie viele verschiedene Buchstaben nach jedem möglichen Wortanfang folgen (und umgekehrt) • Die Idee dabei ist, dass nach Wortstämmen die Anzahl von Buchstaben „explodiert“, da danach ja viele verschiedene Endungen möglich sind • Hafer & Weiss 74 haben das als erste implementiert und in einem IR System verwendet, um nicht jede Wortform, sondern nur Wortstämme zu indexieren • Beispiel Wortform witzige (vom Beginn und dann vom Ende): • w 42 e • wi 31 ge • wit 17 ige • witz 15 zige • witzi 4 tzige • witzig 6 itzige • witzige 6 witzige Automatische Akquisition linguistischen Wissens
2.1. Probleme bei LSV • Bereits bei Hafer & Weiss 74 gabe es Probleme, da die Ergebnisse nicht wie erhofft waren und LSV recht viele Fehler produziert, insbesondere an Beginnen und Enden von Wörtern, aber auch bei überrepräsentativen Wortenden • Es schien auch so zu sein, dass je länger die Wortliste, umso mehr Rauschen tritt ein und Peaks schlechter erkennbar • Sie experimentieren eine Weile mit verschiedenen Strategien wie z.B. plötzliches Gefälle statt Peaks oder Plateaus • Schlussfolgering ist, dass Fehler nicht so schlimm, solange Indexierung besser und messen in der Tat leicht bessere Ergebnisse beim Information Retrieval task Automatische Akquisition linguistischen Wissens
3. Kombinierter Ansatz Überblick: • Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort • Frequenz von word A and B ist nA und nB • Frequenz von gemeinsamen Auftreten von A mit B ist nAB • Korpus Größe ist n • Signifikanzberechnung ist eine Poisson Approximation des log-likelihood (Dunning 93) (Quasthoff & Wolff 02) Automatische Akquisition linguistischen Wissens
Signifikanteste linke Nachbarn wunschlos besonders welch sehr Lauter überaus sonderlich Kinogängern wahrhaft unendlich Signifikanteste rechte Nachbarn Fügung Hand Ehe Kindheit Gewinner Gewinnerin Figur Familie Wendung Heimkehr Nachbarn von “glückliche“ glückliche Automatische Akquisition linguistischen Wissens
3.1.Kombinierter Ansatz Überblick: • Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort • Nutze berechnete Nachbarn, um mit anderen Wörtern zu vergleichen und ähnliche zu finden → sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung Automatische Akquisition linguistischen Wissens
Signifikanteste linke Nachbarn wunschlos besonders welch sehr Lauter überaus sonderlich Kinogängern wahrhaft unendlich Signifikanteste rechte Nachbarn Fügung Hand Ehe Kindheit Gewinner Gewinnerin Figur Familie Wendung Heimkehr Ähnliche Wortformen für “glückliche“ … allmähliche unglückliche traurige glückliche glücklicher witziger gemütlicher Wirkliche … Automatische Akquisition linguistischen Wissens
3.1. Kombinierter Ansatz Overview: • Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort • Nutze berechnete Nachbarn, um mit anderen Wörtern zu vergleichen und ähnliche zu finden → sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung • Sortiere diese nach Editierabstand und behalte nur 150 ähnlichste → weil weitere nur zusätzliches Rauschen beinhalten Automatische Akquisition linguistischen Wissens
Signifikanteste linke Nachbarn wunschlos besonders welch sehr Lauter überaus sonderlich Kinogängern wahrhaft unendlich Signifikanteste rechte Nachbarn Fügung Hand Ehe Kindheit Gewinner Gewinnerin Figur Familie Wendung Heimkehr Ähnliche Wörter zu “glückliche“ nach Editierdistanz Sortierte Liste glückliche glücklichen glücklicher Glückliche unglückliche glücklich glücklichsten unglücklichen unglücklicher unglücklich schreckliche … möglichen persönlichen persönlicher Automatische Akquisition linguistischen Wissens
3.1. Kombinierter Ansatz Overview: • Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort • Nutze berechnete Nachbarn, um mit anderen Wörtern zu vergleichen und ähnliche zu finden → sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung • Sortiere diese nach Editierabstand und behalte nur 150 ähnlichste → weil weitere nur zusätzliches Rauschen beinhalten • Berechne letter successor variety für jede Transition zwischen zwei Buchstaben Melde alle Stellen als Morphemgrenzen, wo LSV größer als Schwellwert Automatische Akquisition linguistischen Wissens
3.2.2. Overlap Faktor zur Balanzierung • Es gibt Problem mit plötzlichen Frequenzverschiebungen (von Teilstrings) mitten im Wort • Die Frequenzverschiebung kann gemessen und als Gewichtungsfaktor genommen werden: wenn 140 von 150 mit –n# enden, dann ist Gewicht 140/150 • Aber wenn (wie mit glückliche) nur 16 von 150 mit #g- beginnen, dann ist Gewicht nur 16/150 g l ü c k l i c h e 150 16 5 4 4 4 4 4 4 4 3 3 3 4 15 17 36 39 129 150 0.1 0.3 0.8 1 1 1 1 1 1 von links 1 1 3/4 0.3 0.9 0.5 0.9 0.3 0.9 von rechts Automatische Akquisition linguistischen Wissens
3.2.3. Beispielrechnung Berechne letter split variety: # g l ü c k l i c h e # 6 2 1 1 1 1 1 1 2 2, 1, 1, 2, 7 2 4 3 Berechne overlap factor: # g l ü c k l i c h e # 150 16 5 4 4 4 4 4 4 4 3 3 3 4 15 17 36 39 129 150 also overlap faktoren: 0.1 0.3 0.8 1 1 1 1 1 1 1 1 3/4 0.3 0.9 0.5 0.9 0.3 0.9 Multipliziere LSV mit OF: 0.6 0.6 1 1 1 1 1 1 2 3 1 3/4 1.2 6 1 3 1 15 Summiere links- und rechtswerte: # g l ü c k l i c h e # 0.6 3.6 2 1.8 2.2 7 2 4 3 15 Schwellwert: 7 Resultat: glück-lich-e Automatische Akquisition linguistischen Wissens
3.2.4. Problem #1: Unbekannte Affixverteilungen • Verteilung von Prä- und Suffixen ist unbekannt • Daher bekommen frequente Endungen wie –e# besonders hohe Werte, da sie nach praktisch allem vorkommen • In seltenen Fällen sind sie jedoch nicht Endungen (z.B. Junge) • Daher einfach vorläufige “normalisierung” durch Multiplikation von erster und zweiter Stelle von vorne und von hinten mit Gewichten 0.3 und 0.6 jeweils: s1 s2 s3 … sn-2 sn-1 sn 0.3 0.6 1.0 … 1.0 0.6 0.3 • Das benachteiligt stark kurze Affixe an Rändern von Wortformen, die Hoffnung ist aber, dass sie dennoch häufig genug vorkommen, um in einem folgenden Lernschritt hilfreich zu sein Automatische Akquisition linguistischen Wissens
3.2.6. Problem #2: Multiletter Grapheme (Grenzen vorher und danach) • Problem: Zwei oder mehr Buchstaben repräsentieren ein Graphem und “verschleppen” den Nenner beim overlap faktor: Letter split variety: # s c h l i m m e 7 1 7 2 1 1 2 2 1 1 1 2 4 15 Berechne overlap factor: 150 27 18 18 6 5 5 5 2 2 2 2 3 7 105 150 ^ also ist LSV 7 und OL Gewicht1 (18/18), aber weil sch ein Graphem ist, sollte es eher 18/150 sein! • Lösung: Ranking von Bi- und Trigrammen, höchster bekommt Gewicht von 1.0 • Overlap faktor wird als gewichtetes Mittel zwischen normalem und verschlepptem berechnet, wobei Gewicht vom Ranking das Gewicht im Mittel bestimmt: Automatische Akquisition linguistischen Wissens
3.2.5. Problem #3: Multiletter Grapheme (Grenzen in der Mitte) • Multiletter Grapheme sollten natürlich auch nie getrennt werden • Zum Beispiel das –th– im Englischen sollte niemals getrennt werden • Lösung ist wieder das Bigramrankung, welches direkt ein Gewicht für die Multiplikation mit LSV abgibt: 0.1 Gewicht für die am höchsten gerankten und 1.0 für die niedrigsten. Automatische Akquisition linguistischen Wissens
3.2.3. Beispielrechnung II Finales LSV mit OF von vorhergehenden Schritten: # g l ü c k l i c h e # 6 2 1 1 1 1 1 1 2 2, 1, 1, 2, 7 2 4 3 16 Berechne overlap factor: # g l ü c k l i c h e # 150 16 5 4 4 4 4 4 4 4 3 3 3 4 15 17 3639129 150 Problem #1: Unbekannte Affixverteilung: 0.3 0.6 1.0 1.0 1.0 1.0 1.0 1.0 0.6 0.3 Problem #2: Multiletter Bi- und Trigramm Gewichte: 0.0 0.0 0.0 0.1 0.0 0.2 0.2 0.6 0.0 0.0 0.0 0.0 0.0 0.1 0.3 0.0 0.0 0.0 0.1 0.0 0.0 0.2 0.6 0.2 0.0 0.0 0.0 0.0 0.0 0.1 0.3 0.5 Problem #3: Bigrammgewicht: 1.0 1.0 1.0 0.9 1.0 0.8 0.8 0.3 0.7 Summiere Links- und Rechtswerte: # g l ü c k l i c h e # 2.0 1.0 0.8 0.5 6.3 0.7 2.2 0.2 3.0 Beispiel i-c von rechts: 4*(36/39 + 0.6*36/129)/(1.0+0.6)*0.8 = 2.18 Schwellwert: 3 Finales Resultat: glück-lich-e -lich und –e#sind Suffixe, weil LSV score von rechts war Automatische Akquisition linguistischen Wissens
3.3. Morphemklassifikation • Simple Klassifikation von Morphemen in Präfixe, Stämme und Suffixe möglich • Wenn LSV score von rechts, dann Suffix, sonst Präfix • Wenn Suffix länger als die Hälfte des Wortes, dann verdopple den Schwellwert, z.B.: 40-jähr-ig-er (Stamm 40) • Was zwischen Suffix und Präfix übrig bleibt, ist Stamm • Probleme zum Beispiel: • Komposita und verbindende Morpheme • Alternationen, Löschungen usw. • Da wäre ein komplexerer Ansatz nötig • Könnte kombiniert werden mit Klassifikation in freie und gebundene Morpheme Automatische Akquisition linguistischen Wissens
3.4. Freie Parameter Es bleiben allerdings arbiträre einzustellende Parameter, die möglicherweise Sprachabhängig sind (kleine Änderungen haben allerdings kaum Effekt): • 150 ähnlichste Wörter – hängt vermutlich von Flektivität der Sprache ab • Schwellwert zwischen 3 und 7 • Schwellwert scheint vor allem von Anzahl der möglichen Buchstaben einer Sprache abzuhängen (einschliesslich multiletter Grapheme!) • Weitere weniger wichtige Parameter: • cooccscue 200 nicht wirklich jedes Wort mit jedem vergleichen • cooccsfeature 50 Beim vergleichen nur max 50 Wörter nehmen • minsig 4 Minimum significanz 4 • maxresults 70 Maximal 70 resultate aufheben • minanzahl 2 Profile müssen mindestens 2 Wörter gemeinsam haben Automatische Akquisition linguistischen Wissens
Zusammenfassung • Momentan leidglich Morphemgrenzen finden • Selbst dabei unklar, wie Sprachunabhängig das wirklich ist • Weitere Analysen (Klassifizieren von freien vs. Gebunden Morphemen z.B.) nächster Schritt Automatische Akquisition linguistischen Wissens
Referate • Referate sollen semantikbasierte Ansätze genauer beschreiben und evtl. vorführen • Erstes Referat ist über Schone & Jurafskys Idee beschreiben • Zweites Referat ist über Baronis Ansatz Automatische Akquisition linguistischen Wissens