250 likes | 373 Views
Parsen natürlicher Sprache. Wo steht Englisch in der Chomsky-Hierarchie?. Motivation. Informationsextraktion Automatische Übersetzung Vorstufe zum „richtigen“ Turing-Test. Überblick. Kontextfreie Grammatik (CFG). Link- Grammatik. Probabilistische CFG (PCFG). Probabilistische Links.
E N D
Parsen natürlicher Sprache Wo steht Englisch in der Chomsky-Hierarchie? Leo Kof. Parsen natürlicher Sprache
Motivation • Informationsextraktion • Automatische Übersetzung • Vorstufe zum „richtigen“ Turing-Test Leo Kof. Parsen natürlicher Sprache
Überblick Kontextfreie Grammatik (CFG) Link- Grammatik Probabilistische CFG (PCFG) Probabilistische Links Head-lexicalized PCFG Collins- Parser Leo Kof. Parsen natürlicher Sprache
Metrik für Parserqualität Penn Treebank: • Basiert auf Newsartikeln aus Wall-Street-Journal • Per Hand geparste Sätze mit bis zu >100 Wörtern • Aufgeteilt in mehrere Sektionen à ca. 2000 Sätze Leo Kof. Parsen natürlicher Sprache
Überblick Kontextfreie Grammatik (CFG) Link- Grammatik Probabilistische CFG (PCFG) Probabilistische Links Head-lexicalized PCFG Collins- Parser Leo Kof. Parsen natürlicher Sprache
S NP VP NP DT NN VP Verb NP Verb = be, do, like, talk, ... NN = ... S = Sentence NP = Noun Phrase VP = Verb Phrase DT = Determiner NN = Noun Kontextfreie Grammatik Leo Kof. Parsen natürlicher Sprache
Problem 1: Postscript language Lösung 1: NN NN NN Problem 2: Postscript language input file Lösung 2: ??? CFG, Probleme Leo Kof. Parsen natürlicher Sprache
Überblick Kontextfreie Grammatik (CFG) Link- Grammatik Probabilistische CFG (PCFG) Probabilistische Links Head-lexicalized PCFG Collins- Parser Leo Kof. Parsen natürlicher Sprache
Probabilistische CFG • Grundidee: jede Regel wird mit Wahrscheinlichkeit versehen • Aufgabe des Parsers: finde den Baum mit maximaler Wahrscheinlichkeit • Abschätzung der Wahrscheinlichkeiten:Im Trainingssatz angewendete Regeln nachzählen • Problem: Postscript language input file Leo Kof. Parsen natürlicher Sprache
Überblick Kontextfreie Grammatik (CFG) Link- Grammatik Probabilistische CFG (PCFG) Probabilistische Links Head-lexicalized PCFG Collins- Parser Leo Kof. Parsen natürlicher Sprache
Head-lexicalized PCFG • Grundidee: Für jede Regel wird ein Element (lexical head) ausgezeichnet • S NP VPNP DT NNVP Verb NP Leo Kof. Parsen natürlicher Sprache
Head-lexicalized PCFG S / is NP / tree VP / is DT / this NN / tree Verb / is NP / example DT / an NN / example This tree is an example Leo Kof. Parsen natürlicher Sprache
HPCGF, Probabilismus Wahrscheinlichkeiten:P(category(root(T)))P(head(root(T))|category(root(T)))P(head(n)|category(n),category(parent(n)), head(parent(n))P(<word(n)>|cat(n), head(n)) Erste Wahrscheinlichkeitsabschätzung:In Trainingsdaten Häufigkeiten nachzählen Leo Kof. Parsen natürlicher Sprache
HPCFG, Sparse Data Problem • Abschätzung z. B. durchUnabhängigkeitsannahmen:Z.B.P(<word>|cat(n), head(n)) =P(<word>)/P(cat(n),head(n)) • Es gibt auch andere Verfahren • Generell: komplizierte Geschichte Leo Kof. Parsen natürlicher Sprache
Überblick Kontextfreie Grammatik (CFG) Link- Grammatik Probabilistische CFG (PCFG) Probabilistische Links Head-lexicalized PCFG Collins- Parser Leo Kof. Parsen natürlicher Sprache
Link-Grammatik Leo Kof. Parsen natürlicher Sprache
Link-Grammatik Der Satz ist geparst, wenn es keine freien Links mehr gibt: Leo Kof. Parsen natürlicher Sprache
Überblick Kontextfreie Grammatik (CFG) Link- Grammatik Probabilistische CFG (PCFG) Probabilistische Links Head-lexicalized PCFG Collins- Parser Leo Kof. Parsen natürlicher Sprache
Probabilistische Links (1/2) • Vereinfachung: • Reduktion auf basis-NPs • Beschränkung von Links auf reduzierte Sätze • Weitere Vereinfachungen: • Part-of-Speech Tagging als Preprocessing • Reduktion von basis-NPs auf head words Leo Kof. Parsen natürlicher Sprache
Basis-NPs • Beim Training: Markierung der Zwischenräume als:(NP-)Start, Continuation, End, Between, Null:S This C sentence E is S an C example E . • Beim Parsen: Einbeziehung der Markierungen ins Wahrscheinlichkeitsmodell Leo Kof. Parsen natürlicher Sprache
Probabilistische Links (2/2) • Wahrscheinlichkeiten:P(ArrowFrom(modifier, head, Relation)) • Wahrscheinlichkeitsabschätzung:Count(<word1, Tag1>, <word2, Tag2>)Count(Relation|<word1, Tag1>, <word2, Tag2>) Daraus lässt sich P(ArrowFrom(...)) ausrechnen Leo Kof. Parsen natürlicher Sprache
Überblick Kontextfreie Grammatik (CFG) Link- Grammatik Probabilistische CFG (PCFG) Probabilistische Links Head-lexicalized PCFG Collins- Parser Leo Kof. Parsen natürlicher Sprache
Collins-Parser • Head-lexicalized PCFG • Kompliziertes Wahrscheinlichkeitsmodell:Wahrscheinlichkeiten für • Grammatikregeln • Links • Distanzen zwischen Wörtern • etc. • Komplizierte Ausrechnung von Einzelwahrscheinlichkeiten Leo Kof. Parsen natürlicher Sprache
Parserqualität: Trefferquoten Kontextfreie Grammatik (CFG) Link- Grammatik Probabilistische CFG (PCFG) Probabilistische Links ca. 70% ca. 85% Head-lexicalized PCFG ca. 75% Collins- Parser bis 89% Leo Kof. Parsen natürlicher Sprache
Zusammenfassung • Es werden immer bessere Ergebnisse erzielt. Preis: Modellkomplexität • Es gibt immer noch keinen Parser mit 100%-Trefferquote • Portierung für andere Sprachen oft schwierig Leo Kof. Parsen natürlicher Sprache