1 / 20

Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Schätzfunktionen für stochastische Attribut-Wert-Grammatiken. Universität Potsdam – Institut für Linguistik Hauptseminar Stochastische Lernalgorithmen Gerhard Jäger – Referent: Kai Zimmer. Überblick. Bisherige Probleme

daw
Download Presentation

Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Schätzfunktionen für stochastische Attribut-Wert-Grammatiken Universität Potsdam – Institut für Linguistik Hauptseminar Stochastische Lernalgorithmen Gerhard Jäger – Referent: Kai Zimmer

  2. Überblick • Bisherige Probleme • Vorstellung zweier neuer Verfahren zur Parameter-Abschätzung von stochastischen Attribut-Wert-Grammatiken aus einem Trainingskorpus • Anwendung zur Abschätzung

  3. Definitionen: • Ω alle grammatischen Analysen • ω Grammatik (PFCG) • fj Feature • θ Parameter

  4. Random Sampling • Für die Erstellung von Gewichten für Merkmale notwendig • Gesucht wird ein für ein Modell q repräsentatives Korpus: • Anhand von q kann dieses Korpus nicht generiert werden, da die vorhandenen Merkmale nicht zwangsweise Regeln entsprechen

  5. Random Sampling Metropolis Hastings Algorithmus • Aber: aus p0 (z.B. mit handerstellten Regeln) lassen sich einzelne Bäume generieren • je nach Übereinstimmung mit dem Modell q wird der Baum entweder in das Korpus aufgenommen oder verworfen • Wird ein “schlechter” Baum verworfen, wird der zuvor erzeugte Baum ein weiteres Mal ins Korpus aufgenommen

  6. Problem

  7. Problem • Für PCFGs ist λ kalkulierbar, aber generell sind αLD/αλj undZλ nicht berechenbar • Abney schlägt zur Annäherung die Monte-Carlo Berechnung vor, die aber bei großen Korpora nicht praktikabel ist (man benötigt zuviele Beispiele für eine genaue Annäherung)

  8. Erstes Verfahren:Parameterabschätzung durch Pseudo-likelihood

  9. Parameterabschätzung durch pseudo-likelihood • Die pseudo-likelihood (PL)von ω ist die Wahrscheinlichkeit des versteckten Teils (syntaktische Struktur) von ω angesichts seines sichtbaren Teils (Wortkette) y=Y(ω) (Besag 1974)

  10. Parameterabschätzung durch pseudo-likelihood

  11. Zweites Verfahren:Abschätzen maximaler Genauigkeit

  12. Abschätzung maximaler Genauigkeit • Maßstab ist hier die Zahl der richtigen Parses im Vergleich zur Gesamtzahl aller Analysen • man wählt θ so, daß Cθ(ω) der Anzahl der korrekten Analysen im Trainingskorpus entspricht: maximum correct estimator (EM)

  13. Abschätzen maximaler Genauigkeit • Der Haken dabei: Cθ(ω) ist schwer berechenbar, da sie nicht kontinuierlich zu θ verläuft • benötigt viel Zeit zur Berechnung (deutlich schlechter als pseudo-likelihood)

  14. Pseudo-likelihood vs. likelihood • Die Pseudo-Teilfunktion Zλ(y) ist einfacher zu berechnen als Zλ: - Zλ benötigt eine Summe von Ω - Zλ(y) benötigt eine Summe von Ωy (Parses von y) • Maximum likelihood (ML) schätzt eine gemeinsame Verteilung ab - lernt Verteilung aus Wortketten und Analysen

  15. Pseudo-likelihood vs. likelihood • Maximum Pseudo-likelihood schätzt eine bedingte Verteilung - lernt Verteilung aus Analysen - bedingte Verteilung ist notwendig für Parsing • die Maximierung von pseudo-likelihood maximiert nicht likelihood

  16. Anwendung

  17. Anwendung Verbmobil corpus Homecentre corpus Baseline estimator 9.7% 533 15.2% 655 Pseudo-likelihood estimator 58,7% 396 58,8% 583

  18. Ergebnisse der Anwendung • C ist die Anzahl der korrekten maximalen likelihood Analysen • 50% bis 75% der Parses sind korrekt (kombiniertes Verfahren)

  19. Vergleich

  20. Literatur • http://odur.let.rug.nl/~malouf/esslli01/reader/02abney97.ps • http://odur.let.rug.nl/~malouf/esslli01/reader/06johnson.ps • http://acl.ldc.upenn.edu/J/J96/J96-1002.pdf • http://www.cog.brown.edu/~mj/papers/lfg02-slides.pdf

More Related