Schätzfunktionen für stochastische Attribut-Wert-Grammatiken

Schätzfunktionen für stochastische Attribut-Wert-Grammatiken Universität Potsdam – Institut für Linguistik Hauptseminar Stochastische Lernalgorithmen Gerhard Jäger – Referent: Kai Zimmer

Überblick • Bisherige Probleme • Vorstellung zweier neuer Verfahren zur Parameter-Abschätzung von stochastischen Attribut-Wert-Grammatiken aus einem Trainingskorpus • Anwendung zur Abschätzung

Definitionen: • Ω alle grammatischen Analysen • ω Grammatik (PFCG) • fj Feature • θ Parameter

Random Sampling • Für die Erstellung von Gewichten für Merkmale notwendig • Gesucht wird ein für ein Modell q repräsentatives Korpus: • Anhand von q kann dieses Korpus nicht generiert werden, da die vorhandenen Merkmale nicht zwangsweise Regeln entsprechen

Random Sampling Metropolis Hastings Algorithmus • Aber: aus p0 (z.B. mit handerstellten Regeln) lassen sich einzelne Bäume generieren • je nach Übereinstimmung mit dem Modell q wird der Baum entweder in das Korpus aufgenommen oder verworfen • Wird ein “schlechter” Baum verworfen, wird der zuvor erzeugte Baum ein weiteres Mal ins Korpus aufgenommen

Problem

Problem • Für PCFGs ist λ kalkulierbar, aber generell sind αLD/αλj undZλ nicht berechenbar • Abney schlägt zur Annäherung die Monte-Carlo Berechnung vor, die aber bei großen Korpora nicht praktikabel ist (man benötigt zuviele Beispiele für eine genaue Annäherung)

Erstes Verfahren:Parameterabschätzung durch Pseudo-likelihood

Parameterabschätzung durch pseudo-likelihood • Die pseudo-likelihood (PL)von ω ist die Wahrscheinlichkeit des versteckten Teils (syntaktische Struktur) von ω angesichts seines sichtbaren Teils (Wortkette) y=Y(ω) (Besag 1974)

Parameterabschätzung durch pseudo-likelihood

Zweites Verfahren:Abschätzen maximaler Genauigkeit

Abschätzung maximaler Genauigkeit • Maßstab ist hier die Zahl der richtigen Parses im Vergleich zur Gesamtzahl aller Analysen • man wählt θ so, daß Cθ(ω) der Anzahl der korrekten Analysen im Trainingskorpus entspricht: maximum correct estimator (EM)

Abschätzen maximaler Genauigkeit • Der Haken dabei: Cθ(ω) ist schwer berechenbar, da sie nicht kontinuierlich zu θ verläuft • benötigt viel Zeit zur Berechnung (deutlich schlechter als pseudo-likelihood)

Pseudo-likelihood vs. likelihood • Die Pseudo-Teilfunktion Zλ(y) ist einfacher zu berechnen als Zλ: - Zλ benötigt eine Summe von Ω - Zλ(y) benötigt eine Summe von Ωy (Parses von y) • Maximum likelihood (ML) schätzt eine gemeinsame Verteilung ab - lernt Verteilung aus Wortketten und Analysen

Pseudo-likelihood vs. likelihood • Maximum Pseudo-likelihood schätzt eine bedingte Verteilung - lernt Verteilung aus Analysen - bedingte Verteilung ist notwendig für Parsing • die Maximierung von pseudo-likelihood maximiert nicht likelihood

Anwendung

Anwendung Verbmobil corpus Homecentre corpus Baseline estimator 9.7% 533 15.2% 655 Pseudo-likelihood estimator 58,7% 396 58,8% 583

Ergebnisse der Anwendung • C ist die Anzahl der korrekten maximalen likelihood Analysen • 50% bis 75% der Parses sind korrekt (kombiniertes Verfahren)

Vergleich

Literatur • http://odur.let.rug.nl/~malouf/esslli01/reader/02abney97.ps • http://odur.let.rug.nl/~malouf/esslli01/reader/06johnson.ps • http://acl.ldc.upenn.edu/J/J96/J96-1002.pdf • http://www.cog.brown.edu/~mj/papers/lfg02-slides.pdf

Schätzfunktionen für stochastische Attribut-Wert-Grammatiken