Computerlinguistik

Computerlinguistik 3. Vorlesung (29.10.2009) apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de

Computerlinguistik Inhalt der Vorlesung Einführung Methoden Parsing Tagging Ontologien Anwendungen Maschinelle Übersetzung Informationsextraktion Textanalyse Gesamtsystem

Computerlinguistik Parsing: „Richtung“ des Parsing Wiederholung In Bezug auf die Richtung von Parsing unterscheiden wir zwei Hauptvarianten: „top down“ und „bottom up“. „Top down“ erfolgt durch Expansion des Startsymbols (s = Satz) mit dem Ziel, auf die Wortkette zu expandieren. „Bottom up“ geht von der Wortkette aus und versucht, diese auf das Startsymbol zu reduzieren.

Computerlinguistik Parsing: „Richtung“ des Parsing Wiederholung „Top down“-Parser funktionieren im Prinzip so, dass sie alle Sätze, die mit der zugrunde liegenden Grammatik generiert werden können, zusammen mit der syntaktischen Struktur des jeweiligen Satzes erzeugen und überprüfen, welcher bzw. ob überhaupt einer der so erzeugten Sätze dem Eingabesatz entspricht. Bei einer Entsprechung ist die syntaktische Struktur, die zusammen mit dem Satz erzeugt wurde das Ergebnis. Bei „top down“-Parsern ist die Gefahr gegeben, dass über die Umsetzung der Grammatikregeln Endlosschleifen entstehen.

Computerlinguistik Parsing: „Richtung“ des Parsing Wiederholung „Bottom up““-Parser funktionieren am besten nach dem so genannten „shift-reduce“-Prinzip. Dabei wird von der Wortfolge des Eingabesatzes ausgegangen. Der Parser verfügt über einen Stack, welcher zu Beginn des Parsingpozesses leer ist. „shift-reduce“ beruht auf einer Abfolge von „shift“- und „reduce“-Schritten. Der Stackinhalt wird jeweils mit Hilfe der Grammatik reduziert (Wörter und Konstituenten werden zu größeren Einheiten zusammengefasst). Ist das nicht mehr möglich, wird das jeweils nächste Wort von der Wortliste auf den Stack geschoben, wonach wieder die Reduktion einsetzt. Ein Parse gelingt, wenn alle Wörter der Wortfolge in den Stack geschoben wurden und die letzte Reduktion damit endet, dass sich nur noch eine Konstituente (vom richtigen Typ) im Stack befindet.

Computerlinguistik Parsing: „Richtung“ des Parsing Wiederholung Eine Alternative zu „top down“- und „bottom up“-Parsern stellen die so genannten „left corner“-Parser dar, die „bottom up“-Analyseschritte mit „top down“-Vorhersagen kombinieren.

Computerlinguistik Parsing: „left corner“-Parser „Left corner“-Parser können wie „bottom up“-Parser als „shift reduce“-Parser realisiert werden. Auch hier wird ein Stack angelegt, der zu Beginn leer ist. Nach dem „Shiften“ eines Worts auf den Stack erfolgen so weit wie möglich Reduktionsschritte. Ist keine Reduktion mehr möglich wird – im Gegensatz zur „bottom up“-Technik kein neues Wort eingelesen, sondern zunächst ein Vorhersageschritt ausgeführt. [] [calvin] [np(calvin)] [s(np(calvin), vp(VP))] shift reduce predict

Computerlinguistik Parsing: „left corner“-Parser Erst nach dem Vorhersageschritt (nur einer !!) wird das nächste Wort des zu analysierenden Satzes auf den Stack geschoben, woraufhin wieder eine Reduktion beginnt. Als Reduktion gelten dabei auch Verifikationsschritte, also Schritte, die besagen, dass eine nachfolgenden Konstituente von der erwarteten Art ist und damit durch den Vorhersageschritt angekündigt ist. [s(np(calvin), vp(VP))] [s(...), dream] [s(...), v(dream)] [s(np(calvin)),vp(VP), vp(v(dream))] [s(np(calvin), vp(v(dream)))] shift reduce reduce verify

Computerlinguistik Parsing: Kontextfreie Grammatik zur Erinnerung: Bei einer kontextfreien Grammatik gibt es Probleme a) mit Nebenkategoriekohärenzbedingungen Calvin dreams vs. *Calvin dream *Das finden Sie in „TV Smart“, ihre Programmzeitschrift. und b) mit der Subkategorisierung Pompeius erreicht Ägypten vs. *Pompeius erreicht Lösungsansätze sind häufig nicht elegant, weil sie statt über morphologische Herleitungen über „Vollformen“-Lexika realisiert werden.

Computerlinguistik Parsing: Kontextfreie Grammatik unter Berücksichtigung von Nebenkategorien S  NP(Pers,Num) VP(Pers,Num) VP(Pers,Num)  V(Pers,Num) NP(_,_) VP(Pers,Num)  V(Pers,Num) V(Pers1,Sg)  dream V(Pers1,Sg)  hit V(Pers2,Sg)  dream V(Pers2,Sg)  hit V(Pers3,Sg)  dreamsV(Pers3,Sg)  hits V(_,Pl)  dream V(_,Pl)  hit NP(Pers1,sg)  I NP(Pers1,pl)  we NP(Pers2,_)  you NP(Pers3,sg)  CalvinNP(Pers3,sg)  Hobbs

Computerlinguistik Parsing: Kontextfreie Grammatik unter Berücksichtigung von Nebenkategorien und Subkategorisierung S  NP(Pers,Num) VP(Pers,Num) VP(Pers,Num)  Vtrans(Pers,Num) NP(_,_) VP(Pers,Num)  Vintrans(Pers,Num) Vintrans(Pers1,Sg)  dream Vtrans(Pers1,Sg)  hit Vintrans(Pers2,Sg)  dream Vtrans(Pers2,Sg)  hit Vintrans(Pers3,Sg)  dreamsVtrans(Pers3,Sg)  hits Vintrans(_,Pl)  dream Vtrans(_,Pl)  hit NP(Pers1,sg)  I NP(Pers1,pl)  we NP(Pers2,_)  you NP(Pers3,sg)  CalvinNP(Pers3,sg)  Hobbs

Computerlinguistik Parsing: Kontextfreie Grammatik unter Berücksichtigung von Nebenkategorien und Subkategorisierung Die durch diese Grammatik generierte Sprache sieht damit wie folgt aus: L = { I dream, you dream, Calvin dreams, Hobbs dreams, we dream, you dream, I hit I, I hit you, I hit Calvin, I hit Hobbs, I hit we, I hit you, you hit I, you hit you, ... , you hit you, Calvin hits I, Calvin hits you, ... , Calvin hits you,Hobbs hits I, Hobbs hits you, ... , Hobbs hits you, we hit I, we hit you, we hit Calvin, we hit Hobbs, we hit we, we hit you, you hit I, you hit you, ... , you hit you } (Wir müssen als Nebenkategorie noch „Kasus“ berücksichtigen.)

Computerlinguistik „nicht-deterministische“ Regelsysteme Wiederholung Beim Parsing tritt immer dann ein Problem auf, wenn es möglich ist, mehrere Regeln anzuwenden. Eine Möglichkeit, damit umzugehen, ist „Backtracking“: Der Parser merkt sich alle Verzweigungspunkte und springt immer dann, wenn der Prozess in eine „Sackgasse“ läuft, zum letzten Verzweigungspunkt zurück und testet die nächste dort verfügbare Alternative.

Computerlinguistik „nicht-deterministische“ Regelsysteme Wiederholung Beim Parsing tritt immer dann ein Problem auf, wenn es möglich ist, mehrere Regeln anzuwenden. Eine andere Möglichkeit, damit umzugehen, ist die Alternativen in einer Tabelle zu notieren und alle Varianten „parallel“ zu bearbeiten.

Computerlinguistik „top down“-Parsing mit Tabelle Satz: Calvin hits Hobbs S  NP VP S NP VP Calvinhits Hobbs

Computerlinguistik „top down“-Parsing mit Tabelle Satz: Calvin hits Hobbs NP  Calvin S NP VP Calvin hits Hobbs

Computerlinguistik „top down“-Parsing mit Tabelle Satz: Calvin hits Hobbs VP  V VP  V NP NP VPVP V NP Calvin hits Hobbs S S

Computerlinguistik „top down“-Parsing mit Tabelle Satz: Calvin hits Hobbs V  hits NP VPVP V NP Calvin hits Hobbs S S

Computerlinguistik „top down“-Parsing mit Tabelle Satz: Calvin hits Hobbs NP  Hobbs NP VPVP V NP Calvin hits Hobbs S S

Computerlinguistik „top down“-Parsing mit Tabelle Bereinigung S NP VP V NP Calvin hits Hobbs

Computerlinguistik „bottom up“-Parsing mit Tabelle Der Vorteil von Parsern mit Tabellen kann darin bestehen, dass man Teile des Textes nur ein einziges Mal parsen muss und nicht in jedem Schritt des Backtrackings erneut. Die klassische Standardform eines „bottom up“-Parsers mit Tabelle stammt von Kasami (1965) und Younger (1967). NP VPVP V NP Calvin hits Hobbs S S

Computerlinguistik „bottom up“-Parsing mit Tabelle Die Tatsache, dass man Teile des Parsevorgangs für mehrere Alternativen nutzen kann, wird noch deutlicher, wenn man die Beispiele zur Mehr- deutigkeit beim Phänomen „PP-Attachment“ betrachtet (Der Mann sieht das Mädchen mit dem Fernglas). S VP NP V NP PP NP

Computerlinguistik „nicht-deterministische“ Regelsysteme Das menschliche Gehirn arbeitet offensichtlich mit einer speziellen Art von Backtracking, bei dem sehr gezielt nicht der letzte Verzweigungspunkt, sondern ein geeigneter Verzweigungspunkt angesprungen wird, wenn ein Fail im Parse entdeckt wird. Dies lässt sich beim Parse von so genannten „garden path“-Sätzen, also von Sätzen bei denen Menschen zunächst eine falsche Lesart auswählen. Zu „garden path“-Sätzen gibt es sehr viel Literatur, weil man in der Psycholinguistik versucht hat, mit Experimenten zur Verarbeitung solcher Sätze die Prinzipien ausfindig zu machen, nach denen die Auswahl der zu nutzenden Regel zunächst erfolgt.

Computerlinguistik Nicht-Determinismus und „garden path“-Sätze „garden path“-Sätze: Sätze, bei denen Menschen zunächst eine falsche Struktur erzeugen. klassische Beispiele „The horce raced past the barn fell.“ (Bever, 1970) „The cop arrested by the detective was guilty of taking bribes“ (McRae et al., 1997) zitiert nach Kempen, G. (1998). Sentence Parsing. In: Friederici, A.D. (Ed.), Language Comprehension: A Biological Perspective. Berlin: Springer.

Computerlinguistik Nicht-Determinismus und „garden path“-Sätze The horce raced past the barn fell. NP V PP ?? VP S

Computerlinguistik Nicht-Determinismus und „garden path“-Sätze The horce raced past the barn fell. NP V PP V VP VP REL NP‘ S

Computerlinguistik Nicht-Determinismus und „garden path“-Sätze The cop arrested by In diesem klassischen Beispiel passt die über einen „left corner“- Algorithmus bestimmte Vorerwartung (es folgt eine NP) nicht mit der vorliegenden Wortfolge (Präposition) zusammen. NP V Präp NP VP S

Computerlinguistik Evaluation Für Parser gibt es folgende Evaluationskriterien (bzgl. eines vorgegebenen Korpus / Standards): Accuracy bestimmt die Prozentzahl der den Sätzen (aus dem Evaluationskorpus) zugewiesenen syntaktischen Struktur, die korrekt sind. (Es ist möglich, dass Sätzen überhaupt keine syntaktische Struktur zugewiesen wird.) Coverage bestimmt die Prozentzahl der Sätze aus dem Evaluationskorpus, die eine Struktur zugeordnet bekommen. (Die zugewiesenen Strukturen müssen nicht korrekt sein.)

Computerlinguistik Evaluation Bei der Entwicklung eines Parsers kann man versuchen, entweder die accuracy das coverage zu optimieren. Man kann Parser auch nach ihrer Effizienz (Laufzeitverhalten) bewerten, aber das ist eher eine Frage der Informatik als der Computerlinguistik. Wir schauen also näher auf accuracy und coverage.

Computerlinguistik Evaluation Die Chance auf eine korrekte Zuweisung einer syntaktischen Struktur nimmt mit der Komplexität der zu bearbeitenden Sätze ab. Dazu als Beispiel der erste Satz aus „Mommsen, T., Römische Geschichte“: Rings um das mannigfaltig gegliederte Binnenmeer, das tief einschneidend in die Erdfeste den größten Busen des Ozeans bildet und, bald durch Inseln oder vorspringende Landfesten verengt, bald wieder sich in beträchtlicher Breite ausdehnend, die drei Teile der Alten Welt scheidet und verbindet, siedelten in alten Zeiten Völkerstämme sich an, welche, ethnographisch und sprachgeschichtlich betrachtet, verschiedenen Rassen angehörig, historisch ein Ganzes ausmachen.

Computerlinguistik Evaluation Die Abdeckung („coverage“) wird sowohl durch die Komplexität der zu bearbeitenden Sätze als insbesondere auch durch die Nutzung von Wörtern und Namen, die nicht im Lexikon stehen, gefährdet. Rings um das mannigfaltig gegliederte Binnenmeer, das tief einschneidend in die Erdfeste den größten Busen des Ozeans bildet und, bald durch Inseln oder vorspringende Landfesten verengt, bald wieder sich in beträchtlicher Breite ausdehnend, die drei Teile der Alten Welt scheidet und verbindet, siedelten in alten Zeiten Völkerstämme sich an, welche, ethnographisch und sprachgeschichtlich betrachtet, verschiedenen Rassen angehörig, historisch ein Ganzes ausmachen.

Computerlinguistik Shallow Parsing • Wenn ein Parser als Komponente in einem größeren System arbeiten soll, ist es ein Problem, wenn der Parser für manche Sätze keine Ergebnisse liefert, da in diesem Fall auch die weitere Verarbeitung nicht ausgeführt werden kann. In solchen Konstellationen (Architekturen) empfiehlt es sich, so genannte „flache“ („shallow“) Parser zu nutzen. Diese ordnen nur den Teilen des Satzes, die sie bearbeiten können, Strukturen zu. Diese Satzteile sind in der Regel Sequenzen aufeinanderfolgender Wörter. • Vorteile: • Der Parser ist robust: Es gibt immer ein (Teil-)Ergebnis. • Der Parser ist effizient.

Computerlinguistik Shallow Parsing • Wenn ein Parser als Komponente in einem größeren System arbeiten soll, ist es ein Problem, wenn der Parser für manche Sätze keine Ergebnisse liefert, da in diesem Fall auch die weitere Verarbeitung nicht ausgeführt werden kann. In solchen Konstellationen (Architekturen) empfiehlt es sich, so genannte „flache“ („shallow“) Parser zu nutzen. Diese ordnen nur den Teilen des Satzes, die sie bearbeiten können, Strukturen zu. Diese Satzteile sind in der Regel Sequenzen aufeinanderfolgender Wörter. • Nachteile: • Der Parser liefert häufig nur Teilergebnisse und keine komplette Analyse. • Der Parser erkennt keine Konstituenten, die nicht zusammenhängen.

Computerlinguistik Shallow Parsing Beispiel: Seit dem Tag, als erst durch bitteren Zank sich entzweiten Atreus Sohn, der Herrscher des Volkes, und der edle Achilleus. Präp Det N adverbiale Bestimmung der Zeit / „START“  thematische Rolle NP

Computerlinguistik Literatur • Homers Ilias. Vossische Übersetzung. München: Friedrich Bruckmanns Verlag 1882. • Johnson-Laird, P.N. (1983). Mental Models (Kapitel 13: Parsing and Performance). Cambridge, UK: Cambridge University Press. • Kasami, J. (1965). An Efficient Recognition and Syntax Analysis Algorithm for Context-free Languages. Report AFCRL-65-785. Air Force Cambridge Research Laboratory, Bedford, MA. • Kempen, G. (1998). Sentence Parsing. In: Friederici, A.D. (Ed.), Language Comprehension: A Biological Perspective. Berlin: Springer.

Computerlinguistik Literatur • Mitkov, R. (2002). The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press. • Mommsen, T. (1854). Römische Geschichte. 6. Auflage: DTV, 2002. • Sowa, J.F. (2000). Knowledge Representation. Pacific Grove, CA: Brooks/Cole. • Younger, D. (1967). Recognition and parsing of context-free languages in time n3. Information and Control, 10, 189-208.

Computerlinguistik