520 likes | 694 Vues
Computerlinguistik. 14. Vorlesung (02.02.2012). apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de. Computerlinguistik. Inhalt der Vorlesung. Einführung Methoden Tagging Formale Methoden Parsing
E N D
Computerlinguistik 14. Vorlesung (02.02.2012) apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de
Computerlinguistik Inhalt der Vorlesung Einführung Methoden Tagging Formale Methoden Parsing Ontologien Anwendungen Informationsextraktion Maschinelle Übersetzung Textanalyse
Computerlinguistik Informationsextraktion In der Informationsextraktion zerlegen wir Texte in ihre Sätze und analysieren diese. Dabei ergeben sich Resultate wie das folgende zum Satz „The White Rabbit lied to Alice.“ relation: lie Speaker: type: rabbit color: white Addressee: Alice Topic: - relation: lie Speaker: White Rabbit Addressee: Alice Topic: - oder
Computerlinguistik Informationsextraktion Textanalyse • Wir haben also eine morpho-syntaktischen Analyse • (Satzidentifikation; Zuordnung der syntaktischen Kategorien; Parsing/Chunking) • und eine semantische Analyse von Einzelsätzen • (Zuordnung der thematischen Rollen; Aufbau der entsprechenden Merkmal-Wert-Matrizen). • Es fehlt eine Art von Textanalyse, wodurch die Satzinhalte verknüpft werden.
Computerlinguistik Textanalyse • Es gibt zwei Aspekte, unter denen Textzusammenhalt • – Was verbindet die einzelnen Sätze eines Textes? – • betrachtet werden kann: Kohäsion und Kohärenz. • Kohäsion: Textzusammenhalt hergestellt mit phonologischen, • morphologischen und syntaktischen Mitteln • Kohärenz: Textzusammenhalt, hergestellt mit inhaltlichen, • semantischen und pragmatischen Mitteln
Computerlinguistik Textanalyse • Textbeispiel (Borchert: Das Känguru): • „Sie trug den Kopf im Kleid vor sich. • Wie ein Känguru sah sie aus.“ • Die Kohäsion ergibt sich vor allem aus den beiden „sie“, über die eine referentielle Identität der beiden pronominalen Satzsubjekte nahegelegt wird. • Die Kohärenz ergibt sich aus der Gleichsetzung der beiden Vorstellungsbilder.
Computerlinguistik Textanalyse • geänderter Text (kohäsiv, aber nicht kohärent) • „Die Sonne schien blutrot über dem Horizont. • Wie ein Känguru sah sie aus.“ • geänderter Text (weder kohäsiv noch kohärent) • „Die Wachposten dösen. • Wie ein Känguru sah sie aus.“ • (Das Pronomen referiert nicht; Tempuswechsel)
Computerlinguistik Textanalyse • geänderter Text (kohäsiv und „sehr“ kohärent) • „Judith trug den Kopf im Kleid vor sich, welches sie dafür eigens wie einen Beutel hoch gefaltet hatte. • Wie ein Kängurusah sie aus.“ • (Die Verstärkung der Kohärenz • vermindert die Kunst.) „Sehet, dies ist das Haupt des Holofernes, des Feldmarschalls der Assyrer, und sehet, das ist die Decke, darunter er lag, als er trunken war. Da hat ihn Jahwe, unser Gott, durch Weibeshand umgebracht.“ (Buch Judith 13,15.). Rubens: Judith mit dem Kopf von Holofernes
Computerlinguistik Textanalyse noch ein Beispiel (bereits bekannt): Im Restaurant Der Oberkellner begrüßt den Gast. Er begleitet ihn zu seinem Stammplatz und reicht ihm Speise- und Weinkarte.
Computerlinguistik Textanalyse • Das Problem für die automatisierte Textanalyse ist, dass in natürlich-sprachlichen Texten der Zusammenhang nicht sehr explizit ausgearbeitet ist. Insbesondere werden deiktische und pronominale Ausdrücke benutzt. • Mit deiktischen Ausdrücken verankert die Sprecherin das, worüber sie spricht, im räumlich-zeitlichen Kontext der Äußerung. • Mit pronominalen Ausdrücken verankert sie das, worüber sie spricht, im Diskurs. (Pronomina sind diskurs-deiktische Ausdrücke.)
Computerlinguistik Textanalyse Räumliche Deixis „Schau mal hier!“ Alice zeigt auf den Riss in der wertvollen Vase und sagt anklagend: „Hast Du das schon gesehen?“ Räumliche Deixis kann mit Zeigegesten verbunden werden, die dann ausgewertet werden müssen, damit der gemeinte Ort exakt bestimmt werden kann ( Koordinaten). Entsprechendes gilt für ein Adverb wie „hier“, das z.B. auf den Ort verweist, an dem das Gespräch stattfindet.
Computerlinguistik Textanalyse Räumliche Deixis kann vergleichsweise komplex ausfallen, etwa wenn die Sprecherin eine Art von Koordinatensystem einführt, um dann in diesem eingeführten System etwas, worüber sie spricht, zu verorten. „Direkt vor mirliegt ein Karo-As auf dem Boden.“ „Halt mal hinter der nächsten Kreuzung.“ „Da steht eine Hochzeitskutsche direkt vor dem Rathaus.“ Das Relatumist der Ursprung dieses Koordinatensystems.
Computerlinguistik Textanalyse Zeitliche Deixis Zeitliche Deixis entspricht weitgehend der räumlichen Deixis. So kann auf den Zeitpunkt bzw. auf die Zeitspanne des Gesprächs mit dem Adverb „jetzt“ verwiesen werden. Zeitliche Koordinaten- systeme werden aber zum Teil über das Verb (Tempus) aufgespannt. „Einen noch schlimmeren Winter hatten wir zum Jahreswechsel 1978/79. Damals ...“ Relatum
Computerlinguistik Textanalyse Personalpronomina / (Reflexivpronomina) Heute (zeitliche Deixis ) interessieren uns besonders die Personalpronomen. Von geringerer Bedeutung sind dabei die Pronomen der ersten und der zweiten Person, weil sich deren Auswertung aus dem Diskurs ergibt (Sprecherin / Hörer). Problematisch sind die Personalpronomen der dritten Person. Für ein Pronomen der dritten Person muss im (vorausgehenden) Text eine NP gefunden werden, auf die es sich bezieht (die das Pronomen bindet).
Computerlinguistik Textanalyse Im Restaurant Der Oberkellner begrüßt den Gast. Er begleitet ihn zu seinem Stammplatz und reicht ihm Speise- und Weinkarte. Die Frage ist dabei: Welches Pronomen wird durch welche NP gebunden?
Computerlinguistik Textanalyse Im Restaurant Der Oberkellner begrüßt den Gast. Er begleitet ihn zu seinem Stammplatz und reicht ihm Speise- und Weinkarte. Antworten aufgrund von Kohäsion: Die Pronomen stimmen in Numerus und Genus mit den NPs „der Oberkellner“ und „der Gast“ überein. „Er“ ist von einer anderen NP gebunden als „ihn“ und „ihm“.
Computerlinguistik Textanalyse Im Restaurant Der Oberkellner begrüßt die Sängerin. Er begleitet sie zu ihrem Stammplatz und reicht ihr Speise- und Weinkarte. Wenn wir „Glück“ hätten, könnten die einfachen kohäsiven Mittel (Übereinstimmung von Genus und Numerus) schon die Bindungen festlegen.
Computerlinguistik Textanalyse • Die Auswertung über Genus und Numerus kann Probleme mit sich führen, wenn Quantoren in den Sätzen auftreten. • Angela besitzt ein Buch. Ursula liest es. ja • Jedes Kind besitzt das Buch. Ursula liest es. ja • Jeder Abgeordnete besitzt ein Buch. Ursula liest es. ? • Kein Abgeordneter besitzt ein Buch. Ursula liest es. Nein • Angela besitzt nicht jedes Buch. Ursula liest es. Nein • Wenigstens ein Buch besitzt Angela nicht. Ursula liest es. ja
Computerlinguistik Textanalyse • Ein Algorithmus, der sich auf die Mittel der Kohäsion beschränkt, ist der Algorithmus von Hobbs (1978). Er nutzt „lediglich“ einen (syntaktischer) Parser und einen Checker, der das aufzulösende Pronomen mit möglichen Bezugs-NPs in Bezug auf Genus und Numerus vergleicht. • Der Hobbs-Algorithmus dient als Baseline bei der Evaluation von Algorithmen zur Auflösung von pronominalen Anaphern.
Computerlinguistik Textanalyse • Der Hobbs-Algorithmus sucht zunächst den NP- oder S-Knoten, der den NP-Knoten des Pronomens dominiert. Der Pfad von Pronomen-NP-Knoten zum dominierenden Knoten sei p. Der Algorithmus sucht zunächst nach NP-Knoten in den Zweigen, die links von p vom dominierenden Knoten ausgehen. Diese Pfade werden von links nach rechts, „breadth-first“ untersucht. • Gefundene, mögliche NP-Knoten werden auf Numerus und Genus hin überprüft und gegebenenfalls verworfen. Wird der Algorithmus nicht fündig, geht er weiter im Baum hoch und untersucht dann den vorangehenden Satz.
Computerlinguistik Textanalyse Im Restaurant Der Oberkellner begrüßt den Gast. Er begleitet ihn zu seinem Stammplatz und reicht ihm Speise- und Weinkarte. Der Hobbs-Algorithmus bestimmt die NP „der Oberkellner“ als Bezugs-NP zu „er“.
Computerlinguistik Textanalyse Im Restaurant Der Oberkellner begrüßt den Gast. Er begleitet ihn zu seinem Stammplatz und reicht ihm Speise- und Weinkarte. Wiederholung „Er“ ist von einer anderen NP gebunden als „ihn“ und „ihm“. Wie gelangen wir eigentlich aufgrund einer Analyse kohäsiver Mittel zu dieser etwas komplexeren Einsicht? Antwort: Grammatiktheorie
Computerlinguistik Textanalyse NPBindungsprinzip Name, NP mit Nomen frei Personalpronomen frei innerhalb der regierenden Kategorie Reflexivpronomen gebunden innerhalb der regierenden Kategorie Die regierende Kategorievon ist die kleinste NP oder der kleinste S, die oder der enthält und die oder der außerdem etwas enthält, was regiert.
Computerlinguistik Textanalyse c-kommandiert genau dann, wenn jede maximale Projektion, die dominiert, auch dominiert. XP c-kommandiert und . c-kommandiert und . c-kommandiert weder noch . ZP X‘ X Y Z‘ Z
Computerlinguistik Textanalyse A regiert genau dann, wenn gilt a) c-kommandiert , b) {N, V, Praep, Adj} und c) jede maximale Projektion, die dominiert, dominiert auch .
Computerlinguistik Textanalyse Die „regierende Kategorie“ von ist die kleinste NP oder der kleinste S, die oder der enthält und die oder der außerdem etwas enthält, was regiert. S Personalpronomen sind in ihrer regierenden Kategorie „frei“ (= nicht gebunden). VP V‘ NP V NP Erbegleitet ihn ...
Computerlinguistik Textanalyse Über die grammatiktheoretischen Bindungsregeln kann man also einige problematische Bindungsfragen lösen: Lady Gaga glaubt, dass Carla sie gut kennt. Lady Gaga glaubt, dass Carlasich gut kennt.
Computerlinguistik Textanalyse Im Restaurant Der Oberkellner begrüßt den Gast. Er begleitet ihn zu seinem Stammplatz und reicht ihm Speise- und Weinkarte. Die Antworten zur Bindung bzw. zur Ko-Referenz, die aufgrund von Kohäsionskriterien gegeben werden können, sind relativ leicht mit computerlinguistischen Mitteln, z.B. mit dem Hobbs-Algorithmus, zu berechnen. Mit den Antworten, die sich aufgrund von Kohärenzkriterien finden lassen, sieht das problematischer aus.
Computerlinguistik Textanalyse Ein typischer modernerer Algorithmus zur Auflösung von Anaphern ist „Left-Right-Centering (LRC)“ (Tetreault, 2001), der auf der „Centering Theory“ (Grosz et al., 1995) beruht. Der Algorithmus sucht ausgehend von der Anapher ähnlich wie der Hobbs-Algorithmus eine NP, die mit dem anaphorischen Ausdruck (z.B. einem Personalpronomen) in Numerus und Genus übereinstimmt und die alle anderen syntaktischen Beschränkungen auch erfüllt.
Computerlinguistik Textanalyse LRC bindet Pronomen mit etwa 67% an die richtige NP, wobei ein Teil des Problems aus falschen Ergebnissen des verwendeten Parsers resultiert. Das Ergebnis kann verbessert werden, wenn man Kohärenzkriterien bei der Analyse heranzieht. Tetreault & Allen (2004). Dialogue Structure and Pronoun Resolution. http://www.cs.rochester.edu/u/tetreaul/daarc04.pdf
Computerlinguistik Textanalyse Die einfachsten Kohärenzkriterien sind semantische Merkmale, etwa in der Art, wie sie FrameNet liefert. Betrachten wir dazu die Beispiele Christian betrachtete, während er redete, seinen neuen Montblanc Füllfederhalter. Er log. Sein schöner neuer Montblanc Füllhalter glänzte, während Christian redete. Er log.
Computerlinguistik Textanalyse Christian betrachtete, während er redete, seinen neuen Montblanc Füllfederhalter. Er log. Sein schöner neuer Montblanc Füllhalter glänzte, während Christian redete. Er log. In FrameNet hat das Verb „to lie“ als thematische Rolle „Speaker(Sentient)“. Da „Füllfederhalter“ nicht „sentient“ ist, kann „er“ nicht an „Füllfederhalter“ gebunden werden. Entsprechend erfolgt damit die Bindung von „er“ an „Christian“.
Computerlinguistik Textanalyse Die Nutzung solcher semantischer Kriterien hat in den korpusbasierten Analysen von Tetreault und Allen die Korrektheit anaphorischer Bindungen von Pronomina von 66.9% auf 73.3% verbessert. Tetreault & Allen (2004). Dialogue Structure and Pronoun Resolution. http://www.cs.rochester.edu/u/tetreaul/daarc04.pdf
Computerlinguistik Textanalyse Im Restaurant Der Oberkellner begrüßt den Gast. Er begleitet ihn zu seinem Stammplatz und reicht ihm Speise- und Weinkarte. Aufgrund von Kohärenzkriterien bezieht sich „er“ auf den Oberkellner und „ihn“ und „ihm“ auf den Gast. Wir wissen das als Menschen, weil wir Wissen darüber haben, wie Abläufe in einem Restaurant aussehen. Wir nutzen hierbei also globale Kriterien (die Überschrift), im Gegensatz zu den lokalen Kriterien, über die wir bislang gesprochen haben.
Computerlinguistik Textanalyse Um globale Kohärenzkriterien für die Textanalyse anwenden zu können, wurden in den frühen Jahren der KI-Forschung „Scripts“, „Frames“ ( Verbframes) bzw. „Schemata“ postuliert, die typische Abläufe, etwa den Besuch eines Restaurants, repräsentieren. Beispiele bieten Minsky (1975) und Schank & Abelson (1977).
Computerlinguistik Textanalyse In derartigen Skripten werden die typischen Abläufe mit Variablen unterlegt. Im Restaurantskript gibt es etwa eine Variable für den Kellner, eine für den Gast, eine für das Essen usw. Wenn die Variable für den Gast etwa mit „Chris“ belegt wurde, wird an jeder Stelle, an der auf den Gast verwiesen wird, „Chris“ eingesetzt. Da im Skript steht, das der Kellner zu Beginn des Restaurantbesuchs den Gast zum Platz geleitet (gutes Restaurant !), wird etwa das Personalpronomen „ihn“ in unserem Beispiel bei der Nutzung des Skripts auf „Chris“ gebunden.
Computerlinguistik Textanalyse Eine weitere Möglichkeit, über die Analyse von Kohärenzmitteln Pronomina aufzulösen, kann im Rahmen der Diskurstheorie (Pragmatik) erfolgen. Beispielsweise kann man versuchen, in Dialogen Nebensequenzen zu erkennen, damit die in diesen benutzten NPs nicht zur Bindung herangezogen werden. Das folgende Beispiel ist wiederum aus Tetreault & Allen (2004).
Computerlinguistik Textanalyse U: I can‘t find the Rochester Airport. (searching on a map) S: It‘s ... U: I think I have a disability with maps. Have I ever told you that before? S: It‘s located on Brooks Avenue. U: Oh, thank you. S: Do you see it? U: Yes. Nebensequenz, wird gelöscht.
Computerlinguistik Textanalyse Das Problem für eine Nutzung von Diskursrepräsentations-information ist die automatisierte Erstellung der entsprechenden Strukturen (Diskursegmente; intentionale Strukturen; Aufmerksamkeitsstrukturen = Fokus-Stack). Zur Diskursrepräsentationstheorie vgl. auch Kamp, H. & Reyle, U. (1993). From Discourse to Logic. Dordrecht: Kluwer.
Computerlinguistik Textanalyse (psycholinguistisch) Ein psycholinguistisches Modell des Sprachverstehens, das die Bindung von Pronomina innerhalb von Texten abdeckt, das Konstruktions-Integrations-Modell, wurde von Walther Kintsch vorgeschlagen. • Kintsch (1988). The use of knowledge in discourse processing: A construction-integration model. Psychological Review, 95, 163-182. • Kintsch (1998). Comprehension: A Paradigm for Cognition. Cambridge University Press.
Computerlinguistik Textanalyse (psycholinguistisch) Text Interpretation Analyse- komponente propotionale Repäsentation Netz / Teilnetz
Computerlinguistik Textanalyse (psycholinguistisch) Beispieltext ( nachGarrod et al., 1994): • „Flying to America. Jane wasn´t enjoying the flight at all. The dry air in the plane made her really thirsty. Just as she was about to call her, she noticed the stewardess coming down the aisle with the drink trolley. • Right away she (ordered / poured) a large glass of Coke.“ • Wir beginnen mit dem Schritt des Netzaufbaus (Konstruktion) zum kritischen Satz.
Computerlinguistik Textanalyse (psycholinguistisch) Konstruktion 1: Auf Grund der bereits erfolgten Verarbeitung verfügt man über ein Netz aktivierter Knoten, das die zuvor verarbeiteten Propositionen spiegelt. Flight not-enjoy[J,Flight] J in-Plane make-thirst[air,J] Plane S call[J,S] see(J,$) come[S,aisle,drk]
Computerlinguistik Textanalyse (psycholinguistisch) Konstruktion 2: Die möglichen neuen Propositionen werden eingebunden. order Flight not-enjoy[J,Flight] J coke in-Plane make-thirst[air,J] Plane order[S,coke] S order[J,coke] call[J,S] see(J,$) come[S,aisle,drk]
Computerlinguistik Textanalyse (psycholinguistisch) Konstruktion 3:Auf Grund von „Weltwissen“ wird das Netz um weitere Knoten und Verbindungen ergänzt. order Flight not-enjoy[J,Flight] J coke in-Plane make-thirst[air,J] Plane order[S,coke] S order[J,coke] call[J,S] see(J,$) come[S,aisle,drk]
Computerlinguistik Textanalyse (psycholinguistisch) Konstruktion 4:Die Knoten tauschen einige Zyklen lang Aktivierung aus. order Flight not-enjoy[J,Flight] J coke in-Plane make-thirst[air,J] Plane order[S,coke] S order[J,coke] call[J,S] see(J,$) come[S,aisle,drk]
Computerlinguistik Textanalyse (psycholinguistisch) Integration 1:Zu schwach aktivierte Knoten und deren Verbindungen werden aus dem Netz entfernt. order Flight not-enjoy[J,Flight] J coke in-Plane make-thirst[air,J] Plane order[S,coke] S order[J,coke] call[J,S] see(J,$) come[S,aisle,drk]
Computerlinguistik Textanalyse (psycholinguistisch) Integration 2:Das verbleibende Netz gilt als Interpretation des Textes. order Flight not-enjoy[J,Flight] J coke in-Plane make-thirst[air,J] Plane S order[J,coke] call[J,S] see(J,$) come[S,aisle,drk]
Computerlinguistik Literatur • Borchert, W. (1949). Das Gesamtwerk. Hamburg: Rowohlt. • Garrod, S., Freudenthal, D. & Boyle, E. (1994). The role of different types of anaphor in on-line resolution of sentences in discourse. Journal of Memory and Language, 33, 38-68. • Görtz, G. (Ed.) (1993). Einführung in die künstliche Intelligenz. Bonn: Addison-Wesley. • Grosz, B.J., Joshi, A.K. & Weinstein, S. (1995). Centering: A Framework for Modeling the Local Coherence of Discourse. Computational Linguistics,21, 203-226. • Hobbs, J.R. (1978). Resolving pronoun references. Lingua,44, 311-338.
Computerlinguistik Literatur • Jurafsky, D. & Martin, J.H. (2009). Speech and Language Processing. Uppersaddle River, NJ: Pearson, 2. Auflage, Kapitel 21. • Kamp, H. & Reyle, U. (1993). From Discourse to Logic. Dordrecht: Kluwer. • Kintsch (1988). The use of knowledge in discourse processing: A construction-integration model. Psychological Review, 95, 163-182. • Kintsch, W. (1998). Comprehension. Cambridge, UK: Cambridge University Press. • Levelt, W.J.M. (1989). Speaking. Cambridge, MA: MIT Press.