Informationsextraktion mit endlichen Automaten

Informationsextraktion mit endlichen Automaten Karin Haenelt 22.11.2009

Inhalt Informationsextraktion Endliche Automaten und menschliche Sprachen Werkzeuge: FLEX und JLex Ein Beispielsystem: FASTUS

Informationsextraktion Appelt/Israel, 1999 • Ziel • Extraktion fachgebietsrelevanter Ereignisse und Beziehungen aus Texten • Eigenschaften der Aufgabe • Themen und Relevanzkriterien sind begrenzt und werden vorab spezifiziert • Repräsentationsformat ist begrenzt und festgelegt • typischerweise nur Teile von Texten relevant • oft nur Teile von Sätzen relevant

InformationsextraktionCharakterisierung des Anwendungsbereichs Appelt/Israel, 1999 Texte, die vornehmlich faktische Information kommunizieren Zielpublikum ist groß und vielfältig Besonderheiten von Autoren und Zielpublikum spielen eine untergeordnete Rolle Standardbeispiel: Nachrichten

Informationsextraktion:MUC: Message Understanding Conference Appelt/Israel, 1999 • Ziel: Förderung der Methoden der Informationsextraktion • 1987-1997 mit Unterstützung der DARPA (Defense Advanced Research Projects Agency), Behörde des Verteidigungsministeriums der USA durchgeführt • Beginn der Verfügbarkeit von Massen von Online-Texten • Konferenz • Bereitstellung von Trainingstexten • Spezifikation von Informationsextraktionsaufgaben • Spezifikation der erwünschten Ergebnisse • Evaluierungsprozedur • http://www-nlpir.nist.gov/related_projects/muc/

InformationsextraktionssystemeEinige Komponenten Appelt/Israel, 1999 • Textzerlegung: Wortsegmentierung • morphologische und lexikalische Analyse • part-of-speech-Tagging • Wortbedeutungs-Tagging • Erkennung und Typisierung von Eigennamen, … • Parsing syntaktischer Konstituenten • Extraktion fachgebietsrelevanter Ereignisse und Beziehungen aus dem Text • Koreferenz-Analyse • Extraktion von Einzelfakten • Zusammenführung partieller Ergebnisse

InformationsextraktionEntwicklungsmethoden Appelt/Israel, 1999 • Knowledge Engineering-Ansätze • Menschen konstruieren Grammatiken (Testzyklen) • Menschen entdecken Informationsmuster durch Überlegung und in Corpora (Testzyklen) • oft sehr gute Resultate • Automatisch trainierbare Systeme • Menschen konstruieren Trainingsdaten (Zyklen: Annotation, Reannotation, Annotationsrichtlinien) • statistische Methoden • Regel-Konstruktion aus annotierten Corpora • Regel-Konstruktion aus Interaktion mit Benutzenden

Informationsextraktion mit endlichen Automaten • einer von vielen möglichen Ansätzen • theoretische Grundlagen • zwei Beispiele • Flex und JLex: Werkzeuge zur Programmierung regulärer Ausdrücke in C/C++ und Java • FASTUS: ein Informationsextraktionssystem mit kaskadierten endlichen Automaten

Endliche Automaten und menschliche Sprachen • Menschliche Sprachen • nicht alle Phänomene mit Grammatik vom Typ 3 beschreibbar • viele Phänomene sind mit Grammatik vom Typ 3 beschreibbar • nicht für alle praktischen Aufgaben ist eine vollständige Sprachverarbeitung unabdingbar • mit partiellen Lösungen können viele in der Praxis nützliche Werkzeuge entwickelt werden • Für Massendaten werden effiziente und robuste Verarbeitungsverfahren benötigt

Endliche Automaten und menschliche Sprachenreguläre Sprache, Approximationen regulärer Sprache, partielle reguläre Strukturen • Wieweit lassen sich menschliche Sprachen • unter interessanten Aspektenals reguläre Sprachen beschreiben(ohne Übergenerierung, ohne Untergenerierung) • Wortbildung (Morphologie) • reguläre Sprache (mit wenigen Ausnahmen) • Satzbildung • reguläre Sprache • lokale Wortfolgen (Artikel, Adjektiv, Nomen) • viele globale Wortfolgen (Subjekt, Prädikat, Objekt)

Endliche Automaten und menschliche Sprachenreguläre Sprache, Approximationen regulärer Sprache, partielle reguläre Strukturen • Satzbildung • approximativ • kontextfreie Phänomene (Zentraleinbettung): Begrenzung der Rekursionstiefe • kontextsensitive Phänomene (überkreuzende Abhängigkeiten): Begrenzung der Abhängigkeiten • Interpretationsstrukturen: flache Strukturen und Verzicht auf interpretationsabhängige Zuordnung von Präpositionalphrasen, Relativsätzen, … • Inhalt • partiell geeignet für eingeschränkte Faktenextraktion

WerkzeugeFlex und JLex(reguläre Ausdrücke in C/C++ und Java) • Installationsvoraussetzungen • Flex • UNIX: Flex Bestandteil der Umgebung • Windows: CygWin erforderlich (UNIX-Funktionen unter Windows) • JLex: benötigt Java-Compiler und Java-Laufzeit-Umgebung • Kurs: http://kontext.fraunhofer.de/haenelt/kurs/Lex/index.html • Vorstellung der Werkzeuge • kleine Anwendungen

Informationsextraktionssystem FASTUSLinks Projektseite http://www.ai.sri.com/natural-language/projects/fastus.html Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, MegumiKameyama, Mark Stickel, and Mabry Tyson (1997) FASTUS: A Cascaded Finite-State TransducerforExtracting Information from Natural-Language Text

Informationsextraktionssystem FASTUSDrei Impulse zur Entwicklung http://www.ai.sri.com/natural-language/projects/fastus.html • beeindruckende Resultate der University of Massachusetts-Gruppe bei MUC-3 • keine tiefe Analyse • keine umfangreiche Verarbeitung • aber die richtige Verarbeitung für die Aufgabe • Pereira (1990): Finite-state Approximationen von Grammatiken • Anforderung der Geschwindigkeit

FASTUSFolien Jerry Hobbs, Doug Appelt, John Bear, David Israel, Andy Kehler, David Martin, Karen Meyers, MegumiKameyama, Mark Stickel, Mabry Tyson (17.06.1997) FASTUShttp://www.ai.sri.com/~israel/Generic-FASTUS-talk.pdf

Literatur • Douglas E. Appeltund David J. Israel (1999). Introductionto Information ExtractionTechnology. A Tutorial prepared for IJCAI-99. http://www.ai.sri.com/~appelt/ietutorial/IJCAI99.pdf • Jerry Hobbs, Doug Appelt, John Bear, David Israel, Andy Kehler, DavidMartin, Karen Meyers, MegumiKameyama, Mark Stickel, MabryTyson (17.06.1997) FASTUShttp://www.ai.sri.com/~israel/Generic-FASTUS-talk.pdf • Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, MegumiKameyama, Mark Stickel, andMabry Tyson (1997). FASTUS: A Cascaded Finite-State TransducerforExtracting Information from Natural-Language Texthttp://arxiv.org/PS_cache/cmp-lg/pdf/9705/9705013v1.pdf • Günter Neumann (2001):.Informationsextraktion. In: Klabunde et al. (eds.): Computerlinguistik und Sprachtechnologie - Eine Einführung. Heidelberg: Spektrum Akademischer Verlag. http://www.dfki.de/~neumann/publications/new-ps/ie.pdf • Fernando Pereira (1990.) Finite-State ApproximationsofGrammars, In: Proceedings, DARPA Speech and Natural Language Workshop, Hidden Valley, Pennsylvania, pp. 20-25.

Informationsextraktion mit endlichen Automaten