1 / 16

Informationsextraktion mit endlichen Automaten

Informationsextraktion mit endlichen Automaten. Karin Haenelt 22.11.2009. Inhalt. Informationsextraktion Endliche Automaten und menschliche Sprachen Werkzeuge: FLEX und JLex Ein Beispielsystem: FASTUS. Informationsextraktion. Appelt/Israel, 1999. Ziel

romaine
Télécharger la présentation

Informationsextraktion mit endlichen Automaten

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Informationsextraktion mit endlichen Automaten Karin Haenelt 22.11.2009

  2. Inhalt Informationsextraktion Endliche Automaten und menschliche Sprachen Werkzeuge: FLEX und JLex Ein Beispielsystem: FASTUS

  3. Informationsextraktion Appelt/Israel, 1999 • Ziel • Extraktion fachgebietsrelevanter Ereignisse und Beziehungen aus Texten • Eigenschaften der Aufgabe • Themen und Relevanzkriterien sind begrenzt und werden vorab spezifiziert • Repräsentationsformat ist begrenzt und festgelegt • typischerweise nur Teile von Texten relevant • oft nur Teile von Sätzen relevant

  4. InformationsextraktionCharakterisierung des Anwendungsbereichs Appelt/Israel, 1999 Texte, die vornehmlich faktische Information kommunizieren Zielpublikum ist groß und vielfältig Besonderheiten von Autoren und Zielpublikum spielen eine untergeordnete Rolle Standardbeispiel: Nachrichten

  5. Informationsextraktion:MUC: Message Understanding Conference Appelt/Israel, 1999 • Ziel: Förderung der Methoden der Informationsextraktion • 1987-1997 mit Unterstützung der DARPA (Defense Advanced Research Projects Agency), Behörde des Verteidigungsministeriums der USA durchgeführt • Beginn der Verfügbarkeit von Massen von Online-Texten • Konferenz • Bereitstellung von Trainingstexten • Spezifikation von Informationsextraktionsaufgaben • Spezifikation der erwünschten Ergebnisse • Evaluierungsprozedur • http://www-nlpir.nist.gov/related_projects/muc/

  6. InformationsextraktionssystemeEinige Komponenten Appelt/Israel, 1999 • Textzerlegung: Wortsegmentierung • morphologische und lexikalische Analyse • part-of-speech-Tagging • Wortbedeutungs-Tagging • Erkennung und Typisierung von Eigennamen, … • Parsing syntaktischer Konstituenten • Extraktion fachgebietsrelevanter Ereignisse und Beziehungen aus dem Text • Koreferenz-Analyse • Extraktion von Einzelfakten • Zusammenführung partieller Ergebnisse

  7. InformationsextraktionEntwicklungsmethoden Appelt/Israel, 1999 • Knowledge Engineering-Ansätze • Menschen konstruieren Grammatiken (Testzyklen) • Menschen entdecken Informationsmuster durch Überlegung und in Corpora (Testzyklen) • oft sehr gute Resultate • Automatisch trainierbare Systeme • Menschen konstruieren Trainingsdaten (Zyklen: Annotation, Reannotation, Annotationsrichtlinien) • statistische Methoden • Regel-Konstruktion aus annotierten Corpora • Regel-Konstruktion aus Interaktion mit Benutzenden

  8. Informationsextraktion mit endlichen Automaten • einer von vielen möglichen Ansätzen • theoretische Grundlagen • zwei Beispiele • Flex und JLex: Werkzeuge zur Programmierung regulärer Ausdrücke in C/C++ und Java • FASTUS: ein Informationsextraktionssystem mit kaskadierten endlichen Automaten

  9. Endliche Automaten und menschliche Sprachen • Menschliche Sprachen • nicht alle Phänomene mit Grammatik vom Typ 3 beschreibbar • viele Phänomene sind mit Grammatik vom Typ 3 beschreibbar • nicht für alle praktischen Aufgaben ist eine vollständige Sprachverarbeitung unabdingbar • mit partiellen Lösungen können viele in der Praxis nützliche Werkzeuge entwickelt werden • Für Massendaten werden effiziente und robuste Verarbeitungsverfahren benötigt

  10. Endliche Automaten und menschliche Sprachenreguläre Sprache, Approximationen regulärer Sprache, partielle reguläre Strukturen • Wieweit lassen sich menschliche Sprachen • unter interessanten Aspektenals reguläre Sprachen beschreiben(ohne Übergenerierung, ohne Untergenerierung) • Wortbildung (Morphologie) • reguläre Sprache (mit wenigen Ausnahmen) • Satzbildung • reguläre Sprache • lokale Wortfolgen (Artikel, Adjektiv, Nomen) • viele globale Wortfolgen (Subjekt, Prädikat, Objekt)

  11. Endliche Automaten und menschliche Sprachenreguläre Sprache, Approximationen regulärer Sprache, partielle reguläre Strukturen • Satzbildung • approximativ • kontextfreie Phänomene (Zentraleinbettung): Begrenzung der Rekursionstiefe • kontextsensitive Phänomene (überkreuzende Abhängigkeiten): Begrenzung der Abhängigkeiten • Interpretationsstrukturen: flache Strukturen und Verzicht auf interpretationsabhängige Zuordnung von Präpositionalphrasen, Relativsätzen, … • Inhalt • partiell geeignet für eingeschränkte Faktenextraktion

  12. WerkzeugeFlex und JLex(reguläre Ausdrücke in C/C++ und Java) • Installationsvoraussetzungen • Flex • UNIX: Flex Bestandteil der Umgebung • Windows: CygWin erforderlich (UNIX-Funktionen unter Windows) • JLex: benötigt Java-Compiler und Java-Laufzeit-Umgebung • Kurs: http://kontext.fraunhofer.de/haenelt/kurs/Lex/index.html • Vorstellung der Werkzeuge • kleine Anwendungen

  13. Informationsextraktionssystem FASTUSLinks Projektseite http://www.ai.sri.com/natural-language/projects/fastus.html Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, MegumiKameyama, Mark Stickel, and Mabry Tyson (1997) FASTUS: A Cascaded Finite-State TransducerforExtracting Information from Natural-Language Text

  14. Informationsextraktionssystem FASTUSDrei Impulse zur Entwicklung http://www.ai.sri.com/natural-language/projects/fastus.html • beeindruckende Resultate der University of Massachusetts-Gruppe bei MUC-3 • keine tiefe Analyse • keine umfangreiche Verarbeitung • aber die richtige Verarbeitung für die Aufgabe • Pereira (1990): Finite-state Approximationen von Grammatiken • Anforderung der Geschwindigkeit

  15. FASTUSFolien Jerry Hobbs, Doug Appelt, John Bear, David Israel, Andy Kehler, David Martin, Karen Meyers, MegumiKameyama, Mark Stickel, Mabry Tyson (17.06.1997) FASTUShttp://www.ai.sri.com/~israel/Generic-FASTUS-talk.pdf

  16. Literatur • Douglas E. Appeltund David J. Israel (1999). Introductionto Information ExtractionTechnology. A Tutorial prepared for IJCAI-99. http://www.ai.sri.com/~appelt/ietutorial/IJCAI99.pdf • Jerry Hobbs, Doug Appelt, John Bear, David Israel, Andy Kehler, DavidMartin, Karen Meyers, MegumiKameyama, Mark Stickel, MabryTyson (17.06.1997) FASTUShttp://www.ai.sri.com/~israel/Generic-FASTUS-talk.pdf • Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, MegumiKameyama, Mark Stickel, andMabry Tyson (1997). FASTUS: A Cascaded Finite-State TransducerforExtracting Information from Natural-Language Texthttp://arxiv.org/PS_cache/cmp-lg/pdf/9705/9705013v1.pdf • Günter Neumann (2001):.Informationsextraktion. In: Klabunde et al. (eds.): Computerlinguistik und Sprachtechnologie - Eine Einführung. Heidelberg: Spektrum Akademischer Verlag. http://www.dfki.de/~neumann/publications/new-ps/ie.pdf • Fernando Pereira (1990.) Finite-State ApproximationsofGrammars, In: Proceedings, DARPA Speech and Natural Language Workshop, Hidden Valley, Pennsylvania, pp. 20-25.

More Related