1 / 24

Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002. Übersicht. Einführung Vorhandene Systeme/Ansätze Implementierung. Partielles oder Flaches Parsing. Anwendungsbereiche z.B. Information Retrieval oder Information Extraction

benoit
Télécharger la présentation

Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Flaches Parsing mit endlichen AutomatenReferat und ImplementierungJutta Jäger24.06.2002

  2. Übersicht • Einführung • Vorhandene Systeme/Ansätze • Implementierung

  3. Partielles oder Flaches Parsing • Anwendungsbereiche z.B. Information Retrieval oder Information Extraction • Implementierung durch endliche Automaten bzw. Reguläre Ausdrücke statt kontextfreier Grammatiken

  4. Eigenschaften • Keine Baumstrukturen, sondern inkrementelles Erkennen von Teilstrukturen • Keine Rekursion

  5. Eigenschaften • Robust • Schnell • Leichtes Entwerfen und Anpassen des Parsers • Keine 100%ige Abdeckung

  6. Reguläre Ausdrücke • Symbole a • Konkatenation ab • Vereinigung a|b • Sternbildung a* usw.

  7. Weitere Operatoren • Rechter und linker Kontext • A => L _ R • Left-to right, longest match mark up • A @ B ... C • Perl: andere Notation

  8. Vorgehensweisen • Tokenizierung • POS-Tagging • Mehrere einfache Finite State Transducer werden aufeinander bezogen • Von einfachen Strukturen (NPs oder NounGroups) zu syntaktischen Rollen (z.B. Subjekt)

  9. Abney – Finite State Cascades • Phrasen auf einem höheren Level werden durch Phrasen aus einem niedrigeren Level zusammengesetzt • Es werden keine Tags in den Text gesetzt, sondern die erkannten Sequenzen des Inputs werden durch ein Label ersetzt

  10. Philosophie • Easy-first parsing • Islands of certainty • Containment of ambiguity

  11. Grefenstette – Finite State Filters • Noun- und Verb-Groups • HeadNouns werden markiert • Syntaktische Funktionen werden herausgefiltert

  12. Implementierung fürs Deutsche • Perl • 2 Ansätze: • Parsre.pl • Subj_filter.pl

  13. Ansatz 1 (Parsre.pl) • Freier, nicht tokenisierter oder getaggter Text • NP-Detector • Reguläre Ausdrücke beschreiben einfache NPs • Alles, was matcht, wird ausgegeben (Filter)

  14. Reguläre Ausdrücke Geschlossene Wortartenklassen aus dem Negra-Korpus => vorkompilierte Pattern z.B. $ART = qr/das|dem|den|der|des|die|einem|einen|einer|eines|eine|ein/;

  15. Regulärer Ausdruck für NP Vereinfacht: ($ART | $PPOSAT)? ($ADJE (\, | ([\n ] $KON)) ? )* $SUBST

  16. Evaluierung • Ersten 100 Sätze aus Negra-Korpus • Im Korpus getaggte NPs: • 349 • Durch den regulären Ausdruck erkannte: • 395

  17. Ansatz 2 – Mark up • Nutzen der POS-Tags • Regulärer Ausdruck für NPs • NP-Tags werden eingefügt • PP-Tags werden eingefügt

  18. Diskontinuität • Mit Mark-up kann man diskontinuierliche Konstituenten (z.B. Prädikate) nicht erfassen, da Einfügen von Klammern oder Tags unmöglich • Im Deutschen sind viele Prädikate diskontinuierlich, z.B. Passivkonstruktionen, Perfekt, Verbzusatz • Lösung: Filter (?)

  19. Ansatz 2 – Filter (Subj_filter.pl) • Erste NP vor einem finiten Verb=> Subjekt • ABER: Im Deutschen sind verschiedene Satzbaupläne möglich, z.B. Adverb – finites Verb – NP (=SUBJ) Kongruenzprüfung nötig

  20. Regulärer Ausdruck für Subjekt und Prädikat NP (=SUBJ) (NP|PP|ADV)* VVFIN (=PRÄD) ODER NP (=SUBJ) (NP|PP|ADV)* VAFIN (=PRÄD) (NP|PP|ADV)* (ADJD|VVPP) (=PRÄD) • unvollständig, da Testcharakter

  21. Diskontinuität II • Perl bietet Möglichkeit, Teile einer RegEx zu speichern • Keine Möglichkeit, komplexe Teilausdrücke zu negieren, etwa [^(ADJD|VVPP) ], um auf diese Art Konstituenten zu „überspringen“, also: positive und fast zwangsläufig unvollständige Aufzählung

  22. Evaluierung • NP/PP-Erkennung • im Negra-Korpus getaggte • NPs und PPs 349 • davon PPs 144 • durch die Transducer getaggte • NPs 321 • davon PPs 120

  23. Resümee • Verschachtelte Strukturen sind durch einen Regulären Ausdruck nicht zu beschreibenz.B. eine PP innerhalb einer NP[NP die [PP vom Baum ] gefallene Katze] • diskontinuierliche Konstituenten sind problematisch, Verben bzw. Prädikate sind im Deutschen sehr häufig diskontinuierlich • Für das Herausfiltern von „Chunks“ sehr geeignet, aber kein komplettes Parsen

  24. Links & Literatur • Steven Abney, Partial Parsing via Finite State Cascadeshttp://citeseer.nj.nec.com/abney96partial.html • Gregory Grefenstette, Light Parsing as Finite State Filteringhttp://citeseer.nj.nec.com/grefenstette96light.html • Negra-Korpushttp://www.coli.uni-sb.de/sfb378/negra-corpus/ • Xerox-Seite http://www.xrce.xerox.com/competencies/content-analysis/fsCompiler/home.en.html

More Related