1 / 23

LMT und Personal Translator

LMT und Personal Translator. Einführung. Der Personal Translator ist ein auf LMT basierendes Übersetzungsprogramm für den Home-PC LMT ( logic programming based maschine translation ) wurde von IBM auf Großrechnern entwickelt und basiert auf der von McCord begründeten Slot-Grammar

tova
Télécharger la présentation

LMT und Personal Translator

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. LMT und Personal Translator

  2. Einführung • Der Personal Translator ist ein auf LMT basierendes Übersetzungsprogramm für den Home-PC • LMT (logic programming based maschine translation) wurde von IBM auf Großrechnern entwickelt und basiert auf der von McCord begründeten Slot-Grammar • Die Slot-Grammar ist eine grammatische Beschreibungsform der Humangrammatik, die eine logische Analyse von Texten durch den Computer ermöglichen soll

  3. Entwicklungsgeschichte von LMT/PT Erste Ausarbeitungen zur Slot-Grammar ‘76-‘78 Erste Veröffentlichung von McCords Ausarbeitungen zur Slot-Grammar 1980 IBM greift McCords Ansätze auf und beginnt im Watson-Research-Center mit der Ausarbeitung eines Übersetzungssystems für das Sprachpaar Englisch-Deutsch als internationales Forschungsprojekt 1985 Erscheinen einer aktualisierten Version der Slot-Grammar, jetzt im Framework von LMT 1989 Veröffentlichung des Personal Translators als kostengünstige Home-User-Version auf Basis von LMT durch das Unternehmen Linguatec 1995

  4. Fakten zu LMT • Zunächst war die Software nur unter den Betriebssystemen OS/2, AiX und IBM-Unix lauffähig • Die Software wurde in Prolog, einer menschliche Logik nachahmende Programmiersprache, entwickelt • LMT ist ein BlackBox-System, das die internen Übersetzungsabläufe nicht offen legt • Es handelt sich um einen modularen und somit sprachunabhängigen Aufbau; neue Sprachen können leicht hinzugefügt werden • Komponenten von LMT sowie des PT sind: • die Shell (sprachunabhängiger Teil): das Steuerungsprogramm • spachabhängiger Teil • Grammatiken für Ausgangs- und Zielsprache • Lexika (Pons) • Die Slot-Grammar ist für Deutsch, Englisch und Dänisch verfügbar

  5. Wörterbücher und Lexika • Kleines Lexikon mit ca. 3.000 Einträgen für die am häufigsten gebrauchten englischen Wörter • Wörter, die dort nicht gefunden werden, stehen im UDICT Lex. (über 60.000 Lemmata) (jedes beliebige Wort kann innerhalb von 15 msek. abgerufen werden) • Im Systemlexikon ist enthalten: • Wortstämme (mit Angabe über Slots und Fillers, Transferbedingung, strukturelle Änderungen) • Eintragsform: WORT < wordframe(Info). z.B. give < v(obj.iobj).

  6. Fakten zum Personal Translator • Der Personal Translator ist eine „abgespeckte“ Version von LMT und hat somit einen verringerten Umfang • Durch den geringeren Umfang der Software wurde das Produkt auch auf Home-PCs lauffähig • Der Vertrieb und das Produktdesign wurde durch das Unternehmen Linguatec übernommen, IBM ist nach wie vor für die Entwicklung des Systems verantwortlich • Nach Erscheinen der ersten Version des PTs (1995), kam der Ernst-Klett-Verlag als Kooperationspartner hinzu, der sein lexikalisches Know-How zur Verfügung stellte • Es handelt sich um ein Transfersystem mit den 3 Stufen: • Analyse • Transfer • Generierung

  7. Die Slot-Grammar • Allgemeines: • Behandlung von Einzelsätzen • eine Ausnahme bildet die Anaphernauflösung • lexikalisch- und Dependenzen-orientiert • Begriffe der slot-grammar: • headword • wordframes • slots • slot-filler • slotframes • slot-rules

  8. Das „headword“ • Grundprinzip der Slot-Grammar: jeder Satz hat einen head (Kopf des Satzes) • Ausrichtung aller weiteren Wörter des Satzes ist relativ zum headword

  9. Das „wordframe“ • Ein wordframe besteht aus folgenden Elementen: • Wort • Wortnummer • Flexionsmerkmale • grammatische Kategorie der Wortart • mögliche slots im slotframe • slot-filler

  10. Die „slots“ • Definition eines slots: • slots sind mit syntaktischen Relationen beschriebene Leerstellen • slots sind funktionell vergleichbar mit: • Ergänzungen • Komplementen • Objekten • Attributen • slots sind Wörter, die eine bestimmte Position im wordframe einnehmen • In wordframes werden alle theoretisch möglichen Slots zu einem bestimmten Wort aufgelistet • Treffen zwei wordframes mit jeweils dem gleichen offenen slot aufeinander, werden sie zu einer Phrase kombiniert

  11. Die „slot-filler“ und „slotframes“ • slot-filler: • slot-filler sind Satzglieder, die zu dem jeweiligen slot angegeben werden • slotframes: • Wörter mit mehreren slots haben einen slotframe

  12. Der Übersetzungsprozess Wort- & Satzsegmentierung Morphologische Analyse Lexikalische Suche Syntaktische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L Semantische Analyse Lexikalischer Transfer Struktureller Transfer Morphologische Generierung S P R A C H A B H Ä N G I G E K O M P O N E N T E N

  13. Wort- und Satzsegmentierung Wort- & Satzsegmentierung Wort- & Satzsegmentierung • Zerlegung des Ausgangstextes in Segmente (meist Sätze) nach Regeln der Interpunktion • Zerlegung der Teilsätze in Wörter • Feststellen der Wortgrenzen (für z.B. Komposita) • Nummerierung der Wörter S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L S P R A C H A B H Ä N G I G E K O M P O N E N T E N

  14. AS-Analyse-Morphologie Morphologische Analyse Wort- & Satzsegmentierung • Reduktion der Wörter auf Stammformen durch Abtrennung von Affixen • Konsultation des Verzeichnisses der unregelmäßigen Formen • festgehalten wird: • lexikal. Info. zur Stammform • gram. Bedeutung der Flexionsform =>Ausgabe von wordframes Morphologische Analyse Morphologische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L S P R A C H A B H Ä N G I G E K O M P O N E N T E N

  15. AS-ZS-Lexikon Lexikalische Suche Wort- & Satzsegmentierung • Suche nach AS-ZS-Entsprechungen • lexikalisches Filtern: • Eliminierung von Mehrfach-bedeutungen • Eliminierung von gram. unmög-lichen Varianten => Ausgabe nur noch weniger oder eines wordframes pro Wort Morphologische Analyse Lexikalische Suche Lexikalische Suche S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L S P R A C H A B H Ä N G I G E K O M P O N E N T E N

  16. Ausgangssprachen-Analyse-Grammatik Syntaktische Analyse Wort- & Satzsegmentierung • Grammatische Analyse anhand von vier Grundregeln: • declaration of adjunct-slots • slot-filler-rules • slot-ordering-rules • obligatory-slot-rules Zu 1.: Es existieren zwei Haupt-slot-Arten: adjunct-&complement-slots • adjunct-slots • sind Wortart-typische slots • sind in der Grammatik verzeichnet • sind als „Anhänge“ definiert • sind immer optional • können beliebig oft gefüllt werden Zu 1.: Es existieren zwei Haupt-slot-Arten: adjunct-&complement-slots • complement-slots • sind Wort-typische Slots • sind im Lexikon verzeichnet • sind als „Ergänzungen“ definiert • sind nicht immer optional • können nur einmal gefüllt werden => Definition der möglichen slots Zu 2.: Es existieren zwei Hauptarten von slot-filler-rules: • complement-filler-rule • adjunct-filler-rule • geben Auskunft über slot-Inhalte, nicht über Phrasenpositionen => Generierung der Dependenzstruktur Zu 3.: Es existieren zwei Arten von slot-ordering-rules: • head/slot - ordering-rule • slot/slot - ordering-rule • geben Auskunft über relative Position von Wörtern (slots) zum Head-Word oder zu einem anderen slot => Generierung der Linearstruktur Zu 4.: obligatory-slot-rules • definiert slots als obligatorisch • diese slots müssen entweder direkt oder in einer vorgelagerten Position gefüllt werden • bedingt durch einen bestimmten slot kann ein anderer obligato-risch werden Schritte zum Ergebnis der synt.Analyse: • Erstellen der AS-und ZS-wordframes • Kombination der wordframes zu Sätzen (rekursiv) • wahrscheinlichkeitsorientierte Auswahl des Satzes (pruning) • :::> vollständiger Strukturbau mit Dependenzstruktur und linearen Beziehungen der Konstituenten Morphologische Analyse Lexikalische Suche Syntaktische Analyse Syntaktische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L S P R A C H A B H Ä N G I G E K O M P O N E N T E N

  17. Semantische Analyse Wort- & Satzsegmentierung • Semantische Analyse anhand von Anaphernbezügen • Anapher: • referentielle Verweisform • auf vorher Geäußertes verweisender sprachlicher Ausdruck (Rückwärtsverweisung) • durch Verweisung wird Kohäsion hergestellt • Beispiel: „... der Mann ... er ...“ Morphologische Analyse Lexikalische Suche Syntaktische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L Semantische Analyse Semantische Analyse S P R A C H A B H Ä N G I G E K O M P O N E N T E N

  18. AS-ZS-Lexikon Lexikalischer Transfer Wort- & Satzsegmentierung • Überführung des AS- in den ZS-Baum • Erzeugung der korrekten ZS-Wörter • Abspeicherung der benötigten Flexionsinformationen der ZS => Das Resultat ist keine korrekte Oberflächenstruktur Morphologische Analyse Lexikalische Suche Syntaktische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L Semantische Analyse Lexikalischer Transfer Lexikalischer Transfer S P R A C H A B H Ä N G I G E K O M P O N E N T E N

  19. AS-ZS-Transferregeln Struktureller Transfer Wort- & Satzsegmentierung • Umformen der AS-Syntax durch bestimmte ZS-Transformations-regeln • Umsetzung allgemeiner struktureller Unterschiede zwischen der AS und der ZS Morphologische Analyse Lexikalische Suche Syntaktische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L Semantische Analyse Lexikalischer Transfer Struktureller Transfer Struktureller Transfer S P R A C H A B H Ä N G I G E K O M P O N E N T E N

  20. ZS-Generierungs-Morphologie Morphologische Generierung Wort- & Satzsegmentierung • Zusammensetzung von z.B. Präfix und Wortstamm • Bildung von Flexionsendung • Linearisierung zu einer Zeichenkette • Überführung des Strukturbaumes in gültige Oberflächenstruktur Morphologische Analyse Lexikalische Suche Syntaktische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L Semantische Analyse Lexikalischer Transfer Struktureller Transfer Morphologische Generierung Morphologische Generierung S P R A C H A B H Ä N G I G E K O M P O N E N T E N

  21. Wort- & Satzsegmentierung Morphologische Analyse Lexikalische Suche Syntaktische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L Semantische Analyse Lexikalischer Transfer Struktureller Transfer Morphologische Generierung S P R A C H A B H Ä N G I G E K O M P O N E N T E N

  22. Systemkomponenten des PT 2002 • Systemlexikon [490.000 bis 620.000 Einträge] enthält das allgemeinsprachliche Vokabular und Fachterminologie aus 150 Sachgebieten es existiert ein Lexikon pro Sprachpaar: Quellsprache-/Transferlexikon • Benutzerlexikon [primär leer] • Satzarchive automatische Archivierung von Satzpaaren aus Quell- und Zielsprache können bei späteren Übersetzungen abgerufen und eingesetzt werden • Idiomatiklexikon [35.000 Redewendungen] wird nicht bei der automatischen Übersetzung verwendet (separat aktivierbar) • spezielle Fachwörterbücher nur in entsprechenden Versionen des PT vorhanden

  23. Literatur • Slot Grammar Michael McCord: A System for Simpler Construction of Practical Natural Language Grammars. Page 118-145 • LMT Michael McCord: Design of LMT: A Prolog-Based Maschine Translation System. In: Computational Linguistics, Volume 15, Number 1, March 1989, page 33-52. • Anaphora Resolution Michael McCord & Shalom Lappin (IBM): Anaphora Resolution in Slot Grammar. In: Computational Linguistics, Volume 16, Number 4, December 1990, page 197-212. • GMD Report 63 Alice Tschöke: Eine linguistische Evaluation der maschinellen Übersetzungssysteme T1 Professional 3.0 und PT Plus 98 anhand der Rohübersetzung von Nominalphrasen. GMD 1999, Seite 33-65

More Related