1 / 28

Detlef Reineke Universidad de Las Palmas de Gran Canaria

MARTIF und TBX Austauschformate für Terminologie. 2. Kölner Tagung “ Softwarelokalisierung” IIM der FH Köln, 11.-12.03.2005. Detlef Reineke Universidad de Las Palmas de Gran Canaria. Übersicht. Vorteile standardisierter Terminologieaustauschformate Kurzer Rückblick

dextra
Télécharger la présentation

Detlef Reineke Universidad de Las Palmas de Gran Canaria

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung “Softwarelokalisierung” IIM der FH Köln, 11.-12.03.2005 Detlef Reineke Universidad de Las Palmas de Gran Canaria

  2. Übersicht • Vorteile standardisierter Terminologieaustauschformate • Kurzer Rückblick • MARTIF (Machine-readable terminology interchange format) • TBX (TermBase eXchange Format) • Datenmodellierung und –austausch in Trados MultiTerm • Ausblick Detlef Reineke

  3. Vorteile von Austauschstandards • Minimierung kostspieliger Redundanzen • Systemunabhängige Erarbeitung und Vertrieb (Anbieter) • Angebotserweiterung (Kunde) • Konzentration auf Werkzeugoptimierung • 10 Formate = 180 Konvertierungen • 100 Formate = 19.800 Konvertierungen • 1 Update 10 Formate = 540 Konvertierungen • 1 Update 100 Formate = 59.400 Konvertierungen • 1 Standardaustauschformat = 20 bzw. 200 Konvertierungen Detlef Reineke

  4. Kurzer Rückblick • MATER (Magnetic Tape Exchange Format for Terminological/Lexicographical Records = ISO 6156:1986) • Standard für Datenaustausch zwischen Großrechnern • 9-Spur Magnetband • Feste Datenstruktur • Integration terminologischer UND lexikographischer Daten • MicroMATER • flexibles Format für den Datenaustausch zwischen Großrechnern, Rechnern der mittleren Datentechnik und Microcomputern (Datenkategorien und –länge flexible) Detlef Reineke

  5. Kurzer Rückblick • TEI (Text Encoding Initiative) • Format für Auszeichnung und den Austausch von Texten • Zunächst SGML-basiert (Standard Generalized Markup Language) • inzwischen XML-basiert (eXtensible Markup Language) • TEI.terminology • TEI  ISO Detlef Reineke

  6. MARTIF (ISO 12200:1999) • Machine-readable terminology interchange format • ISO Technical Committee 37 (Terminology - principles and coordination), Sub-Committee 3 (Computer applications for terminology), Working Group 3 (Data interchange) • Text Encoding Initiative (TEI) und LISA (Localisation Industry Standards Association) • SGML (Standard Generalized Markup Language = ISO 8879) • ISO 649 (7-Bit Zeichensatz = 126 Zeichen) • ISO 12620 (1999): “Computer applications in terminology – Data categories” Detlef Reineke

  7. MARTIF • Grundstruktur I. Prolog II. Document instance (<martif lang=en>) A. header (<martifHeader>) B. text 1. front (optional) 2. body a. 1st terminological entry <termEntry> (minimum of one) b. 2nd terminological entry <termEntry> c. etc. (additional terminological entries) 3. back (optional) (ISO 12200:25) Detlef Reineke

  8. MARTIF • DTD (Document Type Definition) • Definition der Dokumentstruktur (Elemente, Attribute und Beziehungen) • Instrument zur Validierung des MARTIF-Dokuments I. Prolog <!DOCTYPE martif PUBLIC “ISO 12200:1999//DTD for MARTIF (framework/ //EN” [ (Definition der Gesamtstruktur: martifHeader, text, front, body, back, …) <!ENTITY % mtf-body “ISO 12200:1999//DTD for MARTIF (body //EN” > (Definition der Eintragsstruktur: termEntry, langSet, ntig, termGrp, …) <!ENTITY % mtf-ents “ISO 12200:1999//ENTITIES for MARTIF (sets //EN” > ] > (Zeichendefinition) II. Document instance … Detlef Reineke

  9. MARTIF • DTD (Document Type Definition) <!ELEMENT text - - (front?, body, back?) > <!ENTITY % AuxInfo ‘descrip │ descripGrp │ admin │ adminGrp │ ptr │ ref │ date │ note’ > <!ELEMENT body - - (termEntry+) > <!ELEMENT termEntry - - ((%AuxInfo;) *, (langSet │ tig │ ntig) +) > <!ATTLIST target IDREF #IMPLIED > Detlef Reineke

  10. MARTIF • Dokumentinstanz <martif lang=en> <martifHeader>… (Angaben zum gesamten Datenbestand) </martifHeader> <text> <body>… (terminologische Einträge) </body> <back>… (bibliographische Daten) … (Verweise auf externes Referenzmaterial <xref>) </back> </text> </martif> (ISO 12200:25) Detlef Reineke

  11. MARTIF • Darstellung der Datenkategorien • Obergruppen von Datenkategorien <termEntry>, <langSet>, <tig> bzw. <ntig>, <termGrp> <descrip>, <admin>, <termNote>, etc. tig = term information group, ntig = nested term information group • Instantiierung der Datenkategorien mittels type-Attribut <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <termNote type=‘termType’>synonym</termNote> Detlef Reineke

  12. MARTIF • Datenkategorien und Datenelemente subject field: Materialbeschaffenheit term: Opazität part of speech: Substantiv grammatical gender: f definition: Maß für Lichtundurchlässigkeit source: DIN 6370:1996-05, S. 383 Detlef Reineke

  13. MARTIF • Terminologischer Eintrag <martif lang=en><martifHeader>… </martifHeader> <text><body> <termEntry id=‘ID0000073578’ <descrip type=’subjectField’>Materialbeschaffenheit</descrip> <langSet lang=de> <ntig><termGrp> <term>Opazit&auml;t</term> <termNote type=‘partOfSpeech’>Substantiv</termNote> <termNote type=‘grammaticalGender’>f</termNote> <descripGrp> <descrip type=‘definition’>Ma&szlig; f&uuml;r die Lichtundurchl&auml;ssigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry> </body></text> </martif> Detlef Reineke

  14. MARTIF • Terminologischer Eintrag - Querverweis … <ntig><termGrp> <term>Opazit&auml;t</term> … <descripGrp> <descrip type=‘definition’>Ma&szlig; f&uuml;r die Lichtundurchl&auml;ssigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry> </body> <back> <refObjectList type=‘bibl’> <refObject> <item id=‘DIN-6370.1996-05’> <xref target=‘c:\bibl\normen\DIN-6370\DIN-6370-1996-05.doc</xref> </item></refObject></refObjectList></text></martif> Detlef Reineke

  15. MARTIF • “Blind interchange” (Teil 2) • Verlustfreier Austausch terminologischer Daten ohne Absprache • Umstellung auf XML (Unicode, Darstellung in HTML-Umgebung) • Eindeutige Untermenge an Datenkategorien und Inhalten (ISO 12620) • XML-Parser und Validierungswerkzeug für Überprüfung der Datenkategorie-Inhalte negotiated interchangeblind interchange noun, n., sub, Substantivn Detlef Reineke

  16. TBX • TermBase eXchange Format • OSCAR-Gruppe (Open Standards for Container/Content Allowing Re-user group) der LISA (Localisation Industry Standards Assocation) • SALT-Projekt (Standards-based Access Service to Multilingual Lexicons and Terminologies) • ISO 16642 (2003): “Computer applications in terminology – Terminological markup framework (TMF)” - Regeln für die Spezifikation terminologischer Markup-Sprachen (TML) • MSC (MARTIF with Specified Constraints) = Blind MARTIF Detlef Reineke

  17. Terminological Data Collection (TDC) Global Information (GI) Complementary Information (CI) * Terminological Entry (TE) * Language Section (LS) * Term Section (TS) * Term Component Section (TCS) TBX • Metamodell (ISO 16642:18) Detlef Reineke

  18. TBX • Angaben zum Gesamtbestand der terminologischen Datenbank ? = kann max. einmal vorkommen + = kommt min. einmal vor (LISA 2002:11) <?xml version='1.0'?> <!DOCTYPE martif SYSTEM "./TBXcoreStructureDTD-v-1-0.DTD"> <martif type='TBX' xml:lang='en' > <martifHeader>… </martifHeader> <text> <body> ... Detlef Reineke

  19. TBX • Eintragsebene ? = kann max. einmal vorkommen + = kommt min. einmal vor (LISA 2002:12) Detlef Reineke

  20. TBX • Terminologischer Eintrag <?xml version='1.0'?> <!DOCTYPE martif SYSTEM "./TBXcoreStructureDTD-v-1-0.DTD"> <martif type='TBX' xml:lang='en' > <martifHeader>…</martifHeader> <text><body> <termEntry id=‘ID0000073578’ <descrip type=’subjectField’>Materialbeschaffenheit</descrip> <langSet lang=de> <ntig><termGrp> <term>Opazität</term> <termNote type=‘partOfSpeech’>Substantiv</termNote> <termNote type=‘grammaticalGender’>f</termNote> <descripGrp> <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry> </body></text> </martif> Detlef Reineke

  21. TBX • DTD • Rudimentäre Typendefinition • Keine XML-Auszeichnung • Keine Definition von Namensräumen möglich • Keine Definition fester Wertemengen von Datenkategorien möglich • Empfehlung: XML Schema Detlef Reineke

  22. Trados MultiTerm • ≦ MultiTerm 5.5 ** <Subject field>Materialbeschaffenheit <de>Opazität <Part of speech>Substantiv <Grammatical gender>f <Definition>Maß für die Lichtundurchlässigkeit <Source> ^DIN 6370:1996-05^, S. 383 … <en> Opacity Detlef Reineke

  23. Trados MultiTerm • ≦ MultiTerm 5.5 • Flach strukturiertes Exportformat • Keine Zuordnung zu Metamodell bzw. Metadatenkategorien • Beziehungen zwischen den Datenkategorien nicht explizit • Sprach- (langSet) und Termkomponentenebene (termCompList) nicht adäquat darstellbar • Eingeschränkte Zuordnungsmöglichkeit von Attributfeldern • Umständliche Konvertierung über Exportschnittstelle bzw. Zwischenformat Detlef Reineke

  24. Trados MultiTerm • MultiTerm iX <?xml version="1.0" encoding="UTF-16" ?> -<mtf> -<conceptGrp>… -<descripGrp> <descrip type=“subject field”>Materialbeschaffenheit</descrip> <descripGrp> -<languageGrp> <language type=“Deutsch”/> -<termGrp> <term>Opazität</term> -<descripGrp> <descrip type=“part of speech”>Substantiv</descrip> <descripGrp> -<descripGrp> <descrip type=“grammatical gender”>f</descrip> <descripGrp> … Detlef Reineke

  25. Trados MultiTerm • MultiTerm iX Detlef Reineke

  26. TBX vs. MultiTerm iX • Metadatenkategorien MultiTerm iX TBX <mtf> <martif> <conceptGrp> <termEntry> <languageGrp> nicht vorhanden <language> <langSet> nicht vorhanden <ntig>, <tig> <descrip>* <termNote>* * Bezeichnungsebene Detlef Reineke

  27. Fazit • Geringe Implementierung TBX vs. Akzeptanz XLIFF/TMX • TBX-ähnliches Format bisher nur in Trados MultiTerm iX, SGML-basiertes Format in STAR Termbase • Schnittstellen zu OLIF2, TMX, XLIFF • Offene Detaills (z.B. Standardzeichenkodierung, Binärdateien) • Feinere Datenkategorien (ISO 12620) • Umstellung auf Standardformate erfordert Zeit, Geld und Fachwissen • Anpassung der Hochschulstudiengänge (Bologna-Erklärung) Detlef Reineke

  28. Vielen Dank für Ihre Aufmerksamkeit. Dr. Detlef Reineke Universidad de Las Palmas de Gran Canaria Facultad de Traducción e Interpretación C/ Pérez del Toro, 1 35003 Las Palmas de Gran Canaria www.personales.ulpgc.es/dreineke/dfm dreineke@dfm.ulpgc.es

More Related