280 likes | 553 Views
MARTIF und TBX Austauschformate für Terminologie. 2. Kölner Tagung “ Softwarelokalisierung” IIM der FH Köln, 11.-12.03.2005. Detlef Reineke Universidad de Las Palmas de Gran Canaria. Übersicht. Vorteile standardisierter Terminologieaustauschformate Kurzer Rückblick
E N D
MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung “Softwarelokalisierung” IIM der FH Köln, 11.-12.03.2005 Detlef Reineke Universidad de Las Palmas de Gran Canaria
Übersicht • Vorteile standardisierter Terminologieaustauschformate • Kurzer Rückblick • MARTIF (Machine-readable terminology interchange format) • TBX (TermBase eXchange Format) • Datenmodellierung und –austausch in Trados MultiTerm • Ausblick Detlef Reineke
Vorteile von Austauschstandards • Minimierung kostspieliger Redundanzen • Systemunabhängige Erarbeitung und Vertrieb (Anbieter) • Angebotserweiterung (Kunde) • Konzentration auf Werkzeugoptimierung • 10 Formate = 180 Konvertierungen • 100 Formate = 19.800 Konvertierungen • 1 Update 10 Formate = 540 Konvertierungen • 1 Update 100 Formate = 59.400 Konvertierungen • 1 Standardaustauschformat = 20 bzw. 200 Konvertierungen Detlef Reineke
Kurzer Rückblick • MATER (Magnetic Tape Exchange Format for Terminological/Lexicographical Records = ISO 6156:1986) • Standard für Datenaustausch zwischen Großrechnern • 9-Spur Magnetband • Feste Datenstruktur • Integration terminologischer UND lexikographischer Daten • MicroMATER • flexibles Format für den Datenaustausch zwischen Großrechnern, Rechnern der mittleren Datentechnik und Microcomputern (Datenkategorien und –länge flexible) Detlef Reineke
Kurzer Rückblick • TEI (Text Encoding Initiative) • Format für Auszeichnung und den Austausch von Texten • Zunächst SGML-basiert (Standard Generalized Markup Language) • inzwischen XML-basiert (eXtensible Markup Language) • TEI.terminology • TEI ISO Detlef Reineke
MARTIF (ISO 12200:1999) • Machine-readable terminology interchange format • ISO Technical Committee 37 (Terminology - principles and coordination), Sub-Committee 3 (Computer applications for terminology), Working Group 3 (Data interchange) • Text Encoding Initiative (TEI) und LISA (Localisation Industry Standards Association) • SGML (Standard Generalized Markup Language = ISO 8879) • ISO 649 (7-Bit Zeichensatz = 126 Zeichen) • ISO 12620 (1999): “Computer applications in terminology – Data categories” Detlef Reineke
MARTIF • Grundstruktur I. Prolog II. Document instance (<martif lang=en>) A. header (<martifHeader>) B. text 1. front (optional) 2. body a. 1st terminological entry <termEntry> (minimum of one) b. 2nd terminological entry <termEntry> c. etc. (additional terminological entries) 3. back (optional) (ISO 12200:25) Detlef Reineke
MARTIF • DTD (Document Type Definition) • Definition der Dokumentstruktur (Elemente, Attribute und Beziehungen) • Instrument zur Validierung des MARTIF-Dokuments I. Prolog <!DOCTYPE martif PUBLIC “ISO 12200:1999//DTD for MARTIF (framework/ //EN” [ (Definition der Gesamtstruktur: martifHeader, text, front, body, back, …) <!ENTITY % mtf-body “ISO 12200:1999//DTD for MARTIF (body //EN” > (Definition der Eintragsstruktur: termEntry, langSet, ntig, termGrp, …) <!ENTITY % mtf-ents “ISO 12200:1999//ENTITIES for MARTIF (sets //EN” > ] > (Zeichendefinition) II. Document instance … Detlef Reineke
MARTIF • DTD (Document Type Definition) <!ELEMENT text - - (front?, body, back?) > <!ENTITY % AuxInfo ‘descrip │ descripGrp │ admin │ adminGrp │ ptr │ ref │ date │ note’ > <!ELEMENT body - - (termEntry+) > <!ELEMENT termEntry - - ((%AuxInfo;) *, (langSet │ tig │ ntig) +) > <!ATTLIST target IDREF #IMPLIED > Detlef Reineke
MARTIF • Dokumentinstanz <martif lang=en> <martifHeader>… (Angaben zum gesamten Datenbestand) </martifHeader> <text> <body>… (terminologische Einträge) </body> <back>… (bibliographische Daten) … (Verweise auf externes Referenzmaterial <xref>) </back> </text> </martif> (ISO 12200:25) Detlef Reineke
MARTIF • Darstellung der Datenkategorien • Obergruppen von Datenkategorien <termEntry>, <langSet>, <tig> bzw. <ntig>, <termGrp> <descrip>, <admin>, <termNote>, etc. tig = term information group, ntig = nested term information group • Instantiierung der Datenkategorien mittels type-Attribut <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <termNote type=‘termType’>synonym</termNote> Detlef Reineke
MARTIF • Datenkategorien und Datenelemente subject field: Materialbeschaffenheit term: Opazität part of speech: Substantiv grammatical gender: f definition: Maß für Lichtundurchlässigkeit source: DIN 6370:1996-05, S. 383 Detlef Reineke
MARTIF • Terminologischer Eintrag <martif lang=en><martifHeader>… </martifHeader> <text><body> <termEntry id=‘ID0000073578’ <descrip type=’subjectField’>Materialbeschaffenheit</descrip> <langSet lang=de> <ntig><termGrp> <term>Opazität</term> <termNote type=‘partOfSpeech’>Substantiv</termNote> <termNote type=‘grammaticalGender’>f</termNote> <descripGrp> <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry> </body></text> </martif> Detlef Reineke
MARTIF • Terminologischer Eintrag - Querverweis … <ntig><termGrp> <term>Opazität</term> … <descripGrp> <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry> </body> <back> <refObjectList type=‘bibl’> <refObject> <item id=‘DIN-6370.1996-05’> <xref target=‘c:\bibl\normen\DIN-6370\DIN-6370-1996-05.doc</xref> </item></refObject></refObjectList></text></martif> Detlef Reineke
MARTIF • “Blind interchange” (Teil 2) • Verlustfreier Austausch terminologischer Daten ohne Absprache • Umstellung auf XML (Unicode, Darstellung in HTML-Umgebung) • Eindeutige Untermenge an Datenkategorien und Inhalten (ISO 12620) • XML-Parser und Validierungswerkzeug für Überprüfung der Datenkategorie-Inhalte negotiated interchangeblind interchange noun, n., sub, Substantivn Detlef Reineke
TBX • TermBase eXchange Format • OSCAR-Gruppe (Open Standards for Container/Content Allowing Re-user group) der LISA (Localisation Industry Standards Assocation) • SALT-Projekt (Standards-based Access Service to Multilingual Lexicons and Terminologies) • ISO 16642 (2003): “Computer applications in terminology – Terminological markup framework (TMF)” - Regeln für die Spezifikation terminologischer Markup-Sprachen (TML) • MSC (MARTIF with Specified Constraints) = Blind MARTIF Detlef Reineke
Terminological Data Collection (TDC) Global Information (GI) Complementary Information (CI) * Terminological Entry (TE) * Language Section (LS) * Term Section (TS) * Term Component Section (TCS) TBX • Metamodell (ISO 16642:18) Detlef Reineke
TBX • Angaben zum Gesamtbestand der terminologischen Datenbank ? = kann max. einmal vorkommen + = kommt min. einmal vor (LISA 2002:11) <?xml version='1.0'?> <!DOCTYPE martif SYSTEM "./TBXcoreStructureDTD-v-1-0.DTD"> <martif type='TBX' xml:lang='en' > <martifHeader>… </martifHeader> <text> <body> ... Detlef Reineke
TBX • Eintragsebene ? = kann max. einmal vorkommen + = kommt min. einmal vor (LISA 2002:12) Detlef Reineke
TBX • Terminologischer Eintrag <?xml version='1.0'?> <!DOCTYPE martif SYSTEM "./TBXcoreStructureDTD-v-1-0.DTD"> <martif type='TBX' xml:lang='en' > <martifHeader>…</martifHeader> <text><body> <termEntry id=‘ID0000073578’ <descrip type=’subjectField’>Materialbeschaffenheit</descrip> <langSet lang=de> <ntig><termGrp> <term>Opazität</term> <termNote type=‘partOfSpeech’>Substantiv</termNote> <termNote type=‘grammaticalGender’>f</termNote> <descripGrp> <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry> </body></text> </martif> Detlef Reineke
TBX • DTD • Rudimentäre Typendefinition • Keine XML-Auszeichnung • Keine Definition von Namensräumen möglich • Keine Definition fester Wertemengen von Datenkategorien möglich • Empfehlung: XML Schema Detlef Reineke
Trados MultiTerm • ≦ MultiTerm 5.5 ** <Subject field>Materialbeschaffenheit <de>Opazität <Part of speech>Substantiv <Grammatical gender>f <Definition>Maß für die Lichtundurchlässigkeit <Source> ^DIN 6370:1996-05^, S. 383 … <en> Opacity Detlef Reineke
Trados MultiTerm • ≦ MultiTerm 5.5 • Flach strukturiertes Exportformat • Keine Zuordnung zu Metamodell bzw. Metadatenkategorien • Beziehungen zwischen den Datenkategorien nicht explizit • Sprach- (langSet) und Termkomponentenebene (termCompList) nicht adäquat darstellbar • Eingeschränkte Zuordnungsmöglichkeit von Attributfeldern • Umständliche Konvertierung über Exportschnittstelle bzw. Zwischenformat Detlef Reineke
Trados MultiTerm • MultiTerm iX <?xml version="1.0" encoding="UTF-16" ?> -<mtf> -<conceptGrp>… -<descripGrp> <descrip type=“subject field”>Materialbeschaffenheit</descrip> <descripGrp> -<languageGrp> <language type=“Deutsch”/> -<termGrp> <term>Opazität</term> -<descripGrp> <descrip type=“part of speech”>Substantiv</descrip> <descripGrp> -<descripGrp> <descrip type=“grammatical gender”>f</descrip> <descripGrp> … Detlef Reineke
Trados MultiTerm • MultiTerm iX Detlef Reineke
TBX vs. MultiTerm iX • Metadatenkategorien MultiTerm iX TBX <mtf> <martif> <conceptGrp> <termEntry> <languageGrp> nicht vorhanden <language> <langSet> nicht vorhanden <ntig>, <tig> <descrip>* <termNote>* * Bezeichnungsebene Detlef Reineke
Fazit • Geringe Implementierung TBX vs. Akzeptanz XLIFF/TMX • TBX-ähnliches Format bisher nur in Trados MultiTerm iX, SGML-basiertes Format in STAR Termbase • Schnittstellen zu OLIF2, TMX, XLIFF • Offene Detaills (z.B. Standardzeichenkodierung, Binärdateien) • Feinere Datenkategorien (ISO 12620) • Umstellung auf Standardformate erfordert Zeit, Geld und Fachwissen • Anpassung der Hochschulstudiengänge (Bologna-Erklärung) Detlef Reineke
Vielen Dank für Ihre Aufmerksamkeit. Dr. Detlef Reineke Universidad de Las Palmas de Gran Canaria Facultad de Traducción e Interpretación C/ Pérez del Toro, 1 35003 Las Palmas de Gran Canaria www.personales.ulpgc.es/dreineke/dfm dreineke@dfm.ulpgc.es