490 likes | 642 Views
Entwicklung und Einsatz von Lokalisierungswerkzeugen (Web-TCM) Informatik-, Computerlinguistik-, Fachsprachenkompetenz. Uta Seewald-Heeg „Interdisziplinäre Zusammenarbeit in der Medieninformatik“ Kolloquium zu Ehren von Prof. Dr.-Ing. Detlef Klöditz Köthen, 22. November 2001.
E N D
Entwicklung und Einsatz vonLokalisierungswerkzeugen(Web-TCM)Informatik-, Computerlinguistik-, Fachsprachenkompetenz Uta Seewald-Heeg „Interdisziplinäre Zusammenarbeit in der Medieninformatik“Kolloquium zu Ehren von Prof. Dr.-Ing. Detlef KlöditzKöthen, 22. November 2001
Entwicklung und Einsatz vonLokalisierungswerkzeugen • Lokalisierung • Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen • Kompetenzen beim Einsatz von Lokalisierungswerkzeugen • Entwicklung des LokalisierungswerkzeugsWeb-TCM • Resümee
Lokalisierung • Anpassung, d.h. Übersetzung eines Software-Produkts an einen lokalen Markt mit seinen sprachlichen und kulturellen Besonderheiten • Sprachliche und kulturelle Anpassung vonWeb-Seiten
Entwicklung und Einsatz vonLokalisierungswerkzeugen • Lokalisierung • Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen • Kompetenzen beim Einsatz von Lokalisierungswerkzeugen • Entwicklung des LokalisierungswerkzeugsWeb-TCM • Resümee
Kompetenzen bei derEntwicklung von Software und Lokalisierungswerkzeugen • Internationalisierung (I18N) • Globalisierung (G11N) • (Sprach-, Kultur- und Plattform-Unabhängigkeit von Produkten) • Lokalisierung (L10N)
Internationalisierung Bsp.: Sortierroutinen
Byte String Windows Codepage 1252 Windows Codepage 1253 Hex Dez (W. European) (Cyrillic) 0xD6 214 Ö Ц 0xFF 252 ü ь Codierungssysteme Codepages • Zuordnung von Byte-Werten auf Buchstaben eines Alphabets • Byte-Werte (auch: Code-Points) sind Indizes in einer Codepage • Bis zum Code 0x7F (127) werden Code-Points von allen Codepages auf die gleichen Buchstaben abgebildet (ASCII-7-Bit-Zeichensatz) • Unterscheidung in der Zuordnung der Buchstaben für Codes zwischen 0x80 (128) und 0xFF (255)
Locales(Variablen mit sprach- bzw. marktabhängig unterschiedlichen Werten) encoding: #UTF_8 catalog: #labels cacheSize: 113 Hardcopy = 'Print' Cancel = 'Cancel' Help = 'Help' tryAgain = 'Retry' Icon = 'Button' inspect = 'Inspect' Action = 'Switch Window' • Zeichenketten • Datumsformate • Kalender,Zeitformate • Währungsformate • Maßeinheiten • Grafiken • Farben • Schreibstile • Produktverpackung encoding: #UTF_8 catalog: #labels cacheSize: 113 Hardcopy = 'Drucken' Cancel = 'Abbruch' Help = 'Hilfe' tryAgain = 'Neuer Versuch' Icon = 'Ikone' inspect = 'Untersuchen' Action = 'Fenster umschalten' encoding: #UTF_8 catalog: #labels cacheSize: 113 Hardcopy = 'Печатать' Cancel = 'Прерывание' Help = 'Помощь' tryAgain = 'Новая попытка' Icon = 'Пиктограмма' inspect = 'Исследовать' Action = 'Окно переключить' VisualWorks 5.i
Datumsformate 22. November 2001 22.11.2001 22/11/2001 2001-11-22 11/22/2001 November 22, 2001 22 November 2001 22/11/2001 22 novembre 2001 Deutsch EU Amerikanisch Französisch
Entwicklung und Einsatz vonLokalisierungswerkzeugen • Lokalisierung • Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen • Kompetenzen beim Einsatz von Lokalisierungswerkzeugen • Entwicklung des LokalisierungswerkzeugsWeb-TCM • Resümee
Maschinelle Übersetzungssysteme Translation-Memory-Systeme Programme zur Bearbeitungvon Online-Hilfen Programme zur Lokalisierung von Software-Quelldateien Kompetenz beim Einsatz von Lokalisierungswerkzeugen
Kompetenz beim Einsatz von Lokalisierungswerkzeugen • Kulturkompetenz • Textsortenkompetenz • IT-Kompetenz
Kulturkompetenz Navigationsleiste „Laufschrift“von links nach rechts laufend Datumsangaben
Textsortenkompetenz • Textsorten • Handbücher • Online-Hilfe-Texte (i.d.R. HTML-Dateien) • Benutzerschnittstelle (Menüs, Benutzerdialoge, Schaltflächen, Fensterinhalte, Icons) • Fehlermeldungen • Schulungsmaterial • Lizenzverträge • Textsorteneigenschaften • Technische Realisierung, Formate
BenutzerschnittstelleInterne Repräsentation von Textelementen • Menü in einem Entsprechung in der QuelldateiWindows-Programm (Resource File) 6MENU FIXED IMPURE BEGIN POPUP "&DATEI" BEGIN MENUITEM "&NEU...\tSTRG+N" MENUITEM "Ö&ffnen...\tSTRG+O" MENUITEM "S&chließen" MENUITEM SEPARATOR MENUITEM "S&peichern\tSTRG+S" MENUITEM "&Speichern &unter..." MENUITEM "Als Websei&te speichern..." MENUITEM "Pac&k & Go..." MENUITEM SEPARATOR MENUITEM "&Webseitenvorschau" MENUITEM SEPARATOR MENUITEM "Seite einr&ichten"
IT-KompetenzAufbau und Funktionsweise von Lokalisierungswerkzeugen PASSOLO erkennt typische Lokalisierungs-fehler wie abgeschnittene Beschriftungen von Schaltflächen
Entwicklung und Einsatz vonLokalisierungswerkzeugen • Lokalisierung • Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen • Kompetenzen beim Einsatz von Lokalisierungswerkzeugen • Entwicklung des LokalisierungswerkzeugsWeb-TCM • Resümee
Web-TCM Entwicklung desLokalisierungswerkzeugsWeb-TCM • Web-TCM: Web Translation & Content Management • Kooperationsprojekt • Fachbereich Informatik der Hochschule Anhalt (Studiengang Fachübersetzen) • Firma Georg Heeg
Web-TCM Web Translation& Content Management • Web Translation • Lokalisieren, Übersetzen • Content Management • Verwalten von Inhalten bzw. Änderungen auf einer WWW-Seite (in einer beliebigen Sprache)
Web-TCM <!doctype ....> <html> <head> <title> Fachübersetzen</title> </head> <body> ... <body> </html> Fachübersetzen Segmentierung HTML-Seite mit Zugriffsfunktion über die Nummern der Textblöcke Extraktion derTextblöcke Nummerierung derTextblöcke 1 2 3 . . . . n Deutsch Fachübersetzen English Français Traduction specialisée Русский технический перевод Memory
Web-TCM Memory (TM) <!doctype ....> <html> <head> <title><%=tm at:2%></title> </head> <body> ... <body> </html> HTML-Seite mit Zugriffsfunktion über die Nummern der Textblöcke Sprachparameter (lang=de) in der URL de fr
Web-TCM <!doctype ....> <html> <head> <title>Fachübersetzen</title> </head> <body> <h1>Fachübersetzen</h1> <body> </html> <!doctype ....> <html> <head> <title>Traduction spécialisée</title> </head> <body> <h1>Traduction spécialisée</h1> <body> </html> Fachübersetzen Traduction spécialisée URL http://fue.htm?lang=de URL http://fue.htm?lang=fr Fachübersetzen Traduction spécialisée
Web-TCM Workfloweinsprachig → mehrsprachig • HTML-Dateien bereitstellen • HTML Tidy (www.w3.org) • HTML-Dateien in XHTML-Dateien konvertieren • Jede Datei beginnt mit einer DTD • Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br /> • Alle HTML-Bestandteile werden klein geschrieben. • Substitution bestimmter Tags, z.B. <b> <strong>
Web-TCM XHTML <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta name="generator" content="HTML Tidy, see www.w3.org" /> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <title>Fachübersetzen</title> </head> ...
Web-TCM Workfloweinsprachig → mehrsprachig • HTML-Dateien bereitstellen • HTML Tidy (www.w3w.org) • HTML-Dateien in XHTML-Dateien konvertieren • Jede Datei beginnt mit einer DTD • Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br /> • Alle HTML-Bestandteile werden klein geschrieben. • Substitution bestimmter Tags, z.B. <b> <strong> • Segmentierung der HTML-Dateien • *.htm (XHTML) • XML-Parser in Smalltalk (Parse-Tree) • Segmentierer in Smalltalk (Baumtransformation, TM-Segmente) • Generierung der ssp-Dateien (*.ssp) • Ablegen der AS-Segmente (hier: deutsch) in das TM
Web-TCM SSPSmalltalk Server Pages <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <%lang := request anyParameterValueAt: 'lang'. tm := Heeg.Translator.TM new: lang.%> <html> <head> <meta name="generator" content="HTML Tidy, see www.w3.org"/> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> <title> <%=tm at: 158%>
Web-TCM Workfloweinsprachig → mehrsprachig • HTML-Dateien bereitstellen • HTML Tidy (www.w3w.org) • HTML-Dateien in XHTML-Dateien konvertieren • Jede Datei beginnt mit einer DTD • Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br /> • Alle HTML-Bestandteile werden klein geschrieben. • Substitution bestimmter Tags, z.B. <b> <strong> • Segmentierung der HTML-Dateien • *.htm (XHTML) • XML-Parser in Smalltalk (Parse-Tree) • Segmentierer in Smalltalk (Baumtransformation, TM-Segmente) • Generierung der ssp-Dateien (*.ssp) • Ablegen der AS-Segmente (hier: deutsch) in das TM • Resegmentieren
Web-TCM Workfloweinsprachig → mehrsprachig • HTML-Dateien bereitstellen • HTML Tidy (www.w3w.org) • HTML-Dateien in XHTML-Dateien konvertieren • Jede Datei beginnt mit einer DTD • Jedes Tag muss beendet werden, z.B. <br></br>, kurz: </br> • Alle HTML-Bestandteile werden klein geschrieben. • Substitution bestimmter Tags, z.B. <b> <strong> • Segmentierung der HTML-Dateien • *.htm (XHTML) • XML-Parser in Smalltalk (Parse-Tree) • Segmentierer in Smalltalk (Baumtransformation, TM-Segmente) • Generierung der ssp-Dateien (*.ssp) • Ablegen der AS-Segmente (hier: deutsch) in das TM • Resegmentieren • Übersetzen • Translation Memory in allen Zielsprachen
Export in kommerzielle TM-SystemeTMX-Austauschformat <?xml version="1.0"?> <!DOCTYPE tmx PUBLIC "-//LISA OSCAR:1997//DTD for Translation Memory eXchange//EN" "http://www.lisa.org/tmx/tmx11.dtd"> <tmx version="1.1"> <header creationtool="Web-TCM" creationtoolversion="0.55" datatype="HTML" o-tmf="Web-TCM" segtype="sentence" adminlang="en-us" srclang="DE" o-encoding="utf-8"> </header> <body> <tu tuid="1"> <tuv lang="de"> <seg>Sprach- und Sachfachangebot</seg> </tuv> <tuv lang="en"> <seg>Languages and application domains</seg> </tuv> <tuv lang="fr"> <seg>Langues et disciplines spécialisées</seg> </tuv> <tuv lang="ru"> <seg>Языка и дисциплина</seg> </tuv> </tu> ... </body>
Web-TCM Entwicklungsaufwand • Zwei Arbeitswochen • Interaktive Weiterentwicklung während der Nutzung ROBUST
Web-TCMVergleich mit kommerziellen TM-basierten Lokalisierungswerkzeugen • Erstes Lokalisierungswerkzeug, das virtuelle Team-Arbeit real unterstütztBei verfügbaren kommerziellen Systemen müssen TMs importiert bzw. exportiert werden und erfordern immer einen Abgleich der TMs verschiedener Übersetzer • Passwort-geschützter Zugang • https (http mit Verschlüsselung) • Kombiniert Translation-Memory-Technologie mit Content-Management • Unterstützt Export in kommerzielle TM-Systeme(TMX-Austauschformat) • Unterstützt Export statischer Web-Seiten in allen verfügbaren Sprachen
Kompetenz für das Lokalisierungsprojektund den Einsatz von Web-TCMSprachdatenverarbeitung„Grundlagen der Lokalisierungstechnologie“ • Codierungssysteme • Lokalisierung von Schulungsmaterial (Text und Grafik) mit TM • Dynamische Web-Seiten, HTML, XML • Lokalisierungsprojekt: Web-Site-Lokalisierung (D E, F, R) • Projektorganisation • Projektmanager • Übersetzungsteams • „Proofreading”, Qualitätskontrolle • Arbeitsschritte • Extraktion von Textelementen aus Grafiken • Vorbereitung der Terminologie • Übersetzung der Webseiten • „Proofreading“ • Übergabe • Lokalisierungswerkzeug (Web-TCM) SS 2001
Entwicklung und Einsatz vonLokalisierungswerkzeugen • Lokalisierung • Kompetenzen bei der Entwicklung von Softwareund Lokalisierungswerkzeugen • Kompetenzen beim Einsatz von Lokalisierungswerkzeugen • Entwicklung des LokalisierungswerkzeugsWeb-TCM • Resümee
Resümee • Sowohl Entwicklung als auch Einsatz von Lokalisierungswerkzeugen erfordern Kompetenzen aus den drei Bereichen: • Informatik • Computerlinguistik • Sprachmittlung, Fachsprachen • Einrichtung der Vertiefungsrichtung „Softwarelokalisierung“ im Diplomstudiengang Fachübersetzen am Fachbereich Informatik trägt dieser Interdisziplinarität Rechnung • FB Informatik der HS Anhalt (FH) damit in der Hochschulausbildung wegweisend