230 likes | 444 Views
LMT und Personal Translator. Einführung. Der Personal Translator ist ein auf LMT basierendes Übersetzungsprogramm für den Home-PC LMT ( logic programming based maschine translation ) wurde von IBM auf Großrechnern entwickelt und basiert auf der von McCord begründeten Slot-Grammar
E N D
Einführung • Der Personal Translator ist ein auf LMT basierendes Übersetzungsprogramm für den Home-PC • LMT (logic programming based maschine translation) wurde von IBM auf Großrechnern entwickelt und basiert auf der von McCord begründeten Slot-Grammar • Die Slot-Grammar ist eine grammatische Beschreibungsform der Humangrammatik, die eine logische Analyse von Texten durch den Computer ermöglichen soll
Entwicklungsgeschichte von LMT/PT Erste Ausarbeitungen zur Slot-Grammar ‘76-‘78 Erste Veröffentlichung von McCords Ausarbeitungen zur Slot-Grammar 1980 IBM greift McCords Ansätze auf und beginnt im Watson-Research-Center mit der Ausarbeitung eines Übersetzungssystems für das Sprachpaar Englisch-Deutsch als internationales Forschungsprojekt 1985 Erscheinen einer aktualisierten Version der Slot-Grammar, jetzt im Framework von LMT 1989 Veröffentlichung des Personal Translators als kostengünstige Home-User-Version auf Basis von LMT durch das Unternehmen Linguatec 1995
Fakten zu LMT • Zunächst war die Software nur unter den Betriebssystemen OS/2, AiX und IBM-Unix lauffähig • Die Software wurde in Prolog, einer menschliche Logik nachahmende Programmiersprache, entwickelt • LMT ist ein BlackBox-System, das die internen Übersetzungsabläufe nicht offen legt • Es handelt sich um einen modularen und somit sprachunabhängigen Aufbau; neue Sprachen können leicht hinzugefügt werden • Komponenten von LMT sowie des PT sind: • die Shell (sprachunabhängiger Teil): das Steuerungsprogramm • spachabhängiger Teil • Grammatiken für Ausgangs- und Zielsprache • Lexika (Pons) • Die Slot-Grammar ist für Deutsch, Englisch und Dänisch verfügbar
Wörterbücher und Lexika • Kleines Lexikon mit ca. 3.000 Einträgen für die am häufigsten gebrauchten englischen Wörter • Wörter, die dort nicht gefunden werden, stehen im UDICT Lex. (über 60.000 Lemmata) (jedes beliebige Wort kann innerhalb von 15 msek. abgerufen werden) • Im Systemlexikon ist enthalten: • Wortstämme (mit Angabe über Slots und Fillers, Transferbedingung, strukturelle Änderungen) • Eintragsform: WORT < wordframe(Info). z.B. give < v(obj.iobj).
Fakten zum Personal Translator • Der Personal Translator ist eine „abgespeckte“ Version von LMT und hat somit einen verringerten Umfang • Durch den geringeren Umfang der Software wurde das Produkt auch auf Home-PCs lauffähig • Der Vertrieb und das Produktdesign wurde durch das Unternehmen Linguatec übernommen, IBM ist nach wie vor für die Entwicklung des Systems verantwortlich • Nach Erscheinen der ersten Version des PTs (1995), kam der Ernst-Klett-Verlag als Kooperationspartner hinzu, der sein lexikalisches Know-How zur Verfügung stellte • Es handelt sich um ein Transfersystem mit den 3 Stufen: • Analyse • Transfer • Generierung
Die Slot-Grammar • Allgemeines: • Behandlung von Einzelsätzen • eine Ausnahme bildet die Anaphernauflösung • lexikalisch- und Dependenzen-orientiert • Begriffe der slot-grammar: • headword • wordframes • slots • slot-filler • slotframes • slot-rules
Das „headword“ • Grundprinzip der Slot-Grammar: jeder Satz hat einen head (Kopf des Satzes) • Ausrichtung aller weiteren Wörter des Satzes ist relativ zum headword
Das „wordframe“ • Ein wordframe besteht aus folgenden Elementen: • Wort • Wortnummer • Flexionsmerkmale • grammatische Kategorie der Wortart • mögliche slots im slotframe • slot-filler
Die „slots“ • Definition eines slots: • slots sind mit syntaktischen Relationen beschriebene Leerstellen • slots sind funktionell vergleichbar mit: • Ergänzungen • Komplementen • Objekten • Attributen • slots sind Wörter, die eine bestimmte Position im wordframe einnehmen • In wordframes werden alle theoretisch möglichen Slots zu einem bestimmten Wort aufgelistet • Treffen zwei wordframes mit jeweils dem gleichen offenen slot aufeinander, werden sie zu einer Phrase kombiniert
Die „slot-filler“ und „slotframes“ • slot-filler: • slot-filler sind Satzglieder, die zu dem jeweiligen slot angegeben werden • slotframes: • Wörter mit mehreren slots haben einen slotframe
Der Übersetzungsprozess Wort- & Satzsegmentierung Morphologische Analyse Lexikalische Suche Syntaktische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L Semantische Analyse Lexikalischer Transfer Struktureller Transfer Morphologische Generierung S P R A C H A B H Ä N G I G E K O M P O N E N T E N
Wort- und Satzsegmentierung Wort- & Satzsegmentierung Wort- & Satzsegmentierung • Zerlegung des Ausgangstextes in Segmente (meist Sätze) nach Regeln der Interpunktion • Zerlegung der Teilsätze in Wörter • Feststellen der Wortgrenzen (für z.B. Komposita) • Nummerierung der Wörter S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L S P R A C H A B H Ä N G I G E K O M P O N E N T E N
AS-Analyse-Morphologie Morphologische Analyse Wort- & Satzsegmentierung • Reduktion der Wörter auf Stammformen durch Abtrennung von Affixen • Konsultation des Verzeichnisses der unregelmäßigen Formen • festgehalten wird: • lexikal. Info. zur Stammform • gram. Bedeutung der Flexionsform =>Ausgabe von wordframes Morphologische Analyse Morphologische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L S P R A C H A B H Ä N G I G E K O M P O N E N T E N
AS-ZS-Lexikon Lexikalische Suche Wort- & Satzsegmentierung • Suche nach AS-ZS-Entsprechungen • lexikalisches Filtern: • Eliminierung von Mehrfach-bedeutungen • Eliminierung von gram. unmög-lichen Varianten => Ausgabe nur noch weniger oder eines wordframes pro Wort Morphologische Analyse Lexikalische Suche Lexikalische Suche S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L S P R A C H A B H Ä N G I G E K O M P O N E N T E N
Ausgangssprachen-Analyse-Grammatik Syntaktische Analyse Wort- & Satzsegmentierung • Grammatische Analyse anhand von vier Grundregeln: • declaration of adjunct-slots • slot-filler-rules • slot-ordering-rules • obligatory-slot-rules Zu 1.: Es existieren zwei Haupt-slot-Arten: adjunct-&complement-slots • adjunct-slots • sind Wortart-typische slots • sind in der Grammatik verzeichnet • sind als „Anhänge“ definiert • sind immer optional • können beliebig oft gefüllt werden Zu 1.: Es existieren zwei Haupt-slot-Arten: adjunct-&complement-slots • complement-slots • sind Wort-typische Slots • sind im Lexikon verzeichnet • sind als „Ergänzungen“ definiert • sind nicht immer optional • können nur einmal gefüllt werden => Definition der möglichen slots Zu 2.: Es existieren zwei Hauptarten von slot-filler-rules: • complement-filler-rule • adjunct-filler-rule • geben Auskunft über slot-Inhalte, nicht über Phrasenpositionen => Generierung der Dependenzstruktur Zu 3.: Es existieren zwei Arten von slot-ordering-rules: • head/slot - ordering-rule • slot/slot - ordering-rule • geben Auskunft über relative Position von Wörtern (slots) zum Head-Word oder zu einem anderen slot => Generierung der Linearstruktur Zu 4.: obligatory-slot-rules • definiert slots als obligatorisch • diese slots müssen entweder direkt oder in einer vorgelagerten Position gefüllt werden • bedingt durch einen bestimmten slot kann ein anderer obligato-risch werden Schritte zum Ergebnis der synt.Analyse: • Erstellen der AS-und ZS-wordframes • Kombination der wordframes zu Sätzen (rekursiv) • wahrscheinlichkeitsorientierte Auswahl des Satzes (pruning) • :::> vollständiger Strukturbau mit Dependenzstruktur und linearen Beziehungen der Konstituenten Morphologische Analyse Lexikalische Suche Syntaktische Analyse Syntaktische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L S P R A C H A B H Ä N G I G E K O M P O N E N T E N
Semantische Analyse Wort- & Satzsegmentierung • Semantische Analyse anhand von Anaphernbezügen • Anapher: • referentielle Verweisform • auf vorher Geäußertes verweisender sprachlicher Ausdruck (Rückwärtsverweisung) • durch Verweisung wird Kohäsion hergestellt • Beispiel: „... der Mann ... er ...“ Morphologische Analyse Lexikalische Suche Syntaktische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L Semantische Analyse Semantische Analyse S P R A C H A B H Ä N G I G E K O M P O N E N T E N
AS-ZS-Lexikon Lexikalischer Transfer Wort- & Satzsegmentierung • Überführung des AS- in den ZS-Baum • Erzeugung der korrekten ZS-Wörter • Abspeicherung der benötigten Flexionsinformationen der ZS => Das Resultat ist keine korrekte Oberflächenstruktur Morphologische Analyse Lexikalische Suche Syntaktische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L Semantische Analyse Lexikalischer Transfer Lexikalischer Transfer S P R A C H A B H Ä N G I G E K O M P O N E N T E N
AS-ZS-Transferregeln Struktureller Transfer Wort- & Satzsegmentierung • Umformen der AS-Syntax durch bestimmte ZS-Transformations-regeln • Umsetzung allgemeiner struktureller Unterschiede zwischen der AS und der ZS Morphologische Analyse Lexikalische Suche Syntaktische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L Semantische Analyse Lexikalischer Transfer Struktureller Transfer Struktureller Transfer S P R A C H A B H Ä N G I G E K O M P O N E N T E N
ZS-Generierungs-Morphologie Morphologische Generierung Wort- & Satzsegmentierung • Zusammensetzung von z.B. Präfix und Wortstamm • Bildung von Flexionsendung • Linearisierung zu einer Zeichenkette • Überführung des Strukturbaumes in gültige Oberflächenstruktur Morphologische Analyse Lexikalische Suche Syntaktische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L Semantische Analyse Lexikalischer Transfer Struktureller Transfer Morphologische Generierung Morphologische Generierung S P R A C H A B H Ä N G I G E K O M P O N E N T E N
Wort- & Satzsegmentierung Morphologische Analyse Lexikalische Suche Syntaktische Analyse S P R A C H U N A B H Ä N G I G E , M O D U L A R E S H E L L Semantische Analyse Lexikalischer Transfer Struktureller Transfer Morphologische Generierung S P R A C H A B H Ä N G I G E K O M P O N E N T E N
Systemkomponenten des PT 2002 • Systemlexikon [490.000 bis 620.000 Einträge] enthält das allgemeinsprachliche Vokabular und Fachterminologie aus 150 Sachgebieten es existiert ein Lexikon pro Sprachpaar: Quellsprache-/Transferlexikon • Benutzerlexikon [primär leer] • Satzarchive automatische Archivierung von Satzpaaren aus Quell- und Zielsprache können bei späteren Übersetzungen abgerufen und eingesetzt werden • Idiomatiklexikon [35.000 Redewendungen] wird nicht bei der automatischen Übersetzung verwendet (separat aktivierbar) • spezielle Fachwörterbücher nur in entsprechenden Versionen des PT vorhanden
Literatur • Slot Grammar Michael McCord: A System for Simpler Construction of Practical Natural Language Grammars. Page 118-145 • LMT Michael McCord: Design of LMT: A Prolog-Based Maschine Translation System. In: Computational Linguistics, Volume 15, Number 1, March 1989, page 33-52. • Anaphora Resolution Michael McCord & Shalom Lappin (IBM): Anaphora Resolution in Slot Grammar. In: Computational Linguistics, Volume 16, Number 4, December 1990, page 197-212. • GMD Report 63 Alice Tschöke: Eine linguistische Evaluation der maschinellen Übersetzungssysteme T1 Professional 3.0 und PT Plus 98 anhand der Rohübersetzung von Nominalphrasen. GMD 1999, Seite 33-65