340 likes | 435 Views
Computerlinguistik. 7. Vorlesung (26.11.2009). apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de. Computerlinguistik. Inhalt der Vorlesung. Einführung Methoden Parsing Tagging Ontologien
E N D
Computerlinguistik 7. Vorlesung (26.11.2009) apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de
Computerlinguistik Inhalt der Vorlesung Einführung Methoden Parsing Tagging Ontologien Anwendungen Maschinelle Übersetzung Informationsextraktion Textanalyse Gesamtsystem
Computerlinguistik Maschinelle Übersetzung Bei der maschinellen Übersetzung unterscheiden wir • (ältere) regelbasierte Verfahren, • (neuere) statistikbasierte Verfahren und • (noch neuere) hybride Verfahren.
Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren Wiederholung: Bei den regelbasierten Verfahren betrachten wir das so genannte Vauquois-Dreieck. Ausgangssprache/ Quellsprache (SL) Zielsprache (TL)
Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren In the end, Tyrion chose a cask … In die Ende, Tyrion wählte(n) ein Fass … Eine „direkte Übersetzung ist eine „Wort für Wort“-Übersetzung. Ausgangssprache/ Quellsprache (SL) direkte Übersetzung Zielsprache (TL)
Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren In the end, Tyrion chose a cask … In dem Ende, Tyrion wählte ein Fass … In besseren „direkten“ Systemen ist eine morphologische Komponente enthalten. Ausgangssprache/ Quellsprache (SL) direkte Übersetzung Zielsprache (TL)
Computerlinguistik Maschinelle Übersetzung: direkte Übersetzung • Bei der direkten Übersetzung gibt es zwei offensichtliche Probleme: • Die Wortstellung des Ergebnisses entspricht der Wortstellung der Quellsprache und nicht der Wortstellung der Zielsprache. • In the end, Tyrion chose a cask … • In dem Ende, Tyrion wählte ein Fass … • Für einzelne Wörter wird immer die häufigste Übersetzung gewählt • und nicht diejenige, die semantisch angemessen wäre. • … the grandfather of the present Lord of ... • … der Großvater von dem anwesenden Lord von …
Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren Das Wortstellungsproblem kann mit syntaktischem Transfer gelöst werden. syntaktischer Transfer Synthese Analyse Ausgangssprache/ Quellsprache (SL) Zielsprache (TL)
Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Syntaktischer Transfer Phase 1: Analyse des Quelltextes: Aufbau der zugehörigen syntaktischen Struktur Phase 2: Transfer der syntaktischen Struktur des Quelltextes in eine entsprechende syntaktische Struktur des Zieltextes Phase 3: Synthese: Aus der syntaktischen Struktur des Zieltextes und „Wort für Wort“-Übersetzungen der Einzelwörter wird der Zieltext generiert. Die vorliegende syntaktische Struktur des Zieltextes hilft dabei, die morphologischen Entscheidungen korrekt zu treffen.
Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Syntaktischer Transfer Yesterday, Angela met Lady Gaga. Analyse s(adv(zeit), np(subjekt), v, np(object)) Transfer s(adv(zeit), v, np(subjekt), np(object)) Synthese Gestern traf Angela Lady Gaga.
Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer Manchmal ist die syntaktische Analyse nicht eindeutig. Unter Umständen ist das aber sogar nebensächlich, wenn nämlich der Zieltext dieselbe Mehrdeutigkeit enthält wie der Quelltext. Gregor sah die Frau mit dem Fernrohr. Gregor saw the woman with the telescope. Aufgelöst werden kann die Mehrdeutigkeit allenfalls „semantisch“, also unter Hinzuziehung von Kontextinformation.
Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer Ohne eine semantische Analyse (Nutzung von Kontextinformation) können auch semantische Probleme nicht gelöst werden. Eines dieser Probleme ist die semantische Mehrdeutigkeit, die wir schon angesprochen hatten. Gabriel lebt im Himmel. Gabriel lives in the sky. vs. Gabriel lives in heaven. Die genannten Mehrdeutigkeitsprobleme sind Probleme bei der Analyse des Quelltextes.
Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer Es gibt auch Probleme, die beim Transferschritt auftreten. Dieser Schritt ist am einfachsten, wenn Quell- und Zielsprache einander ähnlich sind. Ein Transferproblem ergibt sich aus lexikalischen Lücken in einer der beiden Sprache, welche in dieser Sprache durch Umschreibungen kompensiert werden müssen.
Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer Ein Transferproblem ergibt sich aus lexikalischen Lücken in einer der beiden Sprache, welche in dieser Sprache durch Umschreibungen kompensiert werden müssen. Englisch: young bull np(adj, n) Problem Spanisch: novillo np(n)
Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer Ein Transferproblem ergibt sich aus lexikalischen Lücken in einer der beiden Sprache, welche in dieser Sprache durch Umschreibungen kompensiert werden müssen. Englisch: young black bull np(adj, adj, n) Problem Spanisch: novillo negro np(n, adj)
Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer Im günstigsten Fall ergibt sich novillo negro Analyse np(n, adj) Transfer np(adj, adj, n) Synthese black young bull (statt young black bull)
Computerlinguistik Maschinelle Übersetzung: allgemeiner Problemfall ein Problem (nicht nur beim syntaktischen Transfer) Lexikalische Lücken können auch Problem mit dem pronominalen Referenz nach sich ziehen, wenn nämlich in der Quellsprache ein Pronomen auf ein Nomen verweist und wenn dieses in der Zielsprache nicht verfügbar ist. A: Da habe ich schon Feierabend. B: Oh. In meiner Firma ist er später. A:I have finished work by then. B:Oh.??
Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer Ein schwerwiegenderes Problem tritt dann auf, wenn in der Quellsprache Strukturen auftreten, die nur unter bestimmten Umständen übertragen werden können. In solchen Fällen muss man kontextsensitive Transferregeln formulieren. Sam is easy to convince. Sam ist leicht zu überzeugen. Sam is easy to work with. *Sam ist leicht mit zu arbeiten. In diesem Fall kann man aber in beiden Fällen auf eine andere Struktur zielen: Es ist leicht, ...
Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer Weitere Probleme können bei der Generierung auftreten. Dies gilt insbesondere dann, wenn man auf so etwas wie Redensarten, feststehende Ausdrücke etc. gerät und diese nicht explizit, quasi als „Superlemmata“ im Lexikon, mitsamt ihrer Übersetzung vorliegen hat. Onze excuses voor het ongemak. Wir bitten um Ihr Verständnis. (Wir entschuldigen [uns] für das Ungemach.)
Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren Interlingua semantischer Transfer Ausgangssprache/ Quellsprache (SL) Zielsprache (TL)
Computerlinguistik Maschinelle Übersetzung: Interlingua Interlingua Wenn man eine Interlingua hätte, könnte man für jede Sprache zwei Module bauen, so dass mit dem einen Modul Texte aus den gewählten Sprache in die Interlingua und mit dem anderen Modul Interlingua-Texte in die gewählte Sprache übersetzt würden. Für ein multilinguales System für Maschinelle Übersetzung mit n Sprachen müsste man dann 2n Module entwickeln. In einem Transfersystem benötigt man für jedes Sprachpaar ein Übersetzungsmodul. Bei n Sprachen wären das n(n-1) Module.
Computerlinguistik Maschinelle Übersetzung: Interlingua Interlingua Das erste Problem mit diesem Ansatz besteht darin, eine Interlingua festzulegen. Dazu könnte man eine weitverbreitete Sprache nehmen (Chinesisch, Englisch, Spanisch, ...) oder eine Sprache wie Esperanto oder eine Logiksprache. Allerdings ist jeder Übersetzungsschritt mit Fehlern und Ungenauigkeiten verbunden, die mehr werden, je unterschiedlicher die Sprachen sind. Daher ist eine Übersetzung von Niederländisch nach Deutsch, wenn mir mit Chi-nesisch als Interlingua arbeiten, schlechter als eine direktere Übersetzung.
Computerlinguistik Maschinelle Übersetzung: Interlingua Interlingua Ein zweites Problem besteht darin zu entscheiden, welche Eigenschaften die Interlingua haben sollte. Beispiel: Deutsche Verben flektieren nach Person, Numerus, Tempus, Genus Verbi und Modus. Japanische Verben flektieren nach Tempus, Höflichkeit, Genus Verbi und Modus.
Computerlinguistik Maschinelle Übersetzung: Problemfall Interlingua – Semantischer Transfer Ein drittes Problem tritt bei der Synthese auf. Findet kein syntaktischer Transfer statt, gibt es sehr viele Freiheiten bei der Wahl der syntaktischen Form des Zieltextes. Frank-Walter sieht eine große schwarze Katze. x (see(FW, x) groß(x) schwarz(x) katze(x)) There is something that is seen by Frank-Walter which is big and which is black and which is a cat.
Computerlinguistik Maschinelle Übersetzung: semantischer Transfer • Wie funktioniert eigentlich semantischer Transfer? • morphosyntaktische Analyse • semantische Analyse • Transfer (evtl. auch auf der syntaktischen Ebene) • morphosyntaktische Synthese • Nachbereitung semantischer Transfer syntaktischer Transfer
Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Quelltext: Agricola verspricht Vespasian, Britannien zu erobern. LFG-Syntax: S NP VP (SUBJ =) = VP V NP VCOMP (OBJ =) (VCOMP =) VCOMP NP zu VP (OBJ =) (TO =+) =
Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Quelltext: Agricola verspricht Vespasian, Britannien zu erobern. LFG-Lexikon: verspricht: V ( TENSE = Präsens) ( PRED = „versprechen(( SUBJ)(OBJ)( VCOMP))“) ( VCOMP TO) = + ( VCOMP SUBJ) = (SUBJ) (SUBJ NUM) = sg (SUBJ PERS) = 3
Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Quelltext: Agricola verspricht Vespasian, Britanien zu erobern. LFG-Lexikon (vereinfacht): Agricola: NP (NUM) = sg (PERS) = 3 Vespasian: NP (NUM) = sg (PERS) = 3 Britannien: NP (NUM) = sg (PERS) = 3
Computerlinguistik Maschinelle Übersetzung: semantischer Transfer c-structure S VP NP VCOMP V NP NP zu V verspricht Britannien erobern Vespasian Agricola
Computerlinguistik Maschinelle Übersetzung: semantischer Transfer c-structure – Annotation S = (SUBJ = ) VP NP VCOMP V NP (NUM) = sg (PERS) = 3 NP ( TENSE = Präsens) ( PRED = „versprechen(( SUBJ)(OBJ)( VCOMP))“) ( VCOMP TO) = + ( VCOMP SUBJ) = (SUBJ) (SUBJ NUM) = sg (SUBJ PERS) = 3 zu V verspricht Britannien erobern Vespasian Agricola
Computerlinguistik Maschinelle Übersetzung: semantischer Transfer f-structure ... (lassen wir mal aus ) a-structure = „pred“-Eintrag zum Hauptverb versprechen(Agricola, Vespasian, erobern(Agricola, Britannien)) ( TENSE = Präsens) ( PRED = „versprechen(( SUBJ)(OBJ)( VCOMP))“) ( VCOMP TO) = + ( VCOMP SUBJ) = (SUBJ) (SUBJ NUM) = sg (SUBJ PERS) = 3
Computerlinguistik Maschinelle Übersetzung: semantischer Transfer zum Vergleich: Agricola überredet Vespasian, Britannien zu erobern. überreden(Agricola, Vespasian, erobern(Vespasian, Britannien)) ( TENSE = Präsens) ( PRED = „überreden(( SUBJ)(OBJ)( VCOMP))“) ( VCOMP TO) = + ( VCOMP SUBJ) = (OBJ) (SUBJ NUM) = sg (SUBJ PERS) = 3
Computerlinguistik Maschinelle Übersetzung: semantischer Transfer versprechen(Agricola, Vespasian, erobern(Agricola, Britannien)) promise(Agricola, Vespasian, conquer(Agricola, Britain)) Agricola promises Vespasian to conquer Britain. Agricola promises Vespasian he will conquer Britain. Agricola promises Vespasian that he will conquer Britain. Agricola promises Vespasian that he, Agricola, will conquer Britain. Agricola promises Vespasian something which is that he will conquer Britain.
Computerlinguistik Literatur • Arnold, D. (2003). Why translation is difficult for computers. In: Somers, H. (Ed.), Computers and Translation: A Translator's Guide. Amsterdam, NL: John Benjamins. • Bresnan, J. (2000). Lexical-Functional Syntax. Oxford, UK: Blackwell. • Copestake, A. (1995). Semantic Transfer in Verbmobil.Verbmobil-Report 93. Universität Stuttgart, CSLI. • Hutchins, J. (2003). Machine Translation: General Overview. In: Mitkov (Ed.), The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press.