550 likes | 678 Views
Computerlinguistik. 11. Vorlesung (12.01.2012). apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de. Computerlinguistik. Inhalt der Vorlesung. Einführung Methoden Tagging Formale Methoden Parsing
E N D
Computerlinguistik 11. Vorlesung (12.01.2012) apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de
Computerlinguistik Inhalt der Vorlesung Einführung Methoden Tagging Formale Methoden Parsing Ontologien Anwendungen Informationsextraktion Maschinelle Übersetzung Textanalyse
Computerlinguistik Maschinelle Übersetzung Wiederholung: Bei der maschinellen Übersetzung unterscheiden wir • (ältere) regelbasierte Verfahren, • (neuere) statistikbasierte Verfahren und • (noch neuere) hybride Verfahren.
Computerlinguistik Maschinelle Übersetzung Bei den statistikbasierten Verfahren unterscheiden wir • beispielbasierte Verfahren, • Übersetzungshilfen (translation memory) und • reine statistische Verfahren.
Computerlinguistik Beispielbasierte maschinelle Übersetzung Die beispielbasierte Übersetzung benötigt (wie alle statistischen Verfahren ) ein (umfangreiches) Korpus an Übersetzungsbeispielen. Beispiel: Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen.
Computerlinguistik Beispielbasierte maschinelle Übersetzung Die beispielbasierte Übersetzung benötigt (wie alle statistischen Verfahren ) ein (umfangreiches) Korpus an Übersetzungsbeispielen. Beispiel: Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.
Computerlinguistik Beispielbasierte maschinelle Übersetzung Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Wir suchen nun die Übersetzung von Heute verkehren keine Züge zwischen Köln und Frankfurt.
Computerlinguistik Beispielbasierte maschinelle Übersetzung Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Heute verkehren keine Züge zwischen Köln und Frankfurt. Vandaag rijden geen treinen tussen Köln en Frankfurt. ?
Computerlinguistik Beispielbasierte maschinelle Übersetzung Das Übersetzungssystem verfügt nicht über linguistisches Wissen. Es arbeitet allein auf den Beispielen, die das Korpus bereit stellt. Zu lösende Probleme: Wir benötigen jeweils relevantes Sprachmaterial. Wir müssen identifizieren, was einander entspricht (Alignment).
Computerlinguistik Beispielbasierte maschinelle Übersetzung Weil das System nicht über linguistisches und auch nicht über inhaltliches Wissen verfügt, ist relevantes Sprachmaterial (in der relevanten Verteilung) so bedeutsam. Beispiel-Zielsatz:Es fährtkein Zugvon Kölnnach Wuppertal. Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.
Computerlinguistik Beispielbasierte maschinelle Übersetzung Weil das System nicht über linguistisches und auch nicht über inhaltliches Wissen verfügt, ist relevantes Sprachmaterial (in der relevanten Verteilung) so bedeutsam. Beispiel-Zielsatz: Georg bemerkte den Schlüssel. George noticed the piano. Georg bemerkte das Klavier . The key fits the lock. Der Schlüssel passt ins Schloss.
Computerlinguistik Beispielbasierte maschinelle Übersetzung Weil das System nicht über linguistisches und auch nicht über inhaltliches Wissen verfügt, ist relevantes Sprachmaterial (in der relevanten Verteilung) so bedeutsam. Beispiel-Zielsatz: Die Hirten sahen Engel im Himmel. Argelanderlooked at the stars in the sky. Argelander betrachtete die Sterne im Himmel. Now war arose in heaven, Michael and his angels fighting against the dragon. Da entbrannte im Himmel ein Kampf; Michael und seine Engel erhoben sich, um mit dem Drachen zu kämpfen.
Computerlinguistik Beispielbasierte maschinelle Übersetzung Alignment bezeichnet den Bezug zwischen Sätzen, Phrasen, Wörtern der Quellsprache und Sätze, Phrasen, Wörtern der Zielsprache. Ein solcher Bezug muss hergestellt werden, damit beispielbasierte Übersetzung erfolgen kann. Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.
Computerlinguistik Beispielbasierte maschinelle Übersetzung Alignment ist nicht immer „bijektiv“ (eins zu eins). Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.
Computerlinguistik Beispielbasierte maschinelle Übersetzung Alignment ist nicht immer „bijektiv“ (eins zu eins). Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.
Computerlinguistik Beispielbasierte maschinelle Übersetzung Alignment ist nicht immer „bijektiv“ (eins zu eins). Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.
Computerlinguistik Beispielbasierte maschinelle Übersetzung Korpus nigatsu jūsannichi 13. Februar nigatsu jūgonichi 15. Februar nigatsu nijūgonichi 25. Februar sangatsu jūsannichi 13. März sangatsu sanjūnichi 30. März Aufgabe ? 12. Mai
Computerlinguistik Statistik-basierte maschinelle Übersetzung Um die Verfahren besser einschätzen zu können, schauen wir uns das folgende Beispiel von Kevin Knight an: Das Beispiel geht davon aus, dass der Leser von Aliens in das „Interstellare Übersetzungsbüro“ gesetzt wurde, in welchem er Daten in Form von Übersetzungen des Centaurischen in das Arcturische vorliegen hat. Der Leser versucht diese Daten zu analysieren. Die Daten sehen wir folgt aus:
Computerlinguistik Statistik-basierte maschinelle Übersetzung • ok-voon ororok sprok. at-voon bichat dat. • ok-drubel ok-voon anok plok sprok. at-drubel at-voon pippat rrat dat. • erok sprok izok hihok ghirok. • totat dat arrat vat hilat. • ok-voon anok drok brok jok. • at-voon krat pippat sat lat. Beispielsätze 1-4
Computerlinguistik Statistik-basierte maschinelle Übersetzung • wiwok farok izok stok. • totat jjat quat cat. • lalok sprok izok jok stok. wat dat krat quat cat. • lalok farok ororok lalok sprok izok enemok. wat jjat bichat wat dat vat eneat. • lalok brok anok plok nok. iat lat pipat rrat nnat. Beispielsätze 5-8
Computerlinguistik Statistik-basierte maschinelle Übersetzung • wiwok nok izok kantok ok-yurp. • totat nnat quat oloat at-yurp. • lalok mok nok yorok ghirok clok. wat nnat gat mat bat hilat. • lalok nok crrrok hihok yorok zanzanok. wat nnat arrat mat zanzanat. • lalok rarok nok izok hihok mok. • wat nnat forat arrat vat gat. Beispielsätze 9-12
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Was erkennt unser geschätzter Mitarbeiter des Interstellaren Übersetzungsbüros? • Die Sprachen sind einander ähnlich. • ( ok-voon – at-voon / ok-yurp – at-yurp / zanzanok – zanzanat ) • Möglicherweise ist ein Ansatz, der von einer direkten Übersetzung ausgeht, Erfolg versprechend, zumal die Sätze der Satzpaare – mit der Ausnahme von Satzpaar 11 – jeweils gleich viele Wörter haben.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Wir beginnen damit, uns Wörter anzusehen, die häufig vorkommen. In unserem kurzen Niederländisch-Deutsch-Beispiel war das das Wortpaar (en – und). • Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijdentreinvervangende bussen. • Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Im Centaurisch-Arcturisch-Beispiel schauen wir auf das Wort „ghirok“, welches in den Sätzen 3 und 10 vorkommt: • erok sprok izok hihok ghirok. – totat dat arrat vat hilat. • lalok mok nok yorok ghirok clok. – wat nnat gat mat bat hilat. • Bei einer direkten Übersetzung würde ghirok einmal hilat und einmal bat zugeordnet. Möglicherweise ghirok ist mehrdeutig, wie das deutsche Wort Bank? Wahrscheinlicher ist aber statt dessen, dass hilat die Übersetzung von ghirokist und Centaurisch und Arcturisch nicht immer dieselbe Wortstellung haben.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Fangen wir also „einfacher“ an. Wir können ja zunächst einmal die Wortpaare „ok-voon – at-voon“, ok-yurp – at-yurp“und „zanzanok – zanzanat“, die uns schon aufgefallen sind, nutzen und die jeweiligen Wörter einander zuordnen. Möglicherweise ist auch „enemok – eneat“ ein solches Paar, aber wer weiß? • Für Satz 1 ergeben sich dann • ok-voon ororok sprok. • at-voon bichat dat.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • ok-voon ororok sprok. • at-voon bichat dat. • Alternative 1: ororok entspricht bichat und sprok entspricht dat. • Alternative 2: ororok entspricht dat und sprok entspricht bichat. • Welche Alternative ist wahrscheinlicher? • (Wir ignorieren im Moment weniger einfache Möglichkeiten.)
Computerlinguistik Statistik-basierte maschinelle Übersetzung • ok-voon ororok sprok. – at-voon bichat dat. • Alternative 1: ororok entspricht bichat und sprok entspricht dat. • Alternative 2: ororok entspricht dat und sprok entspricht bichat. • Wir benötigen zur Abschätzung Sätze, die entweder ororok und nicht sprok oder die sprok und nicht ororok enthalten, wie Satz 2: • ok-drubel ok-voon anok plok sprok. at-drubel at-voon pippat rrat dat.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • ok-voon ororok sprok. – at-voon bichat dat. • Alternative 1: ororok entspricht bichat und sprok entspricht dat. • Alternative 2: ororok entspricht dat und sprok entspricht bichat. • ok-drubel ok-voon anok plok sprok. at-drubel at-voon pippat rrat dat. • Die arcturische Version von 2 enthält ein dat an der „richtigen“ Stelle, so dass Alternative 1 deutlich wahrscheinlicher ist.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Damit erhalten wir: • ok-voon ororok sprok. • at-voon bichat dat. • Als nächstes betrachten wir Satz 2.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • ok-drubel ok-voon anok plok sprok. • at-drubel at-voon pippat rrat dat. • Wir haben wieder zwei Möglichkeiten: • Alternative 1: anok entspricht ppipat und plok entspricht rrat. • Alternative 2: anok entspricht rrat und plok entspricht pippat.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Alternative 1: anok entspricht ppipat und plok entspricht rrat. • Alternative 2: anok entspricht rrat und plok entspricht pippat. • Satz 4 enthält anok, aber nicht plok: • ok-voon anok drok brok jok. • at-voon krat pippat sat lat. • Obwohl das nicht an der bestmöglichen Stelle (der zweiten Stelle) steht, können wir annehmen, dass anok mit ppipat korrespondiert.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Wir fahren fort mit Satz 3: erok sprok izok hihok ghirok. • totat dat arrat vat hilat. • Das centaurische Wort izok findet sich in Satz 6: • lalok sprok izok jok stok. – wat dat krat quat cat. • Satz 6 enthält aber weder totat noch arrat noch vat. • Problem !!
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Wir fahren fort mit Satz 3: erok sprok izok hihok ghirok. • totat dat arrat vat hilat. • Das centaurische Wort hihok findet sich in Satz 11: • lalok nok crrrok hihok zanzanok. – wat nnat arrat mat zanzanat. • Das Wort hihok sollte also mit arrat korrelieren.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Wir fahren fort mit Satz 3: erok sprok izok hihok ghirok. • totat dat arrat vat hilat. • Außerdem finden wir in Satz 12 izok hihok: • lalok rarok nok izok hihok mok. – wat nnat forat arrat vat gat. • Offensichtlich korreliert izok hihok danach mit arrat vat. • Daraus folgt, dass erok dem totat entsprechen sollte.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Wir können auf diese Weise fortfahren und erhalten folgendes • Centaurisch-Arcturisch-Wörterbuch: • anok pippat izok vat / quat plok rrat • brok lat jok krat rarok forat • clok bat kantok oloat sprok dat • crrrok ?? lalok wat / iat stok cat • drok sat mok gat wiwok totat • enemok eneat ok-drubel at-drubel yorok mat • erok totat ok-voon at-voon zanzanok zanzanat • farok jjat ok-yurp at-yurp • ghirok hilat ororok bichat
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Das Wörterbuch enthält demnach zwei mehrdeutige centaurische Wörter [ izok vat /quat und lalok wat / iat] und ein mehrdeutiges arcturisches Wort [ erok / wiwok totat ]. • Problematischer ist aber das centaurische Wort „crrrok“, mit dem offenbar kein arcturisches Wort korreliert ist: • lalok nok crrrok hihok yorok zanzanok. • wat nnat arrat mat zanzanat. Satz 11
Computerlinguistik Statistik-basierte maschinelle Übersetzung • lalok nok crrrok hihok yorok zanzanok. • wat nnat arrat mat zanzanat. • Man kann jetzt spekulieren, ob „crrrok“ evtl. eine Art Affix ist • oder ob „crrrok hihok“ die höfliche Form von „hihok“ sein könnte • oder … [was einem sonst so einfallen mag ].
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Aber wir wollen ja Erkenntnisse zur maschinellen Übersetzung gewinnen und nehmen daher an, dass unser Leser nun aufgefordert wird, die folgenden Sätze zu übersetzen: • a) iat lat pippat eneat hilat oloat at-yurp. • b) totat nnat forat arrat mat bat. • c) wat dat quat cat uskrat at-drubel. • Beginnen wir mit Satz a) und einer direkten Übersetzung.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Aber wir wollen ja Erkenntnisse zur maschinellen Übersetzung gewinnen und nehmen daher an, dass unser Leser nun aufgefordert wird, die folgenden Sätze zu übersetzen: • a) iat lat pippat eneat hilat oloat at-yurp. • b) totat nnat forat arrat mat bat. • c) wat dat quat cat uskrat at-drubel. • Beginnen wir mit Satz a) und einer direkten Übersetzung.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • iat lat pippat eneat hilat oloat at-yurp. • lalok brok anok enemok ghirok kantok ok-yurp. • Möglicherweise müssen die centaurischen Wörter aber in einer anderen Reihenfolge stehen? Für sieben Wörter gibt es • 7! = 5040 mögliche Reihenfolgen. Aber wir haben ja die 12 • centaurischen Beispielsätze, die Reihenfolgeninformationen • beinhalten.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Unser Mitarbeiter des Interstellaren Übersetzungsbüros fordert noch einen monolingualen centaurischen Beispieltext an und zählt dafür die Wortpaare („.“ ist hier das Satzendezeichen). Unter anderem erhält er • . erok 1 lalok brok 1 brok anok 1 ghirok . • 7 . lalok 1 lalok clok 1 brok jok 1 ghirok clok • 2 . ok-drubel 1 lalok farok 1 ghirok enemok • 2 . ok-voon 1 lalok mok 1 anok drok 1 ghirok farok • 3 . wiwok 1 lalok nok 1 anok ghirok • ... 1 lalok rarok 2 anok plok 2 enemok . • 1 lalok sprok 1 enemok kantok
Computerlinguistik Statistik-basierte maschinelle Übersetzung • iat lat pippat eneat hilat oloat at-yurp. • lalok brok anok ghirok enemok kantok ok-yurp. • Auf der Grundlage der ausgezählten Wortpaare scheint es sinnvoll zu sein, die Reihenfolge von „ghirok“ und „enemok“ zu vertauschen.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Betrachten wir nun Satz b): totat nnat forat arrat mat bat. • totat erok oder wiwok • nnat nok • forat rarok In diesem Satz haben wir das Problem • arrat hihok der Mehrdeutigkeit von totat. • mat yorok In unserer Wortpaarliste haben wir die • bat clok Einträge „1 erok enemok“, „1 erok sprok“ sowie „1 wiwok farok“, „1 wiwok nok“ und • „1 wiwok rarok“, was für die Übersetzung • „totat wiwok“ spricht.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Satz b): totat nnat forat arrat mat bat. • totat erok oder wiwok • nnat nok • forat rarok Sprachpaare helfen uns also nicht nur bei • arrat hihok der Bestimmung von Reihenfolgen, sondern • mat yorok auch bei der Auflösung von Mehrdeutig- • bat clok keiten.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Satz b): totat nnat forat arrat mat bat. • wiwok • rarok yorok clok . • nok hihok • Wenn wir über die Wortpaarinformation die Reihenfolge • zuordnen wollen, entsteht aber ein Problem.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Satz b): totat nnat forat arrat mat bat. • wiwok • rarok yorok clok . • nok hihok • crrrok • Das Problem kann durch das Hinzfügen von „crrrok“ vermindert werden.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Satz b): totat nnat forat arrat mat bat. • wiwok • rarok yorok clok . • nok hihok • crrrok • Das Problem kann durch das Hinzfügen von „crrrok“ vermindert werden.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Satz b): totat nnat forat arrat mat bat. • wiwok • rarok yorok clok . • nok hihok • crrrok • Wir erhalten also als Übersetzung • wiwok rarok nok crrrok hihok yorok clok.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Satz c): wat dat quat cat uskrat at-drubel. • lalok sprok izok stok ? ok-drubel. • Satz c ist einfach mit der Ausnahme, dass wir für uskrat keine Übersetzung haben. Wir schauen daher mal in den monosprachlichen centaurischen Text nach einem Wort, das (häufig) zwischen „stok“ und „ok-drubel“ steht. Ein solches • Wort ist „vok“.
Computerlinguistik Statistik-basierte maschinelle Übersetzung • Wir haben gesehen, dass wir aus einem bilingualen Korpus„Alignments“ erhalten. Außerdem erhalten wir aus einem monolingualen KorpusWortpaarinformationen, die helfen können, • a) Reihenfolgen festzulegen, • b) Mehrdeutigkeiten auszulösen und • unbekannte Wörter zu übersetzen. • Wir haben dabei die Übersetzungen gemacht, ohne etwas über die Sprachen „Centaurisch“ und „Arcturisch“ zu wissen.