1 / 45

Syntactic mismatches in machine translation Igor Mel‘čuk, Leo Wanner

Syntactic mismatches in machine translation Igor Mel‘čuk, Leo Wanner. Referentin: Hasti Feshangchi LMU München - CIS Proseminar „Paraphrasenbegriff“ WS 2007/08.

gallia
Download Presentation

Syntactic mismatches in machine translation Igor Mel‘čuk, Leo Wanner

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Syntactic mismatches in machine translation Igor Mel‘čuk, Leo Wanner Referentin: Hasti Feshangchi LMU München - CIS Proseminar „Paraphrasenbegriff“ WS 2007/08

  2. „Syntactic mismtaches“: Ein zentrales Problem, das in der maschiniellen Übersetzung whärend der Übertragung von syntaktischen Struktur eines Satzes in der Ausgangssprache zu einer äquivalente Struktur in der Zielsprache auftaucht. Dieser Beitrag wird „syntactic mismaches“ auf der Übertragungsebene(Tiefenstrukturebene) während der ‚sentance to sentance‘ maschiniellen Übersetzung im Rahmen eines paradigmatischen Transfer betrachten. syntactic mismaches in machine translation

  3. Die Übertragung(Transfer) auf syntaktischen Ebene hat mit der Übertragung 3 grossen Arten der linguistischen Informationen zu tun: • Lexikal units( lexical transfer) • Grammemic transfer( inflectional meanings) • Syntactic constructions( syntactic transfer) syntactic mismaches in machine translation

  4. Problem der „syntactic mismaches“: • Interlinguistische und intralinguistische Natur der „syntactic mismaches“. • Relevante Aspekte von theoretical framework:“ The Meaning-Text Theory(MTT). syntactic mismaches in machine translation

  5. Arten der „mismaches“( translation divergences) Dorr(1993,1994) 1. „Themtic divergence“: mismatches aufgrund der syntaktischen actant-permutation oder conversion. I like this picture. Mne navritsja èta kartina. Das englische syntaktische Subjekt Ientspricht semantisch dem indirektem Objekt Mne im Russischen. syntactic mismaches in machine translation

  6. 2. „demotional/promotional divergence“: mismatches aufgrund der dependency Inversion oder head switsching. I just learnd that. Je viens de la‘apprendre. ( I COME FROM THAT TO-LEARN) Ich schwimme gern. I like swimming. Die adverbialbestimmung Modifikator in dem ersten Satz jedes Paares entspricht semantisch dem finiten Verb des zweiten Satzes. syntactic mismaches in machine translation

  7. 3. „lexical conflational divergence“: mismatches aufgrund lexeme-phrase substitution oder lexical fission/fussion. I stabbed John. Yo le di a John una puñalada. ( I TO-HIM GAVE TO JOHN A STAB) I like Mary. Ich habe Mary gern. Die verbale lexeme im ersten Satz vom jeden Paar entspricht einer verbalen Ausdruck im zweiten Satz. syntactic mismaches in machine translation

  8. 4. “categorial divergence”: Mismatches aufgrund part-of-speech Änderungen. I am hungry. J’ai faim. (I HAVE HUNGER) Die gleiche Bedeutung wird durch ein Adjektiv im Englischen und ein Substantiv im Französischen zum Ausdruck gebracht. syntactic mismaches in machine translation

  9. 5.”structural divergence”: Mismatches aufgrund function-word introduction/elimination Je lirai. (I READ +fut+1st+person) I will read. He entered the room. Er trat in das Zimmer ein. (HE STEPPED IN THE ROOM IN) Die gleiche Bedeutung wird durch ein Aufix im Französischen und ein Auxiliary im Englischen, oder durch ein Verb ohne Präposition im Englischen und ein Verb mit Präposition, im Deutschen zum Ausdruck gebracht. syntactic mismaches in machine translation

  10. Dorr's Typologie diente als Ausgangspunkt für eine Reihe von Untersuchungen über das Problem der syntactic mismatches im MT. • Mit Hilfe dieser Typologie versucht man einen universellen Kalkül der syntactic mismatches zwischen den Sprachen zu entwickeln und eine Methode für seine Abgabe in einer einheitlichen Art und Weise vorzuschlagen. syntactic mismaches in machine translation

  11. Die intra und inter-linguistische Natur der syntactic mismaches: Das Phänomen der syntaktischen mismatches ist so viel interlinguistik wie intralinguistik. In anderen Worten, äquivalente Strukturen innerhalb einer Sprache(Paraphrasen), zeigen mismaches von der gleichen Art wie die Art zwischen äquivalent syntaktische Strukturen zwischen zwei verschiedenen Sprachen. syntactic mismaches in machine translation

  12. Intralinguistische Beispiele: • 1. Actant conversion mismatch: Ich mag das Bild.- Mir gefällt das Bild. • 2. Head-switching mismatch: Ich mag schwimmen.- Ich schwimme gern. • 3. lexical fission/fusion mismatch: Ich schuss auf john.- Ich gab auf john einen Schuss ab. syntactic mismaches in machine translation

  13. 4. Part-of-Speech mismatch: Ich bin hungrig.-Ich hab Hunger. • 5. Functional word introduction/elimination mismatch. a. Er las.- Er hat gelesen. b. Er betrat das Zimmer.- Er trat in das Zimmer ein. c. Ja budu sobirat’sja zavtra.- Ja soberus’ zavtra. syntactic mismaches in machine translation

  14. Deshalb können wir schließen, dass strukturelle mismatches zwischen semantisch äquivalenten Ausdrücken verschiedener Sprachen, einen bestimmten Fall von einem allgemeinen Phänomen repräsentieren: Die Gründung der Entsprechungen zwischen semantisch äquivalente aber strukturell (= syntaktisch) divergierende Ausdrücke ist nichts als paraphrasieren. Daher kann das Problem der structural mismaches im MT gelöst werden, indem einen allgemeinen Mechanismus zu paraphrasieren - sowohl intra- als auch interlinguistisch benutzt wird. syntactic mismaches in machine translation

  15. MTT • MTT bietet eine allgemeine intralinguistic paraphrasingsystem(Žolkovskij 1967; Melčuk 1974, pp 149, 1988b, 1992; Milicevic 2003). Diese paraphrasingsystem ist früher, unter anderen Systemen, von Sanromán vilas ua. (1999) und Apresjan ua. (Im Druck), intralinguistisch an der Quell-Sprache Seite benutzt worden, um die Quellsprache-Strukturen zu den Zielsprache-Strukturen anzupassen. Wir nehmen dieses System in unserem Konzept für die interlinguistische Auflösung von Quell- und Zielsprache Structure-mismaches. syntactic mismaches in machine translation

  16. Die theoretischen Rahmen(theoretical framework) • Angesichts der Komplexität der Aufgabe in MT, muss die Übertragungsphase so viel wie möglich verkürzt werden, und die intralinguistische Phenomene müssen an der Quell-Seite(=während der Analyse), oder an der Ziel-Seite(während der Synthese) behandelt werden. • Die Ebene, auf der die Übertragung erfolg ist, ist in MTT die Tifensyntaktischen Struktur. • Die TSyntS(DSyntS) ist abstrakt genug, um alle Arten von lexikalischen und syntaktischen divergences zu verhindern. syntactic mismaches in machine translation

  17. General Schema der Übertragung syntactic mismaches in machine translation

  18. Der Vorschlag: Transfer als paraphrasieren • Unser Ziel ist in diesem Beitrag ein zweifaches: (i) eine Beschreibung aller logisch möglichen Arten von syntactic missmaches (ii) zu definieren und zu zeigen, dass die Struktur der Universal-Transfer(paraphrasieren)-Regeln notwendig und ausreichend für die Zuordnung zwischen zwei beliebigen tief syntaktischen Strukturen sind, in denen mindestens ein „mismatches“ zu finden ist . syntactic mismaches in machine translation

  19. The syntactic transfer engine(STE) • Die Natur dieser Regeln setzt eine besondere Architektur des Übertragung-Motors voraus, die in der Lage ist, mit syntactic mismatches zwischen den TsyntS-en umgehen zu können.(der syntaktische Transfer Engine, STE). syntactic mismaches in machine translation

  20. STE muss die folgenden drei Hauptkomponenten haben: • 1. Formalisierte einsprachige "erklärende kombinatorische Wörterbücher"(ECDs) für die Sprachen. Diese Lexika sind unabhängig von dem Paar-Sprachen und neutraler, in dem Sinne, dass jeder kann entweder als eine Quell- oder eine Zielsprache lexikon benutzt werden. Sie beinhalten unter anderem die lexikalische co-occurrence Informationen der Sprache, die in Bezug auf die lexikalischen Funktionen sind. (LFs) (vgl. Ziff. 3.1.1 und Mel'fuk 1996 für eine detaillierte Einführung in die LFs). syntactic mismaches in machine translation

  21. 2. Eine Reihe von lexikalischen zweisprachigen Korrespondenz Indizes für die Sprachpaare. Eine zweisprachige lexikalische Index (BLI), die für jedes Paar von Sprachen spezifisch ist und eine neutrale Liste von Paaren der translationale equivalent-LUs von LS und LT darstellt. • 3. Eine Reihe von Transfer-Paraphrasing-Regeln, die die Zuordnung zwischen equivalent-syntaktischen Strukturen von LS und LT durchführen. syntactic mismaches in machine translation

  22. Bilingual lexikalische Index • BLI ist grundsätzlich auf tiefe LUs der Sprach-Paare beteiligt. So, in der englischen Teil eines englischen BLI ist PAY nicht als in pay attention, sondern nur so beteiligt: ATTENTION:Pay ist eines der Elemente des Wertes LF Oper1 von ATTENTION. • Weder enthält er LAUNCH noch ATTACKN wie in launch an attack, sondern nur ATTACKV: ATTACKN ist ein Element des Wertes LF S0 auf ATTACKV. Und es ist weder HEAVY noch RAINN wie in heavy rain, aber nur RAINV. syntactic mismaches in machine translation

  23. „regular u. irregular“ Äquivalenze • Lexikalische Äquivalenzen in einer BLI lassen sich in zwei großen Klassen aufteilen: "regular"Äquivalenze, die keine structuralmismatches zeigen und können in Form von LU-Paare zum Ausdruck kommen, und "irregular"Äquivalenzen, die zu einer structural mismatches zeigen und eine spezifische Umwandlung erforderlich ist, um diese mismatches aufzulösen. syntactic mismaches in machine translation

  24. „regulär“ Äquivalenzen • Mit Bezug auf die regulär lexikalische Äquivalenzen, sind wieder zwei Fälle zu unterscheiden: 1. LS hat mindestens eine semantisch voll passende Übersetzung, die LTentspricht. In diesem Fall erhält LS nur diese LT als seine Übersetzungsäquivalent und alle exakte und mehr spezielle Synonyme von LT sind nicht in der BLI, sondern in der Monolingual LT ECD zu finden, und werden bei der Synthese ausgesucht. Beispiel: (DEEP, PROFOND) (CHAIR1, CHAISE) (CHAIR2, CHAIRE) syntactic mismaches in machine translation

  25. 2. LS verfügt nicht über eine voll passendeÜbersetzungsäquivalent, aber ein oder mehrere semantisch nicht genau passende Übersetzungsäquivalente, die kreuzende Synonyme von einander sind. In diesem Fall, LS erhält alle diese Synonyme als seine Übersetzungsäquivalente. Beispiele: (ANSPRACHE, OBRAŠČENIE, PRIZYV, VOZZVANIE) syntactic mismaches in machine translation

  26. „irregulär“ Äquivalenzen • Was als irregulär lexikalische Äquivalenzen betroffen sind, jede Übersetzungsäquivalenz ist von der Form (LS, LT, Ψ), wo Ψ ein LF ist. Ψ(LS)= LT - Auf diese Weise, bestimmt Ψ eindeutig die Art des mismaches, die durch die Übersetzung LS zu LT auftaucht und auch ihre Resolution. (Anti, Conv21 und //Adv1 sind LFs, deren Werte sich in der entsprechenden einsprachige ECDs befinden.) Beispiel:a. (SHALLOW, PROFOND, Anti) b. (LIKE, PLAIRE, Conv21) c. (SOLER, HABITUELLEMENT , //AdV1)Julie likes Paul. ≡ Paul plait à Julie. Maria suele leer. ≡ Maria lit habituellement. "Maria usually reads." syntactic mismaches in machine translation

  27. Transfer- paraphrasierungsregeln • Drei verschiedene Arten von Transfer- paraphrasierungsregeln sind zu unterscheiden: 1. Eine Reihe von elementaren lexikalischen Äquivalenzen ausgedrückt in der LFs. Sie sind universall. 2. Eine Reihe von elementaren syntaktischen Operationen, die den tief syntaktischen Baum in Zielsprache "durch die Anwendung einer lexikalischen Äquivalent darstellen. Die sind notwendig, um sicherzustellen, dass der Baum wohlgeformt und semantisch äquivalent zu dem tief syntaktischen Baum in Ausgangsprache ist. 3. Eine Reihe von syntaktischen Anpassungsoperationen, die sich um den Kontext kümmern. syntactic mismaches in machine translation

  28. Definition von TsynS • Ld , Gsem und Rdsynt sind drei disjunkten Alphabeten der TsyntS, wo Ld die Menge der tiefenlexikalischen Einheiten (LU), Gsem die Menge der semantischen grammemes und Rdsynt die Menge der tiefensyntaktischen Beziehungen ist. • TsyntS ist eine Tupel über Ld U Gsem U Rdsynt. syntactic mismaches in machine translation

  29. Ld: Deep lexical units (tiefenlexikalischen Einheiten): • Die Menge der tiefen LUs von L enthält alle LUs ( Lexeme und Idiome) von L mit folgenden Ergänzungen und Eliminierungen. Ergänzungen: (i) LF Sombole, (ii) fiktive lexeme Eliminierungen: (i) strukturelle Wörter, (ii) Personalpronomen, (iii) Wert der LF -Eine analytische Form: have been paid PAYind, pass, pres, perf, non-progr. -Alle propositionen und konjunktionen werden weggelassen: Insists on departure: INSIST-ΙΙ → DEPARTURE Quarrel between friends: QUARREL-Ι → FRIENDS Know that she is sleeping: KNOW- ΙΙ → SLEEPind, act, pres, non-perf, progr-Ι →SHE syntactic mismaches in machine translation

  30. -All Personalpronomen(3rd person) werden durch ihre References ersetzt: a. Taking the book, John put it on the table. b. Taking the book, John put THE BOOK on the table. -Ein Idiom wird als eine Knote repräsentiert: a. John got his second wind: JOHN ← Ι -[ GET- ONE’S- SECOND- WIND] b. John barks up the wrong tree: JOHN ← Ι -[BARK- UP- THE- WRONG- TREE ] syntactic mismaches in machine translation

  31. LF • LF lassen sich in zwei Arten aufteilen: Paradigmatische LF und syntagmatische LF • Paradigmatische LF vertreten lexikosemantische Ableitungen( wie der Namen der Aktion, Prozess, etc.): • Adverbial noun (S0) • The name of the actant of an action, State, process, etc. (Si) • The name of the characteristic property of the ith actant of an action, state, process, etc. (Ai) • The name of a conversiv of L (Convij) • Syntagmatische LF: Magn, Operi, Reali, Son syntactic mismaches in machine translation

  32. syntactic mismaches in machine translation

  33. syntactic mismaches in machine translation

  34. Der Wert eines syntagmatischen LF ist in den meisten Fällen zusammen mit L als einen syntaktischen Abhängigen oder „gouvernor“ von L zum Ausdruck gebracht. Aber in einigen Fällen, ein Element der Wert von f(L) drückt den Sinn des LF f zusammen mit der Bedeutung von L. Ein solches Element wird als „fused“ bezeichnet: • Heavy= Magn(RAIN) Downpour= //Magn(RAIN) • Spread=PreparReal1 (BUTTER) Butter= //PreparLabreal12 (BUTTER) syntactic mismaches in machine translation

  35. In paradigmatischen LFs kann ein Lexem L1, der ein Element der Wert einer paradigmatischen LF f von dem Schlüsselwort L2 ist, in TsyntS durch die funktionale Notation ersetzt werden, nur wenn die drei folgenden Bedingungen gleichzeitig erfüllt sind: - f steht nicht für eine Synonym, eine Antonym oder ein konversiv. - Die Bedeutung von L1 ist die genaue zusammensetzung der Bedeutung von L2 und f. - Die Bedeutung von L1 und L2 ist gleich und L2 ist semantisch die Grundlage(Basis) von L1: V0(ATTACKN) erscheint nicht in der TsyntS. Der Nomen Attack ist nicht semantisch der Basis von den Verb attack aber die umgekehrte Form ist schon richtig: S0(ATTACKV) syntactic mismaches in machine translation

  36. Gsem: deep grammemes( tief-grammemes): • Geschlecht, case, verbal Person und Numerus sind syntaktische grammemes und erscheinen nicht in OsyntS und TsyntS. • RTsynt: deep- syntactic relation (tiefensyntaktischen Beziehungen): • Die sechs actantial DsyntRels( Ι, ΙΙ, ...,VΙ) • Attributive TsyntRel(ATTR) • Coordinative TsyntRel(COORD) • Appenditive TsyntRel(APPEND) syntactic mismaches in machine translation

  37. Zero LUs (unpersönliche Pronomen): Vier lexikalischen Elemente der TsyntS, die nicht in der OsyntS erscheinen: syntactic mismaches in machine translation

  38. - LF Symbole • - Elidierte Lus: Duermo’I sleep’ erscheint in TsyntS als YO←Ι-DORMIRind,pres,non-perf,non-progr • - Fiktive LUs, die Bedeutungen durch syntaktischen Konstruktionen repräsentieren: syntactic mismaches in machine translation

  39. Andere Tranfer-Repräsentationen • Jackendoff’s(1990) Lexical Conceptual Structures(LCSs) • LFG’s f-structure (Bresnan 1982) • Discourse Representation Theory (DRT)( Kamp und Reyle 1993; Reyle 1993) • Situation Semantics(Barwise und Perry 1983) syntactic mismaches in machine translation

  40. Beispiel von TsyntS: syntactic mismaches in machine translation

  41. syntactic mismaches in machine translation

  42. Pseudo-mismatches: • Pseudo mismatches aufgrund oberflächensyntaktischen Phänomene: • Hilfsverben aller Art: LIREfut - Ι →MOI ≡ READfut- Ι →Ι (French) le loup THE WOLF ↔(Romanian) lupul WOLF-def ‘the wolf’ (English) more beautiful ↔ (German) schöner BEAUTIFUL-comp syntactic mismaches in machine translation

  43. Präpositionen und Konjunktionen: syntactic mismaches in machine translation

  44. Die Idiome(teilweise) • Syntaktische Idiosyncrasies: syntactic mismaches in machine translation

  45. 2- Pseudo mismatches aufgrund eingeschränkten lexikalischen co-accurrence: syntactic mismaches in machine translation

More Related