290 likes | 455 Views
A Repository System for Cross-lingual Documents. ○ Wenting Gu * , Koichi Sasada + , Shigeru Chiba * * The University of Tokyo + Heroku , Inc. Cross-lingual Documents. Written in more than one language N eed to be same O ne modified, others need to do the same modification.
E N D
A Repository System for Cross-lingual Documents ○WentingGu*,Koichi Sasada+,ShigeruChiba* *The University of Tokyo +Heroku, Inc.
Cross-lingual Documents • Written in more than one language • Need to be same • One modified, others need to do the same modification.
Collaborative Working On Cross-Lingual Documents En Fr Ja Cn edition Relationship between languages
Example • Ruby Manual • User’sDemand: keep the same E A D B write write English Japanese F • Japanese version and English version are not same • The order of paragraph may be different C
Problem • Hard to keep documents in different language the same. • Why? • Difficult to find difference • Difficult to locate the specific place where need to be modified
日本語文書 English Document タブはアドレス バーの右に自動的に表示されますが、以前のバージョンの Internet Explorer と同様に、タブを移動してアドレス バーの下に表示することができます。お気に入りバーを右クリックし、メニューで選択することにより、常に表示させることができます。定期的に訪問する Web サイトを Windows 7 デスクトップ上のタスク バーに固定することで、それらの Web サイトにアクセスできます。 Windows Internet Explorer 9 has a streamlined look and many new features that speed up your web browsing experience. The first thing you'll notice when you open Internet Explorer 9 is the simplified design. You can find most command bar functions, like Print or Zoom, when you click the Tools button. Tabs automatically appear to the right of the Address bar, but you can move them so they appear below the Address bar, as they did in previous versions of Internet Explorer. You can always show the Favorites and then selecting them on a menu. Windows Internet Explorer 9 は、整理されたインターフェイスと、Web 閲覧環境を高速化する多くの新機能を備えています。 [ツール] ボタン をクリックしたときに、印刷、ズームなどのほとんどのコマンド バー機能が表示されます。 Can’t find differences between the two documents easily.
Goal & Proposal Goal • Make it easy to correspond documents and manage document version Proposal • Locating and displaying differences by existing sentence alignment algorithm
Modify the second sentence. Delete the first sentence. Add a paragraph
How our system works? • Getting corresponding relationships between paragraphs and sentences • By using existing sentence alignment techniques to calculate the similarity of sentences and paragraphs • Tracking changes • By comparing with old version • Displaying differences
Sentence alignment techniques • Several sentence alignment algorithms: Word-correspondence-based • Reliable Measures for Aligning Japanese-English News Articles and Sentences[2003, Masao Utiyama, Hitoshi Isahara] • Fast and Accurate Sentence Alignment of Bilingual Corpora[2002, Robert C. Moore] • Longest Sorted Sequence Algorithm for Parallel Text Alignment [2005, T Ildefonso]
How to use alignment algorithm • Paragraph alignment in the document • Compare with number of sentences • Calculate similarity between two sentences • Compare with total similarities in paragraph • Sentence alignment in each paragraph • Reuse the result in Paragraph similarity 2. • Allow 1 to 1, 1 to 2, 1 to 3, 2 to 1, 3 to 1
Use Cases (1/2) Target Event Time write A En En write B Ja Ja write C Cn Cn write D Fr Fr Note: Different color means contents are not same.
Use Case (2/2) Target Event Time En En be modified Ja Ja Ja be modified Cn Cn Cn Fr Fr Note: Different shape means the modification is not same.
Weak points of our system (1/2) • Correspondence relationships between sentences and paragraphs are not 100% correct. • Allowing users modify relationships between paragraphs. • Recalculate relationships between sentences when the relationship between paragraphs modified.
Weak points of our system (2/2) • The first time to make two documents the same, displaying differencesinaccurately. • Once two documents are aligned, modifications will be showed more correctly. • If sentence alignment technique is more efficient, our system will be more useful.
Related Research • Huberdeau et al., WikiSym '08, 2008 • Describing a tool called the Cross-Lingual Wiki Engine (CLWE) to support completely open-ended collaborative translation workflows
CLWE • Wiki-based • Support completely open-ended collaborative translation workflows in cross-lingual documents • List changes • But do not show corresponding areas where need to be modified. • Do not support documents which already have differing content like the Ruby manual
UI Of CLWE Note: This edit session will expire in 24 minutes. Preview or Save your work to restart the edit session timer. Update “Ja” based on “En” The first thing you'll notice when you open Internet Explorer 9 is the simplified design. You can find most command bar functions, like Print or Zoom, when you click the Tools button , and your favorites and feeds appear in Favorites Center when you click the Favorites button. Windows Internet Explorer 9 has a streamlined look and many new features that speed up your web browsing experience. Internet Explorer Edit: Windows IE 9 は、整理されたインターフェイスと、Web 閲覧環境を高速化する多くの新機能を備えています。
Future Plan • 2 languages -> N languages (Major languages) • Adding version control function • Make an Evaluation
Summary • Problem • Difficult to correspond documents in different languages in collaborative working • Proposal • Developing a repository with friendly UI to make it easy to manage cross-lingual documents • Giving correspondence relationships between sentences and paragraphs: using existing sentence alignment techniques • Tracking changes • Showing difference locations
question 廣津先生: 類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば もっと上げることができたりしますか? [10:51:00] 高橋: ああちがう [10:51:14] 180度以外: 私は質問の意図が間違いました? [10:51:18] 高橋: 廣津先生: 文が対応していないとダメなの? 柴山先生: パラグラフの順番が入れ替わるというようなことを行っていたが, そういうのはよくあるのか? 一段落がに段落にわかれていたらどうするの? あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから 一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの? 今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの システムを使うと言語間の段落を揃えることができるんだよーという方針なのか? 方針の違いによって設計方針かわるとおもうんですけど 廣津先生: 類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば もっと上げることができたりしますか? [10:51:40] SASADA Koichi (ko1): ちょっと途中変だったね>回答 [10:52:14] SASADA Koichi (ko1): 私が書き直すとこうなる: [10:52:16] SASADA Koichi (ko1): 廣津: 質問:パラグラフの内容が対応していないのはどうするのか? 柴山: 質問:パラグラフの順番が入れ替わるのは多いのか? 質問:最終目標は,パラグラフの順番などを揃えたいのか? それとも異なるままで編集したいのか? 廣津; コメント: 類似度の計算で,日本語は未定義野品詞をみていくと結構とれたりします. [10:57:14] SASADA Koichi (ko1): この発表面白いなあ [10:58:12] 180度以外: [10:52] SASADA Koichi (ko1): <<< パラグラフの順番が入れ替わるのは多いのか?A:それほど多くないけど、今回は極端な例を挙げました。でも、段落の数が足りなくて、段落の対応関係をすぐ分からないため、段落対応して、文の差分を表示するのがユーザーに対して、使いやすいと思います。 こう答えだらいいかな?(そして、多分 段落が足りない文書を例でしたら、もっど説明しやすいかも、そして、最終目標はパラグラフの順番などを揃えたいことは自然かな) [10:58:34] SASADA Koichi (ko1): そう答えられたらよかったね • * グーさん質疑応答 • 文が対応していないとダメなの? • パラグラフの順番が入れ替わるというようなことを行っていたが, • そういうのはよくあるのか? • 一段落がに段落にわかれていたらどうするの? • あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから • 一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの? • 今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの • システムを使うと言語間の段落を揃えることができるんだよーという方針なのか? • 方針の違いによって設計方針かわるとおもうんですけど • 類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば • もっと上げることができたりしますか? • [10:49:28] SASADA Koichi (ko1): 質問者の名前も書きましょう • [10:50:06] 高橋: 大山先生の隣の方ってだれでしたっけ? • [10:50:35] SASADA Koichi (ko1): 柴山先生 • [10:50:48] 180度以外: 質問をき記録して、ありがとうございます。 • [10:50:50] 高橋: 廣津先生: • 文が対応していないとダメなの? • パラグラフの順番が入れ替わるというようなことを行っていたが, • そういうのはよくあるのか? • 柴山先生: • 一段落がに段落にわかれていたらどうするの? • あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから • 一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの? • 今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの • システムを使うと言語間の段落を揃えることができるんだよーという方針なのか? • 方針の違いによって設計方針かわるとおもうんですけど