140 likes | 258 Views
专利文献日 - 英机器翻译的质量改进措施. Tsuyoshi Kakita 日本 特许情报机构 t_kakita@japio.or.jp. 前言. (Japan Patent Information Organization , 日本特许情报机构 ) 致力于各种专利文献翻译任务 ( 日 - 英,英 - 日 ) 。 虽然翻译仍需由人工完成,但机器翻译的采用正成为提高翻译效率不可或缺的手段。 有效提高专利文献机器翻译质量措施的研究. Japio 的质量改进措施. Japio 并不开发机器翻译引擎。
E N D
专利文献日-英机器翻译的质量改进措施 Tsuyoshi Kakita 日本特许情报机构 t_kakita@japio.or.jp
前言 • (Japan Patent Information Organization,日本特许情报机构) 致力于各种专利文献翻译任务(日-英,英-日)。 • 虽然翻译仍需由人工完成,但机器翻译的采用正成为提高翻译效率不可或缺的手段。 • 有效提高专利文献机器翻译质量措施的研究
Japio 的质量改进措施 • Japio 并不开发机器翻译引擎。 • Japio 在不改动机器翻译引擎的情况下采用下面两种措施提高机器翻译的质量: 1. 专利文献翻译的技术术语库 2. 专利源文档的预编辑处理
Japio 技术术语库 专利技术术语库 • 为了描述新的发明,新的技术术语不断被引入到专利文献中。 • 商业的机器翻译词典基本上是静态的。 ↓ • Japio 基于真实的专利文献创建并更新技术术语库
日语 英语 ゚_゚ 技术术语库的创建/更新 人工评价/修正 句对齐的专利文献平行语料库 技术术语 抽取程序 Japio 技术术语库 技术术语 列表 800,000 条记录,每年增加100,000条
Japio 机器翻译词典 商业机器翻译引擎与词典 Japio 技术术语库 源于技术术语库的机器翻译词典 • Japio基于技术术语库编辑机器翻译词典,服务于专利文献翻译 + 在重叠词条中选词是技术术语词典的关键因素
Japio 机器翻译词典: 选词方法 • Japio 采取两种对策解决选词问题 #1:收录复合词 - 优点:翻译变化较少(= 准确度高) - 缺点:出现频率较低(= 性价比低) #2: 基于在真实专利中的出现频率赋予优先权 - 优点:简单、自动(= 性价比高) - 缺点:不够精确(= 准确度低)
Japio 机器翻译词典的效能评价 • 通过将Japio机器翻译词典加入商业机器翻译引擎改进100个专利文献语句中的技术术语翻译 • 不多,但基本的术语得以改进。
源文档的预编辑处理 • 专利文献语句的特性与当前的机器翻译技术不相适应 - 非常长而且很复杂 - 特殊的行文方式 - 缺少主语/宾语 • 有效措施: 源文档的预编辑处理 技术日语 • 建立 - 技术文献(包括专利)基本行文规则以更适应于机器翻译
技术日语基本规则 • 超过50%的根据技术日语(原型)改写的语句显示机器翻译准确性得到了提高。 • Example 1: 消除歧义 原句 技术日语
技术日语基本规则 • Example 2: 语句的缩短/拆分 原句 技术日语
技术日语基本规则 • Example 2: 语句的缩短/拆分 原句的机器翻译输出 技术日语的机器翻译输出
゚_゚ ゚_゚ 源文档(JP) 预编辑过的文档(技术日语) 翻译文本(英语) 预编辑过的文档(技术日语) 技术日语引入翻译过程 • Japio 将在翻译过程中引入源文档的技术日语预编辑处理(试用中) 机器翻译 预编辑者 翻译者 用技术日语对日语文档进行预编辑处理
谢 谢 Tsuyoshi Kakita 日本特许情报机构 t_kakita@japio.or.jp