340 likes | 518 Views
机器翻译技术在多语言信息获取中的应用 吴丹 武汉大学信息管理学院 woodan@whu.edu.cn 2009.12. 提纲. 机器翻译 vs. 多语言信息获取. 机器翻译应用于 查询式翻译. 机器翻译应用于多语言相关反馈. 机器翻译应用于未登录词翻译. 机器翻译应用于数据融合. 一 . 机器翻译 vs. 多语言信息获取. 查询式. 文档. 信息检索. 单语言:查询式与文档语言一致 多语言:查询式与文档语言不一致
E N D
机器翻译技术在多语言信息获取中的应用 吴丹 武汉大学信息管理学院 woodan@whu.edu.cn 2009.12
提纲 机器翻译 vs. 多语言信息获取 机器翻译应用于查询式翻译 机器翻译应用于多语言相关反馈 机器翻译应用于未登录词翻译 机器翻译应用于数据融合
一. 机器翻译 vs. 多语言信息获取
查询式 文档 信息检索 • 单语言:查询式与文档语言一致 • 多语言:查询式与文档语言不一致 (Cross-language Information Retrieval, Multilingual Information Retrieval, CLIR)
多语言信息获取 • Multilingual Information Access,MLIA • 用户为中心 • 关注用户与系统的交互 • 相关性依赖于特定“用户”与特定“情境” • 强调用户交互性 • 需求与使用的范围更广
机器翻译 • Machine Translation, MT • 机器翻译在多语言信息获取前后都需要 • MLIA有不同的翻译方法(查询翻译、文档翻译等) • 检索结果需要被翻译成用户能理解的语言 • 与用户的相关反馈中需要进行翻译 • 机器翻译可以帮助消除翻译歧义性 • 机器翻译用于促进不同检索结果的融合
研究主题 机器翻译在查询翻译中的作用 1 机器翻译在多语言相关反馈中的作用 2 机器翻译在解决未登录词翻译中的作用 3 机器翻译在数据融合中的作用 4
统一实验环境(上) • 中文文档集及其机器翻译文档 • TDT4&TDT5语料库,新闻语料 • 83,627篇文档 • 328M • 机器翻译文档用的ISI的systran系统 • 英文文档集 • TDT4&TDT5语料库,新闻语料 • 306,498篇文档 • 1.13G • 机器翻译系统:Google Translate • 检索系统:Indri2.4
统一实验环境(下) • 44个检索主题 • 改写成TREC标准格式 • 生成三种长度的查询:T,TD,TDN • 评价指标:MAP (mean average precision)
二. 机器翻译应用于查询式翻译
解决的问题 • 1) 当没有集成其他技术的时候,机器翻译用于进行查询式的翻译,其效果与用词典进行查询式翻译,以及单语言信息检索相比如何? • 2) 如果融入一些优化技术,例如查询扩展(QE),基于机器翻译的查询式翻译是否仍然有效? • 3) 查询式的长度对于基于机器翻译的查询式翻译的效果是否有影响?
三. 机器翻译应用于多语言相关反馈
多语言相关反馈 • 翻译前查询扩展、翻译后查询扩展、翻译前后查询扩展、翻译优化
解决的问题 • 1) 翻译优化方法(基于用户判断的相关文献,及其机器翻译文献,来改变查询式翻译的概率,优化查询式翻译)的效果如何? • 2) 在多语言信息获取中,翻译优化与查询扩展相结合的效果如何?
伪相关反馈vs.用户相关反馈 • 伪相关反馈(Pseudo Relevance Feedback) • 假定检索结果的前20篇为相关文献 • 用户相关反馈(User Relevance Feedback) • 由用户来判断检索结果的相关性 • 找了54个用户(学生) • 从44个检索主题中选出9个 • 每个用户3个主题做在baseline上,3个主题做在翻译优化上,3个主题做在翻译优化与查询扩展相结合上 • 每人2小时
ICE-TEA 系统 查询扩展 翻译优化
四. 机器翻译应用于未登录词翻译
解决的问题 • 1) 用机器翻译系统翻译查询式的结果,与用词典翻译查询式,并加上命名实体翻译相比的效果如何? • 2) 用机器翻译系统支撑的翻译优化方法是否能解决未登录词的翻译问题?
命名实体抽取与翻译 利用wikipedia 1 2 3 Diagram 2 Diagram 2 利用一定的模式进行网络挖掘 利用平行语料库翻译 • 纽约大学基于隐马尔科夫模型的实体抽取,在多年的ACE (Automatic Content Extraction) 语料库上经过训练 信息抽取与翻译模块 • 从给定文本中抽取命名实体 • 对抽取命名实体进行翻译 26
五. 机器翻译应用于数据融合
解决的问题 • 1) 基于查询翻译的多语言检索结果,与基于文档翻译的多语言检索结果,是否可以通过数据融合技术进行检索结果的融合?
数据融合 • Data fusion (DF) • 用于对检索结果列表的合并 • CombMNZ算法被证明是最有效的 • 我们合并的是文档翻译的检索结果“DTMT”(用systran机器翻译的结果)+ 翻译优化与查询扩展的组合结果“TEQE”
结论及展望 • 如果文档的全文能够进行机器翻译,则基于文档翻译的多语言检索结果最好 • 如果融入用户的参与,如相关反馈,则基于查询翻译的多语言检索结果好于文档翻译 • 机器翻译技术可以应用在各个方面,如解决未登录词、数据融合等 • 展望:面向应用,如数字图书馆、网络学术信息……