240 likes | 478 Views
A Syntax-Driven Bracketing Model for Phrase-Based Translation. Deyi Xiong ACL 2009 Speaker: slacker. 研究动机 解决方法 实验 总结. 研究动机 解决方法 实验 总结. 研究动机. 短语模型存在的问题: 没有充分地利用句法信息 没有充分到考虑到翻译过程中存在短语黏合的现象. 利用句法信息 硬限制:只允许完全符合句法树的翻译和调 序,降低了翻译性能。 Koehn et.al 2003
E N D
A Syntax-Driven Bracketing Model for Phrase-Based Translation Deyi Xiong ACL 2009 Speaker: slacker
研究动机 • 解决方法 • 实验 • 总结
研究动机 • 解决方法 • 实验 • 总结
研究动机 • 短语模型存在的问题: • 没有充分地利用句法信息 • 没有充分到考虑到翻译过程中存在短语黏合的现象
利用句法信息 • 硬限制:只允许完全符合句法树的翻译和调 序,降低了翻译性能。 Koehn et.al 2003 • 软限制:对不符合句法树的翻译和调序进行计数惩罚。在一定程度上提高翻译性能。 Chiang 2005 Marton and Resnik 2008 Cherry 2008
短语黏合性 Fox 2002 Cherry 2008 如果源短语在翻译后仍然保持连续,那么该源短语是可括号化的(bracketable),否则称之为不可括号化的(unbracketable)。
例子 中国 的 经济 和 教育 economy and education in China
例子 中国 的 经济 和 教育 economy and education in China
在翻译过程中,翻译可括号化的短语比翻译不可括号化的短语将更为合理。在翻译过程中,翻译可括号化的短语比翻译不可括号化的短语将更为合理。 • 例子 中国 的 经济 和 教育 economy in China and education
研究动机 • 解决方法 • 实验 • 总结
解决方法 • 句法驱动括号模型(syntax-driven bracketing,SDB)。 • 从训练语料库中自动学习模型,能够融入了更多的句法信息 • 在给定的上下文句法信息中,能够更好地衡量短语是否具有黏合性。
包括Unary SDB + Binary SDB UnSDB:预测独立短语是否可括号化 BiSDB: 预测相邻短语是否可括号化
实例抽取 • 从对齐语料库中抽取二元括号实例 取定源端相邻的两个短语,如果它们在目标端也相邻,或者中间词对空,那么这就是二元可括号化实例,反之就是不可括号化实例。 • 从二元括号实例中得到一元括号实例
模型具体特征 • 规则特征(Rule Features) • 路径特征(Path Features) • 组块边界匹配特征(Constituent Boundary Matching Features)
IP VP VP NP ADVP NP NN AD VV AS NN NN 警方 已经 封锁 了 爆炸 现场 S1 S2 S
IP VP VP NP ADVP NP NN AD VV AS NN NN 警方 已经 封锁 了 爆炸 现场 S1 S2 S
IP VP-RC VP VP-I ADVP-M VP NP ADVP NP NN AD VV AS NN NN 警方 已经 封锁 了 爆炸 现场 S1 S2 S
研究动机 • 解决方法 • 实验 • 总结
实验 • 设置 • 解码器:Bruin (BTG)+ XP+ UniSDB / BiSDB • 语料:FBIS(24w-15250) • 对齐:grow-diag-final • 语言模型:giga xinhua 4元 • 评价指标:大小写敏感 bleu-4
研究动机 • 解决方法 • 实验 • 总结
总结 • SDB模型简单而且有效 简单就是美! • SDB可以适用于其它模型,例如,层次短语模型