270 likes | 462 Views
11,001 New Features for Statistical Machine Translation. David Chiang, Kevin Knight, Wei Wang 报告人:李贤华 2009.11.12. 主要内容. 简介 MIRA 训练 特征选择 实验结果 分析讨论. 主要内容. 简介 MIRA 训练 特征选择 实验结果 分析讨论. 简介. 所用系统: Hiero ,句法系统 所用方法:添加大量特征,用 MIRA 训练 实验结果:汉英上 BLEU 分别提高 1.5 , 1.1
E N D
11,001 New Features for Statistical Machine Translation David Chiang, Kevin Knight, Wei Wang 报告人:李贤华 2009.11.12
主要内容 • 简介 • MIRA训练 • 特征选择 • 实验结果 • 分析讨论
主要内容 • 简介 • MIRA训练 • 特征选择 • 实验结果 • 分析讨论
简介 • 所用系统:Hiero,句法系统 • 所用方法:添加大量特征,用MIRA训练 • 实验结果:汉英上BLEU分别提高1.5,1.1 • 添加的特征多为句法系统才能使用的特征,突出句法系统的优势。 • 相比MERT,MIRA对于多特征调参更佳。
Baseline • Hiero: 串到串翻译系统,12个特征,用MERT训练得到权重 句法系统: 串到树翻译系统,25个特征,用MERT训练得到权重
主要内容 • 简介 • MIRA训练 • 特征选择 • 实验结果 • 分析讨论
MIRA训练 将新特征加入线性模型,用MIRA训练。 e:输出串 h(e): e的特征向量 w:特征权重 循环如下: 1.选择一组输入句子f1…fm,解码 2.对于每个输入句子,选择其10-best 3.对每个输入句子,选择一个oracle翻译, 设
4.对于每一个候选翻译,计算损失 5.更新w至w’,w’最小化: 对于每个句子,解码器给训练器一个森林,训练器将权重更新后传给解码器。
主要内容 • 简介 • MIRA训练 • 特征选择 • 实验结果 • 分析讨论
特征选择 • Discount feature 有许多计数为1的规则被选中,说明其概率被高估了 使用特征count来奖励或者惩罚规则,特征值和规则的计数有关
目标端特征 • Rule overlap features • 规则之间有交点。有些非终结符作为交点时更加可靠。对于不同的非终结符做交点的规则,进行不同的奖罚。
Bad single-level rewrite 对于一些使用范围很小的有问题的规则进行惩罚,通过对开发集的观察,得到以下规则需要惩罚: PP->VBN NP-C PP-BAR->NP-C IN VP->NP-C PP CONJP->RB IN
Node count features 对于树中出现的非终结符计数,以免某非终结符出现过多或过少 • Insertion features 有些规则会在英文端插入一些单词。 对于每一个最可能出现在插入规则中的单词一个特征。
特征选择 • 源端特征: • Soft syntactic constraints 软句法约束,在源句子上建立句法树,奖励那些源端与该句法树相符的规则,惩罚不符的规则
Structural distortion features 设S为非终结符覆盖的源语言单词个数,R为是否要调序,P(R|S)可以在抽取规则的时候计算得到,并可作为模型的一个新特征,由此影响调序。
主要内容 • 简介 • MIRA训练 • 特征选择 • 实验结果 • 分析讨论
实验结果 • 使用了260m词的汉英双语语料。 • 对于句法系统,重现了Collins的parser,以对英语部分产生句法树 • 句法规则的抽取是在65m的子训练集上完成的 • 对于Hiero,两个非终结符的规则在38m子集上抽取,其余规则在训练集其余部分抽取
训练了3个5元语言模型 • 1->在整个英文语料上训得,用于两个系统 • 2->用10亿词训得,用于句法系统 • 3->用20亿词训得,用于Hiero • 所有语言模型都用KN平滑算法
开发集:2010个句子 • 测试集:1994个句子 • 从NIST2004,2005及GALE program抽取的新闻语料。 • Hiero用了源端特征,句法系统用了目标端特征,两个系统都用了折扣特征。
主要内容 • 简介 • MIRA训练 • 特征选择 • 实验结果 • 分析讨论
分析 • Discount feature: +表示惩罚, -表示奖励。
Word insertion feature: • Be动词,a+ • the,.,,-
结论 • 1.新特征即使在顶级翻译系统上也能有所作为 • 2.MIRA优于MERT • 3.句法系统能利用在其他系统中无法使用的特征,句法系统和MIRA是一个强大的组合
相关论文: • 1.Online large-margin training of syntactic and structural translation features • 2.minimum error rate training in statistical machine translation