1 / 27

11,001 New Features for Statistical Machine Translation

11,001 New Features for Statistical Machine Translation. David Chiang, Kevin Knight, Wei Wang 报告人:李贤华 2009.11.12. 主要内容. 简介 MIRA 训练 特征选择 实验结果 分析讨论. 主要内容. 简介 MIRA 训练 特征选择 实验结果 分析讨论. 简介. 所用系统: Hiero ,句法系统 所用方法:添加大量特征,用 MIRA 训练 实验结果:汉英上 BLEU 分别提高 1.5 , 1.1

gusty
Télécharger la présentation

11,001 New Features for Statistical Machine Translation

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 11,001 New Features for Statistical Machine Translation David Chiang, Kevin Knight, Wei Wang 报告人:李贤华 2009.11.12

  2. 主要内容 • 简介 • MIRA训练 • 特征选择 • 实验结果 • 分析讨论

  3. 主要内容 • 简介 • MIRA训练 • 特征选择 • 实验结果 • 分析讨论

  4. 简介 • 所用系统:Hiero,句法系统 • 所用方法:添加大量特征,用MIRA训练 • 实验结果:汉英上BLEU分别提高1.5,1.1 • 添加的特征多为句法系统才能使用的特征,突出句法系统的优势。 • 相比MERT,MIRA对于多特征调参更佳。

  5. Baseline • Hiero: 串到串翻译系统,12个特征,用MERT训练得到权重 句法系统: 串到树翻译系统,25个特征,用MERT训练得到权重

  6. 主要内容 • 简介 • MIRA训练 • 特征选择 • 实验结果 • 分析讨论

  7. MIRA训练 将新特征加入线性模型,用MIRA训练。 e:输出串 h(e): e的特征向量 w:特征权重 循环如下: 1.选择一组输入句子f1…fm,解码 2.对于每个输入句子,选择其10-best 3.对每个输入句子,选择一个oracle翻译, 设

  8. 4.对于每一个候选翻译,计算损失 5.更新w至w’,w’最小化: 对于每个句子,解码器给训练器一个森林,训练器将权重更新后传给解码器。

  9. 主要内容 • 简介 • MIRA训练 • 特征选择 • 实验结果 • 分析讨论

  10. 特征选择 • Discount feature 有许多计数为1的规则被选中,说明其概率被高估了 使用特征count来奖励或者惩罚规则,特征值和规则的计数有关

  11. 目标端特征 • Rule overlap features • 规则之间有交点。有些非终结符作为交点时更加可靠。对于不同的非终结符做交点的规则,进行不同的奖罚。

  12. Bad single-level rewrite 对于一些使用范围很小的有问题的规则进行惩罚,通过对开发集的观察,得到以下规则需要惩罚: PP->VBN NP-C PP-BAR->NP-C IN VP->NP-C PP CONJP->RB IN

  13. Node count features 对于树中出现的非终结符计数,以免某非终结符出现过多或过少 • Insertion features 有些规则会在英文端插入一些单词。 对于每一个最可能出现在插入规则中的单词一个特征。

  14. 特征选择 • 源端特征: • Soft syntactic constraints 软句法约束,在源句子上建立句法树,奖励那些源端与该句法树相符的规则,惩罚不符的规则

  15. Structural distortion features 设S为非终结符覆盖的源语言单词个数,R为是否要调序,P(R|S)可以在抽取规则的时候计算得到,并可作为模型的一个新特征,由此影响调序。

  16. 主要内容 • 简介 • MIRA训练 • 特征选择 • 实验结果 • 分析讨论

  17. 实验结果 • 使用了260m词的汉英双语语料。 • 对于句法系统,重现了Collins的parser,以对英语部分产生句法树 • 句法规则的抽取是在65m的子训练集上完成的 • 对于Hiero,两个非终结符的规则在38m子集上抽取,其余规则在训练集其余部分抽取

  18. 训练了3个5元语言模型 • 1->在整个英文语料上训得,用于两个系统 • 2->用10亿词训得,用于句法系统 • 3->用20亿词训得,用于Hiero • 所有语言模型都用KN平滑算法

  19. 开发集:2010个句子 • 测试集:1994个句子 • 从NIST2004,2005及GALE program抽取的新闻语料。 • Hiero用了源端特征,句法系统用了目标端特征,两个系统都用了折扣特征。

  20. 主要内容 • 简介 • MIRA训练 • 特征选择 • 实验结果 • 分析讨论

  21. 分析 • Discount feature: +表示惩罚, -表示奖励。

  22. Word insertion feature: • Be动词,a+ • the,.,,-

  23. Rule-overlap feature

  24. Weights for generated English nonterminals

  25. 结论 • 1.新特征即使在顶级翻译系统上也能有所作为 • 2.MIRA优于MERT • 3.句法系统能利用在其他系统中无法使用的特征,句法系统和MIRA是一个强大的组合

  26. 相关论文: • 1.Online large-margin training of syntactic and structural translation features • 2.minimum error rate training in statistical machine translation

More Related