130 likes | 327 Vues
利用压平的双语句法树进行短语重排序. 张大鲲 孙乐 李文波 中国科学院软件研究所 dakun04@iscas.ac.cn 2008-11-28. 引言. 翻译从词一级过渡到短语一级 短语的选择问题,短语翻译概率 短语和短语之间的重排序问题 Pharaoh :简单的重排序惩罚 层次型模型:利用“长”短语对“短”短语进行调序 ITG/BTG :组合所有可能的情况. he said that □□□□ he said , □□□□ □□□□ , he said. 他 说 ,□□□□ 他 说 ,□□□□ 他 说 ,□□□□. 中文短语 英文短语.
E N D
利用压平的双语句法树进行短语重排序 张大鲲 孙乐 李文波 中国科学院软件研究所 dakun04@iscas.ac.cn 2008-11-28
引言 • 翻译从词一级过渡到短语一级 • 短语的选择问题,短语翻译概率 • 短语和短语之间的重排序问题 • Pharaoh:简单的重排序惩罚 • 层次型模型:利用“长”短语对“短”短语进行调序 • ITG/BTG:组合所有可能的情况
he said that □□□□ he said , □□□□ □□□□ , he said . 他 说 ,□□□□ 他 说 ,□□□□ 他 说 ,□□□□ 中文短语 英文短语 当一个中文短语和一个英文短语组成短语翻译对时,其在句子中和临近短语对的相对位置基本是固定的,即,当“他 说 ,”翻译成“he said that”时,它和后面的短语对永远是顺序的组合关系。 他 说 , he said that 他 说 , he said , 他 说 , , he said .
引言 • 构造一个模型,可以有效的表示这种组合关系 • 能够自动从语料中学习 • 简单并且有效
□□□□ □□□□ 管理局 将会 向 财政 司 负责 。 The Authority will be accountable to the Financial Secretary . 1. 每一层只允许相同的调序 准则存在,即当前层或者为 单调顺序层,或者为单调反 序层 2. 不同的短语组合顺序需要 产生新的层,两层交替存在 3. 每一个句子对产生唯一的 一颗句法树,树的叶子节点 是词对
压平的双语句法树 • 属性 • 每一层只允许相同的调序准则存在,即当前层或者为单调顺序层,或者为单调反序层 • 不同的短语组合顺序需要产生新的层,两层交替存在 • 每一个句子对产生唯一的一颗句法树,树的叶子节点是词对 • 中英语料上的统计数据表明:98%的短语仅仅在其中的一层出现过,解码时,这些短语仍然仅在这样的层中出现
短语属性抽取 短语属性抽取
解码 • 自底向上的动态解码 • 短语对定义 • 类别A:训练语料中出现过的短语对,带有“层次”属性 • 类别B:训练语料中未出现的短语对,新组合的短语对 • 组合关系 • A A:根据A的“层次”属性决定,优先组合相同的“层次”属性,不相同时,生成新的层后组合 • A B 或者 B A:根据A的“层次”属性决定 • B B:顺序和反序都要考虑
实验 • NIST中英评测(训练语料100万句)
层次型短语 <X1> 之一 ||| one of <X1> <X1> 的 <X2> ||| the <X2> of <X1> 压平的句法树方法 之一/one of 反序属性 例:□□之一/one of □□ 和层次型短语比较
利用压平的双语句法树进行短语重排序 • 在翻译的过程中,某些词或者短语是不需要和周围的词进行顺序交换的,这种方法利用短语在句法树中的位置属性,减少这部分调序操作 • 自动得到句法树,以及短语的所处层属性,解码的时候,需要遵循这一属性 • 具有处理非连续短语的能力 • 实验结果,相对Pharaoh (dl=4) 7%的提高,低于层次型短语方法