380 likes | 514 Vues
基于翻译日志的统计机器翻译模型剪枝. 刘凯 吕雅娟 姜文斌 刘群 中科院计算所. 大纲. 研究动机 翻译解码方法 翻译日志模型剪枝 实验结果. 大纲. 研究动机 翻译解码方法 翻译日志模型剪枝 实验结果. 研究动机. 实用机器翻译系统 训练语料庞大. 研究动机. 实用机器翻译系统 训练语料庞大 翻译模型庞大. 研究动机. 实用机器翻译系统 训练语料庞大 翻译模型庞大 较大的运行成本 & 应用场景受限. 研究动机. 规则表规模 FBIS(0.2M) 规则数: 32M 大小: 1G (压缩后) LDC(1.5M) 规则数: 167M
E N D
基于翻译日志的统计机器翻译模型剪枝 刘凯吕雅娟姜文斌刘群 中科院计算所
大纲 • 研究动机 • 翻译解码方法 • 翻译日志模型剪枝 • 实验结果
大纲 • 研究动机 • 翻译解码方法 • 翻译日志模型剪枝 • 实验结果
研究动机 • 实用机器翻译系统 • 训练语料庞大
研究动机 • 实用机器翻译系统 • 训练语料庞大 • 翻译模型庞大
研究动机 • 实用机器翻译系统 • 训练语料庞大 • 翻译模型庞大 • 较大的运行成本&应用场景受限
研究动机 • 规则表规模 • FBIS(0.2M) • 规则数:32M • 大小:1G(压缩后) • LDC(1.5M) • 规则数:167M • 大小:4G(压缩后) • Baidu、Bing、Google……
研究动机 • 规则表规模问题 • 需要大规模服务器提供服务
研究动机 • 规则表规模问题 • 需要大规模服务器提供服务 • 难以移植到移动终端
研究动机 • 规则表规模问题 • 需要大规模服务器提供服务 • 难以移植到移动终端 • 国际流量漫游包月≈2000元(泰国)
研究动机 • 可行性 • 长尾现象 • 大规模剪枝是可能的
研究动机 • 解码器搜索空间有限 • 参数固定则搜索空间固定
研究动机 • 解码器搜索空间有限 • 参数固定则搜索空间固定
研究动机 • 解码器搜索空间有限 • 参数固定则搜索空间固定
研究动机 • 解码器搜索空间有限 • 参数固定则搜索空间固定 √ 找出模型搜索空间并去除搜索空间外的不必要的规则
研究动机 • 解码器搜索空间有限 • 参数固定则搜索空间固定 √ 找出模型搜索空间并去除搜索空间外的不必要的规则 翻译日志!
大纲 • 研究动机 • 翻译解码方法 • 翻译日志模型剪枝 • 实验结果
翻译解码 • 翻译例子 • 布什 与 沙龙 举行 了 会谈 • 解码:
翻译解码 • 翻译例子 • 布什 与 沙龙 举行 了 会谈 • 解码: • Bush held a meeting with Sharon
翻译解码 • 翻译例子 • 布什 与 沙龙 举行 了 会谈 • 解码: • Bush held a meeting with Sharon • Bush hold a meeting with Sharon
翻译解码 • 翻译例子 • 布什 与 沙龙 举行 了 会谈 • 解码: • Bush held a meeting with Sharon • Bush hold a meeting with Sharon • Bush hold a conference with Salon • ……
翻译解码 • 翻译例子 • 布什 与 沙龙 举行 了 会谈 • 解码: • Bush held a meeting with Sharon • Bush hold a meeting with Sharon • Bush hold a conference with Salon • …… √1best
翻译解码 • 翻译例子 • 布什 与 沙龙 举行 了 会谈 • 解码: • Bush held a meeting with Sharon • Bush hold a meeting with Sharon • Bush hold a conference with Salon • …… √1best
翻译解码 • 翻译例子 • 布什 与 沙龙 举行 了 会谈 • 解码: • Bush held a meeting with Sharon • Bush hold a meeting with Sharon • Bush hold a conference with Salon • …… √1best
大纲 • 研究动机 • 翻译解码方法 • 翻译日志模型剪枝 • 实验
翻译日志模型剪枝 • 利用翻译获取规则信息
翻译日志模型剪枝 • 利用翻译获取规则信息 布什 与 沙龙 举行 了 会谈 √ √ √
翻译日志模型剪枝 • 利用翻译获取规则信息 布什 与 沙龙 举行 了 会谈 1 1 1
翻译日志模型剪枝 • 利用翻译获取规则信息 ………… … … … … … … …
翻译日志模型剪枝 • 利用翻译获取规则信息 翻译日志 ………… … … … … … … …
翻译日志模型剪枝 • 模型剪枝 • 仅保留在翻译中命中的规则 • 命中次数>0的规则
大纲 • 研究动机 • 翻译解码方法 • 翻译日志模型剪枝 • 实验
实验 • 实验配置(汉-英) • 训练语料:LDC,1.5M句对 • 语言模型:法新社+Giga新华5元 • 翻译日志模拟语料: • 训练集1.5M • 新闻语料5.28M • Web语料6.06M(搜狗全网) • 开发测试集: • Dev:nist06; Tst:nist04,nist05,nist08
实验 • 实验结果 • 直接过滤规则表 • Count:低于等于该使用频度的规则不被保留
实验 • 实验结果 • 在过滤规则表基础上重新调参 • 能够更加接近原始规则表的效果
实验 • 讨论 • OOV问题 • 解决:利用训练集获取翻译日志 • 领域问题 • 确实存在 • 新闻: 34.06=>33.74 • Web: 34.06=>32.76
结论 • 简单动机和方法 • 效果显著 • 规则表大小:100%=>2.4% • 翻译效果:31.18=>31.03 • 语言模型剪枝也可参照该思想