420 likes | 550 Vues
一种处理未登录词翻译的新视角. 张家俊 翟飞飞 宗成庆 2012.11.4. 提纲. 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结. 提纲. 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结. 统计机器翻译中的未登录词问题. 统计机器翻译框架. 统计机器翻译中的未登录词问题. 统计机器翻译框架. 双语平行语料
E N D
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆 2012.11.4
提纲 • 统计机器翻译中的未登录词问题 • 传统处理方法与缺陷 • 保持语义功能的未登录词处理方法 • 基于分布语义模型的方法 • 基于双向语言模型的方法 • 实验结果与实例分析 • 总结
提纲 • 统计机器翻译中的未登录词问题 • 传统处理方法与缺陷 • 保持语义功能的未登录词处理方法 • 基于分布语义模型的方法 • 基于双向语言模型的方法 • 实验结果与实例分析 • 总结
统计机器翻译中的未登录词问题 • 统计机器翻译框架
统计机器翻译中的未登录词问题 • 统计机器翻译框架 双语平行语料 (f1,e1),(f2,e2)… 翻译模型 目标语言单语语料 e1, e2,…, en 语言模型
统计机器翻译中的未登录词问题 • 统计机器翻译框架 双语平行语料 (f1,e1),(f2,e2)… 翻译模型 度量翻译候选的合法性 目标语言单语语料 e1, e2,…, en 语言模型
统计机器翻译中的未登录词问题 • 统计机器翻译框架 决定了翻译知识覆盖率 双语平行语料 (f1,e1),(f2,e2)… 翻译模型 目标语言单语语料 e1, e2,…, en 语言模型
统计机器翻译中的未登录词问题 • 统计机器翻译框架 决定了翻译知识覆盖率 双语平行语料 (f1,e1),(f2,e2)… 翻译模型 双语平行语料有限的情形下,测试句子中的很多词都未在训练语料中出现过,便导致未登录词翻译问题!
统计机器翻译中的未登录词问题 • 统计机器翻译中未登录词的特点 • 在分词或词性标注中,我们知道分词或词性标注的候选空间,譬如词性集合 • 统计机器翻译中的未登录词,若不借助外部资源,无法确定候选翻译空间
提纲 • 统计机器翻译中的未登录词问题 • 传统处理方法与缺陷 • 保持语义功能的未登录词处理方法 • 基于分布语义模型的方法 • 基于双向语言模型的方法 • 实验结果与实例分析 • 总结
传统处理方法与缺陷 • 尝试一切方法获得未登录词的译文 • 资源 • 借助语言学资源,譬如HowNet, WordNet • 借助大规模网络资源 • 方法 • 利用数据挖掘方法 • 利用信息检索方法
传统处理方法与缺陷 • 缺陷 • 只处理部分未登录词,例如命名实体、缩略语等 • 只关注未登录词的翻译,不考虑未登录词上下文词和短语的目标译文选择与调序 • … 为(is) 百分之六 左右(about) … is 6% about
提纲 • 统计机器翻译中的未登录词问题 • 传统处理方法与缺陷 • 保持语义功能的未登录词处理方法 • 基于分布语义模型的方法 • 基于双向语言模型的方法 • 实验结果与实例分析 • 总结
保持语义功能的未登录词处理方法 • 核心思想 • 目标不在于翻译未登录词,而是尽可能确保其上下文词或短语的目标译文选择和调序不受未登录词影响 • 核心方法在于确定未登录词在句中的语义功能,并在解码过程中保持不变
保持语义功能的未登录词处理方法 • 方法框架 • 对于测试句子中的任意一未登录词,在集内词中搜索与该未登录词语义功能最相似的词 • 解码前,将未登录词替换为集内词 • 解码后,将集内词的译文重新替换为未登录词,以便利用其他方法翻译未登录词
一个示例 • … 为(is) 百分之六 左右(about) … • 搜索集内词,发现 “一半(50%)”与“百分之六”具有最相似的语义功能,替换“百分之六”为“一半” 为 一半 左右 is about 50% is about 百分之六
什么是语义功能? • 语义功能 • 一个词的语义功能表示该词在句子中所扮演的语法和语义角色 • 语义功能决定了该词在源语言和目标语言文本中所带的上下文
什么样的词共享相似的语义功能? • 如果两个词在文本中所处的上下文相似,那么他们就具有相似的语义功能
搜索与未登录词语义功能相似的集内词 • 统计机器翻译中的未登录词问题 • 传统处理方法与缺陷 • 保持语义功能的未登录词处理方法 • 基于分布语义模型的方法 • 基于双向语言模型的方法 • 实验结果与实例分析 • 总结
基于分布语义模型的方法 • 分布语义模型 • 利用表示一个词的所有上下文总和的向量近似该词的语义信息 • 向量空间模型
基于分布语义模型的方法 • 上下文 • 以目标词为中心,为长度K为窗口,出现在该窗口中的所有词的总和就是该词的上下文 • 为目标词tw创建上下文向量Vtw • Vtw的第i个元素表示第i个集内词作为目标词的上下文的概率
基于分布语义模型的方法 • 如何计算第i个集内词作为目标词上下文的概率? • 逐点互信息(pointwise mutual information)
基于分布语义模型的方法 • 如何计算第i个集内词作为目标词上下文的概率? • 逐点互信息(pointwise mutual information) L-2 normalization
基于分布语义模型的方法 • 计算任意两个词的语义功能相似度
搜索与未登录词语义功能最相似的集内词 POS constraint
搜索与未登录词语义功能相似的集内词 • 统计机器翻译中的未登录词问题 • 传统处理方法与缺陷 • 保持语义功能的未登录词处理方法 • 基于分布语义模型的方法 • 基于双向语言模型的方法 • 实验结果与实例分析 • 总结
基于双向语言模型的方法 • 分布语义模型的缺陷 • 将所有上下文看做一个词袋 • 不考虑上下文之间的词序与依赖 • 什么是理想的模型?
简化 argmax? • 模型回退 前向语言模型P(wi|wi-1,wi-2,…)
简化 argmax? • 模型回退 后向语言模型P(wi|wi+1,wi+2,…)
简化 argmax? • 模型回退 or
简化argmax? • 模型回退 前向语言模型 后向语言模型 or 双向语言模型
附加约束 • 词性约束
附加约束 • 翻译规则约束 • 搜索结果的集内词与未登录词的上下文组合必须存在翻译规则 • 为 百分之六 左右 为 一半 左右 • “一半 左右 ||| about 50%”
提纲 • 统计机器翻译中的未登录词问题 • 传统处理方法与缺陷 • 保持语义功能的未登录词处理方法 • 基于分布语义模型的方法 • 基于双向语言模型的方法 • 实验结果与实例分析 • 总结
实验设置 • 语料 • 训练语料:FBIS,23.6万句对 • 开发集: MT NIST2003 • 测试集: MT NIST2005 • 翻译系统: Moses • NIST2005中未登录词的分布 • 1082句子中存在796 不同的未登录词 • (NR, 273), (NN, 272), (CD, 122), (VV, 99), (NT, 14), (AD, 7), (JJ, 5), (OD, 2) and (M, 2)
翻译结果 分布语义模型
翻译结果 双向语言模型
翻译结果 前向语言模型 后向语言模型
两个翻译实例 … 内阁 才 作成决定 , … Moses: … the cabinet 作成 decided… … 内阁 才 作成 决定 , … … 内阁 才 作出 决定 ,… Moses:…before the cabinet made the decision ...
两个翻译实例 …义演 现场 的 热烈 气氛 , … Moses: … live义演 andwarm atmosphere… …义演 现场 的 热烈 气氛 , … …演习 现场 的 热烈 气氛 , … Moses:…the warm atmosphere of the exercise...
总结 • 对于每个未登录词,搜索与该未登录词语义功能最相似的集内词 • 两种算法 • 分布语义模型 • 双向语言模型 • 相比于分布语义模型,双向语言模型具有更好的性能
THANKS! Q&A