一种处理未登录词翻译的新视角

一种处理未登录词翻译的新视角 张家俊翟飞飞宗成庆 2012.11.4

提纲 • 统计机器翻译中的未登录词问题 • 传统处理方法与缺陷 • 保持语义功能的未登录词处理方法 • 基于分布语义模型的方法 • 基于双向语言模型的方法 • 实验结果与实例分析 • 总结

统计机器翻译中的未登录词问题 • 统计机器翻译框架

统计机器翻译中的未登录词问题 • 统计机器翻译框架双语平行语料（f1,e1),(f2,e2)… 翻译模型目标语言单语语料 e1, e2,…, en 语言模型

统计机器翻译中的未登录词问题 • 统计机器翻译框架双语平行语料（f1,e1),(f2,e2)… 翻译模型度量翻译候选的合法性目标语言单语语料 e1, e2,…, en 语言模型

统计机器翻译中的未登录词问题 • 统计机器翻译框架决定了翻译知识覆盖率双语平行语料（f1,e1),(f2,e2)… 翻译模型目标语言单语语料 e1, e2,…, en 语言模型

统计机器翻译中的未登录词问题 • 统计机器翻译框架决定了翻译知识覆盖率双语平行语料（f1,e1),(f2,e2)… 翻译模型双语平行语料有限的情形下，测试句子中的很多词都未在训练语料中出现过，便导致未登录词翻译问题！

统计机器翻译中的未登录词问题 • 统计机器翻译中未登录词的特点 • 在分词或词性标注中，我们知道分词或词性标注的候选空间，譬如词性集合 • 统计机器翻译中的未登录词，若不借助外部资源，无法确定候选翻译空间

传统处理方法与缺陷 • 尝试一切方法获得未登录词的译文 • 资源 • 借助语言学资源，譬如HowNet, WordNet • 借助大规模网络资源 • 方法 • 利用数据挖掘方法 • 利用信息检索方法

传统处理方法与缺陷 • 缺陷 • 只处理部分未登录词，例如命名实体、缩略语等 • 只关注未登录词的翻译，不考虑未登录词上下文词和短语的目标译文选择与调序 • … 为(is) 百分之六左右(about) …  is 6% about

保持语义功能的未登录词处理方法 • 核心思想 • 目标不在于翻译未登录词，而是尽可能确保其上下文词或短语的目标译文选择和调序不受未登录词影响 • 核心方法在于确定未登录词在句中的语义功能，并在解码过程中保持不变

保持语义功能的未登录词处理方法 • 方法框架 • 对于测试句子中的任意一未登录词，在集内词中搜索与该未登录词语义功能最相似的词 • 解码前，将未登录词替换为集内词 • 解码后，将集内词的译文重新替换为未登录词，以便利用其他方法翻译未登录词

一个示例 • … 为(is) 百分之六左右(about) … • 搜索集内词，发现 “一半(50%)”与“百分之六”具有最相似的语义功能，替换“百分之六”为“一半” 为一半左右  is about 50%  is about 百分之六

什么是语义功能? • 语义功能 • 一个词的语义功能表示该词在句子中所扮演的语法和语义角色 • 语义功能决定了该词在源语言和目标语言文本中所带的上下文

什么样的词共享相似的语义功能? • 如果两个词在文本中所处的上下文相似，那么他们就具有相似的语义功能

搜索与未登录词语义功能相似的集内词 • 统计机器翻译中的未登录词问题 • 传统处理方法与缺陷 • 保持语义功能的未登录词处理方法 • 基于分布语义模型的方法 • 基于双向语言模型的方法 • 实验结果与实例分析 • 总结

基于分布语义模型的方法 • 分布语义模型 • 利用表示一个词的所有上下文总和的向量近似该词的语义信息 • 向量空间模型

基于分布语义模型的方法 • 上下文 • 以目标词为中心，为长度K为窗口，出现在该窗口中的所有词的总和就是该词的上下文 • 为目标词tw创建上下文向量Vtw • Vtw的第i个元素表示第i个集内词作为目标词的上下文的概率

基于分布语义模型的方法 • 如何计算第i个集内词作为目标词上下文的概率？ • 逐点互信息（pointwise mutual information）

基于分布语义模型的方法 • 如何计算第i个集内词作为目标词上下文的概率？ • 逐点互信息（pointwise mutual information） L-2 normalization

基于分布语义模型的方法 • 计算任意两个词的语义功能相似度

搜索与未登录词语义功能最相似的集内词 POS constraint

搜索与未登录词语义功能相似的集内词 • 统计机器翻译中的未登录词问题 • 传统处理方法与缺陷 • 保持语义功能的未登录词处理方法 • 基于分布语义模型的方法 • 基于双向语言模型的方法 • 实验结果与实例分析 • 总结

基于双向语言模型的方法 • 分布语义模型的缺陷 • 将所有上下文看做一个词袋 • 不考虑上下文之间的词序与依赖 • 什么是理想的模型?

简化 argmax? • 模型回退前向语言模型P(wi|wi-1,wi-2,…)

简化 argmax? • 模型回退后向语言模型P(wi|wi+1,wi+2,…)

简化 argmax? • 模型回退 or

简化argmax? • 模型回退前向语言模型后向语言模型 or 双向语言模型

附加约束 • 词性约束

附加约束 • 翻译规则约束 • 搜索结果的集内词与未登录词的上下文组合必须存在翻译规则 • 为百分之六左右  为一半左右 • “一半左右 ||| about 50%”

实验设置 • 语料 • 训练语料：FBIS，23.6万句对 • 开发集: MT NIST2003 • 测试集: MT NIST2005 • 翻译系统: Moses • NIST2005中未登录词的分布 • 1082句子中存在796 不同的未登录词 • (NR, 273), (NN, 272), (CD, 122), (VV, 99), (NT, 14), (AD, 7), (JJ, 5), (OD, 2) and (M, 2)

翻译结果 分布语义模型

翻译结果 双向语言模型

翻译结果 前向语言模型后向语言模型

两个翻译实例 … 内阁才作成决定， … Moses: … the cabinet 作成 decided… … 内阁才作成决定， … … 内阁才作出决定，… Moses:…before the cabinet made the decision ...

两个翻译实例 …义演现场的热烈气氛， … Moses: … live义演 andwarm atmosphere… …义演现场的热烈气氛， … …演习现场的热烈气氛， … Moses:…the warm atmosphere of the exercise...

总结 • 对于每个未登录词，搜索与该未登录词语义功能最相似的集内词 • 两种算法 • 分布语义模型 • 双向语言模型 • 相比于分布语义模型，双向语言模型具有更好的性能

THANKS! Q&A

一种处理未登录词翻译的新视角

一种处理未登录词翻译的新视角

Presentation Transcript

Sea Ice

Sea Ice