汉语语言模型研究及其在音字转换中的应用

汉语语言模型研究及其在音字转换中的应用 计算机科学与技术学院语言技术研究中心刘秉权 2003年5月28日

1 绪论 • 本文研究的目的和意义 • 计算语言学概述 • 相关领域研究与发展综述 • 统计语言建模技术

基于统计的计算语言模型 • 给定所有可能的句子，统计语言模型就是一个概率分布： • 条件概率形式： • N-gram模型：

统计语言模型的作用 • 信源－信道模型: • I:语言文本；O:声音信号、字符图像信号、拼音输入等。 • 语言模型：

统计语言模型建模方法 • 极大似然方法语言建模 • 贝叶斯方法

统计语言模型的评价标准 • 熵(Entropy) • 交叉熵(Cross Entropy) • 复杂度(Perplexity)

参数学习和数据平滑 • 参数学习 • 有指导学习--基于完全数据的最大可能性估计 • 无指导学习—(针对不完全数据的)具有隐含变量的参数训练过程—EM算法 • 数据平滑--Good-Turing估计、回退平滑和线性插值技术；变长N-gram模型、网格方法、压缩模型

当前主要语言模型 • N-gram模型 • 决策树模型 • 指数模型（最大熵模型） • 整句模型 • 文法模型 • 概率上下文无关文法 • 链文法 • 概率依存文法 • 自适应模型

统计语言模型存在的不足之处 • 最成功的统计语言建模技术很少使用真实的语言知识 • 跨领域的适应能力差 • 不能有效处理长距离语言约束：为保证可行性，所有现有的语言模型都在文本的不同部分之间作了独立假设。 • 汉语语言模型的独特问题

本文的目标

本文主要工作 • 汉语统计语言模型参数训练的优化 • 基于语言元素的汉语统计模型 • 汉语语言模型的自适应方法 • 面向手机类设备的智能拼音汉字输入方法

2 汉语统计语言模型参数训练的优化

问题的分析 • 汉语统计模型的准确构建和优化涉及到以下几个问题： • 词表的确定（生词识别） • 分词 • 参数估计 • 三者存在因果关系 • 词表←→分词 • 分词←→参数估计（模型） • 参数估计（模型）←→词表优化

分词-生词识别-参数估计迭代算法的提出 • 非迭代过程的缺点：几个过程不能相互作用，相互促进 • 迭代过程的优点： • 对分词的影响：更好地解决分词歧义问题，提高分词精度 • 对生词识别的影响： • 减少不合理的候选生词 • 排除伪生词，生词自动消歧，减少后处理过程 • 对模型的影响：逐步优化词表、提高参数估计精度、提高音字转换正确率

基于N-gram信息的生词获取 • 基本思想：N元对→词频过滤→互信息过滤→校正→生词获取 • 词频 • 互信息（Mutual Information） • 词频与互信息的关系 • 候选生词的校正

基于N-gram信息的生词获取 • 结果分析 • MI因素：准确率随着互信息值的升高而升高，但抽取出的元组的数量也随之减少； • WF因素：准确率随着词频值的升高而降低，抽取出的元组数量也随之减少。 • 影响结果的其他因素 • 分词错误：“不容\易”、“和服\务” • 量词：“个百分点”、“集电视连续剧”、“届世乒赛” • 姓氏：“新华社记者刘”、“新华社记者王”

基于统计和规则方法的中文人名识别 • 问题的提出 • 主要方法 • 规则方法：准确；规则库冲突、复杂、庞大 • 统计方法：资源少、效率高；准确率低 • 混合方法：取长补短 • 本文方法：先规则，后统计；充分利用各种资源；采用分词预处理

基于统计和规则方法的中文人名识别 • 中文姓名用字特点（82年人口普查结果） • 729个姓氏用字 • 姓氏分布很不均匀，但相对集中 • 有些姓氏可用作单字词 • 名字用字分布较姓氏要平缓、分散 • 名字用字涉及范围广 • 某些汉字既可用作姓氏，又可用作名字用字

人名识别系统知识库 • 姓氏用字频率库和名字用字频率库：653个单姓氏，15个复姓，1894个名字用字

朝阳劲松爱国建国立新黎明宏伟朝晖向阳海燕爱民凤山雪松新民剑峰建军红旗光明人名识别系统知识库 • 名字常用词表

人名识别系统知识库 • 称谓库 • 三种类型 • 只能用于姓名之前，如：战士、歌星、演员等； • 只能用于姓名之后，如：阁下、之流等； • 姓名前后皆可，如：先生、主席、市长等。 • 称谓前缀表：“副”、“总”、“代”、“代理”、“助理”、“常务”、“名誉”、“荣誉”等

人名识别系统知识库 • 简单上下文 • 指界词表：约110个词 • 动词：说、是、指出、认为、表示、参加等； • 介词：在、之、的、被、以等； • 正在、今天、本人、先后等。 • 标点符号集 • 人名出现在句首或句尾（包括分句）的机会比较大，标点符号可用来帮助判断人名的边界。 • 顿号一边是人名时，另一边的候选人名的可靠性高。

人名识别系统知识库 • 非名字用词表：有些双字词，如：时间、奖励、纬度等不作名字用词，但因为组成它们的单字可作为名字用字，如果跟在姓氏后面，往往会将其与可作姓氏的字一起误判为姓名。例： “做\这\件\事\花\了\我们\一\段\时间\。\”

中文人名识别过程

人名识别的具体实现 • →姓氏判别 • →名字识别 • →概率判断候选字符串为人名的概率为： P = 姓氏部分为姓氏的概率P1 * 余下部分的汉字作名字用字的概率P2*P3(单名时，为P2)

校正(对潜在人名的后处理) • 自动校正：如果两个潜在人名相似，考察它们的权值。一高一低时，将低权的潜在人名清除；都为高权时，两者都认为是人名；都是低权时，则各自通过第三个字作名字用字的概率大小来判断。概率够高，识别为人名。否则将第三个字去掉。 • 人工校正

人名识别结果与分析 • 实验结果：8个测试样本，共22000多字，共有中文人名270个。系统共识别出中文人名330个，其中267个为真正人名。召回率=267/270*100% =98.89% 准确率=267/330*100% =80.91% 准确率和召回率是互相制约的，可通过概率阈值的调整来调节二者的关系。

人名识别结果与分析 • 产生错误的主要原因 • 被未识别的地名干扰。“湖北\英\山\县\詹\家\河\乡\陶\家\河\村\，\” • 受非中式人名的干扰。“司\马\义\·\艾\买\提\” • 分词结果不理想。“为\迎接\香港\回\归\送\贺\礼\” • 规则不准确。“南\宋\大\诗人\杨\万\里\“\惊\如\汉\殿\三\千\女\，\” • 其他。“全世界\每年\影片\产量\高\达\两\三\千\部\，\”

汉语N-gram模型参数训练的迭代算法

汉语N-gram模型构建的迭代算法 • 算法描述

实验结果和分析

3基于语言元素的汉语统计模型 • 已有实验结论：基于词的语言模型性能要明显优于同阶的基于字的模型，高阶模型优于低阶模型 • 提高语言模型描述能力的途径： • 提高模型阶数 • 扩展语言单位 • 目标：在保持模型阶数不变的条件下，有效提高模型的描述能力

当前主要处理方法 • 此方向的探索：基于短语和基于分词模式的语言模型 • 目前短语选取和概率计算方法存在缺陷： • 短语的选取标准只考虑了降低模型复杂度的因素，并没有考虑短语构成的内在语言规律 • 短语集的规模通常十分巨大，导致模型空间增长，同时相对减少了训练数据量 • 训练数据的重新分割使得短语成为不可分割的语言单位，将导致构成短语的单个词的概率估计不准确

当前主要处理方法 • 规则统计相结合的模型将模型的单位延伸至语言分析的结果，统称为语言元素，元素间概率计算利用已有词模型的参数近似估计（本课题组前人工作）特点：避免概率模型的大幅度增加，提高语言单位获取的灵活性；能够处理长距离语言关系和递归问题

本文方法：基于语言元素的汉语N-gram语言模型 • 引入元素数量约束 • 根据语言规则层次特点对概率值进行加权 • 利用规则可信度、词可信度加权 • 特点：保持原有特点；进一步提高模型精度；多种语言约束为机器学习提供灵活机制

基于语言元素的汉语N-gram语言模型 当N=2时

权值向量

基于语言元素的汉语N-gram语言模型 • 基于元素的Bi-gram模型考虑到概率归一化

词类及其组织方法 • 词类 • 按语法体系划分 • 按语义分类 • 混合方式 • 词类的组织：类似语义网知识表达结构--用很小的时间代价节省大量的存储空间

规则的组织 • 统一表达形式 • 按索引分类 • 索引选择标准：含词数最少的词类（概率最小的词类）例： <动物><吃><食物> →S <动物><拿><食物> →S 以<吃>、<拿>作为分类索引更合理

低层推理优先原则 如果存在规则： “X + Y + Z → Y”和 “W ISA Y”, 则首先匹配规则“X + W + Z → W” (“X”和“Z”可以为空)

元素的语言学分析 • 基于最少元素的状态空间化简方法

元素的语言学分析 • 基于最少元素的状态空间化简算法

音字转换系统结构图

实验结果 • 词典收录26000个词，采用二千万汉字语料（选自95、96年《人民日报》电子版）作为实验文本，其中80%作为训练语料，其它20%作为测试语料。系统搜集了1000条语法、语义规则 • 单纯统计语言模型正确率为90.5%, • 加入语言规则后正确率提高到91.8%， • 加入最少元素约束后提高到92.3% • 能有效处理长距离语言约束和递归语言现象

4 汉语语言模型的自适应方法 • 当前主要自适应语言模型有两种： • 基于缓存(Cache)的自适应模型 • 主题自适应模型 • 缺点：仍然较粗糙

面向用户语言模型的提出 • 语言模型的应用如汉字键盘输入是面向特定用户的，不同用户使用的文本类型和风格无法准确预测，因而也无法建立准确的模型 • 特定用户使用的文本具有时段特性，即在某一特定时段内，文本类型或风格不变，但超过这一时段则可能变化

面向用户的语言模型框架

理论依据

汉语语言模型研究 及其在音字转换中的应用