200 likes | 402 Vues
国家自然科学基金项目 “ 汉语全文词义标注关键技术研究 ” ( 曲维光 2013-2016) 国家自然科学基金项目 “ 隐喻识别与理解的理论与方法研究 ” ( 王治敏 2012-2015 ) 国家 863 计划 “大规模汉语语义基础资源库和知识库设计构建及工具平台 ” (王厚峰 2012-2015 ) 蒋经国国际学术交流基金 “ 历代语言知识库建置”计划“(罗凤珠 2009-2013 ). 第十四届汉语词汇语义学国际研讨会 CLSW2013 词汇计量研究与常用词知识库建设. 俞士汶 朱学锋 北京大学计算语言学教育部重点实验室
E N D
国家自然科学基金项目 “ 汉语全文词义标注关键技术研究” (曲维光 2013-2016) 国家自然科学基金项目 “ 隐喻识别与理解的理论与方法研究 ” ( 王治敏 2012-2015 ) 国家863计划 “大规模汉语语义基础资源库和知识库设计构建及工具平台 ” (王厚峰 2012-2015) 蒋经国国际学术交流基金 “ 历代语言知识库建置”计划“(罗凤珠 2009-2013) 第十四届汉语词汇语义学国际研讨会 CLSW2013 词汇计量研究与常用词知识库建设 俞士汶 朱学锋 北京大学计算语言学教育部重点实验室 北京大学计算语言学研究所 Email: yusw@pju.edu.cn 2013年 5月 11日郑州大学
主要内容 • 词汇计量研究述评 • 词表常用性的计量表示 • 常用词表和“部件词” • 常用词知识库的总体设计与工程实践 • 结语与致谢
主要内容 • 词汇计量研究述评 • 词表常用性的计量表示 • 常用词表和“部件词” • 常用词知识库的总体设计与工程实践 • 结语与致谢
词汇计量研究述评 面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。一般地,自然语言处理的统计方法一定以语言的计量研究为基础。 • 国家语言资源监测与研究中心进行的词汇计量研究 自2006年以来每年收集各类媒体语料约10亿汉字,在《中国语言生活状况报告》上发表了部分成果。从共时和历时两个角度进行研究。“覆盖整个语料80%的词种个数稳定在4500个左右,覆盖率达到90%的词种个数稳定在12000左右。可见,高频常用词语的数量相对稳定。” • 《常用词表(草案)》(2008,商务印书馆)简介 56008个使用频率高、适用范围广的词语,按“频序号”排列,有音序索引。汉字相同 的同形词实际上只区分了读音不同的情况。 • 综合型语言知识库(CLKB,1986 —)的相关研究 “现代汉语多级加工语料库”与《现代汉语语法信息词典》以及“现代汉语语义词典”集成,可完成不同深度(词频,带词性词频,粗/细粒度的义项)的统计。 均根匀度(张化瑞博士论文) 词语的属性计量研究(如:名词直接受数词修饰,王萌博士论文)
主要内容 • 词汇计量研究述评 • 词表常用性的计量表示 • 常用词表和“部件词” • 常用词知识库的总体设计与工程实践 • 结语与致谢
词表常用性的计量表示 模糊概念“常用”的定量表述 • 言语的无限性与工程的有限性 ——常用词表L是有限的语料库 C 的函数 (不指望一个常用词表是放之四海而皆常用的) • 覆盖系数δ(0≤ δ ≤ 1 ) ——常用词表L也是覆盖系数δ的函数 (常用词表的长度不是恒定的) • 常用词表L是语料库C 和覆盖系数δ的二元函数 L=L( C, δ)
语料库C的简化表示(建模 modeling) C={uj,pj | 1≤ j ≤m } ,u, p都是m维向量。 u的分量 uj代表 C的互不相同的构成成分: 字(字符串 )——信息处理的对象 切分单位 (词、词-词性、词-词性-同形、词-词性-同形-义项)——语言信息处理的对象 留下一个问题:切分单位 =词 ? 当i<>j, 则ui<>uj; p的分量pj为uj在语料库C中的(相对)频率p (uj)= pj,满足 归一化条件,即 将uj按pj的降序排列,于是有 C={uj,pj | 1≤ j ≤m } , 且当s<t时, ps≥pt(1≤ s ≤m , 1≤ t ≤m)
常用词表 L的构造性定义 为确定语料库 C关于覆盖系数 δ 的常用词表 L, 要求找到一个正整数 K(1≤ K ≤m),使 且 , < δ 则常用词表 L= C( δ)={uj,pj | 1≤ j≤K} 且 ‖L‖= K 。
反向考察:词表常用性的定量检测 设 词 表 D= {w}, w=(w1, w2, …, wi, …, wl), 当i<>j,则wi<>wj ; 语料库 C={u, f},u=(u1, u2, …, uj, …, um),当i<>j,则ui<>uj; f=(f1, f2, … , fj, …, fm), fj= f(uj)为uj在语料库C中的频次。 令 s≡w∩u={sj | sj ϵw and sj ϵu },(1≤ j ≤n, n ≤l且n≤m)且 f(sj)=gj, gj即sj所对应的某个uj的频次f(uj) = fj。 词表一次覆盖率R1:R1 = n / m 词表多次覆盖率Rt: 词典的有效率V: V= n / l R1, Rt, V 的值都在区间[0,1]上。R1, Rt 越大则覆盖率越高。若R1的值不大,而Rt 的值却大,表示词表 D 覆盖了语料库 C 的常用词。当 V 取理想值 1 时,表示词表 D 中的词在语料库 C 中都用到了。
主要内容 • 词汇计量研究述评 • 词表常用性的计量表示 • 常用词表和“部件词” • 常用词知识库的总体设计与工程实践 • 结语与致谢
回到问题 :切分单位=词? 一 词频统计与“部件词” 现在大规模自动进行的词频统计实际上是针对 切分单位进行的。 切分单位决定于语料库加工规范,而加工规范 受不同的的应用目标所制约。 不同的汉语语言学著作和词典对于汉语的词的 界定不同。 《现代汉语语法信息词典》GKB中的“词语”同 基于GKB制作的基本标注语料库的“切分单位”之间 也有诸多的差异。
回到问题 :切分单位=词? 基于1998年一年的《人民日报》,作为切分单位的“年”只有822次,比“楼、家乡、能源”等还少。原因是很多的“年”分散到 “一九九八年/t”、“一九九七年/t”等切分单位中去了。 通常认知:名词“年”频次不仅是单独的“年/n”的次数,也包括在其他切分单位中出现的次数。基本数词的情况也是如此。 GKB收了“积极”、“积极分子”和“积极性”这3个词,也是切分单位,分别统计这3个词的频次,也影响 “积极”、“分子”、“性”的频次。
“部件词”的概念 “部件词”:年,一,积极,分子,性‥‥ “非部件词”:一九九八年,积极分子,积极性‥‥ 把一部词典收录的所有词语或语料中的所有切分单位看作词的全集,从中区分出 “部件词”和“非部件词”。“非部件词”是由“部件词”构成的。 “部件词”和“非部件词”之间的频次以及它们同总频次之间有以下 ①-④的关系。 ①部件词集U非部件词集=词的全集; ②部件词集∩非部件词集=θ(空集)。 ③ 在语料库中,部件词e的累计频次=部件词e本身的频次+所有包含e的非部件词w的频次。 ④ 一个非部件词拆分后,部件词的累计频次和总频次要重新计算: 设 某个非部件词 w 可拆分为 n 个部件词 ej(j=1,2,…,n), 拆分前w的频次为f,每个ej的频次为fj ,所有词的总频次为F, 拆分w后,每个ej的频次为fj’,总频次为F’, 则fj’= fj+f , (j=1,2,…,n), F’=F+(n-1)* f .
基于“部件词”的常用词表的确定 常用词表的确立要基于频率等计量数据,还应该以“部件词”为主体。 第一步:选择足够大的有限的现代汉语语料库C。 第二步:对C进行多级加工。尽可能继承、利用既有成果。计算C的构成单元uj(j=1,2,…,m)的频次fj和所有构成单元的总频次F,按fj降序排列uj ,得到uj的列表。 第三步:对每一个uj进行辨析,分出部件词和非部件词,将非部件词拆分为部件词(由于列表很大,需要对频次给出下限,频次少于下限的uj不予处理)。 第四步:重新计算部件词的累计频次和由部件词构成的所有词语的总频次F’。 第五步:根据每一个部件词ej的累计频次和总频次F’计算ej的频率pj ,按pj降序排列ej,得到部件词列表。 第六步:考虑计算部件词的均根匀度,按均根匀度和频率的加权平均值调整部件词列表。 第七步:给定覆盖系数δ,构造出基于部件词的常用词表。 第八步:适当选择若干典型的常用非部件词,加进常用词表。 注1:第六步可以省略。 注2:将非部件词拆分为部件词也比较复杂。在多级加工语料中,非部件词可能带有词性、同形、义项等信息,拆分后如何确定部件词的相应信息,这一步虽有共性规律可循,但很多情况需要个别处理。
主要内容 • 词汇计量研究述评 • 词表常用性的计量表示 • 常用词表和“部件词” • 常用词知识库的总体设计与工程实践 • 结语与致谢
常用词知识库的总体设计与工程实践 在主要由部件词构成的常用词表的基础上建设常用词知识库,可以大大提高常用词知识库的有效性和常用词知识库的建设效率。 常用词表的构造和常用词知识库的设计与实现可以并行进行,相互促进,因为最常用的一些词(几百个乃至几千个)总会在常用词表中。 常用词知识库的框架结构不妨仍继承《现代汉语语法信息词典》(GKB)和现代汉语语义词典(CSD)的数据库文件格式。 常用词知识库可划分为词汇知识库、句法知识库、语义知识库、构词规则库、例句库等5部分。常用词知识库的所有数据库文件的第一个字段都是“词语”。
常用词知识库的总体设计与工程实践 词汇知识库相当于GKB的总库,可有选择地继承GKB总库的内容,将各类词库中的“释义”字段移到这里,另增加一些字段,如“异形”、“变体”、“异读”等等。 句法知识库大体继承GKB的各类词的数据库,字段也要有所拆分、删节,使其更精炼,同时吸收GKB以外虚词知识库、成语知识库等的部分内容。 语义知识库有选择地继承CSD和CLKB中的中文概念词典CCD的内容。 构词规则库反向利用部件词拆分规则,构造非部件词的生成规则。 例句库汇集每个词的若干典型例句,建立全息语料库(每一个词的各种词法、句法、语义信息都参照其所在的上下文显性地标注出来),为词语属性的计量研究做好准备。
常用词知识库的总体设计与工程实践 常用词知识库是一个浩大的语言工程。不过,基础是坚实的,已有诸多成果可以集成。 对于新增的任务,也有了相当多的工程实践经验,如已拆分了数以万计的非部件词,为3万多高频词语的每一个都选取了3-5个例句。也做过全息语料库的小规模试验。
主要内容 • 词汇计量研究述评 • 词表常用性的计量表示 • 常用词表和“部件词” • 常用词知识库的总体设计与工程实践 • 结语与致谢
结语与致谢 CLKB是ICL/PKU师生多年努力的成果,也得到中文信息处理学界同仁的扶植,不无侥幸地获得2011年度国家科技进步奖二等奖。衷心期望这项成果能继续发展。常用词语知识库是值得关注的一个发展方向。限于精力和条件,我们已经不可能挑起这副重担。幸运的是,鲁东大学汉语辞书研究中心主任亢世勇教授和邱立坤博士、北京语言大学杨尔弘教授、刘鹏远博士已表示对合作研制常用词知识库有兴趣。衷心期望常用词知识库的研制能成为有相同志趣者共同努力的目标,并为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。 衷心感谢在座同仁耐心听讲。期望得到各位同仁的指教,尽量少走弯路。 欢迎大家访问 北京大学计算语言学教育部重点实验室 www.klcl.pku.edu.cn 北京大学计算语言学研究所 www.icl.pku.edu.cn 北京大学软件与微电子学院语言信息工程系 www.ss.pku.edu.cn