290 likes | 408 Vues
从大规模语料中提取词表的 几个问题. 厦门大学 苏新春 suxch@xmu.edu.cn. 语言库语言学的思想正在日益影响着语言研究者的认识和行为。 或是利用现有的语料库,或是自己动手制作的小型、专题性的语料库,语言研究愈来愈离不开语料库的开发、建设与利用。 大规模语料的利用正在成为我国语言研究者日益认同的一项必做的基础工作。但里面存在着许多理论和实践的问题需要我们去解决。. 语料性质. 词典语料库 —— 熟语料 真实文本语料 —— 生语料 “ 通用语料库 ” —— 中加工的语料 准确认识和细致分析不同的语料或语料库,是做到正确、有效利用语料库的前提。.
E N D
从大规模语料中提取词表的几个问题 厦门大学 苏新春 suxch@xmu.edu.cn 第四届全国应用语言学研讨会(2005-12-16,成都)
语言库语言学的思想正在日益影响着语言研究者的认识和行为。语言库语言学的思想正在日益影响着语言研究者的认识和行为。 • 或是利用现有的语料库,或是自己动手制作的小型、专题性的语料库,语言研究愈来愈离不开语料库的开发、建设与利用。 • 大规模语料的利用正在成为我国语言研究者日益认同的一项必做的基础工作。但里面存在着许多理论和实践的问题需要我们去解决。 第四届全国应用语言学研讨会(2005-12-16,成都)
语料性质 • 词典语料库——熟语料 • 真实文本语料——生语料 • “通用语料库”——中加工的语料 准确认识和细致分析不同的语料或语料库,是做到正确、有效利用语料库的前提。 第四届全国应用语言学研讨会(2005-12-16,成都)
“词”单位的研究 • “词单位”的研究是词汇研究的一项基础工作。 • 词的大小,词的切分,直接影响到“词单位”的存在。 • 词典语料库的词表——成熟、稳定的词语——研究重心是有与无; • 真实语料的词表——语言与言语的混成物——研究重心是是与否 第四届全国应用语言学研讨会(2005-12-16,成都)
词表的提取 • “词单位”的集成,就是词表的形成。 • 词表是某领域词汇全貌的反映。 • 从大规模语料中提取词表,就是完成从最原始的“矿料”中提取成品的任务,是一项要经历多个环节的复杂工作。 第四届全国应用语言学研讨会(2005-12-16,成都)
“核心语料库”的特点 • 本文所利用的语料是国家语委“通用语料库”中的核心语料库。 • “核心语料库的字数为2000万字,由7000万语料中筛选出来。由于《选材原则》是经几次专家论证确定的,核心语料库的语料筛选工作,在语料分科、年限划分、比例、字数等方面基本上仍依照《选材原则》进行。”(《说明》) 第四届全国应用语言学研讨会(2005-12-16,成都)
核心语料库的特点: • 真实语料:包括语言词与言语词; • 加工语料:分词与词性标注; • 机器处理与人工干预共同作用的产物: 第四届全国应用语言学研讨会(2005-12-16,成都)
在提取词表的工作中,碰到了许多理论与实践上的问题,或是新启之,或是补校之,或是刊误之,都需要我们对此进行深入的思考,并作出妥善的解决。在提取词表的工作中,碰到了许多理论与实践上的问题,或是新启之,或是补校之,或是刊误之,都需要我们对此进行深入的思考,并作出妥善的解决。 第四届全国应用语言学研讨会(2005-12-16,成都)
思考之一:语料库的加工精度问题 • 核心语料库的加工精度主要指: 1.“词”切分是否准确 2.词性标注是否准确 • 加工精度是如何影响着词汇的数量与分布; • 分词错误的普遍性与可接受程度; 第四届全国应用语言学研讨会(2005-12-16,成都)
冒出了不存在的“错词” • 用压电材料做小平面镜阵来代替一块反射镜,每块小平面镜可以自动调节,或者把主镜设计得可以快速改变其局部的形状,以在最后的焦平面上获得消除大气湍动和光学像差影响的天体像。 ID8092/JN10000402/《实测天体物理学》 第四届全国应用语言学研讨会(2005-12-16,成都)
“做小” • 用/v 压/v 电/n 材料/n 做小/v 平面/n 镜/n 阵/n 来/vd 代替/v 一块/d 反射镜/n ,/w 每/r 块/q 小/a 平面/n 镜/n 可以/vu 自动/a 调节/v ,/w 或者/c 把/p 主/n 镜/n 设计/v 得/u 可以/vu 快速/a 改变/v 其/r 局部/n 的/u 形状/n ,/w 以/p 在/p 最后/n 的/u 焦/a 平面/n 上/nd 获得/v 消除/v 大气/n 湍/v 动/v 和/c 光学/n 像/n 差/a 影响/v 的/u 天体/n 像/n 。/w 第四届全国应用语言学研讨会(2005-12-16,成都)
使已有的“词”消失 • 用/v 压/v 电/n 材料/n 做小/v 平面/n 镜/n阵/n 来/vd 代替/v 一块/d 反射镜/n ,/w 每/r 块/q 小/a 平面/n 镜/n可以/vu 自动/a 调节/v ,/w 或者/c 把/p 主/n 镜/n设计/v 得/u 可以/vu 快速/a 改变/v 其/r 局部/n 的/u 形状/n ,/w 以/p 在/p 最后/n 的/u 焦/a 平面/n上/nd 获得/v 消除/v 大气/n 湍/v 动/v和/c 光学/n 像/n 差/a影响/v 的/u 天体/n 像/n 。/w 第四届全国应用语言学研讨会(2005-12-16,成都)
“错词”的可容度: • 以“国人”为例: • 过去/nt 几/m 年中/nt 两/m 国人/n 民间/n 频繁/a 的/u 交往/v 。/w • 及/c 古/a 梵文/n ,/w 古/a 波斯/ns 文/n 及/c 突厥/ns 回鹘/n 诸/r 国/n 文字/n 无算/v ;/w 我/r 国人/n 始/v 稍稍/d 知之/v 。 第四届全国应用语言学研讨会(2005-12-16,成都)
一/m 国/n 大事/n ,/w 无/v 一/m 不/d 坏/a 在/p "/w 争功/v 妒嫉/v "/w 和/c "/w 蜚语/n 中伤/v "/w 之上/nd ,/w 难道/d 我/r 国人/n 真/d 有/v 此/r 特性/n 真/d 改/v 不/d 掉/v 此种/r 特性/n 吗/u !/w • 船/n 上/nd 有/v 英国人/n ,/w 也/d 有/v 经营/v 商业/n 的/u 别/r 国人/n ,/w 你/r 可/vu 去/v 问/v 他们/r "/w 。/w 第四届全国应用语言学研讨会(2005-12-16,成都)
中国/ns 的/u 人民/n 是/vl 多疑/a 的/u 。/w 无论/c 那/r 一/m 国人/n ,/w 都/d 指/v 这/r 为/vl 可笑/a 的/u 缺点/n 。 • 这/r 虽/c 不是/vl 人人/n 办/v 得到/v ,/w 但/c 那/r 一/m 国/n 文字/n 最好/a 请/v 那/r 一/m 国人/n 来/vd 做/v 教师/n ,/w 却是/vl 比较/d 适宜/a 的/u 办法/n 。 第四届全国应用语言学研讨会(2005-12-16,成都)
大致/d 有/v 二/m 种/v 情况/n :/w 一/m 是/vl 法律/n 对/a 我国/n 公民/n 的/u 适用/v 范围/n ;/w 二/m 是/vl 法律/n 对外/d 国人/n 的/u 适用/v 范围/n 。 第四届全国应用语言学研讨会(2005-12-16,成都)
“国人”的分词正确率 总用例:71 正例比:55/71 误例:16 正确率:78% 正例:55 总字符串:3144 正例比:55/3144 误例:3089 正例:55 正确率:1.75% 第四届全国应用语言学研讨会(2005-12-16,成都)
在鸣-沙-山上-看完-大漠-落日-的-人群-结队-滚-将-上来。在鸣-沙-山上-看完-大漠-落日-的-人群-结队-滚-将-上来。 • 文化大革命-的-后遗症,二-十年-不治! • 黄-老-曾-到-戏园子-来看-戏 第四届全国应用语言学研讨会(2005-12-16,成都)
思考之二:机器分词频率标准的强制性 • 围成 • 仅限于 • 本市 • 遥指 • 中日 • 攻下 • 单靠 • 这么回事 第四届全国应用语言学研讨会(2005-12-16,成都)
(他)换好(了入殓的衣服) • 一些-硫酸-溅到-了-腿上 • 德国-队 芬兰-队、日本-队、香港队 • 已-不是-专注-于-劲歌-劲-曲 第四届全国应用语言学研讨会(2005-12-16,成都)
思考之三:机器分词对词的“意义完整性”的影响思考之三:机器分词对词的“意义完整性”的影响 • 白-磷 • 滤-纸 • X-光-室 • 卫-线 • 信-徒 • 互济-会 • 行为-科学 • 实行-党委-集体领导-下-的首长-分工-负责制 第四届全国应用语言学研讨会(2005-12-16,成都)
思考之四:新词、言语词的难产 • 千万不要认为我这县长能一-掌-遮-天 • 现在不是提倡访-富-问-甜吗 • 从上面三例,可以总结出“傻-论”者的观点 • 这一席话,言-简-情深 • 先定一个框框,拿框子去套,接着就是抓-辫子,挖-根子,戴帽子,打-棍子,那就不好了嘛。一来就是五-子-登科 • 一顶“文艺-黑线-专政-论”的帽子 • 还给它起了一个吓人的名字“狼-桃” 第四届全国应用语言学研讨会(2005-12-16,成都)
目-不-旁-视 • 剧-画-就是-我国-的-连环画 • 一-辆-人-货车 • 其-燃料-多用-枣-木炭 第四届全国应用语言学研讨会(2005-12-16,成都)
思考之五:语文词语的地位 • 从核心语料库共提取词语163162条: 第四届全国应用语言学研讨会(2005-12-16,成都)
思考之六:语文词语词表的覆盖率该如何计算 • 常用汉字的覆盖率: 2500字,98.4% 3500字,99.5% • 通用词语的覆盖率? 第四届全国应用语言学研讨会(2005-12-16,成都)
思考之七:异形词的普遍性与重要性 • 尊从(1)——遵从(51) • 啄磨(1)——琢磨(143) • 绉纹(3)——皱纹(118) • 蕴酿(1)——酝酿(117) • 心惊胆颤(2)——心惊胆战(4) • 席梦司(1)——席梦思(3) • 稀里哗拉(2)——稀里花啦(2) • 一骨古脑(1)——一古脑(22) • 一刀两段(1)——一刀两断(7) 第四届全国应用语言学研讨会(2005-12-16,成都)
思考之八:书面语与口语的差异 • 正在研制中的“通用词表”里面收儿化词997条。 • 在1991-2005(5)约3.5亿字的《人民日报》中,词频总数26971次; • 儿化词去“儿”化的词频为249556次。 • 口语与书面语中的“儿化”有无之比 1︰10 第四届全国应用语言学研讨会(2005-12-16,成都)
思考之九:机器分词的局限 • 机器分词的基本作法是“词典主义”,词典中有的词予以保留,没有的词被切割.具有某种作用,但破坏了“真实语料”的本来面貌。 • 机器分词将向面向人的研究,以探讨”语言真实面貌”为目的的研究带来极大的副作用。 • 保留语言真实面貌,就应该把“词”建立在”意义完整”、“独立运用”的基本要求上。要按“词”的本来面目来切分词单位。 第四届全国应用语言学研讨会(2005-12-16,成都)
结语 • 从大规模语料中提取词表,就是完成从最原始的“矿料”中提取成品的任务.里面有许多理论与实践的问题值得我们研究。 suxch@xmu.edu.cn 第四届全国应用语言学研讨会(2005-12-16,成都)