110 likes | 250 Vues
第三章. 现代汉字的字频 统计与分析. 汉语专题. 什么是字频. 字频——汉字的使用频度。指在一定的历史时期内经抽样取得的文字资料里每一个汉字的使用次数与抽样资料总字数的比例。 静态统计——统计字典、字表里的汉字字头。 动态统计——统计图书、报刊里实际使用的汉字。. 汉语专题. 第一节 综合性的字频统计. 一、《语体文应用字汇》 陈鹤琴著,我国最早的现代汉字字频统计著作,商务印书馆1928年出版。对6种语料554478个字进行字频统计得到4261个字种。. 汉语专题. 二、《汉字频度表》和《汉字频度统计》 《汉字频度表》
E N D
第三章 现代汉字的字频 统计与分析 汉语专题
什么是字频 • 字频——汉字的使用频度。指在一定的历史时期内经抽样取得的文字资料里每一个汉字的使用次数与抽样资料总字数的比例。 • 静态统计——统计字典、字表里的汉字字头。 • 动态统计——统计图书、报刊里实际使用的汉字。 汉语专题
第一节 综合性的字频统计 • 一、《语体文应用字汇》 • 陈鹤琴著,我国最早的现代汉字字频统计著作,商务印书馆1928年出版。对6种语料554478个字进行字频统计得到4261个字种。 汉语专题
二、《汉字频度表》和《汉字频度统计》 《汉字频度表》 • 1974年科研立项,研制《信息处理用标准汉字表》,统计1973年至1975年间的语料21,629,372个汉字,得到字种6374个,1977年编成《汉字频度表》,1980年出版《按字音查汉字频度表》。 汉语专题
《汉字频度统计》 • 1984年开始用计算机统计,编成《汉字频度统计》,1988年由电子工业出版社出版。有字种5991个。把汉字分为5级。 • 字级 序号 累计频率% 平均画数 • 一级字 1—500 77.4 19 7.244 • 二级字 501—1000 90.8 19 8.710 • 三级字 1001—1500 95.898 9.68 • 四级字 1501—3000 99.597 10.437 • 五级字 3001—5991 100 11.599 汉语专题
三、《汉字频率表》 • 北京语言学院语言教学研究室从1979年开始用计算机和人工相结合的方法统计各种题材、体裁的1807398个汉字语料,得到字种4574个,编成《现代汉语频率词典》, 1986年出版。词典中附有《汉字频率表》。频率最高的10个字是:的、一、了、是、不、我、在、有、人、这。 汉语专题
四、《现代汉语字频统计表》 • 1981年开始,由北京航空学院用计算机进行字频统计,统计字数1108万,得到字种7754个,1985年完成。1992年出版《现代汉语字频统计表》。(部分成果《最常用的汉字是哪些——3000高频度汉字表》先于 1986年出版。)有13个字频统计表。 汉语专题
第二节 字频统计的应用 • 一、汉字效用递减率 • 动态的字和静态的字 • 汉字效用递减率——汉字出现的不平衡规律:最高频的字的覆盖率大约为90%,以后每增加1400个字,大约提高覆盖率十分之一。这个规律对汉字的定量工作很有意义。 汉语专题
汉字效用递减率 • 字种数 增加字数 合计字数 覆盖率 • 1000 1000 90.000% • 1000 1400 2400 99.000% • 2400 1400 3800 99.900% • 3800 1400 5200 99.990% • 5200 1400 6600 99.999% • (1)常用字非常集中;(2)字频在6600以后的字总覆盖率不到十万分之一。 汉语专题
二、用字笔画趋简率 • 应用频率高的字一般地趋向简化。 • 一级字(最常用字)平均笔画数 7.244 • 二级字(常用字) 平均笔画数 8.71 • 三级字(次常用字)平均笔画数 9.68 • 四级字(稀用字) 平均笔画数 10.437 • 五级字(冷僻字) 平均笔画数 11.599 • 使用频繁的字,人们设法简化它。 汉语专题