310 likes | 476 Vues
元码输入法讲座. 演讲:闫健. 中文信息处理现状. 中文信息处理技术包括: 1 .键盘输入(标准键盘和数字键盘) 2 .语音输入 3 .手写输入 4 .扫描识别技术 ……. 音码 —— 打拼音输汉字. 音码以易学和大众化著称,有全拼、混拼、双拼等,比较有名的输入法有智能 ABC 、微软拼音、谷歌拼音输入法、紫光拼音、搜狗拼音、拼音加加等。 音码的弱点:一是处理单字时重码过高,因而影响输入效率;二是遇到不会念的字时,让人缩手缩脚;三是长期使用拼音,导致提笔忘字现象。 发展方向是整句输入。. 形码 —— 依形取码.
E N D
元码输入法讲座 演讲:闫健
中文信息处理现状 • 中文信息处理技术包括:1.键盘输入(标准键盘和数字键盘)2.语音输入3.手写输入4.扫描识别技术……
音码——打拼音输汉字 • 音码以易学和大众化著称,有全拼、混拼、双拼等,比较有名的输入法有智能ABC、微软拼音、谷歌拼音输入法、紫光拼音、搜狗拼音、拼音加加等。音码的弱点:一是处理单字时重码过高,因而影响输入效率;二是遇到不会念的字时,让人缩手缩脚;三是长期使用拼音,导致提笔忘字现象。发展方向是整句输入。
形码——依形取码 • 形码以汉字的字形为基础。形码的家属成员非常之多,典型代表是五笔字型、郑码、钱码等。形码解决了拼音输入法的诸多弱点,例如:重码低,可以实现高速盲打;不在乎不会念,只在乎不会写。形码的主要问题是难学、易忘以及不规范。
音形码——音形结合 • 音形码既取音又用形。这类输入方案兼具音码和形码的优点,同时也带来新的问题。典型代表是自然码。音形码在某种程度上解决了重码问题,因此输入效率比音码有了很大的提高。由于音、形分离,输入汉字的感觉并不太爽。
表形码——象什么打什么 • 汉字的部件有些或在某种程度上是“象”ABC英文字母的。例如:“阝”→P、“口”→O、“亼”→A等等,典型代表是天然码。“象什么打什么”,既无需“音”、也无需形码中的键位,似乎问题就此解决。不过,不“象”的部件很多,汉字的拆分也十分混乱。
笔画——怎么写就怎么打 • 该想的都想了,该做的似乎也都做了。汉字的“老大难”问题似乎只有最后一条路了——笔画。这类方案典型代表是二笔输入法、以及数字键盘中的笔画输入法。“会写字就会打字”,学起来简单,可是用起来“烦”。笔画的零碎在本质上就违背了人们认知和使用汉字的习惯。
国家规范一——部件规范 • GF 3001-1997 《信息处理用 GB 13000.1 字符集汉字部件规范》(国家语委)1.《部件规范》将 GB 13000.1 字符集中20902字进行了拆分,形成393组560部。2.基础部件不能再拆分为更小的部件,但可以拆分笔画。
国家规范二——通用键盘要求 • GB/T1924-2003 《信息技术 通用键盘汉字输入通用要求》(信息产业部)1.汉字编码只能使用 A-Z 26个英文字母2.平均码长<2.2键/字 3.重码率<1.5%
四结合——输入法进入中小学教材的必要条件 “四结合”是指打字、识字、写字和查字四项功能集成在同一输入法中。 具体来说,编码方案应有利于增加学生识字量,写字正确率,提高学生阅读能力,写作能力,对汉字音、形、义的理解能力等。 (按:国家语委和中文信息学会的专家:华绍和、肖金卯、蒋顺炳 )
元码入门 • 从示例开始:李→木子→lmz张→弓长→zg刘→文刂→lwd思考一下下列字的编码:安、好、思……
元码基本原理 二分→移位→细分
二分原理 • ⑴ 汉字按“一小一大”或“一大一小”自然地拆分为二个相对完整的部件,将含首画的部件放在前面,将不含首画的部件放在后面。例如:矢(shi)→丿(pie)天(tian)→spt章(zhang)→音(yin)十(shi)→zyi
二分原理 • ⑵ 基础部件字直接拆分为笔画。基础部件字也称末级部件是指不能再拆分的最小部件。母→乛乛一丶丶→meen拆分形成的部件较多时,取一二末部件编码。
二分原理 • ⑶ 不易二分的汉字直接拆分为多个部件。赢→亡口月贝凡→ywkf
移位原理 • 定义25字从音首移位至韵首和模糊键(v)和重字键(p)。移位技术是元码分散重码的核心技术。“水(shui)”字要求移位,编码时从音首“s”移位至韵首“u”。例如:波→氵皮→bup
移位原理 定义下列25字编码时要求移位:a 上三山长羊u 水竖川与雨i 地交(十)示丝衣o 有钩走又手e 这折 v 为 p 重
细分原理 • 为了进一步分散重码,二分后还可以细分:⑴ 上下或左右结构可分(盟→日月皿→mrym)⑵ 部首不分(集→隹木→jzm、敲→高攴→qgp)⑶ 取尾分散取尾分散指当尾字音首与整字音首盱时,尾字可分。例如:叉→又丶→con杈→木叉→木又丶→cmon
部件类 • 部件类指一组具有某个相同特征的部件的集合。○ 一笔串二笔(c):艹廾卄……茶→艹人木→ccrm卉→十廾→hic举→兴卄→jxc○ 有戈组合(g):戈弋戋……代→亻弋→drg载→车→zgc
部件类 • 模糊对称(v):双比行羽癶卝……部件交重(p):朿巿聿肀帇……有钩组合(o):勹冂尢卂……两笔相交(i):十乂廴……两笔相连(l):丩丆丄丅……一笔串两笔(c):艹廾卄……
部件类 • 有戈组合(g):戈弋戋……有止组合(z):止疋疌……三横三撇三折(a):三彡巛二横二折二点(e):二巜……土结构(t):土士干千于乇八旋转(b):八丷……
强大的学习功能 • ⑴ 学生不会写的字可以拼音解决⑵ 学生碰到不会念的字(生僻字)用字典解决瘖→疒立日→blr用字典输入生僻字时,编码中任意键大写就可,无需切换。⑶ 利用元码输入法方便了解全部中英文信息
符号编码 • 利用“v”辅助输入,→vc(comma)。→vj?→vw!→vt:→vm
符号编码 • 利用“e、u、i、o、v”两两组合输入(→uu )→ii“→ui ”→iu‘→uo ’→ou【→ev 】→ve[→vu ]→uv
元码特点 • 易学○ 取音首编码比拼音更简单○ 部件虽多却不学已会○ 学一字通一片,通一片则一通百通
元码特点 • 好用○ GB2312-80字符集中6763字重码很低○ 平均码长小于2键/字○ 高速盲打胜似ABC
元码特点 • 规范○ 符合《部件规范》,轻松处理560部○ 符合《通用键盘标准》,26键全部搞定○ 符号和汉字一样方便
元码特点 • 传承○ 汉字拆分符合汉字的造字规律○ 打字与汉字书写、学习、教学合为一体○ 汉字文明与西文abc无缝集成