无字库智能造字系统在计算机上的实现

无字库智能造字系统在计算机上的实现 指导老师：教授专业：模式识别与智能系统

主要内容 • 绪论（国内外研究现状） • 智能造字系统（结构，模块，各部分的工作原理） • 输入模块（功能与实现） • 造字模块（功能与实现） • 显示模块（功能与实现） • 测试和实验（性能与操作） • 下一步的改进

绪论 1. 汉字的起源与发展文字是在语言的基础上创造出来的，是语言的最重要的辅助工具。文字储存着人类文明的信息，它超越了语言交际的时、空限制，使异时、异地的交际成为可能。它可以记载和传递人类的历史经验、使人了解过去的历史，总结自己的经验，开拓未来的生活。这是人类社会发展和认知发展的重要前提。汉字是汉民族在长期的劳动生产和社会实践中为适应交际需要而独立创造出来的书面交际工具。汉字是在先民在早期的计数和记事的方法中逐渐演变过来的。计数和记事方法中使用的符号慢慢演化成原始的文字。随着社会的发展，文字的使用越来越广泛，原有的文字开始无法满足社会的需求，人们不得不在这些原有的文字的基础上利用新的方法来创造更多的文字。于是新的造字方法产生了，这就是后来的“六书”造字法。

2. 中文信息化的发展 我国从20世纪50年代就开始了计算机中文信息处理的理论和技术的研究。到目前为止，我国和国际组织开发的中文信息处理系统都采用字库方式，以汉字作为信息处理的基本单位。基本满足了中文信息化的要求，为中文信息化做出了不可磨灭的贡献，但这种方式也存在它固有的弱点：（1）汉字信息化标准变化频繁。（2）不符合汉字认知规律而与汉字教学脱节。（3）不符合汉字的造字规律影响对文化的传承作用。（4）信息熵高，是效率最低的文字信息系统。

2.智能造字国内外研究现状 周浩华对智能汉字库进行了探讨，受到人写字的思维过程的启示，人先是使用了汉字的构成知识，然后是使用了基本笔画知识，再根据笔画来组成汉字，提出了用笔画来组字的理论；香港大学Pak-Keung Lai等人根据汉字组件之间的层次关系，提出了汉字组件通过结构进行组合来生成汉字的方法，从而解决计算机字库中存在缺字的问题；香港浸会大学Candy L.K. Yiu等人同样针对计算机字库缺字问题，提出了利用操作子通过笔画组合来生成汉字，使用一种叫做HanGlyph的汉字描述语言，开发了汉字生成系统；金连文针对汉字字库的存储量大的问题，根据相同的部件在不同的汉子中出现的规律，提出了一种基于部件复用的分级汉字字库的构想。

综上所述，无字库汉字生成研究采用组件拼合的方式，或以笔画作为基本组件，或以部件作为基本组件，得出了可以不用字库生成汉字的结论。上述的汉字生成研究主要存在以下不足：综上所述，无字库汉字生成研究采用组件拼合的方式，或以笔画作为基本组件，或以部件作为基本组件，得出了可以不用字库生成汉字的结论。上述的汉字生成研究主要存在以下不足：（1）只是从技术层面对汉字生成技术进行了探讨，并没有从文化层面探讨如何传承汉字优秀文化，也无法一劳永逸的解决汉字的信息化标准问题。（2）以上研究的出发点主要针对汉字字库存储量大，汉字字库缺字等问题，开展了局部的，小范围汉字字符集的实验研究，实验集合远远小于当前所有的汉字。（3）以笔画作为基本组件，虽然可以大大减少基本组件的数量，但是汉字编码的长度势必要大大增加，从而大大地降低了计算机进行信息处理的效率和输入速度。另外，笔画是书写的最小单位，采用笔画生成汉字不符合人对汉字的认知机理，与教育脱轨，不传承汉字文明。

3.基于认知机理的造字理论 针对汉字字库存在的不足，《在计算机中描述汉字的网格及其描述方法》提出汉字电子化中的拼部组字方法，明确提出采用智能造字取代汉字字库，不以汉字作为中文信息处理的基本单元，而是把汉字基元作为组字的基本单元。在中文信息处理系统中只有汉字基元库而没有汉字字库，用汉字基元进行造字而不是到汉字字库中选字。《汉字电子化中的拼部组字方法》进一步研究提出了系统的结构框架，由网格获取汉字的结构知识，由基元库、知识库和智能组字模块等单元构成无字库智能造字系统。

4.本研究的目的和意义 研究目的是通过实验，利用工程化的实验方法，验证经过实验提取的基元和结构对汉字集的覆盖情况；验证通过实验获取的仿射变换知识来组字的可行性；最终验证基于认知机理的汉字智能造字的可实现性。如果实现上述目标，就将具有如下意义：（1）建立长期稳定的基元和结构标准以及编码标准（2）通过仿射变换进行组字的智能造字方案是可行的（3）解决复杂汉字的录入问题（4）利于智能造字的广泛应用

智能造字系统 1.系统结构

（1）知识库。知识库用来存放汉字的编码知识、结构知识、基元知识以及基元的映射知识，是整个智能造字系统的核心。系统造字过程所需要的数据都由知识库提供。（1）知识库。知识库用来存放汉字的编码知识、结构知识、基元知识以及基元的映射知识，是整个智能造字系统的核心。系统造字过程所需要的数据都由知识库提供。（2）推理机。推理机根据用户的输入，利用一定的规则限制和造字规律，结合知识库中的知识，推理出汉字编码，补充和完善用户的输入，提供了友好的联想提示。（3）解释机制。解释机制分析当前输入的编码，根据编码规则校验编码，再根据解析的结果从知识库中提取对应的基元映射知识，为造字单元提供必要的数据。（4）智能造字单元。智能造字单元通过仿射变换原理将编码中的所有基元映射到目标图片来完成造字工作。（5）人机接口（键盘、显示界面）。人机接口接收用户的输入并显示结果。（6）存储单元。存储单元完成相关数据文件的保存和打开功能。

2.系统模块划分

3.开发系统前的准备工作 （1）基元，结构和编码方式基元和结构的提取流程，汉字编码要求（2）仿射变换造字原理（3）仿射系数的自动获取选点方式，计算感兴趣区域，PSO寻优（4）知识表示

输入法模块设计 1.皮氏输入法设计目标（1）简单易学。使用者只需要具备简单的电脑操作知识就可以顺利地使用它。（2）输入速度快。（3）支持大字符集。（4）界面友好。用户输入汉字的过程是一个人机交互的过程，友好的用户界面设计可以提高用户的输入效率，减少误输入。（5）运行速度快，系统资源占用少。

2.数据结构与查找算法 假设总的节点数为n，当前层的节点数为m，其性能与数组对比如下

3.内存处理技巧 （1）共享内存（2）广义树分配连续内存（预排序）

3.按键逻辑控制

3.提示窗口设计

造字模块设计 1.造字模块设计目标（1）实现编码校验（2）实现快速的编码转换（3）实现带插值的仿射变换

2.编码校验算法

2.编码转换算法 （1)根据Unicode找智能造字编码。能实现使用O(1)的时间复杂度来查找哈希表中的数据（2）根据智能造字编码查找Unicode。能实现O(lg(n))的时间复杂度来查找数组中的数据哈希函数的设计：由于汉字分区存放，在每个区中汉字编码是连续的，这就给哈希函数的设计带来了便利。假设第i区的第一个汉字的区位码为，第i区的汉字总数为。假设有一个汉字区位码为A，通过与每个区的首个汉字区位码进行比较得到，可知A处在第j区，哈希函数设计为

3.仿射变换与插值算法

显示模块设计 1. 显示模块设计目标（1）文档的显示（排版算法）（2）文本编辑（光标定位）（3）新建文件，打开文件，保存文件，显示编码

2. 显示模块程序流程

系统测试与实验 1. 内存部分（总和为7069K+247K = 7316K）皮氏输入法内存使用：

皮氏输入法实际占用的内存为8480K，与计算值吻合。皮氏输入法实际占用的内存为8480K，与计算值吻合。

智能造字系统内存使用：

2. 智能造字系统界面：

3. 输入法输入测试：

4. 测试结论 由于GB18030-2005字符集中的绝大部分汉字都没有音码，在统计皮氏输入法的输入速度时，暂时不考虑音码输入带来的便利，经过统计，70244个汉字对应的智能造字编码中基元码的总数为247000个，结构码的总数为144284个，因此平均每个汉字的基元码个数为3.52，结构码个数为2.05。左右一级结构汉字的个数为40654，占57.88%，上下一级结构汉字的个数为11191，占15.93%，由于输入过程中要进行翻页对候选基元进行选择，左右和上下一级结构的汉字大量聚集在一起，使得基于候选列表的页数很多，这就增加了输入过程中的翻页次数，平均数量达到3次。可以得出结论：在智能造字系统中输入一个汉字的平均按键次数约为8次。通过上边对皮氏输入法的输入展示和统计数据可以知道，皮氏输入法的输入速度相对拼音输入法要慢，但是皮氏输入法的输入更简单直观，容易学习，符合汉字的认知规律，在输入复杂汉字方面有很大的优势。精心设计了数据结构和算法的智能造字系统成功实现了70244个汉字的输入，组字和显示，实验验证了智能造字理论。

下一步的改进 （1）编码在计算机中的表示。目前的结构码用一个大写字母表示，基元码用三个小写字母表示，结构码与基元码之间使用逗号分隔。由于结构码和基元码的总数不会超过2048个，所以每个结构码或基元码可以只用11bit来表示。由编码校验算法可知，结构码和基元码之间的逗号不是必要的，因此的新的编码方式可以占用更少的空间。（2）用轮廓基元库取代现在的图片基元库。轮廓字库占用的空间更小，渲染出来的汉字不会产生锯齿。（3）改进知识库，使用更智能的知识表示方式。目前在知识库中每个汉字都有对应的仿射变换系数，数据庞大，并没有实现真正意义上的智能造字。（4）输入实现联想功能。现在广泛使用的输入法都具有联想功能，联想功能使得用户的输入更方便快捷。（5）在线系统更新。能及时对软件或者数据进行升级以改善输入法的程序性能。

PPT到此结束谢谢皮老师谢谢各位老师谢谢各位同学PPT到此结束谢谢皮老师谢谢各位老师谢谢各位同学

无字库智能造字系统在计算 机上的实现