1 / 23

基于简易网格的汉字结构识别

基于简易网格的汉字结构识别. By: 谌杨帆 指导老师:皮佑国教授. 基于简易网格的汉字结构识别. 汉字识别简述 本课题研究内容 本课题的研究思路 本课题的研究意义. 汉字识别简述. 汉字识别流程简介 一个完整的汉字识别系统的识别过程如下图所示. 输入文本图像. 图像预处理. 图像版面分析. 行切分和字切分. 单字特征选择和提取. 模式分类. 模式识别结果. 识别结果的后处理. 汉字识别简述. 由图可见看字识别技术主要包括 : 1 扫描输入文本图像。 2 图像的预处理,包括倾斜校正和滤除干扰噪声等。

ludwig
Télécharger la présentation

基于简易网格的汉字结构识别

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于简易网格的汉字结构识别 By: 谌杨帆 指导老师:皮佑国教授

  2. 基于简易网格的汉字结构识别 • 汉字识别简述 • 本课题研究内容 • 本课题的研究思路 • 本课题的研究意义

  3. 汉字识别简述 • 汉字识别流程简介 一个完整的汉字识别系统的识别过程如下图所示

  4. 输入文本图像 图像预处理 图像版面分析 行切分和字切分 单字特征选择和提取 模式分类 模式识别结果 识别结果的后处理

  5. 汉字识别简述 • 由图可见看字识别技术主要包括: 1 扫描输入文本图像。 2 图像的预处理,包括倾斜校正和滤除干扰噪声等。 3 图像的版面分析和理解。 4 图像的行切分和字切分。 5 基于单字图像特征选择和提取。 6 基于单字图像特征的模式分类。 7 将被分类的模式赋予识别结果。 8 识别结果的编辑修改后处理。

  6. 汉字识别简述 • 汉字识别的特点及难点 1 类别较大 目前我国常用汉字约3,000~4,000。国标GB2312-80常用汉字字符集共有6,763个常用汉字,(一级3,755个,二级3,008个),总使用频度为99.99%。目前的研究目标一般都着眼于解决国标一级汉字3,755个,即使这样,汉字识别也属于大类别数的模式识别问题。所以,字量大是造成汉字识别困难的主要原因之一。

  7. 汉字识别简述 • 汉字识别的特点和难点 2 结构复杂 汉字是一种结构性很强的文字。在形体上汉字是一个个独立的方块字,每个汉字都由若干部件或比划构成。 3 相似字多 部分汉字字符之间只存在很细小的差别,如:“侯”和“候”之间只相差一小竖的比划。

  8. 基于简易网格的汉字结构识别 • 汉字识别简述 • 本课题研究内容 • 本课题的研究思路 • 本课题的研究意义

  9. 本课题研究内容 • 要解决的问题 1 汉字字符集较大 2 汉字结构复杂 3 相似字多 返回

  10. 本课题研究内容 • 网格的提出 汉字是拼合文字,是由部件(含比画、偏旁和部首)按一定规则拼合而成的。汉字的结构复杂,一级结构就有:左右结构、左中右结构、上下结构、上中下结构、全包围结构、半包围结构、整体结构、品字结构等八类。在半包围结构中又有左半包围、右半包围、上半包围、下半包围4种,而左半包围中又可以分为左上半包围、左正半包围和左下半包围。在上述各种结构中又嵌套有其它结构,例如左右结构的左结构中会包含上下结构,如“殿”,其右结构又是半包围结构,……。

  11. 本课题研究内容 • 网格的提出 汉字的结构如此复杂,人们在学习汉字时又是如何去认知汉字的结构的呢?我们回忆一下在初学汉字时对结构的认知过程。在初学写字时,书写的传统教学方法是利用带有网格的书写专用纸张。常用的有“米”字格、“田”字格和“九宫”格三种。“田”字格和“九宫”格写上字后如图所示。

  12. 本课题研究内容 • 网格的提出 由图可见,它反映了汉字的结构特征。用习字格作为书法入门练习工具,参考相应的字帖,有利于学生对汉字结构的认知和模仿,从而使字迹符合汉字对称、方正、稳定和协调的美学标准,保证书写汉字的结构符合造字规则。基于传统的汉字结构的认知机理,本课题提出计算机中用2x2网格和3x3网格简易网格来描述汉字的结构。

  13. 本课题研究内容 • 网格的概念 在汉字结构描述中,采用以2×2及3×3均匀网格为基本,其它网格为扩展,如下图所示。其中,图中的各种网格子空间可以利用网格算子对目标图像运算后得到。

  14. 本课题研究内容 • 网格的概念 下面给出2x2网格和3x3网格的数学描述: 2x2网格: 3x3网格:

  15. 本课题研究的内容 • 部分结构网格表示示意 整体结构 上下结构 左右结构 左下包围 上三包围 全包围 上中下结构 品字结构 左中右结构

  16. 基于简易网格的汉字结构识别 • 汉字识别简述 • 本课题研究内容 • 本课题的研究思路 • 本课题的研究意义

  17. 本课题研究思路 • 结构加基元的汉字描述

  18. 本课题的研究思路 • 汉字结构的识别 把汉字图像放到简易网格中进行分析(计算机辅助),总结各种汉字结构在简易网格中的描述规律,形成基于简易网格的汉字结构描述规则;其中,结构与描述规则一一对应。

  19. 本课题的研究思路 • 汉字结构的识别 依据汉字结构的网格描述规则设计算法及编写程序,建立汉字结构描述系统。汉字结构识别系统如下图所示,汉字结构识别系统以汉字图像作为输入,在汉字结构的网格描述规则指导下进行结构分析并析出分析结果,最后在决策环节检验汉字结构的计算机是被,若满足判定条件,则认为识别正确。

  20. 本课题研究思路 • 汉字的结构识别

  21. 基于简易网格的汉字结构识别 • 汉字识别简述 • 本课题研究内容 • 本课题的研究思路 • 本课题的研究意义

  22. 本课题的研究意义 • 研究意义 • 针对汉字识别的特点和难点提出一个解决方案。 • 以网格的形式对汉字进行描述。提出了利用网格提取汉字特征的新方法。 • 汉字是中国五千年文化的集中体现,本课题的研究主要针对汉字的结构,沿用了以中国书法九宫格为原型的而提出的网格的思想,因此在文化传承和文化教育上有重大的意义。

  23. 谢谢! 2007.12.20

More Related