1 / 28

基于笔端 形状 相似性的汉字字体识别

基于笔端 形状 相似性的汉字字体识别. 王晓 1,2 ,吕肖庆 1,2 ,汤帜 1,2 1 北京大学计算机科学技术研究所 2 数字出版技术国家重点实验室 ( 北大方正集团有限公司 ) E-mail : Lvxiaoqing@pku.edu.cn. 提纲. 背景及研究现状 笔端提取 笔端形状描述 字体相似性度量 实验与分析 总结. 背景及研究现状. 字体识别 文档电子化 光学字符识别( OCR ) 版面分析、理解、恢复 新需求 厂商希望保护版权 设计师和用户“按形找字” 大规模集合上的字体识别. 背景及研究现状. 相关概念 输入 文本块图像

obelia
Télécharger la présentation

基于笔端 形状 相似性的汉字字体识别

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于笔端形状相似性的汉字字体识别 王晓1,2,吕肖庆1,2,汤帜1,2 1 北京大学计算机科学技术研究所 2 数字出版技术国家重点实验室(北大方正集团有限公司) E-mail:Lvxiaoqing@pku.edu.cn

  2. 提纲 • 背景及研究现状 • 笔端提取 • 笔端形状描述 • 字体相似性度量 • 实验与分析 • 总结

  3. 背景及研究现状 字体识别 • 文档电子化 • 光学字符识别(OCR) • 版面分析、理解、恢复 • 新需求 • 厂商希望保护版权 • 设计师和用户“按形找字” • 大规模集合上的字体识别

  4. 背景及研究现状 相关概念 • 输入 • 文本块图像 • 单字图像 • 输出 • 字体属性 • 字体名称:如方正剪纸、方正水黑 • 样式:正规、粗体、倾斜、粗斜等

  5. 背景及研究现状 字体识别方法的分类 • 文本相关 / 文本无关 • 基于文本块 / 基于单字 • 基于文本块 • Gabor变换 • 笔画分布 • 基于单字符 • 小波变换 • 笔画模板 • 特征点

  6. 字体与笔端相似性 背景及研究现状

  7. 背景及研究现状 待识别的单字图像 字体识别结果 笔端与特征笔端间的相似度 笔端提取 笔端描述 多个汉字图像 字体特征笔端集合 字体识别流程 计算聚类中心

  8. 提纲 • 背景及研究现状 • 笔端提取 • 笔端形状描述 • 字体相似性度量 • 实验与分析 • 总结

  9. 笔端提取 • 笔端 • 笔画的起始与收尾 • 占笔画一定比例 • 点笔画和某些转折 • 如何精确计算 • 笔画起始与收尾 • 截断位置 • 截断方式

  10. 笔端提取 • 笔画模板 (前人工作) • 希望笔端 与形状相关的阈值

  11. 笔端提取 笔端与骨架的关系 • 笔端起始点 • 骨架端点 • 笔端截断点 • 骨架分叉点

  12. 笔端提取 • 借助骨架会有什么问题?

  13. 笔端提取 • 分叉与毛刺问题

  14. 笔端提取 • 笔画长宽比问题

  15. 笔端提取 • 动态计算长宽比(Stroke Aspect Ratio,SAR) (a) (b)

  16. 笔端提取 • 取SAR=1时的截取效果

  17. 提纲 • 背景及研究现状 • 笔端提取 • 笔端形状描述 • 字体相似性度量 • 实验与分析 • 总结

  18. 笔端形状描述 • 笔端描述子的构造 • 基于基于多尺度曲率直方图的傅里叶描述子 … …

  19. 笔端形状描述

  20. 提纲 • 背景及研究现状 • 笔端提取 • 笔端形状描述 • 字体相似性度量 • 实验与分析 • 总结

  21. 字体相似性度量 采用欧式距离计算特征相似度 采用支持向量机(SVM)进行训练与识别

  22. 提纲 • 背景及研究现状 • 笔端提取 • 笔端形状描述 • 字体相似性度量 • 实验与分析 • 总结

  23. 实验与分析 • 常用字体数据集 • 宋体、仿宋、黑体、楷体、隶书 • 正规、粗体、倾斜、粗斜 • 字号:18 • 扫描分辨率:1200dpi • 参数设置 • sar: 1 • SDST • 5个尺度,每个尺度100维

  24. 实验与分析 • 常用字体集合测试结果 • 五种方式划分测试集

  25. 实验与分析 • 扩展字体数据集 • 23种字体 • 字号:初号 • 保存清晰度:600dpi • 参数设置 • sar: 1 • SDST • 5个尺度,每个尺度100维 • 特征笔端数量:50

  26. 实验与分析 整体 识别率 88.49%

  27. 总结与展望 • 字体特征 • 较少的特征笔端表示字体 • 与人们视觉感知接近的笔端结构 • 较大规模字体集合 • 有较好的识别效果 • 未来研究方向 • 小字号的轮廓获取 • 加入笔画宽度的分布

  28. 谢谢! Email:Lvxiaoqing@pku.edu.cn

More Related