1 / 18

版式电子文档表格自动检测与性能评估

版式电子文档表格自动检测与性能评估. 房婧 ,高良才,仇睿恒,汤帜 2012-11-04. 研究目的 (1/2). 移动阅读. 研究目的 (2/2). 问题与挑战( 1 ) 现有方法多处理图像和网页格式的文档 不支持中文版式文档的处理 页面布局和表格自身布局的复杂性 问题与挑战( 2 ) 缺少公开可用的数据集 缺少合理的评估准则 人工评估效率低且不易复现. 研究方法. 表格定位 针对版式文档的特点,提出一种表格线分割符和表格文本布局特征相结合的方法 效果评估 建立一套自动评估系统,提供免费下载 * 构建数据集 标注基准 细粒度评估准则.

magar
Télécharger la présentation

版式电子文档表格自动检测与性能评估

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 版式电子文档表格自动检测与性能评估 房婧,高良才,仇睿恒,汤帜 2012-11-04

  2. 研究目的(1/2) • 移动阅读

  3. 研究目的(2/2) • 问题与挑战(1) • 现有方法多处理图像和网页格式的文档 • 不支持中文版式文档的处理 • 页面布局和表格自身布局的复杂性 • 问题与挑战(2) • 缺少公开可用的数据集 • 缺少合理的评估准则 • 人工评估效率低且不易复现

  4. 研究方法 • 表格定位 • 针对版式文档的特点,提出一种表格线分割符和表格文本布局特征相结合的方法 • 效果评估 • 建立一套自动评估系统,提供免费下载* • 构建数据集 • 标注基准 • 细粒度评估准则 * http://www.founderrd.com/marmot_data.htm

  5. 表格定位(1/6) • 页面布局(分栏) • 表格既可能位于单栏内,也可能贯穿多栏 • 单页页面上的前景空白*和多页文档的分栏位置相似性 • 表格线检测 • 解析图形流 • 绘制指令(m,l,re,c, v, y)与坐标参数 • 直线、矩形拆分,坐标拼接和聚类——直线段 • 裁剪区缩小范围 Breuel TM. Two geometric algorithms for layout analysis. DAS, 2002, Princeton, USA, 188-199

  6. 表格定位(2/6) • 解析文字流 • 字符(文本、最小包围矩形、字体、坐标等) • 文字行 • 竖直方向包围矩形的交叠,字符间距

  7. 表格定位(3/6) • 布局特征 • 每列上的单元格之间都有水平方向的交叠,列与列之间互不干扰,由空白分隔开 • 表格和页面正文内容的排版遵从相同的规则,即向右向下的顺序排版,向右成行、向下成列 • 形成文本块 • 深度遍历(行间向下,行内向右)

  8. 表格定位(4/6) • 文本块筛选 • 表线筛选 • 距离表格块远(页眉页脚线) • 表格线上下两侧多文本段

  9. 表格定位(5/6) • 有线表 • 水平表格线按照长短排序 • 从最长线开始判断是否与多条竖直表格线相交 • 确定表格边界 • 删除与边界有交集的其他表线,避免区域交叠与嵌套 • 直到所有水平线遍历完成 • 无线表 • 在栏内横向贯穿合并候选表格列文本块 • 相邻块纵向空白检测合并

  10. 表格定位(6/6) • 后处理 • 表格区域内至少包含两行两列 • 区域内不包含曲线图形元素(区分图形) • 区域内不会只包含竖直方向的直线(区分矩阵)

  11. 自动评估(1/4) • 数据集构建 • 2000PDF页面 • 中英文比例 1:1 • 中文:阿帕比数字图书馆 • 英文:网络爬取的科技文献 • 表格页与非表格页 1:1 • 数据集 • 以XML格式描述的被标注基准结果 • 600dpi的页面原图像 • 页面基本对象(字符、图形、图像元素)的XML描述

  12. 自动评估(2/4) • 表格 • 表格标题,表格体,表格脚注 • 文本行 • 字符 • 其他逻辑结构 • 段落、图像、公式等

  13. 自动评估(3/4) • 评价准则——错误类型&定量系数

  14. 自动评估(4/4) • 评估准则 • 由每个表格分别命中的错误类型(可能对应多种),统计每种错误类型被命中的表格总数 • 每个表格综合惩罚分值(各错误类型惩罚分值的最大值)

  15. 实验结果(1/2)

  16. 实验结果(2/2)

  17. 结论 • 提出版式电子文档表格定位与自动评估方法 • 优势尤其体现在: • 文本布局复杂,但是具有表格线的表格 • 分栏页面中的表格,跨栏表或者栏内表 • 没有标题的表格等 • 中文数据集的评测结果明显优于英文数据集 • 中文样例的表格线无论从元素组成,或者在表格中被使用的频率,都比英文样例稳定

  18. Q&A 谢谢 谢谢

More Related