180 likes | 349 Views
版式电子文档表格自动检测与性能评估. 房婧 ,高良才,仇睿恒,汤帜 2012-11-04. 研究目的 (1/2). 移动阅读. 研究目的 (2/2). 问题与挑战( 1 ) 现有方法多处理图像和网页格式的文档 不支持中文版式文档的处理 页面布局和表格自身布局的复杂性 问题与挑战( 2 ) 缺少公开可用的数据集 缺少合理的评估准则 人工评估效率低且不易复现. 研究方法. 表格定位 针对版式文档的特点,提出一种表格线分割符和表格文本布局特征相结合的方法 效果评估 建立一套自动评估系统,提供免费下载 * 构建数据集 标注基准 细粒度评估准则.
E N D
版式电子文档表格自动检测与性能评估 房婧,高良才,仇睿恒,汤帜 2012-11-04
研究目的(1/2) • 移动阅读
研究目的(2/2) • 问题与挑战(1) • 现有方法多处理图像和网页格式的文档 • 不支持中文版式文档的处理 • 页面布局和表格自身布局的复杂性 • 问题与挑战(2) • 缺少公开可用的数据集 • 缺少合理的评估准则 • 人工评估效率低且不易复现
研究方法 • 表格定位 • 针对版式文档的特点,提出一种表格线分割符和表格文本布局特征相结合的方法 • 效果评估 • 建立一套自动评估系统,提供免费下载* • 构建数据集 • 标注基准 • 细粒度评估准则 * http://www.founderrd.com/marmot_data.htm
表格定位(1/6) • 页面布局(分栏) • 表格既可能位于单栏内,也可能贯穿多栏 • 单页页面上的前景空白*和多页文档的分栏位置相似性 • 表格线检测 • 解析图形流 • 绘制指令(m,l,re,c, v, y)与坐标参数 • 直线、矩形拆分,坐标拼接和聚类——直线段 • 裁剪区缩小范围 Breuel TM. Two geometric algorithms for layout analysis. DAS, 2002, Princeton, USA, 188-199
表格定位(2/6) • 解析文字流 • 字符(文本、最小包围矩形、字体、坐标等) • 文字行 • 竖直方向包围矩形的交叠,字符间距
表格定位(3/6) • 布局特征 • 每列上的单元格之间都有水平方向的交叠,列与列之间互不干扰,由空白分隔开 • 表格和页面正文内容的排版遵从相同的规则,即向右向下的顺序排版,向右成行、向下成列 • 形成文本块 • 深度遍历(行间向下,行内向右)
表格定位(4/6) • 文本块筛选 • 表线筛选 • 距离表格块远(页眉页脚线) • 表格线上下两侧多文本段
表格定位(5/6) • 有线表 • 水平表格线按照长短排序 • 从最长线开始判断是否与多条竖直表格线相交 • 确定表格边界 • 删除与边界有交集的其他表线,避免区域交叠与嵌套 • 直到所有水平线遍历完成 • 无线表 • 在栏内横向贯穿合并候选表格列文本块 • 相邻块纵向空白检测合并
表格定位(6/6) • 后处理 • 表格区域内至少包含两行两列 • 区域内不包含曲线图形元素(区分图形) • 区域内不会只包含竖直方向的直线(区分矩阵)
自动评估(1/4) • 数据集构建 • 2000PDF页面 • 中英文比例 1:1 • 中文:阿帕比数字图书馆 • 英文:网络爬取的科技文献 • 表格页与非表格页 1:1 • 数据集 • 以XML格式描述的被标注基准结果 • 600dpi的页面原图像 • 页面基本对象(字符、图形、图像元素)的XML描述
自动评估(2/4) • 表格 • 表格标题,表格体,表格脚注 • 文本行 • 字符 • 其他逻辑结构 • 段落、图像、公式等
自动评估(3/4) • 评价准则——错误类型&定量系数
自动评估(4/4) • 评估准则 • 由每个表格分别命中的错误类型(可能对应多种),统计每种错误类型被命中的表格总数 • 每个表格综合惩罚分值(各错误类型惩罚分值的最大值)
结论 • 提出版式电子文档表格定位与自动评估方法 • 优势尤其体现在: • 文本布局复杂,但是具有表格线的表格 • 分栏页面中的表格,跨栏表或者栏内表 • 没有标题的表格等 • 中文数据集的评测结果明显优于英文数据集 • 中文样例的表格线无论从元素组成,或者在表格中被使用的频率,都比英文样例稳定
Q&A 谢谢 谢谢