150 likes | 379 Views
PFE. PDF Figure Extraction. 汇报人:黄斐然 指导老师:陆嘉恒. 历史研究. 2. 1. 将 PDF 转为 word. 使用 C# 语言. 优点:后期对 word 的处理有现成的库. 缺点:对 PDF 处理的库比较陈旧. 优点: word 的文章结构更易分析. 缺点:存在 转换损失 ;时间代价大. 目标. 1. 2. 3. 4. 减小 失真度 ,尽可能原样提取. 对 PDF 的分析更 完整和全面. 对目标的锁定更 精确. 提高 效率 ,减少不必要的时间损耗. 方案采纳. 2. 1. 采用 Java 语言.
E N D
PFE PDFFigure Extraction 汇报人:黄斐然 指导老师:陆嘉恒
历史研究 2 1 将PDF转为word 使用C#语言 优点:后期对word的处理有现成的库 缺点:对PDF处理的库比较陈旧 优点:word的文章结构更易分析 缺点:存在转换损失;时间代价大
目标 1 2 3 4 减小失真度,尽可能原样提取 对PDF的分析更完整和全面 对目标的锁定更精确 提高效率,减少不必要的时间损耗
方案采纳 2 1 采用Java语言 PDF处理库:PDFBox 方案:① 提取PDF内容(Extract) ② 目标搜索匹配 (Match) ③ 对目标定位(Locate) ④ 对目标截图保存(Print) 3
Match Extract Locate Print
阅读PDFBox的API文档,可获知其文本提 • 取类PDFTextStripper Match Extract 1 PDFBox的设计缺陷:只能全篇提取,不能 直接分析字符子串,且只能提取文字。 Locate Print
PDFBox的设计缺陷的解决方案:阅读源 • 代码,继承和覆写文本提取类 Match Extract 3 2 1 在writeString方法中获取每一个单词,进 行目标匹配。 覆写writeString方法(该方法原为输出每 个单词)。 若匹配成功,则记录该目标的位置(首字 母左下角在该页内的横纵坐标)。 Locate Print
定位的三个方面:下边界、左右边界、上边界 Match Extract 1 下边界:最易确定,即定义的标签。问题 在于怎么确定搜索到的目标就是标签。 3 2 上边界:不易确定,Figure上部的最后一个 自然段结束,情况较为复杂。 左右边界:较易确定,有三种情况——一 是左右顶边,二是左半部分,三是右半部分, 问题在于怎么区分三种情况。 Locate Print
下边界的确定 Match Extract 下边界( Figure标签)的特点:以Figure 开头,且与上下行的距离较大。 2 1 定位方法:探知Figure开头,且与上一行距 离比较大的句子时,开始记录,直到探知某 个单词与上一个单词行距比较大时结束。 Locate Print
左右边界的确定 Match Extract 左右边界的特点:三种情况即左右顶边、左 半部分、右半部分。 2 1 定位方法:Figure标签绝大多数情况是居中 的,则可以通过获得标签位置,来确定该 Figure的位置。 Locate Print
上边界的确定 Match Extract 上边界的特点:Figure的上边界绝大多数情 况下是一个自然段的结束。 2 1 定位方法:每次探知一个自然段结束时,记 录结束位置,则Figure的上边界位置即为最 近自然段的结束位置。 Locate Print
对目标的截图保存 Match Extract 使用Java自带的java.awt包和扩展的 javax.imageio包,通过Figure的四边坐标进 行截图和保存。 1 Locate Print