1 / 15

PFE

PFE. PDF Figure Extraction. 汇报人:黄斐然 指导老师:陆嘉恒. 历史研究. 2. 1. 将 PDF 转为 word. 使用 C# 语言. 优点:后期对 word 的处理有现成的库. 缺点:对 PDF 处理的库比较陈旧. 优点: word 的文章结构更易分析. 缺点:存在 转换损失 ;时间代价大. 目标. 1. 2. 3. 4. 减小 失真度 ,尽可能原样提取. 对 PDF 的分析更 完整和全面. 对目标的锁定更 精确. 提高 效率 ,减少不必要的时间损耗. 方案采纳. 2. 1. 采用 Java 语言.

Download Presentation

PFE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PFE PDFFigure Extraction 汇报人:黄斐然 指导老师:陆嘉恒

  2. 历史研究 2 1 将PDF转为word 使用C#语言 优点:后期对word的处理有现成的库 缺点:对PDF处理的库比较陈旧 优点:word的文章结构更易分析 缺点:存在转换损失;时间代价大

  3. 目标 1 2 3 4 减小失真度,尽可能原样提取 对PDF的分析更完整和全面 对目标的锁定更精确 提高效率,减少不必要的时间损耗

  4. 方案采纳 2 1 采用Java语言 PDF处理库:PDFBox 方案:① 提取PDF内容(Extract) ② 目标搜索匹配 (Match) ③ 对目标定位(Locate) ④ 对目标截图保存(Print) 3

  5. Match Extract Locate Print

  6. 阅读PDFBox的API文档,可获知其文本提 • 取类PDFTextStripper Match Extract 1 PDFBox的设计缺陷:只能全篇提取,不能 直接分析字符子串,且只能提取文字。 Locate Print

  7. PDFBox的设计缺陷的解决方案:阅读源 • 代码,继承和覆写文本提取类 Match Extract 3 2 1 在writeString方法中获取每一个单词,进 行目标匹配。 覆写writeString方法(该方法原为输出每 个单词)。 若匹配成功,则记录该目标的位置(首字 母左下角在该页内的横纵坐标)。 Locate Print

  8. 定位的三个方面:下边界、左右边界、上边界 Match Extract 1 下边界:最易确定,即定义的标签。问题 在于怎么确定搜索到的目标就是标签。 3 2 上边界:不易确定,Figure上部的最后一个 自然段结束,情况较为复杂。 左右边界:较易确定,有三种情况——一 是左右顶边,二是左半部分,三是右半部分, 问题在于怎么区分三种情况。 Locate Print

  9. 下边界的确定 Match Extract 下边界( Figure标签)的特点:以Figure 开头,且与上下行的距离较大。 2 1 定位方法:探知Figure开头,且与上一行距 离比较大的句子时,开始记录,直到探知某 个单词与上一个单词行距比较大时结束。 Locate Print

  10. 左右边界的确定 Match Extract 左右边界的特点:三种情况即左右顶边、左 半部分、右半部分。 2 1 定位方法:Figure标签绝大多数情况是居中 的,则可以通过获得标签位置,来确定该 Figure的位置。 Locate Print

  11. 上边界的确定 Match Extract 上边界的特点:Figure的上边界绝大多数情 况下是一个自然段的结束。 2 1 定位方法:每次探知一个自然段结束时,记 录结束位置,则Figure的上边界位置即为最 近自然段的结束位置。 Locate Print

  12. 对目标的截图保存 Match Extract 使用Java自带的java.awt包和扩展的 javax.imageio包,通过Figure的四边坐标进 行截图和保存。 1 Locate Print

  13. 效果图

  14. 效果图

  15. 望各位批评指导

More Related