1 / 13

Parallel Information Extraction on Shared Memory Multi-processor System

Parallel Information Extraction on Shared Memory Multi-processor System. Jiulong Shan Yurong Chen Qiao Diao Yimin Zhang. Outline. 前言. 基於資訊擷取的 CRFs. 最佳化與平行. 實驗與效能分析. 結論. 前言. 文件探勘 ( Text Mining ) 的重要性。 常用的文件探勘技術-資訊擷取 ( Information Extraction,IE ) IE 包含兩個主要的工作 :

connie
Download Presentation

Parallel Information Extraction on Shared Memory Multi-processor System

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Parallel Information Extraction on Shared Memory Multi-processor System Jiulong Shan Yurong Chen Qiao Diao Yimin Zhang

  2. Outline 前言 基於資訊擷取的CRFs 最佳化與平行 實驗與效能分析 結論

  3. 前言 • 文件探勘(Text Mining)的重要性。 • 常用的文件探勘技術-資訊擷取(Information Extraction,IE) • IE包含兩個主要的工作: • 句子邊緣偵測(Sentence Boundary Detection ,SBD) • 未知(Name Entity Extraction,NE)

  4. 前言 • 核心演算法-Conditional Random Fields(CRFs)

  5. 基於資訊擷取的CRFs • 使用CRFs去判斷兩的句子間的相似度。 • 此演算法的使用

  6. 最佳化與平行 • 實驗設定: • 16-way Intel Xeon • 3.0CHz * 16 • cache (L1:8K;L2:512K;L3:4MB;L4:32M) • 4-way Intel Xeon • 2.8GHz • cache (L3:2MB) • 資料集 • beijing(11MB) • 1126(25MB) • Reuter(141MB) • 編譯器:mpich-1.2.5.2

  7. 最佳化與平行 • 已開發的工具-FlexCRFs • IE在處理上可分為兩個步驟: • 模型初始化(MI) • 文件處理(DP) • 佔 90% 處理時間

  8. 最佳化與平行 • 最佳化方法: • 原始的工具使用STL map • 以rb-tree方式儲存(log n) • 改善的方法:使用STL hash_map • 管理內部的暫存器

  9. 最佳化與平行 • 平行方法: • 選擇較佳的程式撰寫模型 • Message Passing Model(eg. MPI) • Shared Variable Model(eg. Pthread、OpenMp) • STL 有自己的管理方法

  10. 實驗與效能分析 • 記憶體階層的效能

  11. 實驗與效能分析 • 可延展性效能

  12. 結論 • 文件探勘可用於桌上型應用。 • 選擇好的程式架構,可減少效能的浪費。 • 善用cache去減少失誤代價。

  13. Thank You !

More Related