1 / 32

經濟部智慧財產局 資料服務組 讀書報告

自動分類於 EPO 應用 96/10/15 劉芳遠. 經濟部智慧財產局 資料服務組 讀書報告. Automatic categorisation applications at the European patent office. 出處 :World Patent Information 24 (2002) 187 – 196 作者 :Marc Krier & Francesco Zacc 說明 : 本文意見僅為作者個人意見 , 不代表 EPO 意見及政策. NLP in patent search. EPO 首次使用語言學的技術於專利分類

ardice
Download Presentation

經濟部智慧財產局 資料服務組 讀書報告

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 自動分類於EPO應用 96/10/15 劉芳遠 經濟部智慧財產局資料服務組讀書報告

  2. Automatic categorisation applications at the European patent office • 出處:World Patent Information 24 (2002) 187–196 • 作者:Marc Krier & Francesco Zacc • 說明:本文意見僅為作者個人意見,不代表EPO意見及政策.

  3. NLP in patent search • EPO 首次使用語言學的技術於專利分類 • NLP(natural language processing) • 學者專家普遍存有懷疑 • 檢索結果-精確率與檢全(Recall)都很重要,有時為顧及檢全,須付出很多代價(文件多),方能達到-也許不是很好方法. • 不須使用布林語法的檢索NLP-將成為須顧及精確率與檢全之新方法 • 可排序降低瀏覽數,藉技術詞典方法控制檢索擴展,自動萃取技術概念及可能提供跨語言檢索. • EPOQUE-不久的未來即會應用

  4. EPO分類應用 • 專利申請過程有些步驟須使用到分類 • 預分類-新申請文件送至適當技術部門 • 文件公開-指定類別 • 正式分類-完整ECLA約130,000類 • 前述項目,預分類為自動分類最容易處理,同時該工作目前亦遭遇其極限(後述),為本文件研究重點.

  5. EPO預分類 • 預分類 • 目標:儘可能快速完成後,將文件交至該技術領域 • 困難: • 所有領域專家須待命 • 案件無法預期數量及到局時間 • 必須於收件2天內完成 • 上述3項表示須有相當大之團隊專家(含備援人員)於1天內待命10分鐘至4小時. • 錯誤代價高及時間浪費

  6. EPO預分類 • 人工分類 • 過去3個訓練良好的分類員(electricity/physics, mechanics, chemistry),可處理大部分分類工作. • 隨者技術複雜性(或新技術)增加,要達到前述目標,人工分類變成不可能. • 平均精確度P:directorate level is 81.2% • 類別結構可定義為2種(有清楚對應) • 技術分類-ECLA (通常為subclass level e.g. G01S) • 組織架構(Hague)-13 clusters, 44 directorates, and more than 500 teams

  7. EPO預分類 組織架構(Hague) • Cluster #1: electronics • Directorate #1.1: measurements • Directorate #1.2: television, analog • Directorate #1.3: television, digital • Directorate #1.4: electronic circuits • Directorate #1.5: high frequencies • Team 1.5.1: Radar • Team 1.5.2: Antennas • Team 1.5.3: Microwave devices

  8. 專利分類 • 專利文件特徵 • 檔案相當大(全文平均5000字,30-50KB,摘要100-150字) • 固定格式,品質好 • 非標準術語,含糊的專有名詞 • 不同語言(英,法,德語) • 包括重要非語言資料,但對於分類很重要-表格,數學式,化學方程式,引證專利或文献,技術圖.

  9. 專利分類 (續前) • 部分書目資料可能可提升分類結果-申請人,發明人,申請日等 • 以圖為主的專利,使用文字為基礎之分類器,成效預期不太好. • 對於某些案件相當少之類別,並無足夠文件可供訓練,因此成效不會好,於計算整體效能時,會將其排除.

  10. 專利分類 • 自動分類系統演算分為二種 • 以分類學為基 • 如為新分類或空分類,為唯一選擇 • 由於須對每一類別以不同關鍵字定義,預期建置工程浩大 • 以案例為基 • 由於已有相當多分類好之案件,因此為預設分類方法 • 一旦被選擇,有2選項: • 所有同一類別訓練文件均貢獻於類別定義(不具單一文件識別性) • 文件各別建立索引 • 經測試二種演算方法後,效能並無明顯差異,最後選擇了第二種(以案例為基)方法,(因為其最佳分類文件是審查官認為最重要的.)

  11. EPO預分類測試 • 測試規劃 • EPO規劃 • 一方面藉釐清定義,簡化工作,同時提供整理好之資料,使參與者容易進行. • 另一方面參與者亦希望得到大量且正確資料,將來可作為其內部分析研究使用. • 實驗進行由自願參加之公司或組織 • 分類成效最後交由EPO計算

  12. EPO預分類測試 • EPO預分類測試 • 首次1999年 • 16個技術類 • 結果:96%以上精確率(P) • 第2次2000年 • 更完整測試 • 44類包括所有技術領域(directorates) • 每一類 2000 訓練文件及1000 測試文件(英文) • 資料量5.2 GB • 13萬2,000 件專利( abstract and full text)

  13. EPO預分類測試 • 第2次測試細項工作說明 • 訓練文件及測試文件選擇 • 符合實際狀況 • 以固定日期切分,例:31.12.1994 • 取日期前2000件(含directorate code, technical field, all ECLA classification codes欄位)為訓練文件. • 取日期後1000件(無分類欄位)為測試文件. • 保留一案多類欄位資料

  14. EPO預分類測試 • 第2次測試細項工作說明 • 資料校正 • 新進文件可能為OCR取得 • 錯字會認定為新字 • 導入自動OCR校正程式(不須人員參與)初期測試,成效良好 • 結果:避免OCR錯誤影響分類效能

  15. EPO預分類測試 • 第2次測試細項工作說明 • 規劃之作業 • 由EPO指定執行方式及輸出格式 • 最少要分至directorate level(44類),如可能亦可至下一階層 • 定義成效評估方式: • 精確率(P)Precision • 召回率(R)Recall • 速度不計算 • 即使最慢的系統半小時可完成(每件0.5~4秒) • 訓練系統時間也許比較久,可能超過1星期,但不需常常執行.

  16. EPO預分類測試 • 第2次測試細項工作說明 • 規劃之作業 • 資料集被送至公司或組織,由其使用自行開發軟體進行分類作業 • 由於測試資料並不包含類別欄位,因此結果分析將由EPO處理.

  17. EPO預分類測試 分類結果 • 資料別分全文或摘要 • 全文效果明顯較好(P高於2~9%,視使用演算法及參數設定) • EPO比較了不同產品結果,但未於報告詳述產品,僅說明EPO認為最好部分之意見.

  18. EPO IPC Reform

  19. EPO預分類測試 上圖表示下列3項分類階段效能曲線 • 44 directorates • 624subclasses • 549 teams. • For 100% recall, the precision: • 80% at CLUSTER level • 72% at DIRECTORATE level • 61% at SUBCLASS level • 57% at TEAM level

  20. EPO預分類測試 結果解讀 • 於DIRECTORATE level • Recall為100%時, precision為72%. • 並無法達到人工分類81.2%的目標. • 於precision為81.2%時,其Recall為78%. • 結論:於不改變分類器效能下(P=81.2%),只有78%工作可交由自動分類處理.

  21. EPO預分類測試 結果解讀 • 理想上希望系統可分類至更細層,惟由圖可知,其效能不甚滿意.尚有許多工作須作. • 首先,實驗並非針對細分類設計,須增加適當足夠之訓練及測試資料. • 訓練資料是非常重要的,與成效有相當大之關聯,EPO認為此部分有相當大之改善空間. • 將549/624平的分類架構,改成階層式架構. • 改為堆疊方式處理分類,降低複雜度. • 類別變少,容易調校. • 本項作業雖有優點,但須進行重新分類,EPO認為難度很高.

  22. EPO預分類測試 結果解讀-其他分析工具 • confusion matrix (N*N) • aij • i 預測分類 • j 實際分類 • 每1列代表同一預測分類 • 每1行代表同一實際分類 • 非對角代表錯誤須重新調整及分類

  23. EPO IPC Reform 人工分類

  24. EPO IPC Reform 電腦分類

  25. EPO預分類測試 • confusion matrix 設計 • 1-13 chemistry • clusters 1–3, 4–6, 7–9, 10–13; • 14–30 electricity/physics • clusters 14–18, 15–23, 24–27, 28–30; • 31–44 mechanics • clusters 31–34, 35–37, 38–41, 42–44.

  26. EPO預分類測試 • 效能改善方案 • 改善訓練文件(首先) • 件數 • 品質 • 類別不恰當,不同質 • 技術類別(類別切割)

  27. Future developments • 由於於 directorate level有很好的分類成效,現正進行一前導實驗計畫 • 起始目標 • 改善精確度at team level • 集中在electricity/physics類(由 17 directorates and 140 technical teams 組成). • 下一步 • mechanics and chemistry • 其餘待改善問題:Training sets, data cleaning, error feedback, and experimentation with flat and hierarchical categorisation schemes.

  28. Future developments • 並行計畫 • 引證資料分析 • 初步成功率 80% • 可與前述計畫整合.提升分類效能. • 增加其他書目資料之利用,協助分類.

  29. Conclusions • 預分類是第一個使用語言技術應用之實際案例,EPO未來並將其應用推廣至其他應用領域。

  30. Acknowledgements • 實驗結果提供 • Inxight Software, Inc. Categorizer 1.0 product • Clark Breyman of Inxight USA • David van den Akker of Inxight Europe • Xerox Research Centre Europe • 實驗數據討論 • Prof. Kees Koster of the Technical University of Nijmegen, NL • Bernard Normier of Lingway

  31. Marc Krier

  32. Francesco Zacc

More Related