經濟部智慧財產局資料服務組讀書報告

自動分類於EPO應用 96/10/15 劉芳遠經濟部智慧財產局資料服務組讀書報告

Automatic categorisation applications at the European patent office • 出處:World Patent Information 24 (2002) 187–196 • 作者:Marc Krier & Francesco Zacc • 說明:本文意見僅為作者個人意見,不代表EPO意見及政策.

NLP in patent search • EPO 首次使用語言學的技術於專利分類 • NLP(natural language processing) • 學者專家普遍存有懷疑 • 檢索結果-精確率與檢全(Recall)都很重要,有時為顧及檢全,須付出很多代價(文件多),方能達到-也許不是很好方法. • 不須使用布林語法的檢索NLP-將成為須顧及精確率與檢全之新方法 • 可排序降低瀏覽數,藉技術詞典方法控制檢索擴展,自動萃取技術概念及可能提供跨語言檢索. • EPOQUE-不久的未來即會應用

EPO分類應用 • 專利申請過程有些步驟須使用到分類 • 預分類-新申請文件送至適當技術部門 • 文件公開-指定類別 • 正式分類-完整ECLA約130,000類 • 前述項目,預分類為自動分類最容易處理,同時該工作目前亦遭遇其極限(後述),為本文件研究重點.

EPO預分類 • 預分類 • 目標:儘可能快速完成後,將文件交至該技術領域 • 困難: • 所有領域專家須待命 • 案件無法預期數量及到局時間 • 必須於收件2天內完成 • 上述3項表示須有相當大之團隊專家(含備援人員)於1天內待命10分鐘至4小時. • 錯誤代價高及時間浪費

EPO預分類 • 人工分類 • 過去3個訓練良好的分類員(electricity/physics, mechanics, chemistry),可處理大部分分類工作. • 隨者技術複雜性(或新技術)增加,要達到前述目標,人工分類變成不可能. • 平均精確度P:directorate level is 81.2% • 類別結構可定義為2種(有清楚對應) • 技術分類-ECLA (通常為subclass level e.g. G01S) • 組織架構(Hague)-13 clusters, 44 directorates, and more than 500 teams

EPO預分類 組織架構(Hague) • Cluster #1: electronics • Directorate #1.1: measurements • Directorate #1.2: television, analog • Directorate #1.3: television, digital • Directorate #1.4: electronic circuits • Directorate #1.5: high frequencies • Team 1.5.1: Radar • Team 1.5.2: Antennas • Team 1.5.3: Microwave devices

專利分類 • 專利文件特徵 • 檔案相當大(全文平均5000字,30-50KB,摘要100-150字) • 固定格式,品質好 • 非標準術語,含糊的專有名詞 • 不同語言(英,法,德語) • 包括重要非語言資料,但對於分類很重要-表格,數學式,化學方程式,引證專利或文献,技術圖.

專利分類 (續前) • 部分書目資料可能可提升分類結果-申請人,發明人,申請日等 • 以圖為主的專利,使用文字為基礎之分類器,成效預期不太好. • 對於某些案件相當少之類別,並無足夠文件可供訓練,因此成效不會好,於計算整體效能時,會將其排除.

專利分類 • 自動分類系統演算分為二種 • 以分類學為基 • 如為新分類或空分類,為唯一選擇 • 由於須對每一類別以不同關鍵字定義,預期建置工程浩大 • 以案例為基 • 由於已有相當多分類好之案件,因此為預設分類方法 • 一旦被選擇,有2選項: • 所有同一類別訓練文件均貢獻於類別定義(不具單一文件識別性) • 文件各別建立索引 • 經測試二種演算方法後,效能並無明顯差異,最後選擇了第二種(以案例為基)方法,(因為其最佳分類文件是審查官認為最重要的.)

EPO預分類測試 • 測試規劃 • EPO規劃 • 一方面藉釐清定義,簡化工作,同時提供整理好之資料,使參與者容易進行. • 另一方面參與者亦希望得到大量且正確資料,將來可作為其內部分析研究使用. • 實驗進行由自願參加之公司或組織 • 分類成效最後交由EPO計算

EPO預分類測試 • EPO預分類測試 • 首次1999年 • 16個技術類 • 結果:96%以上精確率(P) • 第2次2000年 • 更完整測試 • 44類包括所有技術領域(directorates) • 每一類 2000 訓練文件及1000 測試文件(英文) • 資料量5.2 GB • 13萬2,000 件專利( abstract and full text)

EPO預分類測試 • 第2次測試細項工作說明 • 訓練文件及測試文件選擇 • 符合實際狀況 • 以固定日期切分,例:31.12.1994 • 取日期前2000件(含directorate code, technical field, all ECLA classification codes欄位)為訓練文件. • 取日期後1000件(無分類欄位)為測試文件. • 保留一案多類欄位資料

EPO預分類測試 • 第2次測試細項工作說明 • 資料校正 • 新進文件可能為OCR取得 • 錯字會認定為新字 • 導入自動OCR校正程式(不須人員參與)初期測試,成效良好 • 結果:避免OCR錯誤影響分類效能

EPO預分類測試 • 第2次測試細項工作說明 • 規劃之作業 • 由EPO指定執行方式及輸出格式 • 最少要分至directorate level(44類),如可能亦可至下一階層 • 定義成效評估方式: • 精確率(P)Precision • 召回率(R)Recall • 速度不計算 • 即使最慢的系統半小時可完成(每件0.5~4秒) • 訓練系統時間也許比較久,可能超過1星期,但不需常常執行.

EPO預分類測試 • 第2次測試細項工作說明 • 規劃之作業 • 資料集被送至公司或組織,由其使用自行開發軟體進行分類作業 • 由於測試資料並不包含類別欄位,因此結果分析將由EPO處理.

EPO預分類測試 分類結果 • 資料別分全文或摘要 • 全文效果明顯較好(P高於2~9%,視使用演算法及參數設定) • EPO比較了不同產品結果,但未於報告詳述產品,僅說明EPO認為最好部分之意見.

EPO IPC Reform

EPO預分類測試 上圖表示下列3項分類階段效能曲線 • 44 directorates • 624subclasses • 549 teams. • For 100% recall, the precision: • 80% at CLUSTER level • 72% at DIRECTORATE level • 61% at SUBCLASS level • 57% at TEAM level

EPO預分類測試 結果解讀 • 於DIRECTORATE level • Recall為100%時, precision為72%. • 並無法達到人工分類81.2%的目標. • 於precision為81.2%時,其Recall為78%. • 結論:於不改變分類器效能下(P=81.2%),只有78%工作可交由自動分類處理.

EPO預分類測試 結果解讀 • 理想上希望系統可分類至更細層,惟由圖可知,其效能不甚滿意.尚有許多工作須作. • 首先,實驗並非針對細分類設計,須增加適當足夠之訓練及測試資料. • 訓練資料是非常重要的,與成效有相當大之關聯,EPO認為此部分有相當大之改善空間. • 將549/624平的分類架構,改成階層式架構. • 改為堆疊方式處理分類,降低複雜度. • 類別變少,容易調校. • 本項作業雖有優點,但須進行重新分類,EPO認為難度很高.

EPO預分類測試 結果解讀-其他分析工具 • confusion matrix (N*N) • aij • i 預測分類 • j 實際分類 • 每1列代表同一預測分類 • 每1行代表同一實際分類 • 非對角代表錯誤須重新調整及分類

EPO IPC Reform 人工分類

EPO IPC Reform 電腦分類

EPO預分類測試 • confusion matrix 設計 • 1-13 chemistry • clusters 1–3, 4–6, 7–9, 10–13; • 14–30 electricity/physics • clusters 14–18, 15–23, 24–27, 28–30; • 31–44 mechanics • clusters 31–34, 35–37, 38–41, 42–44.

EPO預分類測試 • 效能改善方案 • 改善訓練文件(首先) • 件數 • 品質 • 類別不恰當,不同質 • 技術類別(類別切割)

Future developments • 由於於 directorate level有很好的分類成效,現正進行一前導實驗計畫 • 起始目標 • 改善精確度at team level • 集中在electricity/physics類(由 17 directorates and 140 technical teams 組成). • 下一步 • mechanics and chemistry • 其餘待改善問題:Training sets, data cleaning, error feedback, and experimentation with flat and hierarchical categorisation schemes.

Future developments • 並行計畫 • 引證資料分析 • 初步成功率 80% • 可與前述計畫整合.提升分類效能. • 增加其他書目資料之利用,協助分類.

Conclusions • 預分類是第一個使用語言技術應用之實際案例,EPO未來並將其應用推廣至其他應用領域。

Acknowledgements • 實驗結果提供 • Inxight Software, Inc. Categorizer 1.0 product • Clark Breyman of Inxight USA • David van den Akker of Inxight Europe • Xerox Research Centre Europe • 實驗數據討論 • Prof. Kees Koster of the Technical University of Nijmegen, NL • Bernard Normier of Lingway

Marc Krier

Francesco Zacc

經濟部智慧財產局 資料服務組 讀書報告