1 / 21

英文檢索原型化處理

英文檢索原型化處理. 指導老師 柯淑津 專題學生 吳兆民 潘佩欣 陳川仁 鄧宏宇. 目錄. 研究目的 研究目標 基本功能導覽 Porter Stemming 演算法的缺點 演算法新舊比較 Demo 心得與展望. 研究目的. 什麼是 Stemming ? Stemming 的用處和意義? Porter Stemming 演算法 Porter Stemming 演算法步驟. 研究目的. 透過 stemming 演算法 ,在要被搜尋的文章或是 key terms 佇列會找出字詞的原形. 什麼是 Stemming ?. 將詞型、時態變化還原成原型

ghalib
Download Presentation

英文檢索原型化處理

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 英文檢索原型化處理 指導老師 柯淑津 專題學生 吳兆民 潘佩欣 陳川仁 鄧宏宇

  2. 目錄 • 研究目的 • 研究目標 • 基本功能導覽 • Porter Stemming演算法的缺點 • 演算法新舊比較 • Demo • 心得與展望

  3. 研究目的 • 什麼是Stemming ? • Stemming的用處和意義? • Porter Stemming演算法 • Porter Stemming演算法步驟

  4. 研究目的 • 透過stemming演算法,在要被搜尋的文章或是key terms佇列會找出字詞的原形

  5. 什麼是Stemming ? • 將詞型、時態變化還原成原型 • 範例stems  stemstemmed  stem stemming  stem relate  relate relation  relate relative  relate

  6. Stemming的用處和意義? • 大部分的用途是用在資訊檢索(IR)上 • IR用途上, 可以縮短搜尋時間,增加效率 • 字典用途上,可增加字典的查獲率

  7. Porter Stemming演算法 • 1980年由 Martin Porter 提出 Porter Stemming algorithm 後,至今仍為最有效率的 Stemming algorithm

  8. Porter Stemming演算法步驟 • 步驟1:將字尾有母音的es、e、ed、y替換掉 如: searched →search • 步驟2:將字尾為tional、fulness、iveness等,替換成tion、 ful、ive等等 如:traditional →tradition • 步驟3:將字尾為icate、iveness、alize等,替換成ic、ive、al 等等 如:specializes → special • 步驟4:刪除剩餘的標準字尾,例如al、ance、er、ic等等 如:magical → magic • 步驟5:去除字尾沒有母音的e 如:because → becaus

  9. 研究目標 • 將原形化作業介面視窗化,讓任何人都可以輕鬆簡單將各種格式之資料進行原形化 • 在搜尋引擎(IR)作業上 increased →increas increasing →increas machines →machin violence →violenc • 在搜尋引擎(字典)作業上 increased →increase increasing →increase machines →machine violence →violence

  10. 基本功能導覽 • 資料輸入模式 • 原型化選項 • 內建的資料庫

  11. 資料輸入模式 • 純文字文件(*.txt) • 資料庫檔案(*.DBF) • 使用者輸入

  12. 原型化選項 • 全面小寫化 • 去除字首字尾標點 • 標記特殊保留字 • 破折號處理 • 標記數字 • 標記stop word • 標記不規則變化 • 搜尋模式&喜好

  13. 內建的資料庫 • 特殊保留字 • 不規則變化 • STOP WORD • 字典檔

  14. 演算法新舊比較 • Porter Stemming演算法的缺點 • 改良Porter Stemming演算法 • IR用途 • 字典用途

  15. Porter Stemming演算法的缺點 • Porter Stemming演算法並非完美,部分的字詞仍無法正確的將詞型、時態變化還原成原型

  16. 舊Porter Stemming演算法與改良結果比較

  17. IR用途

  18. 字典用途

  19. DEMO • 展示IR用途的原型化處理 • 展示原形化前置作業選項的功能與用途 • 展示字典用途的原型化處理 • 展示內建資料庫的功能與用途

  20. 心得與展望 • 經過這次專題研究讓我們了解到開發一個系統的艱辛,從理論、分析到選擇開發工具與實現,讓我們對開發程式的語言有更深入的了解與學習,以及團隊需共同努力才能實現成果 • 期望能將系統廣泛實際地應用在搜尋引擎,增加搜尋速度與效率

  21. ~報告結束,多謝指教~

More Related