210 likes | 455 Views
英文檢索原型化處理. 指導老師 柯淑津 專題學生 吳兆民 潘佩欣 陳川仁 鄧宏宇. 目錄. 研究目的 研究目標 基本功能導覽 Porter Stemming 演算法的缺點 演算法新舊比較 Demo 心得與展望. 研究目的. 什麼是 Stemming ? Stemming 的用處和意義? Porter Stemming 演算法 Porter Stemming 演算法步驟. 研究目的. 透過 stemming 演算法 ,在要被搜尋的文章或是 key terms 佇列會找出字詞的原形. 什麼是 Stemming ?. 將詞型、時態變化還原成原型
E N D
英文檢索原型化處理 指導老師 柯淑津 專題學生 吳兆民 潘佩欣 陳川仁 鄧宏宇
目錄 • 研究目的 • 研究目標 • 基本功能導覽 • Porter Stemming演算法的缺點 • 演算法新舊比較 • Demo • 心得與展望
研究目的 • 什麼是Stemming ? • Stemming的用處和意義? • Porter Stemming演算法 • Porter Stemming演算法步驟
研究目的 • 透過stemming演算法,在要被搜尋的文章或是key terms佇列會找出字詞的原形
什麼是Stemming ? • 將詞型、時態變化還原成原型 • 範例stems stemstemmed stem stemming stem relate relate relation relate relative relate
Stemming的用處和意義? • 大部分的用途是用在資訊檢索(IR)上 • IR用途上, 可以縮短搜尋時間,增加效率 • 字典用途上,可增加字典的查獲率
Porter Stemming演算法 • 1980年由 Martin Porter 提出 Porter Stemming algorithm 後,至今仍為最有效率的 Stemming algorithm
Porter Stemming演算法步驟 • 步驟1:將字尾有母音的es、e、ed、y替換掉 如: searched →search • 步驟2:將字尾為tional、fulness、iveness等,替換成tion、 ful、ive等等 如:traditional →tradition • 步驟3:將字尾為icate、iveness、alize等,替換成ic、ive、al 等等 如:specializes → special • 步驟4:刪除剩餘的標準字尾,例如al、ance、er、ic等等 如:magical → magic • 步驟5:去除字尾沒有母音的e 如:because → becaus
研究目標 • 將原形化作業介面視窗化,讓任何人都可以輕鬆簡單將各種格式之資料進行原形化 • 在搜尋引擎(IR)作業上 increased →increas increasing →increas machines →machin violence →violenc • 在搜尋引擎(字典)作業上 increased →increase increasing →increase machines →machine violence →violence
基本功能導覽 • 資料輸入模式 • 原型化選項 • 內建的資料庫
資料輸入模式 • 純文字文件(*.txt) • 資料庫檔案(*.DBF) • 使用者輸入
原型化選項 • 全面小寫化 • 去除字首字尾標點 • 標記特殊保留字 • 破折號處理 • 標記數字 • 標記stop word • 標記不規則變化 • 搜尋模式&喜好
內建的資料庫 • 特殊保留字 • 不規則變化 • STOP WORD • 字典檔
演算法新舊比較 • Porter Stemming演算法的缺點 • 改良Porter Stemming演算法 • IR用途 • 字典用途
Porter Stemming演算法的缺點 • Porter Stemming演算法並非完美,部分的字詞仍無法正確的將詞型、時態變化還原成原型
IR用途
字典用途
DEMO • 展示IR用途的原型化處理 • 展示原形化前置作業選項的功能與用途 • 展示字典用途的原型化處理 • 展示內建資料庫的功能與用途
心得與展望 • 經過這次專題研究讓我們了解到開發一個系統的艱辛,從理論、分析到選擇開發工具與實現,讓我們對開發程式的語言有更深入的了解與學習,以及團隊需共同努力才能實現成果 • 期望能將系統廣泛實際地應用在搜尋引擎,增加搜尋速度與效率