130 likes | 237 Views
以 RSS 為格式提昇數位典藏系統檢索效能. 報告者:劉芸如 日期: 99/12/17. Query. A. C. 1. Directory Classify Module. RSS Publish/Subscribe Component. Access. Information Retrieve Component. 3. Respond. B. RSS Data Base. Keyword optimization Module. USER. 2. Keyword Generator. ID-Keyword Relation maker.
E N D
以RSS為格式提昇數位典藏系統檢索效能 報告者:劉芸如 日期:99/12/17
Query A C 1 Directory Classify Module RSS Publish/Subscribe Component Access Information Retrieve Component 3 Respond B RSS Data Base Keyword optimization Module USER 2 Keyword Generator ID-Keyword Relation maker Client HTTP RSS Digital Archives Retrieve System
MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm • Chih-Hao Tsai提出,它使用兩套演算法與四個模糊解析規則。 • Simple maximum matching(簡單最大匹配) • 首先搜索詞彙,看看_C1_是一個字詞,然後搜索_C1C2_,看它是否是兩個字詞的字,依此類推。直到組合出來的結果長度最長者,列入詞庫中。 • Complex maximum matching(複雜最大匹配) • 找到所有從當前位置開始的三個連續詞語的區塊,總長度最大的區塊是最佳解。
例如:“眼看就要來了” ,從“眼”字開始,可能構成的三個連續詞的區塊有(注意每一個單字通常都可以是獨立的詞) • 眼 看 就眼 看 就要眼看 就 要眼看 就要 来眼看 就要 来了<<<最佳分割 • 優點: • mmseg4j詞庫採用utf-8編碼,而且可以自訂編碼。 • 可以替換詞庫,或自訂詞庫。
1. 詞語長度變化最小的原則(Smallest variance of word lengths) • EX:“研究生命起源” • 研究生命起源 • 研究生命起源 • 這種方法選出“研究 生命 起源”這個最佳的分割,因為三個詞的長度都是 2 ,長度變化是 0 。
2. Largest sum of degree of morphemic freedom of one-character words 規則 • 通過各個單字在平時被使用的頻率資料,就可以用於在不同的區塊中選出頻率最高的一個區塊。 • Ex:“主要是因為” • 主要 是 因為<<<最佳分割 • 主要是因為 • 由於單字“是”比單字“主”出現的頻率要高,因此可以選出“主要 是 因為”這個分割,通常這也就是最佳分割。
CKIP跟MMSEG的差別 • Ex:這行文字是要被中文斷詞處理的文章,可以從執行結果 • CKIP • 這(Nep) 行(Nf) 文字(Na) 是(SHI) 要(D) 被(P) 中文(Na) 斷詞(VA) 處理(VC) 的(DE) 文章(Na) ,(COMMACATEGORY 可以(D) 從(P) 執行(VC) 結果(Na) • MMSEG • 這行|文字|是|要被|中文|斷|詞|處理|的|文章| 可以|從|執行|結果
方法 –CKIP 與 MMSEG • Step 1 將標題與內容裡的文字,利用CKIP作斷詞。 • Step 2 傳回的結果作兩者間的比對(標題與內容同時出現者抓為本文件的關鍵字)。 • 例外:假設SKIP斷出的標題與內文,無法找出相同的句子,則再與MMSEG所斷出的句子作比對。 • Step 3 重複過多關鍵字時,取其一相同關鍵字,淘汰其餘重複的,並將文件的編號(ID)的數值整合列入表中。
開始 之前版本 步驟一 取得斷詞結果 步驟二 擷取詞句 說明:CKIP-比對標題與內容斷詞結果,取兩邊出現相同字詞 判斷關鍵字 否 是 建立資料關聯詞庫表 與MMSEG所斷出的句子作兩者比對選出最佳組合,再與內容斷詞結果作比對,取兩邊出現相同字詞,建立資料關聯詞庫表 重複過多相同關鍵字 說明:取其一相同關鍵字,淘汰其餘重複的,並將文件的編號(ID)的數值列入表中 步驟三 是 否 整合重複的關鍵字 產生資料關鍵詞庫表 結束
修改版本 開始 步驟一 取得斷詞結果 步驟二 說明:CKIP-比對標題與內容斷詞結果,取兩邊出現相同字詞 判斷關鍵字 否 是 建立資料關聯詞庫表 步驟三 重複過多相同關鍵字 是 否 整合重複的關鍵字 產生資料關鍵詞庫表 結束
原文 • 標題 • 王建民填表選秀,突顯中職棒不公 • 內容 • 中華職棒年度選秀會,昨天下午5點截止報名,卻驚傳王建民已經填妥報名表,難道王建民要放棄美國職棒,回台發展嗎?王建民的經紀人證實,確有此事,不過他說,王建民這麼做,是要突顯中華職棒選秀制度的荒謬,因為連王建民這樣的投手,都得透過選秀才能加盟中華職棒,顯然制度有待檢討。
CKIP斷詞 • 標題 • 王建民(Nb) 填表(VA) 選秀(Na) ,(COMMACATEGORY) • 突顯(VJ) 中(Di) 職棒(Na) 不公(VH) • 內文 • 中華(Nc) 職棒(Na) 年度(Na) 選秀會(Na) ,(COMMACATEGORY • 昨天(Nd) 下午(Nd) 5點(Neu) 截止(VH) 報名(VA) ,(COMMACATEGORY • 卻(D) 驚傳(VE) 王建民(Nb) 已經(D) 填妥(VC) 報名表(Na) ,(COMMACATEGORY • 難道(D) 王建民(Nb) 要(D) 放棄(VC) 美國(Nc) 職棒(Na) ,(COMMACATEGORY) • 回(VCL) 台(Nc) 發展(VC) 嗎(T) ?(QUESTIONCATEGORY) • 王建民(Nb) 的(DE) 經紀人(Na) 證實(VE) ,(COMMACATEGORY) • 確(D) 有(V_2) 此(Nep) 事(Na) ,(COMMACATEGORY) • 不過(Cbb) 他(Nh) 說(VE) ,(COMMACATEGORY) • 王建民(Nb) 這麼(D) 做(VC) ,(COMMACATEGORY) • 是(SHI) 要(D) 突顯(VJ) 中華(Nc) 職棒(Na) 選秀(Na) 制度(Na) 的(DE) 荒謬(VH) ,(COMMACATEGORY) • 因為(Cbb) 連(Cbb) 王建民(Nb) 這樣(VH) 的(DE) 投手(Na) ,(COMMACATEGORY) • 都(D) 得(D) 透過(P) 選秀(Na) 才能(Na) 加盟(VC) 中華(Nc) 職棒(Na) ,(COMMACATEGORY) • 顯然(D) 制度(Na) 有待(VK) 檢討(VE) 。(PERIODCATEGORY)
MMSEG • 標題 • 王 | 建 | 民 | 填表 | 選 | 秀 | 突 | 顯 | 中 | 職 | 棒 | 不公 • 內容 • 中華 | 職 | 棒 | 年度 | 選 | 秀 | 會 | 昨天下午 | 5 | 點 | 截止 | 報名 | 卻 | 驚 | 傳 | 王 | 建 | 民 | 已經 | 填 | 妥 | 報名 | 表 | 難道 | 王 | 建 | 民 | 要 | 放棄 | 美國 | 職 | 棒 | 回 | 台 | 發展 | 嗎 | 王 | 建 | 民 | 的 | 經紀人 | 證實 | 確有 | 此事 | 不過 | 他說 | 王 | 建 | 民 | 這麼 | 做 | 是要 | 突 | 顯 | 中華 | 職 | 棒 | 選 | 秀 | 制度 | 的 | 荒謬 | 因為 | 連 | 王 | 建 | 民 | 這樣 | 的 | 投手 | 都得 | 透過 | 選 | 秀才 | 能 | 加盟 | 中華 | 職 | 棒 | 顯然 | 制度 | 有待 | 檢討