1 / 13

以 RSS 為格式提昇數位典藏系統檢索效能

以 RSS 為格式提昇數位典藏系統檢索效能. 報告者:劉芸如 日期: 99/12/17. Query. A. C. 1. Directory Classify Module. RSS Publish/Subscribe Component. Access. Information Retrieve Component. 3. Respond. B. RSS Data Base. Keyword optimization Module. USER. 2. Keyword Generator. ID-Keyword Relation maker.

Download Presentation

以 RSS 為格式提昇數位典藏系統檢索效能

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 以RSS為格式提昇數位典藏系統檢索效能 報告者:劉芸如 日期:99/12/17

  2. Query A C 1 Directory Classify Module RSS Publish/Subscribe Component Access Information Retrieve Component 3 Respond B RSS Data Base Keyword optimization Module USER 2 Keyword Generator ID-Keyword Relation maker Client HTTP RSS Digital Archives Retrieve System

  3. MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm • Chih-Hao Tsai提出,它使用兩套演算法與四個模糊解析規則。 • Simple maximum matching(簡單最大匹配) • 首先搜索詞彙,看看_C1_是一個字詞,然後搜索_C1C2_,看它是否是兩個字詞的字,依此類推。直到組合出來的結果長度最長者,列入詞庫中。 • Complex maximum matching(複雜最大匹配) • 找到所有從當前位置開始的三個連續詞語的區塊,總長度最大的區塊是最佳解。

  4. 例如:“眼看就要來了” ,從“眼”字開始,可能構成的三個連續詞的區塊有(注意每一個單字通常都可以是獨立的詞) • 眼 看 就眼 看 就要眼看 就 要眼看 就要 来眼看 就要 来了<<<最佳分割 • 優點: • mmseg4j詞庫採用utf-8編碼,而且可以自訂編碼。 • 可以替換詞庫,或自訂詞庫。

  5. 1. 詞語長度變化最小的原則(Smallest variance of word lengths) • EX:“研究生命起源” • 研究生命起源 • 研究生命起源 • 這種方法選出“研究 生命 起源”這個最佳的分割,因為三個詞的長度都是 2 ,長度變化是 0 。

  6. 2. Largest sum of degree of morphemic freedom of one-character words 規則 • 通過各個單字在平時被使用的頻率資料,就可以用於在不同的區塊中選出頻率最高的一個區塊。 • Ex:“主要是因為” • 主要 是 因為<<<最佳分割 • 主要是因為 • 由於單字“是”比單字“主”出現的頻率要高,因此可以選出“主要 是 因為”這個分割,通常這也就是最佳分割。

  7. CKIP跟MMSEG的差別 • Ex:這行文字是要被中文斷詞處理的文章,可以從執行結果 • CKIP • 這(Nep) 行(Nf) 文字(Na) 是(SHI) 要(D) 被(P) 中文(Na) 斷詞(VA) 處理(VC) 的(DE) 文章(Na) ,(COMMACATEGORY 可以(D) 從(P) 執行(VC) 結果(Na) • MMSEG • 這行|文字|是|要被|中文|斷|詞|處理|的|文章| 可以|從|執行|結果

  8. 方法 –CKIP 與 MMSEG • Step 1 將標題與內容裡的文字,利用CKIP作斷詞。 • Step 2 傳回的結果作兩者間的比對(標題與內容同時出現者抓為本文件的關鍵字)。 • 例外:假設SKIP斷出的標題與內文,無法找出相同的句子,則再與MMSEG所斷出的句子作比對。 • Step 3 重複過多關鍵字時,取其一相同關鍵字,淘汰其餘重複的,並將文件的編號(ID)的數值整合列入表中。

  9. 開始 之前版本 步驟一 取得斷詞結果 步驟二 擷取詞句 說明:CKIP-比對標題與內容斷詞結果,取兩邊出現相同字詞 判斷關鍵字 否 是 建立資料關聯詞庫表 與MMSEG所斷出的句子作兩者比對選出最佳組合,再與內容斷詞結果作比對,取兩邊出現相同字詞,建立資料關聯詞庫表 重複過多相同關鍵字 說明:取其一相同關鍵字,淘汰其餘重複的,並將文件的編號(ID)的數值列入表中 步驟三 是 否 整合重複的關鍵字 產生資料關鍵詞庫表 結束

  10. 修改版本 開始 步驟一 取得斷詞結果 步驟二 說明:CKIP-比對標題與內容斷詞結果,取兩邊出現相同字詞 判斷關鍵字 否 是 建立資料關聯詞庫表 步驟三 重複過多相同關鍵字 是 否 整合重複的關鍵字 產生資料關鍵詞庫表 結束

  11. 原文 • 標題 • 王建民填表選秀,突顯中職棒不公 • 內容 • 中華職棒年度選秀會,昨天下午5點截止報名,卻驚傳王建民已經填妥報名表,難道王建民要放棄美國職棒,回台發展嗎?王建民的經紀人證實,確有此事,不過他說,王建民這麼做,是要突顯中華職棒選秀制度的荒謬,因為連王建民這樣的投手,都得透過選秀才能加盟中華職棒,顯然制度有待檢討。

  12. CKIP斷詞 • 標題 • 王建民(Nb) 填表(VA) 選秀(Na) ,(COMMACATEGORY) • 突顯(VJ) 中(Di) 職棒(Na) 不公(VH) • 內文 • 中華(Nc) 職棒(Na) 年度(Na) 選秀會(Na) ,(COMMACATEGORY • 昨天(Nd) 下午(Nd) 5點(Neu) 截止(VH) 報名(VA) ,(COMMACATEGORY • 卻(D) 驚傳(VE) 王建民(Nb) 已經(D) 填妥(VC) 報名表(Na) ,(COMMACATEGORY • 難道(D) 王建民(Nb) 要(D) 放棄(VC) 美國(Nc) 職棒(Na) ,(COMMACATEGORY) • 回(VCL) 台(Nc) 發展(VC) 嗎(T) ?(QUESTIONCATEGORY) • 王建民(Nb) 的(DE) 經紀人(Na) 證實(VE) ,(COMMACATEGORY) • 確(D) 有(V_2) 此(Nep) 事(Na) ,(COMMACATEGORY) • 不過(Cbb) 他(Nh) 說(VE) ,(COMMACATEGORY) • 王建民(Nb) 這麼(D) 做(VC) ,(COMMACATEGORY) • 是(SHI) 要(D) 突顯(VJ) 中華(Nc) 職棒(Na) 選秀(Na) 制度(Na) 的(DE) 荒謬(VH) ,(COMMACATEGORY) • 因為(Cbb) 連(Cbb) 王建民(Nb) 這樣(VH) 的(DE) 投手(Na) ,(COMMACATEGORY) • 都(D) 得(D) 透過(P) 選秀(Na) 才能(Na) 加盟(VC) 中華(Nc) 職棒(Na) ,(COMMACATEGORY) • 顯然(D) 制度(Na) 有待(VK) 檢討(VE) 。(PERIODCATEGORY)

  13. MMSEG • 標題 • 王 | 建 | 民 | 填表 | 選 | 秀 | 突 | 顯 | 中 | 職 | 棒 | 不公 • 內容 • 中華 | 職 | 棒 | 年度 | 選 | 秀 | 會 | 昨天下午 | 5 | 點 | 截止 | 報名 | 卻 | 驚 | 傳 | 王 | 建 | 民 | 已經 | 填 | 妥 | 報名 | 表 | 難道 | 王 | 建 | 民 | 要 | 放棄 | 美國 | 職 | 棒 | 回 | 台 | 發展 | 嗎 | 王 | 建 | 民 | 的 | 經紀人 | 證實 | 確有 | 此事 | 不過 | 他說 | 王 | 建 | 民 | 這麼 | 做 | 是要 | 突 | 顯 | 中華 | 職 | 棒 | 選 | 秀 | 制度 | 的 | 荒謬 | 因為 | 連 | 王 | 建 | 民 | 這樣 | 的 | 投手 | 都得 | 透過 | 選 | 秀才 | 能 | 加盟 | 中華 | 職 | 棒 | 顯然 | 制度 | 有待 | 檢討

More Related