1 / 77

資料檢索

資料檢索. 報告人 : 梁豪友 學號 :102598055 指導教授 : 王正豪 教授. 目錄. 簡介 文獻討論 系統架構規劃與設計 系統功能與實作 檢索效能評估 結論與未來 工作. 簡介 文獻 討論 系統架構規劃與設計 系統功能與實作 檢索效能評估 結論與未來工作. 簡介. 讓傳統文件變成數位化儲存在電腦中 在 不破壞圖像原品質的情況下,利用現有的壓縮技術來改進,並同時提供快速且精確的搜尋系統. 研究目的與方法. 以 RSS 為基礎之典藏資訊訂閱 / 發布系統 永久保存 RSS 資訊與完整的 RSS 資訊之相關敘述 建立常用的關鍵字詞庫

Download Presentation

資料檢索

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 資料檢索 報告人:梁豪友 學號:102598055 指導教授:王正豪 教授

  2. 目錄 • 簡介 • 文獻討論 • 系統架構規劃與設計 • 系統功能與實作 • 檢索效能評估 • 結論與未來工作

  3. 簡介 文獻討論 系統架構規劃與設計 系統功能與實作 檢索效能評估 結論與未來工作

  4. 簡介 • 讓傳統文件變成數位化儲存在電腦中 • 在不破壞圖像原品質的情況下,利用現有的壓縮技術來改進,並同時提供快速且精確的搜尋系統

  5. 研究目的與方法 • 以RSS為基礎之典藏資訊訂閱/發布系統 • 永久保存RSS資訊與完整的RSS資訊之相關敘述 • 建立常用的關鍵字詞庫 • 降低搜尋時等待的時間

  6. 簡介 文獻討論 系統架構規劃與設計 系統功能與實作 檢索效能評估 結論與未來工作

  7. 文獻討論(RSS主要特色) • 結構簡單化:Title, Description, Link, PubDate四種元素) • Title:描述資訊的主題 • Description:為欲描述資訊的Metadata • Link:資訊來源,他可以是一連串網頁連結或其他文字類型的文件 • PubDate:紀錄該資訊的發布時間 • 彈性高:RSS技術的導入是不需要花費太多成本而且非常方便

  8. 文獻討論 • 介紹一種可擴展的語義發布/訂閱系統的高效率傳播的RSS文件。 • 採用RDF和OWL本體論語言去理解語意事件。 • 提出一個基於RDF圖提高效率的事件匹配演算法。

  9. XML • XML 與 HTML 都是SGML(ISO的標準通用標示語言) • SGML主要是處理文件結構與內容之間的關係 • XML分為標頭(header)與內容(content) • 一個典型的文件分成3個層次:結構(Structure),內容(Content)與樣式(Style)。 • SGML主要是處理文件結構與內容之間的關係。

  10. XML標準格式範例

  11. OAI • 政府與各組織為了統一資料來源與格式上的問題而成立。 • 伺服器提供者(Service Provider) 與資料提供者(Data Provider ) • 儲存器(Repository):透過HTTP伺服器接受OAI協定所提出的存取資料要求。 • 資料集(Set):將資料以階層式架構表示,方便取得所有需要的資料。 • 資料錄(Record):從伺服器依照OAI協定,從儲存器內將資料以XML編碼傳回前端的metadata

  12. 簡介 文獻討論 系統架構規劃與設計 系統功能與實作 檢索效能評估 結論與未來工作

  13. 系統規劃 • 將重複性過高的目錄重新規劃 • 說明DublinCore詮釋資料格式 • 如何將數位典藏所規範的格式套在RSS格式上

  14. RSS資訊轉成數位典藏(舊) • 系統的機器人程式(Robot)所蒐集的RSS數位化資訊,已經簡單分類 • 但此分類重複性過高。 • 如:原始資料以’英文‘與 ‘中文’做節點的分支,底下再分政治,財經,科技等類

  15. RSS資訊轉成數位典藏(新) • 本研究參考入口網站的RSS分類 EX: 奇摩RSS訂閱,蘋果日報RSS訂閱網。 • 以結構化階層式的方式重新對目錄屬性進行分類並儲存。 • EX:恐怖活動,中東衝突,伊拉克等歸類”國際新聞”

  16. Dublin Core 詮釋資料格式 將原有的資料欄為保留外,再增加識別碼,權限管理與來源等欄位將資料的資訊描述更為完整。 提供的DublinCore格式Metadata均符合oai_dc OAI-defined XML Schema格式。

  17. RSS轉數位典藏之XML規劃設計 • 圖3.4中是遵循Dublin Core 的XMLSchema條件所設定的XML文件。 • 此XML文件中可以得知資訊的詳細資料。 • EX:新聞標題為”洋基扳回一城 第四戰王建民先發”。創作者為”TVBS”等相關資訊。

  18. 系統模組簡介 • RSS數位檔案資料庫檢索系統(RDARS) • 資訊檢索與發佈訂閱模組 • 目錄索引模組 • 關鍵字最佳化模組

  19. 資訊檢索與發佈訂閱模組 • 讓使用者輸入所需檢索關鍵字,以及提供使用者訂閱想閱讀的RSS資訊,最後將使用者所需的資訊呈現給使用者 • 分別由RSS發佈與訂閱元件(RSS Publish/Subscribe Component)與資訊檢索元件(Information Retrieve Component )。

  20. 資訊檢索元件 • 給予使用者查詢RSS訊息數位典藏檢索資訊網 • 使用者輸入關鍵字後,系統會根據需求,進入關鍵字最佳模組進行處理,之後呈現於網頁中。

  21. RSS發佈與訂閱文件 • RSS發佈與訂閱元件就會將某筆資訊的標題,內容,時間包成標準的RSS格式並以XML格式傳輸到客戶端。 • 客戶端的瀏覽器將會解析XML檔案,並將資訊內容呈現網頁提供使用者閱讀。

  22. 目錄索引模組(Directory Classify Module) • 分類方式的目的是為了方便系統資料的歸納,刪除重複性過高的類別以及作資料的處理。 • 讓使用者可以透過目錄索引模組快速找到某依類別的所有資訊。 • EX:運動類別只出現與運動相關的RSS資訊,而不會出現不相干的資訊。

  23. 關鍵字最佳化模組(Keyword Optimization Module) • 由KeywordGenerator 與ID-Keyword Relation maker組合成的。 • 在’台灣新聞’與’國際新聞’這兩大類進行目錄索引編號。 • EX:政治為01,社會為02,科技為03……………….。如表3.2

  24. Keyword Optimization Module Keyword Generator中會對項目進行目錄索引編號。

  25. Keyword Optimization Module • 該方法是收尋資料時藉由資料關聯詞庫表中的關鍵字詞,目錄索引標號,日期之資訊,利用欄位的關聯ID編號連接資料庫。 • Z(Zenith)代表頂點的意識,也是每筆資訊的開頭,而緊接下來的節點就是資訊的屬性(Title, Creator, Subject, Description..)。 • 將欄位值傳送到sys.dm_fts_parser進行斷詞。並以 ; 將每個斷詞分開,並將值寫入關鍵字詞欄位裡。

  26. 未經過標籤結構化方法的圖(圖3.2為例) • Step1:先尋找是哪個大類別(ex:台灣新聞或國際新聞) • Step2:會走訪每個子類別(Ex:政治,社會….),直到尋找到’運動‘項目。 • Step3:再走訪每筆Title(標題)->Creator(作者)->Subject(關鍵字)。是否符合王建民之Keyword。 • 此方法需耗費大量時間在逐一拜訪每個節點,才能尋找到使用者所需資訊

  27. 經由標籤結構簡化樹狀圖 • Step1:透過目錄索引編號,得知王建民屬於運動編號為05,跳過前面四個子類別(ex:政治,社會,財經,科技)。 • Step2:已知使用者查詢的資料關聯ID編號為53561,所以只需拜訪編號53561的子節點,再將裡面所儲存的資訊擷取並傳回給使用者即可。

  28. External Data Source • 目前實作的擷取功能有XML讀取器,HTML剖析器,Web Service Client。 • 南台科大最新訊息:此資料元包含七個子頻道,擷取方法是使用HTML剖析網頁的HTML原始碼。 • Yahoo奇摩新聞頻道RSS:擷取台灣的Yahoo奇摩新聞頻道提供的RSSXML檔。 • Yahoo奇摩新聞全文內容:擷取台灣的Yahoo奇摩新聞頻道的新聞全文內容。

  29. External Data Source • Yahoo US 新聞頻道RSS:擷取美國的Yahoo新聞頻道提供的RSS XML檔 • Yahoo US 新聞全文內容:擷取美國的Yahoo新聞頻道的新聞全文內容。擷取方法和台灣Yahoo新聞相同,不過在HTML剖析的規則方面有所不同

  30. 系統架構設計與運作流程 • 分成資料分類流程作業與使用者資料檢索流程作業。 • 分成A,B,C與1,2,3兩種編號。 • 英文表示資料分類流程作業之流程編號(EX:A,B,C)。 • 數字部分是使用者資料檢索流程作業之流程編號(EX:1,2,3)。

  31. 資料分類流程作業(StepA) • 以RSS Date Base取出RSS資料。 • EX:將中文的政治,社會等13個項目與英文的政治,運動等15個項目,進行結構化分類並整合成”台灣新聞“以及”國際新聞”兩大類。 • 將原資料轉換成新格式,另外儲存於新的資料庫,在新的資料庫中每筆資料擁有Primary Key,供日後連接每筆資訊所需。

  32. 資料分類流程作業(StepB) • 模組稱關鍵字最佳化模組(Keyword Optimization Module)主要是由Keyword Generator與 ID-Keyword Relation maker組合而成。 • Keyword Generator中先對這兩大分類裡的項目進行目錄索引編號 • EX:運動類別為05。 • 系統會從RSSDB裡的ID欄位(Primary key)中抓取每筆資料的ID值,將取得的ID值與目錄索引標號的值做結合。 • 格式為目錄索引編號+ID+唯一文件號碼。能藉由識別碼快速的從資料庫連接每筆資訊的詳細資料。

  33. 資料分類流程作業(StepC) • 抓取最新的資訊呈現於網頁畫面中,讓使用者進入網頁時可以即時看到最新的新聞資訊。 • 如果使用者喜歡此筆資訊,可藉由RSSPublish/Subscribe Component元件下載此筆資訊。 • 假如使用者只想要看到某筆資訊的內容,本系統也提供RSS標準格式傳回,但連接(Link)會改成本系統此筆資訊的URL。

  34. 使用者資料檢索流程作業(Step1) • User進入到RDARS網站系統內,系統提供RSS發布和訂閱元件與資訊檢索元件兩種功能供使用者使用。 • 當使用者輸入關鍵字,會列出熱門搜尋的關鍵字或是已存在於資料關聯表中的Subject。 • 使用者除了輸入關鍵字外還需要選擇輸入的關鍵字是哪個領域,出處與日期,此動作會縮小資料庫的搜尋範圍。

  35. 使用者資料檢索流程作業(Step2&3) • Step2:使用者下達的關鍵字是存在於資料關聯詞庫表中。 • 藉由每筆資訊的關聯ID編號連接到RSSDB抓取資料,並包成XML格式傳輸到RDARS網站,如果不存在則直接進入RSSDB取資料。 • Step3:系統會將使用者所需要的資訊利用多媒體技術呈現,藉此增加版面的互動性。

  36. 簡介 文獻討論 系統架構規劃與設計 系統功能與實作 檢索效能評估 結論與未來工作

  37. 系統需求與開發環境 • 減少客戶端處理資訊時間的負擔。(考慮原因1) • 當資訊增加時,在伺服端預先做後端的處理,在檢索時可以降低等待時間。(考慮原因2) • 電腦環境是Intel Core i7 CPU 920 @ 2.67GHZ • 軟體方面:Microsoft Windows XP 為系統平台。 • 資料庫使用Microsoft SQL Server 2008版 • 撰寫語言:ASP.NET

  38. 系統實作(和圖3.8相比) • 多了斷詞元件。 • OAI產生模組。 • 資料處理模組與外部資料來源。

  39. 系統實作

  40. 資料庫實作 • 本系統資料庫選用的是Microsoft SQL Server 2008 Enterprise Edition 來建置。 • 資料庫使用的記憶體確實變少了,且在中文方面的全文檢索的結果也較正確。 • 本研究另外建立新資料表,當增/刪時可方便更新於新資料表。

More Related