770 likes | 900 Views
資料檢索. 報告人 : 梁豪友 學號 :102598055 指導教授 : 王正豪 教授. 目錄. 簡介 文獻討論 系統架構規劃與設計 系統功能與實作 檢索效能評估 結論與未來 工作. 簡介 文獻 討論 系統架構規劃與設計 系統功能與實作 檢索效能評估 結論與未來工作. 簡介. 讓傳統文件變成數位化儲存在電腦中 在 不破壞圖像原品質的情況下,利用現有的壓縮技術來改進,並同時提供快速且精確的搜尋系統. 研究目的與方法. 以 RSS 為基礎之典藏資訊訂閱 / 發布系統 永久保存 RSS 資訊與完整的 RSS 資訊之相關敘述 建立常用的關鍵字詞庫
E N D
資料檢索 報告人:梁豪友 學號:102598055 指導教授:王正豪 教授
目錄 • 簡介 • 文獻討論 • 系統架構規劃與設計 • 系統功能與實作 • 檢索效能評估 • 結論與未來工作
簡介 文獻討論 系統架構規劃與設計 系統功能與實作 檢索效能評估 結論與未來工作
簡介 • 讓傳統文件變成數位化儲存在電腦中 • 在不破壞圖像原品質的情況下,利用現有的壓縮技術來改進,並同時提供快速且精確的搜尋系統
研究目的與方法 • 以RSS為基礎之典藏資訊訂閱/發布系統 • 永久保存RSS資訊與完整的RSS資訊之相關敘述 • 建立常用的關鍵字詞庫 • 降低搜尋時等待的時間
簡介 文獻討論 系統架構規劃與設計 系統功能與實作 檢索效能評估 結論與未來工作
文獻討論(RSS主要特色) • 結構簡單化:Title, Description, Link, PubDate四種元素) • Title:描述資訊的主題 • Description:為欲描述資訊的Metadata • Link:資訊來源,他可以是一連串網頁連結或其他文字類型的文件 • PubDate:紀錄該資訊的發布時間 • 彈性高:RSS技術的導入是不需要花費太多成本而且非常方便
文獻討論 • 介紹一種可擴展的語義發布/訂閱系統的高效率傳播的RSS文件。 • 採用RDF和OWL本體論語言去理解語意事件。 • 提出一個基於RDF圖提高效率的事件匹配演算法。
XML • XML 與 HTML 都是SGML(ISO的標準通用標示語言) • SGML主要是處理文件結構與內容之間的關係 • XML分為標頭(header)與內容(content) • 一個典型的文件分成3個層次:結構(Structure),內容(Content)與樣式(Style)。 • SGML主要是處理文件結構與內容之間的關係。
OAI • 政府與各組織為了統一資料來源與格式上的問題而成立。 • 伺服器提供者(Service Provider) 與資料提供者(Data Provider ) • 儲存器(Repository):透過HTTP伺服器接受OAI協定所提出的存取資料要求。 • 資料集(Set):將資料以階層式架構表示,方便取得所有需要的資料。 • 資料錄(Record):從伺服器依照OAI協定,從儲存器內將資料以XML編碼傳回前端的metadata
簡介 文獻討論 系統架構規劃與設計 系統功能與實作 檢索效能評估 結論與未來工作
系統規劃 • 將重複性過高的目錄重新規劃 • 說明DublinCore詮釋資料格式 • 如何將數位典藏所規範的格式套在RSS格式上
RSS資訊轉成數位典藏(舊) • 系統的機器人程式(Robot)所蒐集的RSS數位化資訊,已經簡單分類 • 但此分類重複性過高。 • 如:原始資料以’英文‘與 ‘中文’做節點的分支,底下再分政治,財經,科技等類
RSS資訊轉成數位典藏(新) • 本研究參考入口網站的RSS分類 EX: 奇摩RSS訂閱,蘋果日報RSS訂閱網。 • 以結構化階層式的方式重新對目錄屬性進行分類並儲存。 • EX:恐怖活動,中東衝突,伊拉克等歸類”國際新聞”
Dublin Core 詮釋資料格式 將原有的資料欄為保留外,再增加識別碼,權限管理與來源等欄位將資料的資訊描述更為完整。 提供的DublinCore格式Metadata均符合oai_dc OAI-defined XML Schema格式。
RSS轉數位典藏之XML規劃設計 • 圖3.4中是遵循Dublin Core 的XMLSchema條件所設定的XML文件。 • 此XML文件中可以得知資訊的詳細資料。 • EX:新聞標題為”洋基扳回一城 第四戰王建民先發”。創作者為”TVBS”等相關資訊。
系統模組簡介 • RSS數位檔案資料庫檢索系統(RDARS) • 資訊檢索與發佈訂閱模組 • 目錄索引模組 • 關鍵字最佳化模組
資訊檢索與發佈訂閱模組 • 讓使用者輸入所需檢索關鍵字,以及提供使用者訂閱想閱讀的RSS資訊,最後將使用者所需的資訊呈現給使用者 • 分別由RSS發佈與訂閱元件(RSS Publish/Subscribe Component)與資訊檢索元件(Information Retrieve Component )。
資訊檢索元件 • 給予使用者查詢RSS訊息數位典藏檢索資訊網 • 使用者輸入關鍵字後,系統會根據需求,進入關鍵字最佳模組進行處理,之後呈現於網頁中。
RSS發佈與訂閱文件 • RSS發佈與訂閱元件就會將某筆資訊的標題,內容,時間包成標準的RSS格式並以XML格式傳輸到客戶端。 • 客戶端的瀏覽器將會解析XML檔案,並將資訊內容呈現網頁提供使用者閱讀。
目錄索引模組(Directory Classify Module) • 分類方式的目的是為了方便系統資料的歸納,刪除重複性過高的類別以及作資料的處理。 • 讓使用者可以透過目錄索引模組快速找到某依類別的所有資訊。 • EX:運動類別只出現與運動相關的RSS資訊,而不會出現不相干的資訊。
關鍵字最佳化模組(Keyword Optimization Module) • 由KeywordGenerator 與ID-Keyword Relation maker組合成的。 • 在’台灣新聞’與’國際新聞’這兩大類進行目錄索引編號。 • EX:政治為01,社會為02,科技為03……………….。如表3.2
Keyword Optimization Module Keyword Generator中會對項目進行目錄索引編號。
Keyword Optimization Module • 該方法是收尋資料時藉由資料關聯詞庫表中的關鍵字詞,目錄索引標號,日期之資訊,利用欄位的關聯ID編號連接資料庫。 • Z(Zenith)代表頂點的意識,也是每筆資訊的開頭,而緊接下來的節點就是資訊的屬性(Title, Creator, Subject, Description..)。 • 將欄位值傳送到sys.dm_fts_parser進行斷詞。並以 ; 將每個斷詞分開,並將值寫入關鍵字詞欄位裡。
未經過標籤結構化方法的圖(圖3.2為例) • Step1:先尋找是哪個大類別(ex:台灣新聞或國際新聞) • Step2:會走訪每個子類別(Ex:政治,社會….),直到尋找到’運動‘項目。 • Step3:再走訪每筆Title(標題)->Creator(作者)->Subject(關鍵字)。是否符合王建民之Keyword。 • 此方法需耗費大量時間在逐一拜訪每個節點,才能尋找到使用者所需資訊
經由標籤結構簡化樹狀圖 • Step1:透過目錄索引編號,得知王建民屬於運動編號為05,跳過前面四個子類別(ex:政治,社會,財經,科技)。 • Step2:已知使用者查詢的資料關聯ID編號為53561,所以只需拜訪編號53561的子節點,再將裡面所儲存的資訊擷取並傳回給使用者即可。
External Data Source • 目前實作的擷取功能有XML讀取器,HTML剖析器,Web Service Client。 • 南台科大最新訊息:此資料元包含七個子頻道,擷取方法是使用HTML剖析網頁的HTML原始碼。 • Yahoo奇摩新聞頻道RSS:擷取台灣的Yahoo奇摩新聞頻道提供的RSSXML檔。 • Yahoo奇摩新聞全文內容:擷取台灣的Yahoo奇摩新聞頻道的新聞全文內容。
External Data Source • Yahoo US 新聞頻道RSS:擷取美國的Yahoo新聞頻道提供的RSS XML檔 • Yahoo US 新聞全文內容:擷取美國的Yahoo新聞頻道的新聞全文內容。擷取方法和台灣Yahoo新聞相同,不過在HTML剖析的規則方面有所不同
系統架構設計與運作流程 • 分成資料分類流程作業與使用者資料檢索流程作業。 • 分成A,B,C與1,2,3兩種編號。 • 英文表示資料分類流程作業之流程編號(EX:A,B,C)。 • 數字部分是使用者資料檢索流程作業之流程編號(EX:1,2,3)。
資料分類流程作業(StepA) • 以RSS Date Base取出RSS資料。 • EX:將中文的政治,社會等13個項目與英文的政治,運動等15個項目,進行結構化分類並整合成”台灣新聞“以及”國際新聞”兩大類。 • 將原資料轉換成新格式,另外儲存於新的資料庫,在新的資料庫中每筆資料擁有Primary Key,供日後連接每筆資訊所需。
資料分類流程作業(StepB) • 模組稱關鍵字最佳化模組(Keyword Optimization Module)主要是由Keyword Generator與 ID-Keyword Relation maker組合而成。 • Keyword Generator中先對這兩大分類裡的項目進行目錄索引編號 • EX:運動類別為05。 • 系統會從RSSDB裡的ID欄位(Primary key)中抓取每筆資料的ID值,將取得的ID值與目錄索引標號的值做結合。 • 格式為目錄索引編號+ID+唯一文件號碼。能藉由識別碼快速的從資料庫連接每筆資訊的詳細資料。
資料分類流程作業(StepC) • 抓取最新的資訊呈現於網頁畫面中,讓使用者進入網頁時可以即時看到最新的新聞資訊。 • 如果使用者喜歡此筆資訊,可藉由RSSPublish/Subscribe Component元件下載此筆資訊。 • 假如使用者只想要看到某筆資訊的內容,本系統也提供RSS標準格式傳回,但連接(Link)會改成本系統此筆資訊的URL。
使用者資料檢索流程作業(Step1) • User進入到RDARS網站系統內,系統提供RSS發布和訂閱元件與資訊檢索元件兩種功能供使用者使用。 • 當使用者輸入關鍵字,會列出熱門搜尋的關鍵字或是已存在於資料關聯表中的Subject。 • 使用者除了輸入關鍵字外還需要選擇輸入的關鍵字是哪個領域,出處與日期,此動作會縮小資料庫的搜尋範圍。
使用者資料檢索流程作業(Step2&3) • Step2:使用者下達的關鍵字是存在於資料關聯詞庫表中。 • 藉由每筆資訊的關聯ID編號連接到RSSDB抓取資料,並包成XML格式傳輸到RDARS網站,如果不存在則直接進入RSSDB取資料。 • Step3:系統會將使用者所需要的資訊利用多媒體技術呈現,藉此增加版面的互動性。
簡介 文獻討論 系統架構規劃與設計 系統功能與實作 檢索效能評估 結論與未來工作
系統需求與開發環境 • 減少客戶端處理資訊時間的負擔。(考慮原因1) • 當資訊增加時,在伺服端預先做後端的處理,在檢索時可以降低等待時間。(考慮原因2) • 電腦環境是Intel Core i7 CPU 920 @ 2.67GHZ • 軟體方面:Microsoft Windows XP 為系統平台。 • 資料庫使用Microsoft SQL Server 2008版 • 撰寫語言:ASP.NET
系統實作(和圖3.8相比) • 多了斷詞元件。 • OAI產生模組。 • 資料處理模組與外部資料來源。
資料庫實作 • 本系統資料庫選用的是Microsoft SQL Server 2008 Enterprise Edition 來建置。 • 資料庫使用的記憶體確實變少了,且在中文方面的全文檢索的結果也較正確。 • 本研究另外建立新資料表,當增/刪時可方便更新於新資料表。