1 / 14

Multilingual Single Document Keyword Extraction for Information Retrieval

Multilingual Single Document Keyword Extraction for Information Retrieval. David B. Bracewell, Fuji REN, and Shingo Kuriowa Department of Information Science and Intelligent Systems, Faculty of Engineering, The University of Tokushima Tokushima, 770-0861 Email: davidbgis.tokushima-u.acjp.

Download Presentation

Multilingual Single Document Keyword Extraction for Information Retrieval

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Multilingual Single Document KeywordExtraction for Information Retrieval David B. Bracewell, Fuji REN, and Shingo Kuriowa Department of Information Science and Intelligent Systems, Faculty of Engineering, The University of Tokushima Tokushima, 770-0861 Email: davidbgis.tokushima-u.acjp 指導教授:陳志達 報告者:劉芸如

  2. 目錄 • 介紹 • 背景 • 文集資訊 • 關鍵詞提取演算法 • 實驗結果 • 結論

  3. 1. 介紹 • 關鍵字或索引條件是一種基本的資訊檢索的一部分。 • 為了確保所選擇的關鍵字,在大多數情況下是獨立的,換句話說,所選用的關鍵字,經常出現在一個文件,但不是在其餘資料裡 。 • 這種技術有助於詞識別文件,但需要預先完整收集。 • 使用co-occurrence和machine learning來實現從單一文件取出關鍵字。 • 利用資訊檢索來做關鍵字搜索,以確定獨特的關鍵字在他們的文件提取。

  4. 2. 背景(1) • 我們的目標是讓用戶搜索信息本國語言和從任何語言文件來檢索回答。 • 該系統將被設計用於在處理新聞和教育課題(歷史,文學,藝術,音樂等) ,裡面包函日文、英文、中文當目標語言。這將是由以下幾個部分: • 關鍵字提取 • 主題分析 • 文章摘要 • 機器翻譯 • 知識獲得 • 知識管理 • 提問和回答 • 報表生成

  5. 2. 背景(2) • 在知識獲取或管理模組將嘗試從問題中學習,以便將來詢問或報告的要求。 • 在這個系統是要建立一個有效的關鍵字提取演算法。

  6. 3. 文集資訊 • 這個語料庫內有17000文件,而這些文件是從Wired從每天的文章被翻譯成日文。

  7. 4. 關鍵詞提取演算法(1) • 關鍵字提取演算法設計盡可能語言的獨立。 • 三個演算法模組為: • 型態分析 • 名詞片語提取與評分 • 名詞片語叢集與評分

  8. 4. 關鍵詞提取演算法(2) • 型態的分析(Morphological Analysis) • 型態的分析是識別詞的詞幹(word stems)、句法種類(Parts-of-Speech)。 • 自然語言處理(Natural Language Processing NLP)是一個十分重要的基本組成部分。 • 在形態分析部分算法的產生,部分詞性標註和文字進行分割。 • 模組過程如下: • 詞的分段 • 句法種類(Part-of-Speech)標籤 • 詞幹(Stemming) • Unigram頻率計算

  9. 4. 關鍵詞提取演算法(3) • 名詞片語提取(NP Extraction and Scoring) • 關鍵字只限於名詞片語,名詞片語往往包含最重要的信息。 • 每一個新的語言所需要做改變的事情是改變詞序 • 此論文是使用簡單的CFG(Context Free Grammar)來做名詞片語。 • 名詞片語是要被標記和從文章提取,非檢所用字需要被刪除。

  10. 4. 關鍵詞提取演算法(4) • 名詞片語叢集(NP Clustering and Scoring) • 叢集是防止關鍵字重複提取

  11. 4. 關鍵詞提取演算法(5) • 選擇關鍵字(Choosing Keywords) • 關鍵字是以叢集中評分順序作為關鍵字的選擇 • 而這些選出來字是一個短詞叢集

  12. 5. 實驗結果(1) • 測試有效的關鍵字有兩個方法: • 人類協議產生關鍵字 • 產生關鍵字在資訊檢索 • REL是一套可以做信息檢索的全文,使用多個關鍵字與布爾運算符。

  13. 5. 實驗結果(2)

  14. 6. 結論 • 本文介紹了多國語言能力的算法提取關鍵字從一個單一的文件進行資料檢索。 • 唯一的要求是演算法的語言是有形態分析器和規則,這是為了尋找簡單名詞片語。 • 最短的名詞詞組從評分最高的叢集作關鍵字。 • 該演算法測試英文與日文的語料庫,結果顯示該演算法優於基準演算法。也表明該演算法提取有效的關鍵字在獨特的描述文件。

More Related