資訊檢索系統測試集之比較

資訊檢索系統測試集之比較 圖書與資訊學刊第29期(1999年5月) by 江玉婷，陳光華台大圖資所碩士論文

測試集 (Test Collections) • 組成要素 • 文件集 (Document Set; Document Collection) • 查詢問題 (Query; Topic) • 相關判斷 (Relevant Judgement) • 用途 • 設計與發展: 系統測試 • 評估: 系統效能(Effectiveness)之測量 • 比較: 不同系統與不同技術間之比較 • 評比 • 根據不同的目的而有不同的評比項目 • 量化的測量準則，如Precision與Recall IR System Evaluation - 2

測試集(Test Collections) (續) • 小型測試集 • 早期: Cranfield • 英文: SMART, OHSUMED, Cystic Fibrosis, LISA…. • 日文: BMIR-J2 • 大型評比環境: 提供測試集及研討的論壇 • 美國: TREC • 日本: NTCIR, IREX, • 歐洲: AMARYLLIS IR System Evaluation - 3

Cranfield II • 比較33種不同索引方式之檢索效益 • 蒐集1400篇有關太空動力學的文件(摘要形式) • 請每位作者根據這些文件與其當時研究的主題提出問題，經篩選後產生200餘個查詢問題 IR System Evaluation - 5

Cranfield II (Continued) • Cranfield II測試集中相關判斷建立四個步驟 • 首先請提出查詢問題的建構者對文件後所附之引用及參考文獻進行相關判斷 • 接著請五位該領域的研究生將查詢問題與每篇文件逐一檢視，共花了1500小時進行了50萬次以上的相關判斷，希望能找出所有的相關文件。 • 為了避免前述過程仍有遺漏，又利用文獻耦合的概念計算文件間之相關性，發掘更多的可能相關文件。若有兩篇以上的文獻共同引用了一篇或多篇論文，則稱這些文獻間具有耦合關係。 • 最後，將以上找出的所有文件，再一併送回給原作者進行判斷。 IR System Evaluation - 6

TREC～簡介 • TREC: Text REtrieval Conference • 主辦: NIST及DARPA，為TIPSTER文件計劃之子計劃之一 • 文件集 • 5GB以上 • 數百萬篇文件 IR System Evaluation - 7

TREC 文件集 IR System Evaluation - 8

TREC之文件標示 IR System Evaluation - 9

TREC-1 and TREC-2查詢主題 IR System Evaluation - 10

TREC-3查詢主題 IR System Evaluation - 11

TREC-4查詢主題 IR System Evaluation - 12

TREC～查詢主題 • 主題結構與長度 • 主題建構 • 主題篩選 • pre-search • 判斷相關文件的數量 IR System Evaluation - 13

TREC-6之主題篩選程序 IR System Evaluation - 14

TREC～相關判斷 • 判斷方法 • Pooling Method • 人工判斷 • 判斷基準: 二元式, 相關與不相關 • 相關判斷品質 • 完整性 • 一致性 IR System Evaluation - 15

Pooling法 • 針對每個查詢主題，從參與評比的各系統所送回之測試結果中抽取出前n篇文件，合併形成一個Pool • 視為該查詢主題可能的相關文件候選集合，將集合中重覆的文件去除後，再送回給該查詢主題的原始建構者進行相關判斷。 • 利用此法的精神是希望能透過多個不同的系統與不同的檢索技術，盡量網羅可能的相關文件，藉此減少人工判斷的負荷。 IR System Evaluation - 16

TREC 候選集合與實際相關文件之對照表 IR System Evaluation - 17

TREC～評比 IR System Evaluation - 18

TREC～質疑與負面評價 • 測試集方面 • 查詢主題 • 並非真實的使用者需求, 過於人工化 • 缺乏需求情境的描述 • 相關判斷 • 二元式的相關判斷不實際 • pooling method會遺失相關文件, 導致回收率不準確 • 品質與一致性 • 效益測量方面 • 只關注量化測量 • 回收率的問題 • 適合作系統間的比較, 但不適合作評估 IR System Evaluation - 19

TREC～質疑與負面評價 (續) • 評比程序方面 • 互動式檢索 • 缺乏使用者介入 • 靜態的資訊需求不切實際 IR System Evaluation - 20

BMIR-J2 ～簡介 • 第一個日文資訊檢索系統測試集 • BMIR-J1: 1996 • BMIR-J2: 1998.3 • 發展單位: IPSG-SIGDS • 文件集: 主要為新聞文件 • 每日新聞: 5080篇 • 經濟與工程 • 查詢主題: 60個 IR System Evaluation - 21

BMIR-J2 ～相關判斷 • 以布林邏輯結合關鍵詞檢索1-2個IR系統 • 由資料庫檢索者做進一步的相關判斷 • 由建構測試集的人員再次檢查 IR System Evaluation - 22

Q: F=oxoxo: “Utilizing solar energy” Q: N-1: Retrieve texts mentioning user of solar energy Q: N-2: Include texts concerning generating electricity and drying things with solar heat. 查詢主題的分類目的: 標明該測試主題的特性,以利系統選擇標記: o(necessary), x(unnecessary) 類別 The basic function The numeric range function The syntactic function The semantic function The world knowledge function: BMIR-J2 ～查詢主題 IR System Evaluation - 23

NTCIR ～簡介 • NTCIR: NACSIS Test Collections for IR • 主辦: NACSIS(日本國家科學資訊系統中心) • 發展背景 • 大型日文標竿測試集的需求 • 跨語言檢索的研究發展需要 • 文件集 • 來源為NACSIS Academic Conference Papers Database • 主要為會議論文的摘要 • 超過330,000篇文件, 其中超過1/2為英日文對照之文件 • 有部分包含part-of-speech tags IR System Evaluation - 24

NTCIR～查詢主題 • 來源: 搜集真實的使用者需求, 再據其修正改寫 • 每個學科主題領域各有100個測試主題 • 組成結構 <TOPIC q=nnnn>編號 <title>標題 </title> <description>資訊需求之簡短描述 </description> <narrative>資訊需求之細部描述, 包括更進一步的解釋, 名詞的定義, 背景知識, 檢索的目的, 預期的相關文件數量, 希望的文件類型, 相關判斷的標準等 </narrative> <concepts>相關概念的關鍵詞 </concepts> IR System Evaluation - 25

NTCIR ～相關判斷 • 判斷方法 • 利用pooling method先進行篩選 • 由各主題專家, 及查詢主題的建構者進行判斷 • 判斷基準 • A: 相關 • B: 部分相關 • C: 不相關 • 精確率計算: 依測試項目的不同而有不同 • Relevant: B與C均視為不相關 • Partial Relevant : A與B均視為相關 IR System Evaluation - 26

NTCIR～評比 • Ad-hoc Information Retrieval Task • Cross-lingual Information Retrieval Task • 利用日文查詢主題檢索英文文件 • 共有21個查詢主題, 其相關判斷包括英文文件與日文文件 • 系統可選擇自動或人工建立查詢問題 • 系統需送回前1000篇檢索結果 • Automatic Term Extraction and Role Analysis Task • Automatic Term Extraction: 從題名與摘要中抽取出technical terms • Role Analysis Task: 抽取出主旨, 研究方法, 研究程序 IR System Evaluation - 27

IREX ～簡介 • IREX: Information Retrieval and Extraction Exercise • 主辦: IREX Committee • 參加者: 約20隊 (或以上) • 預備測試：利用BMIR-J2測試集中之查詢主題 • 文件集 • 每日新聞, 1994-1995 • 參加者必須購買新聞語料 IR System Evaluation - 28

IREX ～查詢主題 • 組成結構 <topic_id>編號 </topic_id> <description> 簡短的資訊需求, 主要為名詞與其修飾語構成的名詞詞組 </description> <narrative> 詳細的資訊需求, 以自然語言敘述, 通常為2 至3個句子組成, 亦包含名詞解釋, 同義詞或實例. </narrative> • description欄位中的詞彙必須包含在narrative欄位中 IR System Evaluation - 29

IREX ～相關判斷 • 判斷依據: 測試主題的所有欄位 • 判斷方法: 由學生二名進行判斷 • 若二人之判斷結果一致, 則完成相關判斷 • 若二人之判斷結果不一致或不確定, 則由三人來作最後的判定 • 判斷基準 • 學生: 6個判斷層次 • A: 相關 A?: 不確定是否為相關 • B: 部分相關 B?:不確定是否為部分相關 • C: 不相關 C?: 不確定是否為不相關 IR System Evaluation - 30

IREX ～相關判斷 (續) • 最終判斷者: 3個判斷層次 • A: 相關 • B: 部分相關 • C: 不相關 • 相關判斷的修正 IR System Evaluation - 31

IREX ～評比 • 評比項目 • Name Entity Task (NE) • 與MUC相似, 測試系統自動抽取專有名詞的能力, 如組織名, 人名, 地名等. • 一般領域文件抽取 v.s. 特殊領域文件抽取 • Information Retrieval (IR) • 與TREC相似 • 評比規則 • 送回文件：前300篇 • Query的建構：一律由系統自動建構 IR System Evaluation - 32

BMIR-J2 ～簡介 • 第一個日文資訊檢索系統測試集 • BMIR-J1: 1996 • BMIR-J2: 1998.3 • 發展單位: IPSG-SIGDS • 文件集: 主要為新聞文件 • 每日新聞: 5080篇 • 經濟與工程 • 查詢主題: 60個 IR System Evaluation - 33

BMIR-J2 ～相關判斷 • 以布林邏輯結合關鍵詞檢索1-2個IR系統 • 由資料庫檢索者做進一步的相關判斷 • 由建構測試集的人員再次檢查 IR System Evaluation - 34

Q: F=oxoxo: “Utilizing solar energy” Q: N-1: Retrieve texts mentioning user of solar energy Q: N-2: Include texts concerning generating electricity and drying things with solar heat. 查詢主題的分類目的: 標明該測試主題的特性,以利系統選擇標記: o(necessary), x(unnecessary) 類別 The basic function The numeric range function The syntactic function The semantic function The world knowledge function: BMIR-J2 ～查詢主題 IR System Evaluation - 35

AMARYLLIS～簡介 • 主辦：INIST (INstitute of Information Scientific and Technique) • 參加者:約近10隊 • 文件集 • 新聞文件:the World, 共2萬餘篇 • Pascal(1984-1995)及Francis(1992-1995)資料中抽取出來的文件題名與摘要部分, 共30餘萬篇 IR System Evaluation - 36

AMARYLLIS～查詢主題 • 組成結構 <num>編號 </num> <dom>所屬之學科領域 </dom> <suj>標題 </suj> <que>資訊需求之簡單描述 </que> <cinf>資訊需求之詳細描述 </cinf> <ccept><c>概念, 敘述語</ccept></c> IR System Evaluation - 37

AMARYLLIS～相關判斷 • 原始的相關判斷 • 由文件集之擁有者負責建構 • 標準答案的修正 • 加入 • 不在最初的標準答案中，但被一半以上的參加者檢索出來的文件 • 參加者所送回的檢索結果中的前10篇的文件 • 減去 • 在原始的標準答案中出現，但在參加者送回的檢索結果中未出現的文件 IR System Evaluation - 38

AMARYLLIS～評比 • 系統需送回檢索結果的前250篇 • 系統可選擇採取自動或人工的方式建立query • 評比項目 • Routing Task • Adhoc Task IR System Evaluation - 39

資訊檢索系統測試集之比較

資訊檢索系統測試集之比較

Presentation Transcript