240 likes | 366 Views
SEWM2010 信息检索评测 —— 文献检索. 闫宏飞 2010/5/16. 内容提纲. 介绍时间安排和评测任务 测试集构造 参评队伍和人员 评测结果. 评测安排. 评测通知: 2009.11~2010.5 http://www.cwirf.org/call2010.html 说明评测任务,说明并准备文档集 评测指南: 2010.4 http://www.cwirf.org/Evaluation/CWT.html 给出问题集,说明提交运行结果的格式 2010.5 提交结果、开会讨论. 我们构建的测试集. CWT100g
E N D
SEWM2010信息检索评测—— 文献检索 闫宏飞 2010/5/16
内容提纲 • 介绍时间安排和评测任务 • 测试集构造 • 参评队伍和人员 • 评测结果
评测安排 • 评测通知:2009.11~2010.5 • http://www.cwirf.org/call2010.html • 说明评测任务,说明并准备文档集 • 评测指南:2010.4 • http://www.cwirf.org/Evaluation/CWT.html • 给出问题集,说明提交运行结果的格式 • 2010.5提交结果、开会讨论
我们构建的测试集 • CWT100g • Chinese Web Test collection with 100 GB web pages • CWT200g • Chinese Web Test collection with 200 GB web pages • CWT70th • Chinese Web Test Collection with 70 thousand web pages • ComPaper10th • Computer Paper test collection with about 10 thousand full-text papers
Motivation (1/2) • Social media • Web 1.0 => Web 2.0 • e.g., twitter, blog. • Multiple source data mining • Multiple sources provides complementary information • E.g., paper and conference, co-authorship, individual home page, metadata (download counts, citation numbers, …), slides, video. • Favored users • Researchers and students • We ourselves are users and expert assessors
Motivation (2/2) • http://www.cwirf.org/Evaluation/CWT.html • Web信息检索包容的文本信息越来越多,文献在其中占很大比重,且对科研工作和教学有很大的帮助。本任务希望在两个发展方 向有所贡献 • 相关论文查询任务 (task1) • 提高检索的质量,与Web Search追求精度不同,此处更注重于召回率. • 领域重要文献和专家查询任务 • 找到相关领域的最主要论文(task2) • 以及一些较权威的作者,帮助读者了解相关知识. (task3)
Related works • scholar.google.com • Also include patents and books • academic.research.microsoft.com • Over 5 million papers • CiteSeer • About 1.5 million papers • ArtnetMiner • Has a user management module • DBLP • metadata
测试集ComPaper10th • http://www.cwirf.org/2010WebTrack/lt/ • 文档集 • 超过1万篇的论文原文PDF,存储在天网格式文件中 • 提供DBLP和Citeseer的论文元数据 • 查询集 • 相关论文查询104个问题 • 领域主要文献和专家查询8个问题 • 答案集 • Will appear after the meeting
ComPaper10th文档集 • total papers: 10840// updated on Apr. 17, 2010 • WWW 2009~2001: 1613 papers • SIGIR 2009~1978: 2186 papers • CIKM 2009~2000: 1468 papers • KDD 2009~2000: 1086 papers • VLDB 2006~2005: 274 papers • TOIS Nov. 2009~Jan. 2000: 179 papers • IPDPS 2004: 141 papers • ACL 2009~1979: 2352 papers • WSDM 2010~2008: 101 papers • EACL 2009~1983: 623 papers • NAACL 2009~2000: 817 papers
查询集构建指南(1/2):2010年4月11日出,要求4天内完成查询集构建指南(1/2):2010年4月11日出,要求4天内完成 • 构建的查询集要求全是英文. 要求: • 每人构建10个query及其答案 • 尽量按照自己目前研究重点来构建,这样可以最大程度的避免重复。 • 查询词要模拟信息检索领域的学术用户给出 • 站在用户研究该领域的角度,给出贴近于他们所关心问题的查询词,而不是泛泛的词汇。 • 查询词要对应一定规模的相关结果。 • 就是要有一定数目的论文包含这个查询词、并的确是围绕该词表达的问题开展的学术研究。 • 针对任务2和3, 由这两个学期做文献阅读中做主题报告的同学 给出,每人构建1个 • 这次构建查询集,对大家的背景知识有一定要求, • 否则一时之间去浏览1万篇文章的摘要也是困难的。在构建的过程中,大家也可以访问各会议的网址,因为会议都是分session的,可以缩小查找目标。 • 目前还没有提供这些文章的全文检索。
查询集构建指南(2/2) • 贡献的查询+结果的数据格式, 每个query • 第 一行是title(也即query) • 第二行是desc • 第三行起是答案集, • 也就是文献原文的url,或文章的doi. • 每个文献一行, query之间用1个空行分割 • 提供查看文章原文和元数据的工具
存在问题 • 现在进行结果集构建可能还有些困难 • 不同的写作者可能对一个topic的说法不一样(尽管表达同样的意思), • 因此答案集构建很有可能会不全。 • 当参加评测的队伍提交结果的时候,就可能会由于它们提交的正确答案不在我们提供的答案集里面而被误判。 • 觉得可能还是用传统的pooling-judge的方法得到的某些指标结果会更加准确一些。 • 不全没关系,作为参考,也是pooling的一个输入。 • 现在PARADISE只支持网页类型和文本类型的天网格式的文件,所以处理PDF内容的天网格式文件还需要增加相应的代码 • 大概明天可以写完相应的代码,全文检索的系统后天可以使用。 • 文章全文检索晚点也成,查询集构建是主要的 • 此时就得依靠大家以往知识,和快速浏览1万篇文章摘要等信息。
Expert assessors • PhD student • 邸楠,何靖,毛先领,单栋栋,严睿,赵鑫 • Master • 陈日闪,刘晓兵,树柏涵,寿司聪,赵东升 • Bachelor • 李铄,梁一中,袁文清,张旭东,杨文涛 其中杨文涛来自北京师范大学,其他是北京大学天网组学生。
查询构建策略 • 绝大部分的query是从IIR这本书中的最后的Index部分提取的 • query的颜色用来表示对于答案的确定程度 • 评测文献的检索已经可以用了,只包含元数据(标题,摘要,关键词),共6302个文档 • 看的paper不多,从下午到现在也就想出来了4个query • 随机选取一篇信息检索相关论文,阅读摘要和关键词,将论文讨论的话题视为几个领域的交集,将这几个领域作为主题的备选,带入数据库查询。 • 如果结果数量合适,就可以初步确定为主题,进行描述后就可以完成主题的构建。 • 如果结果过少,则舍弃这个主题。如果结果过多,可以将两个领域的交集作为主题。
颜色表示对于答案的确定程度 • 红色的表示非常确定的query;黄色的表示应该基本正确的;粉色的表示不能确定的。
查询集合 • 相关论文查询集 (task1) • 2010.ComPaper_query.1-104 • 领域重要文献和专家查询集 (task2) • 2010.ComPaper_topic.1-9 • 专家查询集 (task3) • 2010.ComPaper_topic.1-9
2010.ComPaper_query.1-104 <top> <num> Number: CQ2 <title>evaluation of snippet <desc> Description: The snippet is a brief summary describing the contents of the search result. We want to investigate the methods of evaluating the quality of snippet. If a paper shows a approach of snippet generation, and then evaluate the snippets produced by it's approach, it should be retrieved </top>
2010.ComPaper_topic.1-9 <top> <num> Number: CT1 <title>Pooling Method <desc> Description: In the formation of a IR test collection, pooling method is widely used. Papers discuss about the pooling method and its alternatives is wanted. </top>
答案集合构建 • Pooling and reassess
提交结果的参赛队 江西师范大学网络应用研究所:何世柱,柯丽,黎佳,周军军,石松,陈秀平,蔡桂秀,潘敏,文辉,黄奕平,余伟 西南财经大学信息学院:邱江涛,张盼 北京大学数据库组:唐建, 章彦星,刘国俊 ,封盛,燕飞 北京大学天网组:单栋栋等
评估准则 • P@k: 基于前k个检索结果进行计算 • Rprec: • MAP:平均正确率均值(mean average precision) • nDCG: • 累积增益(cumulative gain),一个具体的指标为归一化折损累积增益(normalized discounted cumulative gain) 这是描述在一个查询集合Q上面的 NDCG分值的平均的结果。j是查询的下标,k截断位置,m是结果文档位置下标。
相关论文查询任务 (task1)结果 MAP RPrec P5 P10 P20 P50 nDCG jxnu11.run 0.0040 0.0799 0.1077 0.0971 0.0904 0.0758 0.1170 jxnu12.run 0.0039 0.0805 0.1058 0.0942 0.0851 0.0717 0.1147 jxnu13.run 0.0040 0.0831 0.1019 0.1010 0.0966 0.0733 0.1185 pkutw11.run 0.04160.49080.64420.53080.42160.29790.6951 pkutw12.run 0.0401 0.4427 0.5827 0.5067 0.3966 0.2656 0.6321 pkutw13.run 0.0348 0.3861 0.4885 0.4173 0.3495 0.2483 0.5723
相关领域的最主要论文(task2)结果 MAP RPrec P5 P10 P20 P50 nDCG jxnu21.run 0.0129 0.4221 0.7111 0.6222 0.5222 0.3311 0.5489 jxnu22.run 0.0008 0.0109 0.0000 0.0111 0.0111 0.0156 0.0154 jxnu23.run 0.0122 0.4344 0.6889 0.6000 0.5278 0.3556 0.5624 pkudb21.run 0.0053 0.1199 0.2000 0.1778 0.1444 0.1044 0.1520 pkudb22.run 0.0053 0.1128 0.1778 0.1333 0.1222 0.0956 0.1455 pkutw21.run 0.0157 0.4533 0.80000.6556 0.5056 0.39560.6655 pkutw22.run 0.0148 0.4985 0.5778 0.5667 0.5667 0.3689 0.6054 pkutw23.run 0.0125 0.3987 0.6000 0.4778 0.4778 0.3467 0.5505 swufe21.run 0.0178 0.2538 0.4000 0.3889 0.3167 0.1978 0.3278 swufe22.run 0.0174 0.2719 0.4000 0.3667 0.3389 0.2022 0.3315
领域专家(task3)结果 • MAP RPrec P5 P10 P20 P50 nDCG • jxnu31.run 0.0177 0.3917 0.6000 0.44440.3944 0.3400 0.6766 • jxnu32.run 0.0031 0.0377 0.0667 0.0444 0.0556 0.0622 0.0706 • jxnu33.run 0.01840.42510.6222 0.4333 0.3889 0.3422 0.6716 • pkudb31.run 0.0065 0.1361 0.2000 0.1889 0.1667 0.1111 0.2055 • pkudb32.run 0.0077 0.1378 0.2222 0.1889 0.1500 0.1200 0.2113 • swufe31.run 0.0171 0.2303 0.3333 0.2667 0.2222 0.1289 0.3248 • swufe32.run 0.0178 0.2463 0.3778 0.2667 0.2500 0.1600 0.3704 • swufe33.run 0.0171 0.2916 0.4667 0.2889 0.2778 0.1756 0.4204