闫宏飞 , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日

httP://net.pku.edu.cn/~webg/cwt 闫宏飞 , yhf@net.pku.edu.cn 北京大学计算机系网络与分布式系统实验室 2004年11月13日

主要内容 • 介绍 • 构建CWT100g • 提议

TREC追求的四个目标 • 以大规模测试集为基础，推动信息检索的研究； • 经由开放式的论坛，使与会者能交流研究的成果与心得，以增进学术界、产业界与政府的交流互通； • 经由对真实检索环境的模拟与重要改进，加速将实验室研究技术转化为商业产品； • 发展适当且具应用性的评估技术，供各界遵循采用，包括开发更适用于现有系统的新的评估技术。

背景介绍

大纲 • 介绍 • 构建CWT100g • 提议

Web测试集的设计原则 • 测试集（test collection）就包括文档集（documents）、查询集（queries）和相关结果集（relevance judgments）三个部分。 • Web测试集设计中最基本的问题是：文档集能否真正代表所要研究的对象（此处即Web）？ • 文档集应当是静态样本还是动态样本? • 在多大程度上可以成为研究对象的代表? • 为了使文档集能满足通用的或特定的研究目标，总体规模应当有多大?

测试集使用框架

CWT100g构建时间表 √ √ √ √ 我是一小步，人类的一大步!

构建文档集 • 文档集，根据天网搜索引擎截止2004年2月1日发现的中国范围内提供Web服务的1,000,614个主机，从中采样17,683个站点，在2004年6月搜集获得5,712,710个网页，包括网页内容和Web服务器返回的信息，容量为90GB。其中每个网页对应的服务器返回信息中的MIME类型都是"text/html"或者"text/plain"。 • [Yan, et al.,11,2004] H. F. Yan, B. Peng, C. C., and X. M. Li, "On the Construction of a Large Scale Chinese Web Test Collection," submitted to Journal of Computer Science and Technology, 11,2004.

Tianwang Storage format [Yan, et al.,2004] H. F. Yan, L. N. Huang, C. Chen, and Z. M. Xie, "A New Data Storage and Service Model of China Web InfoMall," presented at the 4th International Web Archiving Workshop (IWAW04) of 8th European Conference on Research and Advanced Technologies for Digital Libraries (ECDL08), Bath, UK, 2004. version: 1.0 // version number url: http://www.pku.edu.cn/ // URL origin: http://www.somewhere.cn/ // original URL date: Tue, 15 Apr 2003 08:13:06 GMT // time of harvest ip: 162.105.129.12 // IP address unzip-length: 30233 // If included, the data must be compressed length: 18133 // data length // a blank line XXXXXXXX // the followings are data part XXXXXXXX …. XXXXXXXX // data end // insert a new line

发布CWT100g

北大燕穹数据共享情况 2.0/6.4 = 31.3%

构建查询集 • 查询集，首先从2002年4月到2004年6月天网日志中采样获得待选集合，然后人工挑选编辑完成。 • 包括: 主题提取和导航搜索(包括主页和指定页面查询). • [郭化楠, et al.,11,2004] 郭化楠, 李静静, 吴霞, "如何制作CWT100g 的topics," 11,2004. ( http://net.pku.edu.cn/~webg/cwt/ConstructCWT100gTopics.pdf ).

主题提取（Topic Distillation） 目的是对于一个特定主题发现一组关键资源。在今年的任务中我们将只注重以站点作为资源的查询。要求是在前十个结果中寻找尽可能多的不同站点（用它们的网站的入口页面表示）。例如对于主题'linux'，CWT100G中的下面站点可能被认为是关键资源： http://www.oldlinux.org/ linux org http://www.mhdn.net/os/29/ 明辉开发者网络 linux区 http://www.redflag-linux.com/ 红旗Linux 被判断为是一个关键资源，返回页面应该是一个站点的好的首页面。判断是否一个好的首页面,应该考查结果是否符合下面三个条件: 1)是否大部分切合主题； 2)提供主题的可靠的信息； 3)不是一个更大的切合主题站点的一部分。对于'linux'这一主题，页面'www.mhdn.net' 不符合第一个条件，而页面'http://www.redflag-linux.com/chanpin/Desktop/index.html'不符合第三个条件。

Topic示例: 主题提取（TD） <top> <num> Number: TD3 <title>户外运动</title> <desc>Description: 介绍户外运动的网站，比如装备、注意事项、团体。 </top>

Topic示例: 导航搜索（HP/NP） <top> <num>Number: NP152 <desc>Description: 中国人口网 </top> <top> <num>Number: NP97 <desc>Description: 美国航天委员会研究报告内容简介 </top>

构建相关结果集 • 结合北大天网在WWW搜索方面的优势，和TREC的Pooling法辅助相关结果判断。 • 传统的Pooling作法为：针对每个查询主题，从参与评比的各系统所送回的测试结果中抽取出前n篇文档，合并形成一个Pool，视之为该查询主题可能的相关文档候选集合，将集合中重复的文档去除后，再送给该查询集的构建者进行相关判断。这种做法的一个局限是，当参加队较少的时候，可汇集的结果权威性较差。 • 北大天网设计了能够弥补这一局限性的方法，Pooling Plus, 即：将搜索引擎转换为虚拟参赛队，参与结果集合成。这样，即使参赛队数量不多，也能合成质量较高的结果集，达到检验参赛系统检索质量的目的。

中文Web检索评测 • 申请获得CWT100g数据，参加单位用自己的信息检索技术在CWT100g上建立一个查询系统，由评测组提供一个查询测试集，收集各个参加系统的查询结果。 • 报名截止日期2004年10月20日。10月21日发查询测试集，10月31日各参加队提交查询结果。 • 12个参加队，7个参加队提交结果。

已提交结果的参加队 注：pooling还包括google,yisou,baidu,sogou,zhongsou五个SE的检索结果。

相关性判别工具

工具说明

评测结果 主题提取导航搜索其中TIANWANG_RUN仅供参考

大纲 • 介绍 • 构建CWT100g • 提议

规模是关键 • 发动IR相关的研究人员，一起协作来扩大数据集规模。把judgment工作分散开，由大家一起分担。 • 采取ftp上常见的按上载贡献分配下载权利的方式，使用数据资源的必须先提交一定量的judgment工作结果 • 我们来提供基础文档集合（动态集合好像比较难），和一个开放式的平台(web site)，大家可以通过这个平台来参与构建工作 • SEWM-2004中文Web检索评测，是我们在这个方向上的一个初步尝试。目标始终应该是构建出大规模可用的数据集，更好的帮助大家中文信息检索研究工作。

谢谢！

闫宏飞 , yhf@net.pku 北京大学计算机系网络与分布式系统实验室 2004 年 11 月 13 日