SEWM 2007 中文 Web 检索测评报告

SEWM 2007中文Web检索测评报告 木棉检索队陈晓锋罗嘉明李雯任利辉何章鸿http://search.scut.edu.cn

目录 • 系统设计 • 运行结果 • 总结与展望

系统设计 • 基于Nutch实现； • 对URL、Title、Anchor text、Content进行索引； • 应用PageRank算法； • 加入中文分词模块；

网页系统框架——索引锚点文本网页url 网页标题网页主题内容转换成nutch的格式中文分词文档库索引库链接分析链接库简单pagerank （SPR）算法

中文分词：使用两组词库 • 采用正向最大匹配算法 • 分别使用两组词库，测试词库对检索结果的影响 • 小词库：包含6万个常用词 • 大词库：采用搜狐研发中心免费提供的搜狗互联网词库 • 互联网词库来自于对搜狗搜索引擎所索引到的中文互联网语料的统计分析，统计所进行的时间是2006年10月，涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词，除标出这部分词条的词频信息之外，还标出了常用的词性信息。

系统框架——检索 索引库 TD: 查询扩展用户输入查询词检索策略结果 NP/HP: 对title域进行不同的加权

检索策略：TD扩展查询 自动抽取baidu的相关搜索，对查询词进行扩展，比如： <top> <num>Number:TD216 <title>计算机等级考试</title> <desc>Description: 查找与计算机等级考试有关的比较全面的信息，等级考试的介绍，考题答疑，考试大纲，考试试题等 </top>

百度相关搜索 扩展后为：计算机等级考试时间、国家计算机等级考试、计算机等级考试网、计算机等级考试查询、计算机等级考试试题、电脑等级考试、江苏计算机等级考试、2007计算机等级考试用扩展后的查询词搜索，每个查询词均返回300条结果； • 合并扩展查询结果。

检索策略：NPHP对Title域进行不同加权 • 我们发现，对于NPHP任务，Title域显得比其他url域和contont域更加重要。 • 于是，我们对Title域设定不同的权值，取值范围在1～15，并使用去年导航搜索在200g上的答案进行测试。测试结果表明，权值为10的时候效果最佳，权值为3次之。 • title : anchor text : content = 10 : 2 : 1 • title : anchor text : content = 3 : 2: 1

二次排序 • TD：主要进行url简单聚类，将同一网站的得分最高的url放到最前 • 对于查询扩展 • 对每个扩展词的300条结果进行站内聚合，并将每个网站内的ROOT、SUBROOT、url深度小于3的PATH的url提前 • 对所有被提前的网页按照得分排序，并尽量保证前十条出现不同网站的url，将这些网页放在结果集的前面； • 对其他网页按照得分进行排序，按顺序排列在前面得到的结果的后面。

NPHP二次排序 • 对搜索结果进行二次排序。算法主要是基于sewm2006的论文《基于URL类型优先级入口页面查询算法》。

CWT200g—TD结果

CWT200g—NPHP结果

总结 • 主要测试了中文分词模块中，互联网词库对检索结果的影响 • 考察了Title设置不同的权重对NPHP结果的影响 • 利用百度相关搜索进行扩展查询

展望 • 使用百度相关搜索进行扩展查询也存在问题，很多相关查询没有结果，例如，“2007计算机等级考试”。最好的方式是根据描述来自动产生扩展查询词。 • 尝试将分类、聚类应用到检索任务中，提高检索精度

谢谢大家！欢迎交流！

SEWM 2007 中文 Web 检索测评报告