170 likes | 345 Views
木棉检索队 : 欧健文 ( 队长 ), 陈晓志 , 张元丰 , 胡俊刚 , 陈晓峰 jwou@scut.edu.cn. 全国搜索引擎与网上信息学术研讨会 SEWM 2005--- 中文 Web 检索. 华南木棉信息检索. 目录. 目标分析 设计实现 实验分析和总结 未来工作. 目标. 主题提取( TD ) 查找主题相关的关键资源的入口 导航搜索 HP 查找指定名字的网站的首页 NP 查找指定名字的页面. 主题提取( TD ). 主题提取( TD )的评分标准 1) 是否大部分切合主题; 2) 提供主题的可靠的信息;
E N D
木棉检索队:欧健文(队长),陈晓志,张元丰, 胡俊刚,陈晓峰 jwou@scut.edu.cn 全国搜索引擎与网上信息学术研讨会 SEWM 2005---中文Web检索 华南木棉信息检索
目录 • 目标分析 • 设计实现 • 实验分析和总结 • 未来工作
目标 • 主题提取(TD) • 查找主题相关的关键资源的入口 • 导航搜索 • HP 查找指定名字的网站的首页 • NP 查找指定名字的页面
主题提取(TD) 主题提取(TD)的评分标准 1)是否大部分切合主题; 2)提供主题的可靠的信息; 3)不是一个更大的切合主题站点的一部分。 要求:十个结果中寻找尽可能多的不同站点(用它们的网站首页面表示) • 匹配度 • 查询词与文档的匹配程度 关键资源的入口 一组同主题的网页集合
导航搜索 • HP • 查找指定名字的网站的首页,什么因素说明一个 页面是home page? • NP • 查找指定名字的页面。用户所要查找的可能是某一则新闻,某种型号的产品介绍,甚者是某个公司的地址电话等
设计思路 衡量一个网页的得分通常分为两大部分 • 匹配度 1、向量空间模型+TF*IDF 2、对网页文档进行分块 标题 主题内容 主题相关内容 网页噪音 网页的链出锚本 网页的链入锚本 • 重要性 1、Pagerank 2、网站首页 3、资源入口页面
系统框架---索引 网页 链入锚点文本 网页url 网页标题 网页主题内容 链出锚点文本 综合采用多种去噪算法,噪音的去除,可以减少索引量,可以避免噪音对检索结果的影响 噪音库 最长匹配法分词 最短匹配法分词 网 页 预 处 理 中 文 分 词 文档库 索引库 链 接 分 析 连接库 区别对待站内链接和站外链接 提取网页的链接,一方面通过分析网页链接关系计算网页的pr,另一方面,可以网页得链入锚本。 Google pagerank (GPR)算法 简单pagerank (SPR)算法
系统框架---检索 TD:找出关键资源(HAC) 1、url特征 2、网页结构,目录型网页 3、网页的链出锚本 4、网页的链出网页 索引库 用户输入查询词 二次检索 结果 HP:找出首页 NP:??
系统框架---二次检索 • 站内聚合。 • 判断每个网页类型---目录型还是主题型。 • 对网页的链出文本进行分析,计算其与查询词的匹配程度。匹配程度越高,说明该网页越可能是关键资源。 • 计算该网页的链出网页与查询词的匹配程度。越多链出网页与查询词匹配,说明该网页属于关键资源的可能性就越大。
评测结果 • 这次SEWM2005评测,共提交了5组主题 检索和5组导航查询。 • 采用了链接分析技术,锚点文本,对网页进行分块处理 • 主题采用automatic,直接使用<TITLE>字段作为查询表达式 • 导航部分,分为首页和指定页面 对于所给的查询集,我们可以很容易根据查询就分辨出该查询的意图:HP or NP 所以对查询词进行标记,用H表示该查询为查找HP,而N表示要查询指定页面。
实验环境 • 实验机器为Itanium2双CPU的机器,CPU为1.5Ghz,内存为2G,机器运行操作系统为Redhat AS3.0。
总结 • 锚点文本可以很好地表示文档内容,应加大其比重。 • pagerank能够确定首页等重要页面,且精确的pagerank和近似的pagerank效果相差不大。 • 中文分词的粒度对检索精度有比较大的影响。加入中文分词可以大大减少返回不相关的文档,提高检索速度。
未来的工作 • 计算网页的重要性采用PR(site)+PR(page) • 进一步挖掘锚点文本 • 进一步优化HAC算法