670 likes | 819 Views
分布式 WEB 信息检索技术研究 Research on Distributed WEB Information Retrieval. 博士生:张刚 导师:李国杰院士. 2005 年 12 月. Outline. 研究背景 学位论文研究情况和已完成的研究内容 已取得的阶段性成果 下一步的工作计划 科研项目的完成情况 学术论文发表情况 课程完成情况. 研究背景. 海量信息检索的挑战 WEB 信息的增长: 6 个月翻一番 表层页面( surface WEB ) 80 亿 -100 亿
E N D
分布式WEB信息检索技术研究Research on Distributed WEB Information Retrieval 博士生:张刚 导师:李国杰院士 2005年12月
Outline • 研究背景 • 学位论文研究情况和已完成的研究内容 • 已取得的阶段性成果 • 下一步的工作计划 • 科研项目的完成情况 • 学术论文发表情况 • 课程完成情况
研究背景 • 海量信息检索的挑战 • WEB信息的增长:6个月翻一番 • 表层页面(surface WEB)80亿-100亿 • Hobbes‘ Internet Timeline统计,截止到2005年8月,互联网上WEB服务主机数已达到70,392,567台 • 矛盾与问题 • 80亿VS. Top10问题! • 是否80亿个页面都需要查询? • 如何减少查询量?
研究背景 • 分布式信息检索是海量信息检索的有效方案 • 团队作战 • 分而治之 • 分布式信息检索的主要过程 • 文档集合划分 • 集合选择 • 单文档集合检索 • 结果合并
分布式信息检索的过程 集合选择 查询
学位论文研究情况和已完成的研究内容 • 分布式WEB信息检索的集合划分问题 • 分布式信息检索检索的划分问题建模 • 基于内容的文档划分技术 • 基于链接的文档划分算法 • 分布式信息检索文档集合划分算法评价 • 分布式信息检索的集合选择问题研究 • tf.idf系列模型 • CORI集合选择算法 • 语言模型检索 • OKAP模型
分布式信息检索检索的划分问题建模 • 文档集合划分的问题描述 • 文档集合的划分模型 • 模型的解空间分析 • 文档划分问题最优解的快速解法 • 算法复杂度分析
文档集合划分的问题描述 • 文档集合划分问题 • 问题1:文档分布问题。即:每个子集合中应包含哪些文档 • 问题2:文档集划分个数问题。即:一个给定的文档集合应该被划分成几个子集合 • 直观的划分原则 • 同一个查询的相关文档,尽可能集中在少数的子集合 • 各个子集合的规模相差尽可能小 • 影响文档划分的三个主要因素 • 文档集D、查询集Q、查询的相关文档集R
Doc Doc Query Query 多对一 多对多 问题文档 文档集合划分的问题描述(Ⅱ) • 文档集合划分的核心难题 • 文档与查询的相关关系是一种多对多的关系 • 一个查有多个相关文档、一个文档是多个查询的相关文档
文档集合的划分模型 • 文档集划分问题1(文档分布问题)建模 • 描述:如果给定一个文档集合D,查询集合Q及其相关文档集R,要将文档集D划分成K个子集合,那么D中的文档如何在各个子集合中分布是最合理的方式 • 什么是最合理的方式? • 模型优化原则:求解一种文档集合的划分,使得处理Q中的查询,所需要检索的平均文档数最少 • 分布式检索的过程 • 第一步:找出含有相关文档的子集合 • 第二步:对于每个子集合,找出其中的相关文档
子集合 相关文档集 查询集合 文档集合的划分模型 • 文档集合划分模型1 • 模型物理意义 • 查询平均文档数 • 文档的划分结果就是当avgdoc1取最小值时对应的一组Si
举例 • 集合D={1,5,6,7,8,9,12}共7元素,另外知道四个查询的相关文档集合 • R1={1,5,9,12} • R2={1,5,7,8} • R3={5,6,7,9} • R4={7,8,9,12} • 7个数被划分成三个子集合 S1={1,5,6},S2={7,8},S3={9,12} • 模型代价为((|S1|+|S3|)+(|S1|+|S2|)+(|S1|+|S2|+|S3|)+(|S2|+|S3|))/4
文档集合的划分模型 • 文档划分问题2(文档集划分个数问题)建模 • 问题描述:如果给定一个文档集合D,查询集合Q及其相关文档集R,在不考虑机器等资源限制条件下,应该划分成多少个子集合是最合理的 • 重温分布式信息检索过程 • 第一步:找出含有相关文档的子集合 • 第二步:对于每个子集合,找出其中的相关文档
子集合个数 子集合 相关文档集 查询集 文档集合的划分模型 • 文档集合划分模型2 • 考虑文档集合划分个数情况下的,平均查询文档数 • 文档的划分结果就是当avgdoc2取最小值时,对应的 • 一组Si和K
文档集合的划分模型 • 模型2的两种极端情况 • 传统集中式检索,无文档划分 • 每个文档作为一个文档集合 • 两种情况按照模型是一致的,实际上也没有差别
可行解空间分析 • 模型1可行解空间分析 • 有m个小球放入n个盒子中(m>=n),小球有差别,盒子没有差别,不准有空盒,所有的可能性中寻求一个最佳的放法(组合个数为第二类Stirling数) • 模型2可行解空间分析 • 有m个小球放入n个盒子中(m>=n),小球有差别,盒子没有差别,允许有空盒,所有的可能性中寻求一个最佳的放法
文档划分问题最优解的快速解法 • 模型1与模型2的关系 • 关键问题:求解模型1的最优解 • 类哈夫曼编码的最优解求解算法
文档划分问题最优解的快速解法 • 模型1最优解求解过程 • 随子集合个数减少,模型1的最优解分为两个阶段解法 • 第一阶段:模型1的最优解是一个常数 • 第二阶段:模型1最优解的构造采用类哈夫曼编码算法
文档划分问题最优解的快速解法 • 第一阶段模型1的最优解为常数 • 首先考虑每个文档是一个子集合的情况,此时模型1的最优解为 • 如果将子集合个数减少,需要将部分子集合合并,合并原则是:合并后新的子集合中的文档都是同一个查询的相关文档,这种过程不断进行,直到无法进行为止 • 当合并无法进行时,是模型的一个分界点,在此之前模型1的最优解保持不变
文档划分问题最优解的快速解法 • 第二阶段模型1的最优解算法 • 当过了上述临界点,再进行合并时,就会出现一个子集合中包含多个查询的相关文档的情况 • 此时该子集合在计算模型1的最优值是就会被多次使用,使用的次数为不同查询的个数 • 因此决定哪两个子集合合并时,需要找出一种合并以后代价最小的方案 • 求解最小代价的方法,类似于哈夫曼编码的过程
文档划分问题最优解的快速解法 • 类哈夫曼编码算法 • 模型1与哈夫曼编码的类比 • 子集合Si为待编码的字符 • 子集合的模|Si|为该字符的编码长度 • 子集合在计算模型1被使用的次数,为字符的出现频率 • 由此模型1的求解过程就是完成对子集合Si的一个编码过程,也就是构建一个哈夫曼编码树
代价4 代价8 模型求解临界点 代价6 代价6 文档划分问题最优解的快速解法 • 演示
1 2 3 4 5 1 2 34 5 1 2 34 5 1 2 3 4 5 算法复杂度分析 • 第一次比较合并需要两两比较 • 代价计算次数为 • 此后采用动态规划算法,利用前次计算的结果
算法复杂度分析 • 模型1算法时间复杂度 • 模型2算法时间复杂度 • 空间开销
文档集合划分模型试验分析 • 文档集描述 • TREC2002、2003、2004年的查询集合,共324个 • 相关集合中文档个数为3853个 • 不同文档个数为3778篇 • 69篇文档同时是2个查询的相关文档 • 3篇文档同时是3个查询的相关文档
文档集合划分模型试验分析 • 模型最优值随子集合个数变化曲线 • 横轴:子集合个数 • 纵轴:最优值对数 • 最优划分方案 • 子集合个数为52 • 划分方案为模型1对应的模型参数Si
文档集合划分模型实验分析 • 最优划分方法与其他划分方法比较 • 模型2最优划分 • 基于内容相关聚类划分 • 随机划分
文档集合划分模型实验深入分析 • 划分模型的假设及实践应用中的方法 • 知道全部查询和查询相关文档为前提 • 实践中,可以利用查询日志,得到查询以及查询的相关文档,甚至可以利用查询出现的次数进行优化 • 模型综合考虑了直观划分的两个指标 • 相关文档集中分布 • 子集合规模差距尽量小
文档集合划分模型小结 • 给出了一个可以量化的最优划分模型 • 给出了一种划分的最优化标准 • 回答了集合划分的两个问题 • 可行的模型最优化解法 • 对其他研究领域的意义 • 数据流管理平台 • 扫描关键词类似文档 • 关键词的分布类似文档集合的划分 • 数据库管理系统 • 数据的分布问题
学位论文研究情况和已完成的研究内容 • 分布式WEB信息检索的集合划分问题 • 分布式信息检索检索的划分问题建模 • 基于内容的文档划分技术 • 基于链接的文档划分算法 • 分布式信息检索文档集合划分算法评价 • 分布式信息检索的集合选择问题研究 • tf.idf系列模型 • CORI集合选择算法 • 语言模型检索 • OKAP模型
基于内容的文档划分技术 • 基于内容相关的文档划分思想 • 考虑一个查询的相关文档之间的关系 • 假设:一个查询的相关文档他们在内容上也是相关的 • 基于内容的文档划分算法策略 • 文档内容相关度的度量 • 基于内容相关度的聚类技术 • 采用快速的聚类算法
基于内容的文档划分技术 • 内容相关度度量方法 • 向量空间模型VSM • 余弦相似度计算 • 快速聚类方法 • K-Means聚类技术
基于内容的文档划分实验 • 测试集为TREC标注测试集 • 55万文档
基于内容的文档划分局限 • 效率问题 • 55万文档划分用时大于7天,2颗P4CPU、4GMem • 125万文档,几乎无法计算出结果 • 效率问题成因 • 聚类中心向量维度爆炸,导致计算代价巨大 • 解决办法及困难 • 向量降维 • 聚类难以进行有指导的学习
学位论文研究情况和已完成的研究内容 • 分布式WEB信息检索的集合划分问题 • 分布式信息检索检索的划分问题建模 • 基于内容的文档划分技术 • 基于链接的文档划分算法 • 分布式信息检索文档集合划分算法评价 • 分布式信息检索的集合选择问题研究 • tf.idf系列模型 • CORI集合选择算法 • 语言模型检索 • OKAP模型
基于链接的文档划分算法 • 基于链接的文档划分思想 • 假设:一个查询的相关文档间,在网页的链接关系上具有某些特点,使得能够通过这些特点,可以刻划他们之间的相关性 • 基于内容的文档划分算法策略 • 网页文档之间的链接关系挖掘 • 利用链接关系刻划网页的相关度 • 利用网页的相关度对网页进行聚类,实现文档集合的划分
链接分析算法回顾 • 通过链接评价网页质量的算法 • PageRank • HITS
链接分析算法回顾(Ⅱ) • 网页间的相关度计算 • Co-Citation Bibliographic Coupling • Amsler A sim. B A C B C A sim. B A C B C
链接相似度计算方法的扩展 • 网页与网页集合的相似度计算 • 网页集合被视为虚拟网页 • 虚拟网页的入链接 • 虚拟网页的出链接
基于链接的网页划分方法 • 类k-means聚类方法 sim 0.2 0 0 0.8 0 0.5 0.3 0 K类 不确定
实验及结果分析 • 数据集 • TREC WEB track Gov数据集:124万文档 • 划分的子集合个数:100个 • 查询集:WEB track2002、2003、2004 • 划分方法 • 基于链接的划分算法 co-cite 、co-ref 、co-cite-ref • 随机划分方法
实验及结果分析(Ⅱ) • 不同划分方法比较 • WEB track2002查询集 • 坐标轴 • 横坐标查询编号 • 纵坐标为子集合个数
实验及结果分析(Ⅲ) • 不同叠带次数比较 • WEB track2002 • 坐标轴 • 横坐标查询编号 • 纵坐标为子集合个数 • 结论 算法能够比较快速稳定
实验及结果分析(Ⅳ) • 相关文档分布比较 • WEB track2002 • 坐标轴 • 子集合编号 • 相关文档数 • 结论 相关文档集中在较少的子集合中
实验及结果分析(Ⅴ) • Top10子集合含相关文档比例 • Top10子集合含有80-90%相关文档
实验及结果分析(Ⅵ) • 基于链接的分布式检索结果比较 • 2002、2003、2004查询 • 三种链接相似度、随机划分、集中式划分对比 TREC WEB Track2002 TREC WEB Track2003 TREC WEB Track2004
基于链接划分算法特点 • 算法复杂度方面 • 并没有比基于内容的算法复杂度低 • 计算难度 • 网页相关度计算简单、效率高 • 相对词语来说,链接数量较少集合增加较慢 • 对于特征的选择简单 • 比较适合处理大规模文档集合划分问题 • 计算简单、处理速度快 • 125万网页,处理时间在6-7小时
学位论文研究情况和已完成的研究内容 • 分布式WEB信息检索的集合划分问题 • 分布式信息检索检索的划分问题建模 • 基于内容的文档划分技术 • 基于链接的文档划分算法 • 分布式信息检索文档集合划分算法评价 • 分布式信息检索的集合选择问题研究 • tf.idf系列模型 • CORI集合选择算法 • 语言模型检索 • OKAP模型
分布式信息检索文档集合划分算法评价 • 文档集合划分问题可以作为 • 聚类问题 • 图划分问题 • 聚类问题评价本身是一个困难的问题 • 文档集合划分算法平价的难点 • 不同划分算法,划分的子集合个数不尽相同 • 子集合个数相同也难以比较,例如: 算法1:Rq=10,2,1,1, 算法2:Rq=8,7