分布式 WEB 信息检索技术研究 Research on Distributed WEB Information Retrieval

分布式WEB信息检索技术研究Research on Distributed WEB Information Retrieval 博士生：张刚导师：李国杰院士 2005年12月

Outline • 研究背景 • 学位论文研究情况和已完成的研究内容 • 已取得的阶段性成果 • 下一步的工作计划 • 科研项目的完成情况 • 学术论文发表情况 • 课程完成情况

研究背景 • 海量信息检索的挑战 • WEB信息的增长：6个月翻一番 • 表层页面（surface WEB）80亿-100亿 • Hobbes‘ Internet Timeline统计，截止到2005年8月，互联网上WEB服务主机数已达到70,392,567台 • 矛盾与问题 • 80亿VS. Top10问题！ • 是否80亿个页面都需要查询？ • 如何减少查询量？

研究背景 • 分布式信息检索是海量信息检索的有效方案 • 团队作战 • 分而治之 • 分布式信息检索的主要过程 • 文档集合划分 • 集合选择 • 单文档集合检索 • 结果合并

分布式信息检索的体系结构

分布式信息检索的过程 集合选择查询

学位论文研究情况和已完成的研究内容 • 分布式WEB信息检索的集合划分问题 • 分布式信息检索检索的划分问题建模 • 基于内容的文档划分技术 • 基于链接的文档划分算法 • 分布式信息检索文档集合划分算法评价 • 分布式信息检索的集合选择问题研究 • tf.idf系列模型 • CORI集合选择算法 • 语言模型检索 • OKAP模型

分布式信息检索检索的划分问题建模 • 文档集合划分的问题描述 • 文档集合的划分模型 • 模型的解空间分析 • 文档划分问题最优解的快速解法 • 算法复杂度分析

文档集合划分的问题描述 • 文档集合划分问题 • 问题1：文档分布问题。即：每个子集合中应包含哪些文档 • 问题2：文档集划分个数问题。即：一个给定的文档集合应该被划分成几个子集合 • 直观的划分原则 • 同一个查询的相关文档，尽可能集中在少数的子集合 • 各个子集合的规模相差尽可能小 • 影响文档划分的三个主要因素 • 文档集D、查询集Q、查询的相关文档集R

Doc Doc Query Query 多对一多对多问题文档文档集合划分的问题描述（Ⅱ） • 文档集合划分的核心难题 • 文档与查询的相关关系是一种多对多的关系 • 一个查有多个相关文档、一个文档是多个查询的相关文档

文档集合的划分模型 • 文档集划分问题1（文档分布问题）建模 • 描述：如果给定一个文档集合D，查询集合Q及其相关文档集R，要将文档集D划分成K个子集合，那么D中的文档如何在各个子集合中分布是最合理的方式 • 什么是最合理的方式？ • 模型优化原则：求解一种文档集合的划分，使得处理Q中的查询，所需要检索的平均文档数最少 • 分布式检索的过程 • 第一步：找出含有相关文档的子集合 • 第二步：对于每个子集合，找出其中的相关文档

子集合 相关文档集查询集合文档集合的划分模型 • 文档集合划分模型1 • 模型物理意义 • 查询平均文档数 • 文档的划分结果就是当avgdoc1取最小值时对应的一组Si

举例 • 集合D={1,5,6,7,8,9,12}共7元素，另外知道四个查询的相关文档集合 • R1={1，5，9，12} • R2={1，5，7，8} • R3={5，6，7，9} • R4={7，8，9，12} • 7个数被划分成三个子集合 S1={1，5，6}，S2={7,8}，S3={9,12} • 模型代价为((|S1|+|S3|)+(|S1|+|S2|)+(|S1|+|S2|+|S3|)+(|S2|+|S3|))/4

文档集合的划分模型 • 文档划分问题2（文档集划分个数问题）建模 • 问题描述：如果给定一个文档集合D，查询集合Q及其相关文档集R，在不考虑机器等资源限制条件下，应该划分成多少个子集合是最合理的 • 重温分布式信息检索过程 • 第一步：找出含有相关文档的子集合 • 第二步：对于每个子集合，找出其中的相关文档

子集合个数 子集合相关文档集查询集文档集合的划分模型 • 文档集合划分模型2 • 考虑文档集合划分个数情况下的，平均查询文档数 • 文档的划分结果就是当avgdoc2取最小值时,对应的 • 一组Si和K

文档集合的划分模型 • 模型2的两种极端情况 • 传统集中式检索，无文档划分 • 每个文档作为一个文档集合 • 两种情况按照模型是一致的，实际上也没有差别

可行解空间分析 • 模型1可行解空间分析 • 有m个小球放入n个盒子中(m>=n)，小球有差别，盒子没有差别，不准有空盒，所有的可能性中寻求一个最佳的放法（组合个数为第二类Stirling数） • 模型2可行解空间分析 • 有m个小球放入n个盒子中（m>=n），小球有差别，盒子没有差别，允许有空盒，所有的可能性中寻求一个最佳的放法

文档划分问题最优解的快速解法 • 模型1与模型2的关系 • 关键问题：求解模型1的最优解 • 类哈夫曼编码的最优解求解算法

文档划分问题最优解的快速解法 • 模型1最优解求解过程 • 随子集合个数减少，模型1的最优解分为两个阶段解法 • 第一阶段：模型1的最优解是一个常数 • 第二阶段：模型1最优解的构造采用类哈夫曼编码算法

文档划分问题最优解的快速解法 • 第一阶段模型1的最优解为常数 • 首先考虑每个文档是一个子集合的情况，此时模型1的最优解为 • 如果将子集合个数减少，需要将部分子集合合并，合并原则是：合并后新的子集合中的文档都是同一个查询的相关文档，这种过程不断进行，直到无法进行为止 • 当合并无法进行时，是模型的一个分界点，在此之前模型1的最优解保持不变

文档划分问题最优解的快速解法 • 第二阶段模型1的最优解算法 • 当过了上述临界点，再进行合并时，就会出现一个子集合中包含多个查询的相关文档的情况 • 此时该子集合在计算模型1的最优值是就会被多次使用，使用的次数为不同查询的个数 • 因此决定哪两个子集合合并时，需要找出一种合并以后代价最小的方案 • 求解最小代价的方法，类似于哈夫曼编码的过程

文档划分问题最优解的快速解法 • 类哈夫曼编码算法 • 模型1与哈夫曼编码的类比 • 子集合Si为待编码的字符 • 子集合的模|Si|为该字符的编码长度 • 子集合在计算模型1被使用的次数，为字符的出现频率 • 由此模型1的求解过程就是完成对子集合Si的一个编码过程，也就是构建一个哈夫曼编码树

代价4 代价8 模型求解临界点代价6 代价6 文档划分问题最优解的快速解法 • 演示

1 2 3 4 5 1 2 34 5 1 2 34 5 1 2 3 4 5 算法复杂度分析 • 第一次比较合并需要两两比较 • 代价计算次数为 • 此后采用动态规划算法，利用前次计算的结果

算法复杂度分析 • 模型1算法时间复杂度 • 模型2算法时间复杂度 • 空间开销

文档集合划分模型试验分析 • 文档集描述 • TREC2002、2003、2004年的查询集合，共324个 • 相关集合中文档个数为3853个 • 不同文档个数为3778篇 • 69篇文档同时是2个查询的相关文档 • 3篇文档同时是3个查询的相关文档

文档集合划分模型试验分析 • 模型最优值随子集合个数变化曲线 • 横轴：子集合个数 • 纵轴：最优值对数 • 最优划分方案 • 子集合个数为52 • 划分方案为模型1对应的模型参数Si

文档集合划分模型实验分析 • 最优划分方法与其他划分方法比较 • 模型2最优划分 • 基于内容相关聚类划分 • 随机划分

文档集合划分模型实验深入分析 • 划分模型的假设及实践应用中的方法 • 知道全部查询和查询相关文档为前提 • 实践中，可以利用查询日志，得到查询以及查询的相关文档，甚至可以利用查询出现的次数进行优化 • 模型综合考虑了直观划分的两个指标 • 相关文档集中分布 • 子集合规模差距尽量小

文档集合划分模型小结 • 给出了一个可以量化的最优划分模型 • 给出了一种划分的最优化标准 • 回答了集合划分的两个问题 • 可行的模型最优化解法 • 对其他研究领域的意义 • 数据流管理平台 • 扫描关键词类似文档 • 关键词的分布类似文档集合的划分 • 数据库管理系统 • 数据的分布问题

基于内容的文档划分技术 • 基于内容相关的文档划分思想 • 考虑一个查询的相关文档之间的关系 • 假设：一个查询的相关文档他们在内容上也是相关的 • 基于内容的文档划分算法策略 • 文档内容相关度的度量 • 基于内容相关度的聚类技术 • 采用快速的聚类算法

基于内容的文档划分技术 • 内容相关度度量方法 • 向量空间模型VSM • 余弦相似度计算 • 快速聚类方法 • K-Means聚类技术

基于内容的文档划分实验 • 测试集为TREC标注测试集 • 55万文档

基于内容的文档划分局限 • 效率问题 • 55万文档划分用时大于7天，2颗P4CPU、4GMem • 125万文档，几乎无法计算出结果 • 效率问题成因 • 聚类中心向量维度爆炸，导致计算代价巨大 • 解决办法及困难 • 向量降维 • 聚类难以进行有指导的学习

基于链接的文档划分算法 • 基于链接的文档划分思想 • 假设：一个查询的相关文档间，在网页的链接关系上具有某些特点，使得能够通过这些特点，可以刻划他们之间的相关性 • 基于内容的文档划分算法策略 • 网页文档之间的链接关系挖掘 • 利用链接关系刻划网页的相关度 • 利用网页的相关度对网页进行聚类，实现文档集合的划分

链接分析算法回顾 • 通过链接评价网页质量的算法 • PageRank • HITS

链接分析算法回顾（Ⅱ） • 网页间的相关度计算 • Co-Citation Bibliographic Coupling • Amsler A sim. B A C B C A sim. B A C B C

链接相似度计算方法的扩展 • 网页与网页集合的相似度计算 • 网页集合被视为虚拟网页 • 虚拟网页的入链接 • 虚拟网页的出链接

基于链接的网页划分方法 • 类k-means聚类方法 sim 0.2 0 0 0.8 0 0.5 0.3 0 K类不确定

实验及结果分析 • 数据集 • TREC WEB track Gov数据集：124万文档 • 划分的子集合个数：100个 • 查询集：WEB track2002、2003、2004 • 划分方法 • 基于链接的划分算法 co-cite 、co-ref 、co-cite-ref • 随机划分方法

实验及结果分析（Ⅱ） • 不同划分方法比较 • WEB track2002查询集 • 坐标轴 • 横坐标查询编号 • 纵坐标为子集合个数

实验及结果分析（Ⅲ） • 不同叠带次数比较 • WEB track2002 • 坐标轴 • 横坐标查询编号 • 纵坐标为子集合个数 • 结论算法能够比较快速稳定

实验及结果分析（Ⅳ） • 相关文档分布比较 • WEB track2002 • 坐标轴 • 子集合编号 • 相关文档数 • 结论相关文档集中在较少的子集合中

实验及结果分析（Ⅴ） • Top10子集合含相关文档比例 • Top10子集合含有80-90%相关文档

实验及结果分析（Ⅵ） • 基于链接的分布式检索结果比较 • 2002、2003、2004查询 • 三种链接相似度、随机划分、集中式划分对比 TREC WEB Track2002 TREC WEB Track2003 TREC WEB Track2004

基于链接划分算法特点 • 算法复杂度方面 • 并没有比基于内容的算法复杂度低 • 计算难度 • 网页相关度计算简单、效率高 • 相对词语来说，链接数量较少集合增加较慢 • 对于特征的选择简单 • 比较适合处理大规模文档集合划分问题 • 计算简单、处理速度快 • 125万网页，处理时间在6-7小时

分布式信息检索文档集合划分算法评价 • 文档集合划分问题可以作为 • 聚类问题 • 图划分问题 • 聚类问题评价本身是一个困难的问题 • 文档集合划分算法平价的难点 • 不同划分算法，划分的子集合个数不尽相同 • 子集合个数相同也难以比较，例如：算法1：Rq=10，2，1，1，算法2：Rq=8，7

分布式 WEB 信息检索技术研究 Research on Distributed WEB Information Retrieval

分布式 WEB 信息检索技术研究 Research on Distributed WEB Information Retrieval

Presentation Transcript

Information Retrieval and Web Search

Distributed Information Retrieval

DISTRIBUTED INFORMATION RETRIEVAL

Information Retrieval and Web Search

Information Retrieval and Web Search

Information Retrieval and Web Search

Information Retrieval and Web Search

Information Retrieval and Web Search

Web Information Retrieval

Distributed Information Retrieval

Web Information retrieval

Information Retrieval and Web Search

Web Information Retrieval Projects

Web Information Retrieval

Information Retrieval and Web Search

Information Retrieval and Web Mining

Web Information retrieval (Web IR)

Web Information retrieval (Web IR)

Web Information Retrieval

Geographic Web Information Retrieval

Information Retrieval and Web Search

Web Information retrieval (Web IR)