第五讲 WEB检索研究 (WEB IR)

第五讲 WEB检索研究(WEB IR) 陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org

内容提要 • WEB IR的基本概念 • 搜索引擎的组成 • 信息采集 • 信息分析及索引 • 信息搜索

WEB IR的定义 • 基于WEB的信息检索研究 • 搜索引擎是最典型的代表 • 搜索引擎(Search Engine，简称SE)是实现如下功能的一个系统 • 收集、整理和组织信息并为用户提供查询服务 • 面向WEB的SE是其中最典型的代表 • 三大特点：事先下载，事先组织，实时检索 • 搜索引擎也是信息检索(Information Retrieval) 这门学科的典型应用

WEB搜索引擎和一般IR的区别 • 检索对象不同 • 搜索引擎面向大规模、半结构化、质量不一、位置分散、交叉互联、冗余繁杂的WEB数据 • 一般检索通常只考虑较高质量自然语言表述的书面文本(如新闻等) • 查询方式不尽相同 • 前者通常为1~3个词的短查询，后者考虑各种方式的查询 • 用户对结果的反应不同 • 前者的用户通常只关心前几页的结果，更关注准确度；而后者准确度和全面度并重

Web IR结构图

WEB图中的一些概念 • 节点(Node) • 指每个网页，当图中每个连接的单位是网站时，每个网站看成一个Node • 入度(In degree) • 每个Node的入度指的是指向该Node的Node数目 • 出度(Out degree) • 每个Node的出度指的是该Node指向的Node数目

WEB的相关特性(1) • Power Law(幂分布定律)：WEB的很多属性满足f(x)=x-λ，λ>1

WEB的相关特性(2) • Small world(小世界)理论 • 整个WEB虽然庞大，但是任意两点之间的平均距离却不大。有人做过实验，计算出整个WEB的平均距离约为19 • 人类社会的六度分离理论，人类社会至多通过6人可以实现两人的互通

WEB的相关特性(3) • WEB的结构 • 蝴蝶结型(Bow-tie) • SCC为连通部分 • IN中网页指向SCC • SCC指向OUT中网页 • 非连通部分(Tendrils)

基于WEB特性的一些研究 • 社区挖掘 • 社会计算 • 小世界模型

搜索引擎类型 • 按照检索机制分类 • 检索型/目录型/混合型 • 按照检索内容分类 • 综合型(通用型)/专题型/特定型 • 按照检索工具数量分类 • 单独型/集合型(元搜索引擎) • 按照检索资源的类型分类 • WEB型/非WEB型

检索型/综合型搜索引擎

目录型搜索引擎

专题型搜索引擎

特定型搜索引擎

元搜索引擎

非WEB型搜索引擎

搜索引擎简史回顾 • 1986年，Internet正式形成 • 现代搜索引擎的祖先 • 1990年由加拿大蒙特利尔McGill大学学生Alan Emtage发明的Archie，是对FTP文件名搜索，首次采用“机器人”自动爬行程序 • 第一个用于监测互联网发展规模的“机器人”程序是1993年MIT的Matthew Gray开发的World wide Web Wanderer • 刚开始它只用来统计互联网上的服务器数量，后发展为能够检索网站域名 • Lycos • 第一个现代意义上的WEB搜索引擎，CMU机器翻译中心的Michael Mauldin于1994年7月创建 • Yahoo • 斯坦福大学博士生DavidFilo和Jerry Yang(杨致远)创建1995年 • Google • 斯坦福大学博士生Larry Page与Sergey Brin于1998年9月创建，目前是全世界最受欢迎的搜索引擎 • Baidu • 超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇发布于2001年10月，是目前最受欢迎的中文搜索引擎之一

搜索引擎索引网页数目变化(1)

搜索引擎索引网页数目变化(2)

搜索引擎基本组成示意图

Google的组成

组成模块的功能 • 信息收集或采集(Information Gathering) • 获取信息，通常是指从Internet上自动获取信息 • 信息整理和组织(Information Organization) • 预处理 • 文本分析和处理 • 信息标引——将查询和文档表示成方便检索的某种方式 • 信息搜索(Information Search) • 查询的分析 • 相似度计算和排序(Ranking) • 结果摘要

信息采集的概念 • 主要是指通过Web页面之间的链接关系从Web上自动获取页面信息,并且随着链接不断向所需要的Web页面扩展的过程，信息采集系统也常常称为Robot, Spider, Crawler等等 • 信息采集是搜索引擎获得数据来源的过程，地位相当重要 • 信息采集的目标：快速获得高质量的网页 • 信息采集是一项十分繁杂和庞大的工程 • 不同的协议 • 不同的网络情况 • 时效性的要求 • 网页质量的要求 • 实际上是图的遍历过程 • 通过种子页面或站点(Seed)，获取更多的链接，将它们作为下一步种子，循环 • 这个过程一般永远不会结束

信息采集的基本结构

采集的遍历算法 • 宽度优先vs. 深度优先 • 宽度优先：先采集完同一层的网页，再采集下一层网页 • 深度优先：先沿一条路径采到叶节点，再从同层其他路径进行采集 • 有研究表明：宽度优先的方法得到的网页集合的重要性更好 • 网站采集vs. 全局URL采集 • 网站采集：一个网站一个网站采集 • 全局URL采集：将所有URL放入一个URL池，从中使用某种方法进行选择 • 网站采集在支持应用方面灵活性大一些，但是采集效率可能不如全局URL采集，通常的搜索引擎采用全局URL采集的方法

采集网页的更新策略 • 定期重采 • 一段时间以后重新采集所有网页，全部采完以后替换原来的网页 • 增量采集 • 只按照某种策略采集那些可能新增、变化的网页，并删除那些已经不存在的网页 • 定期重采非常简单，但是浪费带宽，周期也长；增量采集可以节省带宽，网页更新周期相对较短，但是系统的复杂性增大

采集网页的速度保证措施 • 本地DNS解析 • 多机分布式并行 • 局域网联接多机进行采集并行 • 广域网分布式采集 • 单机多程序并行 • 多进程并行 • 多线程并行

采集网页的质量保证措施 • 减少重复页面的采集 • URL重复的检测和排除 • 内容重复的检测和排除 • 保证重要页面的高优先级 • 入度高的网页相对重要 • URL浅的网页相对重要 • 含有被别人广泛映像的内容的网页重要

采集中的行为问题 • 遵守网站上发布的Robot.txt采集限制协议 • 采集时尽量不要太过密集地采集某个网站，这种密集访问类似于DoS攻击，导致普通用户正常浏览网站产生困难。有些网站会严密控制这种密集访问行为

信息采集的研究趋势 • 高速、高质量的信息采集 • 个性化信息采集 • 只采集符合用户的兴趣的数据 • 基于主题的信息采集 • 采集某个领域的数据 • 信息的采集及抽取 • 采集后提取结构化信息

信息分析 • 对原始数据的预处理 • 格式分析与转换(html/xml/doc/pdf/rtf) • 语种识别、编码识别与转换(GB/BIG5/Unicode) • 噪声数据的清洗 • 冗余数据的处理 • 信息分类&聚类

分类/聚类基本概念 • 分类/聚类是大自然的固有现象：物以类聚、人以群分 • 相似的对象往往聚集在一起 • 相对不相似的对象往往分开

关于分类 • 简单地说，分类(Categorization or Classification)就是按照某种标准给对象贴标签(label) • 男/女、老人/青年

分类无处不在 • 性别、籍贯、民族、学历、年龄等等，我们每个人身上贴满了“标签” • 我们从孩提开始就具有分类能力：爸爸、妈妈；好阿姨、坏阿姨；电影中的好人、坏人等等

思考题 • 从如下叙述中找出“标签” • 你以为我穷，不好看，就没有感情吗？我也会有的。如果上帝赋予我财富和美貌，我一定要让你难于离开我，就像我现在难于离开你。上帝没有这样，我们的精神是同等的，就如同你跟我经过坟墓，将同样地站在在上帝面前

关于聚类 • 简单地说，聚类是指事先没有“标签”而通过某种成团的分析，找出事物之间存在聚集性原因的过程 • 在一个自习教室，往往发现大家三三两两扎推地坐，经过打听，总能找出扎堆的原因 • 事先不知道“标签”，根据对象之间的相似情况进行成团分析后，加上“标签”的过程

信息处理中分类和聚类的原因 • 分类/聚类的根本原因就是因为对象数目太多，处理困难 • 一些信息处理部门，一个工作人员一天要看上千份信息 • 分门别类将会大大减少处理难度，提高处理效率和效果

分类/聚类的过程 • 对对象进行表示 • 表示方法 • 特征选择 • 根据某种算法进行相似度计算 • 相似度计算方法 • 分类/聚类方法

文本分类的定义 • Text Categorization/Classification • 事先给定分类体系和训练样例(标注好类别信息的文本)，将文本分到某个或者某几个类别中 • 计算机自动分类，就是根据已经标注好类别信息的训练集合进行学习，将学习到的规律用于新样本(也叫测试样本)的类别判定 • 分类是有监督/指导学习(Supervised Learning)的一种

文本分类的模式 • 从类别数目来分 • 2类(binary)问题，类别体系由两个互补类构成，一篇文本属于或不属于某一类 • 多类(multi-class)问题，类别体系由三个或者以上的类别构成，一篇文本可以属于某一个或者多个类别，通常可以通过拆分成多个2类问题来实现，也有直接面对多类问题的分类方法 • 从是否兼类看分 • 单标签(single label)问题：一个文本只属于一个类 • 多标签(multi-label)问题：一个文本可以属于多类，即出现兼类现象

分类体系 • 分类体系的构建标准可以是按照语义(如：政治、经济、军事…)，也可以是按照其他标准(如：垃圾vs. 非垃圾；游戏网站vs. 非游戏网站)，完全取决于目标应用的需求 • 分类体系一般由人工构造，可以是层次结构 • Reuters语料分类体系、中图分类、Yahoo分类目录 • 对于计算机而言，分类体系就是一棵目录树，训练样例文本就是最后的叶子节点。而且对于计算机处理而言，只需要训练样例文本及其对应类别信息，整个过程通常并不会考虑类别标签的意义。也就是说：几篇文档合在一起表示某个类别

分类的应用 • 垃圾邮件的判定 • 类别{spam, not-spam} • 新闻出版按照栏目分类 • 类别{政治,体育,军事,…} • 词性标注 • 类别{名词,动词,形容词,…} • 词义排歧 • 类别{词义1,词义2,…} • 计算机论文的领域 • 类别ACM system • H: information systems • H.3: information retrieval and storage

文本分类——人工方法和自动方法 • 人工方法：人工总结规则 • 优点 • 结果容易理解：如足球and 联赛􀃆体育类 • 缺点 • 费时费力 • 难以保证一致性和准确性(40%左右的准确率) • 专家有时候凭空想象，没有基于真实语料的分布 • 代表方法：人们曾经通过知识工程的方法建立专家系统(80年代末期)用于分类 • 自动的方法(学习)：从训练语料中学习规则 • 优点 • 快速 • 准确率相对高(准确率可达60%或者更高) • 来源于真实文本，可信度高 • 缺点 • 结果可能不易理解(比如有时是一个复杂的数学表达式)

文本分类——规则方法和统计方法 • 规则方法通过得到某些规则来指导分类，而这些规则往往是人可以理解的 • 统计方法通过计算得到一些数学表达式来指导分类 • 规则方法和统计方法没有本质的区别，它们都是想得到某种规律性的东西来指导分类，统计方法得到的数学表达式可以认为是某种隐式规则 • 在目前的文本分类当中，统计方法占据了主流地位

文本分类的过程(1) • 两个步骤： • 训练(training) • 即从训练样本中学习分类的规律 • 测试(test或分类classification) • 根据学习到的规律对新来的文本进行类别判定 • 文本表示(text representation) • 不管是训练还是测试，都要先分析出文本的某些特征(feature，也称为标引项term)，然后把文本变成这些特征的某种适宜处理的表示形式，通常都采用向量表示形式或者直接使用某些统计量

文本分类的过程(2)

特征抽取(Feature Extraction) • 预处理 • 去掉html一些tag标记 • 禁用词(stop words)去除、词根还原(stemming) • (中文)分词、词性标注、短语识别、… • 标引项频率统计 • TFi,j: 特征i在文档j中出现次数，标引项频率(Term Frequency) • DFi: 所有文档集合中出现特征i的文档数目，文档频率(Document Frequency) • 数据清洗：去掉不合适的噪声文档或文档内垃圾数据 • 文本表示 • 向量空间模型 • 降维技术 • 特征选择(Feature Selection) • 特征重构(Re-parameterisation，如LSI)

文本表示 • 向量空间模型(Vector Space Model，VSM) • m个无序标引项ti(特征)，可以采用词根/词/短语/其他等单位 • n个训练文档 • 每个文档dj可以用标引项向量(每个aij是权重)来表示 • (a1j,a2j,…,amj) • 通过向量的距离可以计算文档之间的相似度(分类的主要计算目标就是度量两篇文档之间的距离)

文本表示 • 文档－标引项矩阵(Doc-Term Matrix) • 文档之间的相似度计算

第五讲 WEB检索 研究 (WEB IR)