930 likes | 1.06k Views
第五讲 WEB检索 研究 (WEB IR). 陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org. 内容提要. WEB IR 的基本概念 搜索引擎的组成 信息采集 信息分析及索引 信息搜索. WEB IR 的定义. 基于 WEB 的信息检索研究 搜索引擎是最典型的代表 搜索引擎 (Search Engine ,简称 SE) 是实现如下功能的一个系统 收集、整理和组织信息并为用户提供查询服务 面向 WEB 的 SE 是其中最典型的代表 三大特点:事先下载,事先组织,实时检索
E N D
第五讲 WEB检索研究(WEB IR) 陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org
内容提要 • WEB IR的基本概念 • 搜索引擎的组成 • 信息采集 • 信息分析及索引 • 信息搜索
WEB IR的定义 • 基于WEB的信息检索研究 • 搜索引擎是最典型的代表 • 搜索引擎(Search Engine,简称SE)是实现如下功能的一个系统 • 收集、整理和组织信息并为用户提供查询服务 • 面向WEB的SE是其中最典型的代表 • 三大特点:事先下载,事先组织,实时检索 • 搜索引擎也是信息检索(Information Retrieval) 这门学科的典型应用
WEB搜索引擎和一般IR的区别 • 检索对象不同 • 搜索引擎面向大规模、半结构化、质量不一、位置分散、交叉互联、冗余繁杂的WEB数据 • 一般检索通常只考虑较高质量自然语言表述的书面文本(如新闻等) • 查询方式不尽相同 • 前者通常为1~3个词的短查询,后者考虑各种方式的查询 • 用户对结果的反应不同 • 前者的用户通常只关心前几页的结果,更关注准确度;而后者准确度和全面度并重
WEB图中的一些概念 • 节点(Node) • 指每个网页,当图中每个连接的单位是网站时,每个网站看成一个Node • 入度(In degree) • 每个Node的入度指的是指向该Node的Node数目 • 出度(Out degree) • 每个Node的出度指的是该Node指向的Node数目
WEB的相关特性(1) • Power Law(幂分布定律):WEB的很多属性满足f(x)=x-λ,λ>1
WEB的相关特性(2) • Small world(小世界)理论 • 整个WEB虽然庞大,但是任意两点之间的平均距离却不大。有人做过实验,计算出整个WEB的平均距离约为19 • 人类社会的六度分离理论,人类社会至多通过6人可以实现两人的互通
WEB的相关特性(3) • WEB的结构 • 蝴蝶结型(Bow-tie) • SCC为连通部分 • IN中网页指向SCC • SCC指向OUT中网页 • 非连通部分(Tendrils)
基于WEB特性的一些研究 • 社区挖掘 • 社会计算 • 小世界模型
搜索引擎类型 • 按照检索机制分类 • 检索型/目录型/混合型 • 按照检索内容分类 • 综合型(通用型)/专题型/特定型 • 按照检索工具数量分类 • 单独型/集合型(元搜索引擎) • 按照检索资源的类型分类 • WEB型/非WEB型
搜索引擎简史回顾 • 1986年,Internet正式形成 • 现代搜索引擎的祖先 • 1990年由加拿大蒙特利尔McGill大学学生Alan Emtage发明的Archie,是对FTP文件名搜索,首次采用“机器人”自动爬行程序 • 第一个用于监测互联网发展规模的“机器人”程序是1993年MIT的Matthew Gray开发的World wide Web Wanderer • 刚开始它只用来统计互联网上的服务器数量,后发展为能够检索网站域名 • Lycos • 第一个现代意义上的WEB搜索引擎,CMU机器翻译中心的Michael Mauldin于1994年7月创建 • Yahoo • 斯坦福大学博士生DavidFilo和Jerry Yang(杨致远)创建1995年 • Google • 斯坦福大学博士生Larry Page与Sergey Brin于1998年9月创建,目前是全世界最受欢迎的搜索引擎 • Baidu • 超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇发布于2001年10月,是目前最受欢迎的中文搜索引擎之一
组成模块的功能 • 信息收集或采集(Information Gathering) • 获取信息,通常是指从Internet上自动获取信息 • 信息整理和组织(Information Organization) • 预处理 • 文本分析和处理 • 信息标引——将查询和文档表示成方便检索的某种方式 • 信息搜索(Information Search) • 查询的分析 • 相似度计算和排序(Ranking) • 结果摘要
信息采集的概念 • 主要是指通过Web页面之间的链接关系从Web上自动获取页面信息,并且随着链接不断向所需要的Web页面扩展的过程,信息采集系统也常常称为Robot, Spider, Crawler等等 • 信息采集是搜索引擎获得数据来源的过程,地位相当重要 • 信息采集的目标:快速获得高质量的网页 • 信息采集是一项十分繁杂和庞大的工程 • 不同的协议 • 不同的网络情况 • 时效性的要求 • 网页质量的要求 • 实际上是图的遍历过程 • 通过种子页面或站点(Seed),获取更多的链接,将它们作为下一步种子,循环 • 这个过程一般永远不会结束
采集的遍历算法 • 宽度优先vs. 深度优先 • 宽度优先:先采集完同一层的网页,再采集下一层网页 • 深度优先:先沿一条路径采到叶节点,再从同层其他路径进行采集 • 有研究表明:宽度优先的方法得到的网页集合的重要性更好 • 网站采集vs. 全局URL采集 • 网站采集:一个网站一个网站采集 • 全局URL采集:将所有URL放入一个URL池,从中使用某种方法进行选择 • 网站采集在支持应用方面灵活性大一些,但是采集效率可能不如全局URL采集,通常的搜索引擎采用全局URL采集的方法
采集网页的更新策略 • 定期重采 • 一段时间以后重新采集所有网页,全部采完以后替换原来的网页 • 增量采集 • 只按照某种策略采集那些可能新增、变化的网页,并删除那些已经不存在的网页 • 定期重采非常简单,但是浪费带宽,周期也长;增量采集可以节省带宽,网页更新周期相对较短,但是系统的复杂性增大
采集网页的速度保证措施 • 本地DNS解析 • 多机分布式并行 • 局域网联接多机进行采集并行 • 广域网分布式采集 • 单机多程序并行 • 多进程并行 • 多线程并行
采集网页的质量保证措施 • 减少重复页面的采集 • URL重复的检测和排除 • 内容重复的检测和排除 • 保证重要页面的高优先级 • 入度高的网页相对重要 • URL浅的网页相对重要 • 含有被别人广泛映像的内容的网页重要
采集中的行为问题 • 遵守网站上发布的Robot.txt采集限制协议 • 采集时尽量不要太过密集地采集某个网站,这种密集访问类似于DoS攻击,导致普通用户正常浏览网站产生困难。有些网站会严密控制这种密集访问行为
信息采集的研究趋势 • 高速、高质量的信息采集 • 个性化信息采集 • 只采集符合用户的兴趣的数据 • 基于主题的信息采集 • 采集某个领域的数据 • 信息的采集及抽取 • 采集后提取结构化信息
信息分析 • 对原始数据的预处理 • 格式分析与转换(html/xml/doc/pdf/rtf) • 语种识别、编码识别与转换(GB/BIG5/Unicode) • 噪声数据的清洗 • 冗余数据的处理 • 信息分类&聚类
分类/聚类基本概念 • 分类/聚类是大自然的固有现象:物以类聚、人以群分 • 相似的对象往往聚集在一起 • 相对不相似的对象往往分开
关于分类 • 简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label) • 男/女、老人/青年
分类无处不在 • 性别、籍贯、民族、学历、年龄等等,我们每个人身上贴满了“标签” • 我们从孩提开始就具有分类能力:爸爸、妈妈;好阿姨、坏阿姨;电影中的好人、坏人等等
思考题 • 从如下叙述中找出“标签” • 你以为我穷,不好看,就没有感情吗?我也会有的。如果上帝赋予我财富和美貌,我一定要让你难于离开我,就像我现在难于离开你。上帝没有这样,我们的精神是同等的,就如同你跟我经过坟墓,将同样地站在在上帝面前
关于聚类 • 简单地说,聚类是指事先没有“标签”而通过某种成团的分析,找出事物之间存在聚集性原因的过程 • 在一个自习教室,往往发现大家三三两两扎推地坐,经过打听,总能找出扎堆的原因 • 事先不知道“标签”,根据对象之间的相似情况进行成团分析后,加上“标签”的过程
信息处理中分类和聚类的原因 • 分类/聚类的根本原因就是因为对象数目太多,处理困难 • 一些信息处理部门,一个工作人员一天要看上千份信息 • 分门别类将会大大减少处理难度,提高处理效率和效果
分类/聚类的过程 • 对对象进行表示 • 表示方法 • 特征选择 • 根据某种算法进行相似度计算 • 相似度计算方法 • 分类/聚类方法
文本分类的定义 • Text Categorization/Classification • 事先给定分类体系和训练样例(标注好类别信息的文本),将文本分到某个或者某几个类别中 • 计算机自动分类,就是根据已经标注好类别信息的训练集合进行学习,将学习到的规律用于新样本(也叫测试样本)的类别判定 • 分类是有监督/指导学习(Supervised Learning)的一种
文本分类的模式 • 从类别数目来分 • 2类(binary)问题,类别体系由两个互补类构成,一篇文本属于或不属于某一类 • 多类(multi-class)问题,类别体系由三个或者以上的类别构成,一篇文本可以属于某一个或者多个类别,通常可以通过拆分成多个2类问题来实现,也有直接面对多类问题的分类方法 • 从是否兼类看分 • 单标签(single label)问题:一个文本只属于一个类 • 多标签(multi-label)问题:一个文本可以属于多类,即出现兼类现象
分类体系 • 分类体系的构建标准可以是按照语义(如:政治、经济、军事…),也可以是按照其他标准(如:垃圾vs. 非垃圾;游戏网站vs. 非游戏网站),完全取决于目标应用的需求 • 分类体系一般由人工构造,可以是层次结构 • Reuters语料分类体系、中图分类、Yahoo分类目录 • 对于计算机而言,分类体系就是一棵目录树,训练样例文本就是最后的叶子节点。而且对于计算机处理而言,只需要训练样例文本及其对应类别信息,整个过程通常并不会考虑类别标签的意义。也就是说:几篇文档合在一起表示某个类别
分类的应用 • 垃圾邮件的判定 • 类别{spam, not-spam} • 新闻出版按照栏目分类 • 类别{政治,体育,军事,…} • 词性标注 • 类别{名词,动词,形容词,…} • 词义排歧 • 类别{词义1,词义2,…} • 计算机论文的领域 • 类别ACM system • H: information systems • H.3: information retrieval and storage
文本分类——人工方法和自动方法 • 人工方法:人工总结规则 • 优点 • 结果容易理解:如足球and 联赛体育类 • 缺点 • 费时费力 • 难以保证一致性和准确性(40%左右的准确率) • 专家有时候凭空想象,没有基于真实语料的分布 • 代表方法:人们曾经通过知识工程的方法建立专家系统(80年代末期)用于分类 • 自动的方法(学习):从训练语料中学习规则 • 优点 • 快速 • 准确率相对高(准确率可达60%或者更高) • 来源于真实文本,可信度高 • 缺点 • 结果可能不易理解(比如有时是一个复杂的数学表达式)
文本分类——规则方法和统计方法 • 规则方法通过得到某些规则来指导分类,而这些规则往往是人可以理解的 • 统计方法通过计算得到一些数学表达式来指导分类 • 规则方法和统计方法没有本质的区别,它们都是想得到某种规律性的东西来指导分类,统计方法得到的数学表达式可以认为是某种隐式规则 • 在目前的文本分类当中,统计方法占据了主流地位
文本分类的过程(1) • 两个步骤: • 训练(training) • 即从训练样本中学习分类的规律 • 测试(test或分类classification) • 根据学习到的规律对新来的文本进行类别判定 • 文本表示(text representation) • 不管是训练还是测试,都要先分析出文本的某些特征(feature,也称为标引项term),然后把文本变成这些特征的某种适宜处理的表示形式,通常都采用向量表示形式或者直接使用某些统计量
特征抽取(Feature Extraction) • 预处理 • 去掉html一些tag标记 • 禁用词(stop words)去除、词根还原(stemming) • (中文)分词、词性标注、短语识别、… • 标引项频率统计 • TFi,j: 特征i在文档j中出现次数,标引项频率(Term Frequency) • DFi: 所有文档集合中出现特征i的文档数目,文档频率(Document Frequency) • 数据清洗:去掉不合适的噪声文档或文档内垃圾数据 • 文本表示 • 向量空间模型 • 降维技术 • 特征选择(Feature Selection) • 特征重构(Re-parameterisation,如LSI)
文本表示 • 向量空间模型(Vector Space Model,VSM) • m个无序标引项ti(特征),可以采用词根/词/短语/其他等单位 • n个训练文档 • 每个文档dj可以用标引项向量(每个aij是权重)来表示 • (a1j,a2j,…,amj) • 通过向量的距离可以计算文档之间的相似度(分类的主要计算目标就是度量两篇文档之间的距离)
文本表示 • 文档-标引项矩阵(Doc-Term Matrix) • 文档之间的相似度计算