1 / 93

第五讲 WEB检索 研究 (WEB IR)

第五讲 WEB检索 研究 (WEB IR). 陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org. 内容提要. WEB IR 的基本概念 搜索引擎的组成 信息采集 信息分析及索引 信息搜索. WEB IR 的定义. 基于 WEB 的信息检索研究 搜索引擎是最典型的代表 搜索引擎 (Search Engine ,简称 SE) 是实现如下功能的一个系统 收集、整理和组织信息并为用户提供查询服务 面向 WEB 的 SE 是其中最典型的代表 三大特点:事先下载,事先组织,实时检索

amena
Download Presentation

第五讲 WEB检索 研究 (WEB IR)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第五讲 WEB检索研究(WEB IR) 陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org

  2. 内容提要 • WEB IR的基本概念 • 搜索引擎的组成 • 信息采集 • 信息分析及索引 • 信息搜索

  3. WEB IR的定义 • 基于WEB的信息检索研究 • 搜索引擎是最典型的代表 • 搜索引擎(Search Engine,简称SE)是实现如下功能的一个系统 • 收集、整理和组织信息并为用户提供查询服务 • 面向WEB的SE是其中最典型的代表 • 三大特点:事先下载,事先组织,实时检索 • 搜索引擎也是信息检索(Information Retrieval) 这门学科的典型应用

  4. WEB搜索引擎和一般IR的区别 • 检索对象不同 • 搜索引擎面向大规模、半结构化、质量不一、位置分散、交叉互联、冗余繁杂的WEB数据 • 一般检索通常只考虑较高质量自然语言表述的书面文本(如新闻等) • 查询方式不尽相同 • 前者通常为1~3个词的短查询,后者考虑各种方式的查询 • 用户对结果的反应不同 • 前者的用户通常只关心前几页的结果,更关注准确度;而后者准确度和全面度并重

  5. Web IR结构图

  6. WEB图中的一些概念 • 节点(Node) • 指每个网页,当图中每个连接的单位是网站时,每个网站看成一个Node • 入度(In degree) • 每个Node的入度指的是指向该Node的Node数目 • 出度(Out degree) • 每个Node的出度指的是该Node指向的Node数目

  7. WEB的相关特性(1) • Power Law(幂分布定律):WEB的很多属性满足f(x)=x-λ,λ>1

  8. WEB的相关特性(2) • Small world(小世界)理论 • 整个WEB虽然庞大,但是任意两点之间的平均距离却不大。有人做过实验,计算出整个WEB的平均距离约为19 • 人类社会的六度分离理论,人类社会至多通过6人可以实现两人的互通

  9. WEB的相关特性(3) • WEB的结构 • 蝴蝶结型(Bow-tie) • SCC为连通部分 • IN中网页指向SCC • SCC指向OUT中网页 • 非连通部分(Tendrils)

  10. 基于WEB特性的一些研究 • 社区挖掘 • 社会计算 • 小世界模型

  11. 搜索引擎类型 • 按照检索机制分类 • 检索型/目录型/混合型 • 按照检索内容分类 • 综合型(通用型)/专题型/特定型 • 按照检索工具数量分类 • 单独型/集合型(元搜索引擎) • 按照检索资源的类型分类 • WEB型/非WEB型

  12. 检索型/综合型搜索引擎

  13. 目录型搜索引擎

  14. 专题型搜索引擎

  15. 特定型搜索引擎

  16. 元搜索引擎

  17. 非WEB型搜索引擎

  18. 搜索引擎简史回顾 • 1986年,Internet正式形成 • 现代搜索引擎的祖先 • 1990年由加拿大蒙特利尔McGill大学学生Alan Emtage发明的Archie,是对FTP文件名搜索,首次采用“机器人”自动爬行程序 • 第一个用于监测互联网发展规模的“机器人”程序是1993年MIT的Matthew Gray开发的World wide Web Wanderer • 刚开始它只用来统计互联网上的服务器数量,后发展为能够检索网站域名 • Lycos • 第一个现代意义上的WEB搜索引擎,CMU机器翻译中心的Michael Mauldin于1994年7月创建 • Yahoo • 斯坦福大学博士生DavidFilo和Jerry Yang(杨致远)创建1995年 • Google • 斯坦福大学博士生Larry Page与Sergey Brin于1998年9月创建,目前是全世界最受欢迎的搜索引擎 • Baidu • 超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇发布于2001年10月,是目前最受欢迎的中文搜索引擎之一

  19. 搜索引擎索引网页数目变化(1)

  20. 搜索引擎索引网页数目变化(2)

  21. 搜索引擎基本组成示意图

  22. Google的组成

  23. 组成模块的功能 • 信息收集或采集(Information Gathering) • 获取信息,通常是指从Internet上自动获取信息 • 信息整理和组织(Information Organization) • 预处理 • 文本分析和处理 • 信息标引——将查询和文档表示成方便检索的某种方式 • 信息搜索(Information Search) • 查询的分析 • 相似度计算和排序(Ranking) • 结果摘要

  24. 信息采集的概念 • 主要是指通过Web页面之间的链接关系从Web上自动获取页面信息,并且随着链接不断向所需要的Web页面扩展的过程,信息采集系统也常常称为Robot, Spider, Crawler等等 • 信息采集是搜索引擎获得数据来源的过程,地位相当重要 • 信息采集的目标:快速获得高质量的网页 • 信息采集是一项十分繁杂和庞大的工程 • 不同的协议 • 不同的网络情况 • 时效性的要求 • 网页质量的要求 • 实际上是图的遍历过程 • 通过种子页面或站点(Seed),获取更多的链接,将它们作为下一步种子,循环 • 这个过程一般永远不会结束

  25. 信息采集的基本结构

  26. 采集的遍历算法 • 宽度优先vs. 深度优先 • 宽度优先:先采集完同一层的网页,再采集下一层网页 • 深度优先:先沿一条路径采到叶节点,再从同层其他路径进行采集 • 有研究表明:宽度优先的方法得到的网页集合的重要性更好 • 网站采集vs. 全局URL采集 • 网站采集:一个网站一个网站采集 • 全局URL采集:将所有URL放入一个URL池,从中使用某种方法进行选择 • 网站采集在支持应用方面灵活性大一些,但是采集效率可能不如全局URL采集,通常的搜索引擎采用全局URL采集的方法

  27. 采集网页的更新策略 • 定期重采 • 一段时间以后重新采集所有网页,全部采完以后替换原来的网页 • 增量采集 • 只按照某种策略采集那些可能新增、变化的网页,并删除那些已经不存在的网页 • 定期重采非常简单,但是浪费带宽,周期也长;增量采集可以节省带宽,网页更新周期相对较短,但是系统的复杂性增大

  28. 采集网页的速度保证措施 • 本地DNS解析 • 多机分布式并行 • 局域网联接多机进行采集并行 • 广域网分布式采集 • 单机多程序并行 • 多进程并行 • 多线程并行

  29. 采集网页的质量保证措施 • 减少重复页面的采集 • URL重复的检测和排除 • 内容重复的检测和排除 • 保证重要页面的高优先级 • 入度高的网页相对重要 • URL浅的网页相对重要 • 含有被别人广泛映像的内容的网页重要

  30. 采集中的行为问题 • 遵守网站上发布的Robot.txt采集限制协议 • 采集时尽量不要太过密集地采集某个网站,这种密集访问类似于DoS攻击,导致普通用户正常浏览网站产生困难。有些网站会严密控制这种密集访问行为

  31. 信息采集的研究趋势 • 高速、高质量的信息采集 • 个性化信息采集 • 只采集符合用户的兴趣的数据 • 基于主题的信息采集 • 采集某个领域的数据 • 信息的采集及抽取 • 采集后提取结构化信息

  32. 信息分析 • 对原始数据的预处理 • 格式分析与转换(html/xml/doc/pdf/rtf) • 语种识别、编码识别与转换(GB/BIG5/Unicode) • 噪声数据的清洗 • 冗余数据的处理 • 信息分类&聚类

  33. 分类/聚类基本概念 • 分类/聚类是大自然的固有现象:物以类聚、人以群分 • 相似的对象往往聚集在一起 • 相对不相似的对象往往分开

  34. 关于分类 • 简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label) • 男/女、老人/青年

  35. 分类无处不在 • 性别、籍贯、民族、学历、年龄等等,我们每个人身上贴满了“标签” • 我们从孩提开始就具有分类能力:爸爸、妈妈;好阿姨、坏阿姨;电影中的好人、坏人等等

  36. 思考题 • 从如下叙述中找出“标签” • 你以为我穷,不好看,就没有感情吗?我也会有的。如果上帝赋予我财富和美貌,我一定要让你难于离开我,就像我现在难于离开你。上帝没有这样,我们的精神是同等的,就如同你跟我经过坟墓,将同样地站在在上帝面前

  37. 关于聚类 • 简单地说,聚类是指事先没有“标签”而通过某种成团的分析,找出事物之间存在聚集性原因的过程 • 在一个自习教室,往往发现大家三三两两扎推地坐,经过打听,总能找出扎堆的原因 • 事先不知道“标签”,根据对象之间的相似情况进行成团分析后,加上“标签”的过程

  38. 信息处理中分类和聚类的原因 • 分类/聚类的根本原因就是因为对象数目太多,处理困难 • 一些信息处理部门,一个工作人员一天要看上千份信息 • 分门别类将会大大减少处理难度,提高处理效率和效果

  39. 分类/聚类的过程 • 对对象进行表示 • 表示方法 • 特征选择 • 根据某种算法进行相似度计算 • 相似度计算方法 • 分类/聚类方法

  40. 文本分类的定义 • Text Categorization/Classification • 事先给定分类体系和训练样例(标注好类别信息的文本),将文本分到某个或者某几个类别中 • 计算机自动分类,就是根据已经标注好类别信息的训练集合进行学习,将学习到的规律用于新样本(也叫测试样本)的类别判定 • 分类是有监督/指导学习(Supervised Learning)的一种

  41. 文本分类的模式 • 从类别数目来分 • 2类(binary)问题,类别体系由两个互补类构成,一篇文本属于或不属于某一类 • 多类(multi-class)问题,类别体系由三个或者以上的类别构成,一篇文本可以属于某一个或者多个类别,通常可以通过拆分成多个2类问题来实现,也有直接面对多类问题的分类方法 • 从是否兼类看分 • 单标签(single label)问题:一个文本只属于一个类 • 多标签(multi-label)问题:一个文本可以属于多类,即出现兼类现象

  42. 分类体系 • 分类体系的构建标准可以是按照语义(如:政治、经济、军事…),也可以是按照其他标准(如:垃圾vs. 非垃圾;游戏网站vs. 非游戏网站),完全取决于目标应用的需求 • 分类体系一般由人工构造,可以是层次结构 • Reuters语料分类体系、中图分类、Yahoo分类目录 • 对于计算机而言,分类体系就是一棵目录树,训练样例文本就是最后的叶子节点。而且对于计算机处理而言,只需要训练样例文本及其对应类别信息,整个过程通常并不会考虑类别标签的意义。也就是说:几篇文档合在一起表示某个类别

  43. 分类的应用 • 垃圾邮件的判定 • 类别{spam, not-spam} • 新闻出版按照栏目分类 • 类别{政治,体育,军事,…} • 词性标注 • 类别{名词,动词,形容词,…} • 词义排歧 • 类别{词义1,词义2,…} • 计算机论文的领域 • 类别ACM system • H: information systems • H.3: information retrieval and storage

  44. 文本分类——人工方法和自动方法 • 人工方法:人工总结规则 • 优点 • 结果容易理解:如足球and 联赛􀃆体育类 • 缺点 • 费时费力 • 难以保证一致性和准确性(40%左右的准确率) • 专家有时候凭空想象,没有基于真实语料的分布 • 代表方法:人们曾经通过知识工程的方法建立专家系统(80年代末期)用于分类 • 自动的方法(学习):从训练语料中学习规则 • 优点 • 快速 • 准确率相对高(准确率可达60%或者更高) • 来源于真实文本,可信度高 • 缺点 • 结果可能不易理解(比如有时是一个复杂的数学表达式)

  45. 文本分类——规则方法和统计方法 • 规则方法通过得到某些规则来指导分类,而这些规则往往是人可以理解的 • 统计方法通过计算得到一些数学表达式来指导分类 • 规则方法和统计方法没有本质的区别,它们都是想得到某种规律性的东西来指导分类,统计方法得到的数学表达式可以认为是某种隐式规则 • 在目前的文本分类当中,统计方法占据了主流地位

  46. 文本分类的过程(1) • 两个步骤: • 训练(training) • 即从训练样本中学习分类的规律 • 测试(test或分类classification) • 根据学习到的规律对新来的文本进行类别判定 • 文本表示(text representation) • 不管是训练还是测试,都要先分析出文本的某些特征(feature,也称为标引项term),然后把文本变成这些特征的某种适宜处理的表示形式,通常都采用向量表示形式或者直接使用某些统计量

  47. 文本分类的过程(2)

  48. 特征抽取(Feature Extraction) • 预处理 • 去掉html一些tag标记 • 禁用词(stop words)去除、词根还原(stemming) • (中文)分词、词性标注、短语识别、… • 标引项频率统计 • TFi,j: 特征i在文档j中出现次数,标引项频率(Term Frequency) • DFi: 所有文档集合中出现特征i的文档数目,文档频率(Document Frequency) • 数据清洗:去掉不合适的噪声文档或文档内垃圾数据 • 文本表示 • 向量空间模型 • 降维技术 • 特征选择(Feature Selection) • 特征重构(Re-parameterisation,如LSI)

  49. 文本表示 • 向量空间模型(Vector Space Model,VSM) • m个无序标引项ti(特征),可以采用词根/词/短语/其他等单位 • n个训练文档 • 每个文档dj可以用标引项向量(每个aij是权重)来表示 • (a1j,a2j,…,amj) • 通过向量的距离可以计算文档之间的相似度(分类的主要计算目标就是度量两篇文档之间的距离)

  50. 文本表示 • 文档-标引项矩阵(Doc-Term Matrix) • 文档之间的相似度计算

More Related