现代信息检索

现代信息检索 陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org/xdxxjs.htm

一、引言 课程概况研究历史和现状学科框架基本概念

1. 课程概况(About the course) • 设课目的 • 市场发展的需求 • 用户需要信息检索技术 • 互联网的信息量太大，寻找信息非常不容易 • 公司需要信息检索技术 • 信息检索技术可以创造利润，搜索引擎改变了很多传统的生活方式，Yahoo、Google、Baidu，还有一些公司如Microsoft、Sina、Sohu都加入到搜索技术的竞争 • 人才的竞争 • 搜索的技术人才出现缺口 • 2000年的网络和现在的互联网有什么不同，搜索引擎在其中占什么位置？

网络爆炸 • 9.6 million web servers as of Dec 1999 • 72.4 million web sites as of Jan 2000 • 275 million people online as of Mar 2000 • 800 million publicly indexable pages • 180 million images • 30% web pages are copied or mirrored • 1 billion hyperlinks

网络信息资源的挑战 • 数量巨大 • No single search engine indexes more than 16% of web sites • All search engines combined covering only 42% • 极端异质 • Variable information value • Variable length • Often containing grammatical mistakes • Content may be outdated, false, or unreliable • Multiple data formats • Multiple languages and alphabets • 速度问题 • 15,000 ~ 20,000 search queries requested per minute

Internet 利用量 • Internet 用户 • 2002年 3000万 • 2012年 24亿 • 2013年移动用户 70亿 • Internet 流量 • 每 70 天翻一番 • 电子商务 • 2002年1.3 万亿美元 • 2011年全球40.6万亿美元 • 2013年全球移动支付 2.45亿美元

数字化信息量举例 • 音乐作品(莫扎特)：约100MB • 报纸(华尔街杂志)：100MB/年(文本) • 卡片目录(美国国会图书馆)：17GB • 广播(WABC) ：270GB/年(未经压缩) • 网络论坛(Netnews)：300GB/年 • 地区图书馆(加州大学图书馆)：1.4TB(图书扫描版) • Internet出版(WWW)：1997年约4TB • 电视(CNN新闻)：1GB/1小时, 6TB/年(经压缩) • 录像带出租(Blockbuster Video)：9TB • 科研图书馆(美国会图书馆)：全部图书馆数字化20TB • 来源：美国伯克利加州大学教授Peter Lyman和Alex Internet公司总裁Brewster Kahle所著《文化制品数字化存档行动纲要》

信息检索的问题 • 信息超载 • 信息太多, 需要过滤 • 检索结果垃圾太多, • 有害信息太多 • 查找非结构信息有困难 • 多数数据库在结构化字段上工作 • 多数商业信息是非结构化的. • 报告、电子邮件、来往公函 ... • 美国商业每年产生4500亿份文件 • 波音747文件比飞机重量还重 • 标引是主观的 • 标引者之间不一致, 经验统计表明标引者之间仅20% 相同 • 作者与标引者之间、检索者与用户之间不一致

信息检索的问题 • 语言问题 • 一词多意 • Bank: a river boundary or a savings and loans? • DNA: microbiology or Digital Equipment Corporation’s Network Architecture? • Free Rider: Economic game theory or urban transportation systems? • 一意多词 • car, automobile, vehicle, sedan, horseless carriage...

1. 课程概况(About the course) 课程性质图书馆学研究生的学位课程课程内容本课程的教学目的是培养学生了解信息检索工具的基本原理和技术，使学生能够进行较深层的研究或应用开发本课程不是一门讲授使用信息检索方法的课程，本课程是研究信息检索的技术实现的一门基础课程

1. 课程概况——课程内容体系 • 引言 • 课程概况，研究历史和现状，学科框架，相关概念 • 检索理论 • IR模型的形式化表示和类型，经典模型 • 检索语言，互操作，自然语言、本体论 • 文本检索 • 经典、现代文本处理和全文文本处理，分类和聚合 • 网络检索 • 网络检索、 PageRank和HITS算法 • 信息自动处理和系统评价 • 可视化、自动文摘、评价 • 多媒体检索 • 模型与语言，标引与检索，并行于分布式检索 • 数字图书馆 • OPAC，文献模型、表达与存取，元数据检索

1. 课程概况(About the course) 授课方式自学与课堂讨论相结合课堂讲述和课后练习相结合讲授内容既包含传统内容，也注意吸收最新研究成果既考虑入门，也兼顾研究考核方式课程论文按发表要求写作，课程结束，论文录用成绩构成平时成绩：讨论与1篇小论文，30% 考试：1篇课程论文（约5000字），70%

1. 课程概况——参考书籍及文献 • Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 • 王知津等译. 现代信息检索技术.机械工业出版社，2005 • 苏新宁. 信息检索理论与技术. 科学技术文献出版社，2004 • 孙建军成颖等. 信息检索技术. 科学出版社, 2004 • 焦玉英.信息检索进展，科学出版社，2003 • 谢新洲,滕跃.科技查新手册.科技文献出版社,2004

1. 课程概况——参考书籍及文献 • 第一章引言 • 吴慰慈. 网络环境下信息存储与检索技术的发展.四川图书馆学报,2003,(01) • 王知津; 李明珍.十年来我国信息检索研究述评.现代图书情报技术,2004,(12) • 焦玉英. 网络环境中信息检索理论与实践的发展.图书情报知识,2001,(01)

一些重要的工具 • Lemur：包含各种IR模型的实验平台，C++ • SMART：向量空间模型工具, C编写 • Weka：分类工具，Java编写 • Lucene：开源检索工具，各种语言编写的版本 • Larbin：采集工具，C++ • Firtex：检索平台，C++，计算所开发

2. 研究历史和现状 • 历史分段：计算机出现以前计算机出现以后Internet出现以后

2. 研究历史和现状——计算机出现以前 • 约4000年前，人类就开始有目的地组织信息，一个典型的例子就是图书中的目录。 • 随后，逐渐出现索引的概念，即从一些词和概念指向相关信息或者文档的“指针”。 • 计算机问世以前，人们主要通过手工方式来建立索引。

2. 研究历史和现状 ——计算机出现以后 • 1948年C. N. Mooers在其MIT硕士论文中第一次使用了“Information Retrieval”这个术语。 • 1960－70年代在建立文摘检索系统中，产生了布尔模型(Boolean Model)、向量空间模型(Vector Space Model)和概率检索模型(Probabilistic Model) • 1980年代出现商用数据库检索系统：Dialog，ORBIT, MEDLINE

2. 研究历史和现状——Internet出现以后 • 1986年Internet正式形成。 • 1990’s第一个网络搜索工具：1990年加拿大蒙特利尔大学开发的FTP搜索工具Archie。 • 第一个WEB搜索引擎： • 1994年美国CMU开发的Lycos。 • 1995斯坦福大学博士生开发Yahoo。 • 1998斯坦福大学博士生开发的Google，提出PageRank计算公式。 • 1998年基于语言模型的IR模型提出。

2. 研究历史和现状 • 1990年代的其他重要事件:推荐系统的出现：Ringo，Amazon，NetPerceptions文本分类和聚类的使用：信息抽取：Whizbang

2. 研究历史和现状 • 2000’s的重要事件文本检索会议TREC(Text Retrieval Conference )的发展问答系统评测专项Q/A track(Question Answering Track)2001年，百度成立。

2. 研究历史和现状 • 2000’s以来的其他重要事件：多媒体IR，Image，Video，Audio and music，跨语言IR，DARPA Tides，文本摘要，DUC评测

2. 研究历史和现状 • 国际著名研究机构和代表人物—— • 康奈尔大学的Salton领导的研究小组是该领域研究的佼佼者。伦敦城市大学的Robertson及剑桥大学的SparckJones是概率模型的倡导者。 • 美国W. B. Croft，ACM Fellow：基于统计语言建模IR模型的提出者和倡导者和CMU共同开发了Lemur工具

2. 研究历史和现状 • 1990年代的其他重要事件:评测会议NIST:机器翻译自动评测指标文本检索会议TREC(Text Retrieval Conference )

2. 国际著名研究机构和代表人物 • 美国康奈尔大学Salton(1927-1995) • 现代信息检索的奠基人 • SMART的完成人 • 第一任Salton奖得主，ACM Fellow • 英国剑桥大学SparckJones (1935-2007) • 概率检索模型的提出者之一 • NLP和IR中的先辈 • 曾获ACL终身成就奖和Salton奖

2. 国际著名研究机构和代表人物 • 美国UMassCIIR W. B. Croft，ACM Fellow • 基于统计语言建模IR模型的提出者和倡导者 • 和CMU共同开发了Lemur工具 • Salton奖得主 • 英国Glasgow大学Rijsbergen，ACM Fellow • 信息检索逻辑推理学派的提出者和倡导者 • 现在试图用量子物理的方法解决IR问题 • Salton奖得主 • 英国微软剑桥研究院、伦敦城市大学Robertson • 概率检索模型的倡导者 • 开发了OKAPI • Salton奖得主

2. 国际著名研究机构和代表人物 • 美国CMU • 美国UIUC • 微软研究院 • IBM研究院 • Google研究院

2. 一些活跃的华裔学者 • 加拿大蒙特利尔大学聂建云教授 • 跨语言检索 • IR模型 • 美国UIUC ChengxiangZhai博士 • IR模型 • 美国CMU YimingYang教授 • 文本分类 • 台湾中研院简立峰 • 号称“中文搜索”第一人 • 加入Google研究院

2. 研究历史和现状 • 国内一些活跃的研究机构—— • 软件端 • 北京大学，复旦大学，清华大学，哈尔滨工业大学，中科院计算所，中科院软件所，中科院自动化所 • 应用端 • 武汉大学，南京大学，北京大学

2. 研究历史和现状—国内2000～，CNKI

2. 研究历史和现状—2000～，关键字

2. 研究历史和现状—2000～，发表年份

2. 研究历史和现状 • 清华大学计算机科学与技术系 • 文本自动分类，自动文摘 • 陈群秀 • 复旦大学计算机系 • 文本过滤、音频视频检索 • 黄萱菁

2. 研究历史和现状 • 中国科学院计算技术研究所 • 文本自动分类 • 文本检索 • 知识网格 • 白硕 • 北京大学信息管理系 • 图像检索 • 文本检索 • 赖茂生，黄崑，马张华

2. 一些重要的会议 • 国际会议： • SIGIR、ACL、WWW、SIGKDD • CIKM、ICML • TREC • AIRS • 国内会议： • 全国信息检索及内容安全学术会议(2年一届) • 全国计算语言学联合会议(2年一届)

2. 一些重要的期刊 • 国际 • ACM Transactions on Information Systems(TOIS) • ACM Transactions on Asian Language Information Processing(TALIP) • Information Processing & Management(IP&M) • Information Retrieval • 国内 • 中文信息学报 • 情报学报

知识发现 开发各种软件系统，揭示数据库中不同领域知识的联系和问题的答案，找出知识发现的新途径。语义网研究 ——这方面的研究项目有面向自然语言处理的语法，语义计算机模式的研究，潜在的语义索引，复合词的分析模型研究，自动构成多语种词库，存取多语种信息，用户自适应集合分类法研究，知识共生现象研究，网络知识搜寻代理等 2. 研究历史和现状— 研究前沿

2. 研究历史和现状— 研究前沿 • 信息检索技术 • 前沿课题包括：元数据技术、语料库技术、海量信息存储与压缩技术、信息可视化技术、图像检索技术、人机界面技术、多语言浏览器、跨语言信息检索、自然语言理解、人工智能、大规模真实文本评测、自动抽词、自动标引、自动分类、自动文摘、概念分类（Ontology）、“云”检索、信息安全和保护技术等。 • 当前要着重内容和知识开发利用的新技术和新应用的研究和探索，以及实现这些技术和应用不可或缺的基础研究、基础建设和标准规范的采用。

3. 学科体系和相关研究领域—内涵 • 信息检索基础理论 • 标引理论 • 检索语言，词频统计，引文分析 • 检索模型 • 集合论，布尔代数，模糊数学 • 检索结果的可视化

3. 学科体系和相关研究领域—内涵 • 检索模型 • 布尔模型 • 基于集合论和布尔代数，适用于普通用户，核心是二值相关，不能进行相关性排序 • 向量空间模型 • 以向量表示提问和文档，向量计算在后台进行，与用户无关，优点是可以进行相关性排序，也可产生文档文摘 • 概率模型 • 基于贝叶斯概率论，更具有普遍性，适应多媒体、语义文档的检索，具有逻辑推理能力 • 以上模型在实践中，常常混合使用，以达到最佳效果

3. 学科体系和相关研究领域—内涵 • 信息处理与信息组织 • 自动标引 • 自动分类与聚类 • 自动摘要 • 视频音频信息索引 • 信息的组织

3. 学科体系和相关研究领域—内涵 • 自动分类 • 研究历史 • 1964年以前，HP Luhn开创性工作，Maron第一篇论文，解决自动分类的可行性问题 • 1965-1974年，试验性研究阶段 • 1975～至今，实用化研究阶段 • 研究内容：聚类，类号转换 • 自动文摘 • 语料库技术，词法分析，句法分析，信息抽取，评价

3. 学科体系和相关研究领域—内涵 • 查询扩展与优化 • 检索词选择方案，控制词表技术，整体与局部分析技术 • 检索相关性分析 • 内涵：主题相关---系统相关用户相关---主观因素 • 实证：1955年 kent对查全率查准率的研究

信息检索技术与方法 布尔检索加权检索全文检索超文本检索信息检索技术与方法多媒体检索智能检索跨语言检索跨平台检索 3. 学科体系和相关研究领域—内涵

3. 学科体系和相关研究领域—内涵 • 信息可视化 • 一维信息的可视化(含有某种规律的一组数据，具有与相关性排列的检索结果) • 二维信息可视化(地理信息系统，图形方法表示的调查统计数据) • 三维信息可视化(将查全率、查准率检索速度等指标进行可视化排序)

Visual Thesaurus

Hyperbolic Tree

Aqua Browserhttp://aqua.queenslibrary.org/

X refer plus http://www.xreferplus.co.uk/

Dewey decimal system

现代信息检索

现代信息检索

Presentation Transcript