• 810 likes • 1.01k Views
现代信息检索. 陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org/xdxxjs.htm. 一、 引言. 课程概况 研究历史和现状 学科框架 基本概念. 1. 课程概况 (About the course). 设课目的 市场发展的需求 用户需要信息检索技术 互联网的信息量太大,寻找信息非常不容易 公司需要信息检索技术
E N D
现代信息检索 陆铭 66134922 richard.lu@shu.edu.cn mingler.ccshu.org/xdxxjs.htm
一、 引言 课程概况 研究历史和现状 学科框架 基本概念
1. 课程概况(About the course) • 设课目的 • 市场发展的需求 • 用户需要信息检索技术 • 互联网的信息量太大,寻找信息非常不容易 • 公司需要信息检索技术 • 信息检索技术可以创造利润,搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu都加入到搜索技术的竞争 • 人才的竞争 • 搜索的技术人才出现缺口 • 2000年的网络和现在的互联网有什么不同,搜索引擎在其中占什么位置?
网络爆炸 • 9.6 million web servers as of Dec 1999 • 72.4 million web sites as of Jan 2000 • 275 million people online as of Mar 2000 • 800 million publicly indexable pages • 180 million images • 30% web pages are copied or mirrored • 1 billion hyperlinks
网络信息资源的挑战 • 数量巨大 • No single search engine indexes more than 16% of web sites • All search engines combined covering only 42% • 极端异质 • Variable information value • Variable length • Often containing grammatical mistakes • Content may be outdated, false, or unreliable • Multiple data formats • Multiple languages and alphabets • 速度问题 • 15,000 ~ 20,000 search queries requested per minute
Internet 利用量 • Internet 用户 • 2002年 3000万 • 2012年 24亿 • 2013年 移动用户 70亿 • Internet 流量 • 每 70 天翻一番 • 电子商务 • 2002年1.3 万亿美元 • 2011年全球40.6万亿美元 • 2013年全球移动支付 2.45亿美元
数字化信息量举例 • 音乐作品(莫扎特):约100MB • 报纸(华尔街杂志):100MB/年(文本) • 卡片目录(美国国会图书馆):17GB • 广播(WABC) :270GB/年(未经压缩) • 网络论坛(Netnews):300GB/年 • 地区图书馆(加州大学图书馆):1.4TB(图书扫描版) • Internet出版(WWW):1997年约4TB • 电视(CNN新闻):1GB/1小时, 6TB/年(经压缩) • 录像带出租(Blockbuster Video):9TB • 科研图书馆(美国会图书馆):全部图书馆数字化20TB • 来源:美国伯克利加州大学教授Peter Lyman和Alex Internet公司总裁Brewster Kahle所著《文化制品数字化存档行动纲要》
信息检索的问题 • 信息超载 • 信息太多, 需要过滤 • 检索结果垃圾太多, • 有害信息太多 • 查找非结构信息有困难 • 多数数据库在结构化字段上工作 • 多数商业信息是非结构化的. • 报告、电子邮件、来往公函 ... • 美国商业每年产生4500亿份文件 • 波音747文件比飞机重量还重 • 标引是主观的 • 标引者之间不一致, 经验统计表明标引者之间仅20% 相同 • 作者与标引者之间、检索者与用户之间不一致
信息检索的问题 • 语言问题 • 一词多意 • Bank: a river boundary or a savings and loans? • DNA: microbiology or Digital Equipment Corporation’s Network Architecture? • Free Rider: Economic game theory or urban transportation systems? • 一意多词 • car, automobile, vehicle, sedan, horseless carriage...
1. 课程概况(About the course) 课程性质 图书馆学研究生的学位课程 课程内容 本课程的教学目的是培养学生了解信息检索工具的基本原理和技术,使学生能够进行较深层的研究或应用开发 本课程不是一门讲授使用信息检索方法的课程,本课程是研究信息检索的技术实现的一门基础课程
1. 课程概况——课程内容体系 • 引言 • 课程概况,研究历史和现状,学科框架,相关概念 • 检索理论 • IR模型的形式化表示和类型,经典模型 • 检索语言,互操作,自然语言、本体论 • 文本检索 • 经典、现代文本处理和全文文本处理,分类和聚合 • 网络检索 • 网络检索、 PageRank和HITS算法 • 信息自动处理和系统评价 • 可视化、自动文摘、评价 • 多媒体检索 • 模型与语言,标引与检索,并行于分布式检索 • 数字图书馆 • OPAC,文献模型、表达与存取,元数据检索
1. 课程概况(About the course) 授课方式 自学与课堂讨论相结合 课堂讲述和课后练习相结合 讲授内容既包含传统内容,也注意吸收最新研究成果 既考虑入门,也兼顾研究 考核方式 课程论文 按发表要求写作,课程结束,论文录用 成绩构成 平时成绩:讨论与1篇小论文,30% 考试:1篇课程论文(约5000字),70%
1. 课程概况——参考书籍及文献 • Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 • 王知津等译. 现代信息检索技术.机械工业出版社,2005 • 苏新宁. 信息检索理论与技术. 科学技术文献出版社,2004 • 孙建军 成颖等. 信息检索技术. 科学出版社, 2004 • 焦玉英.信息检索进展,科学出版社,2003 • 谢新洲,滕跃.科技查新手册.科技文献出版社,2004
1. 课程概况——参考书籍及文献 • 第一章 引言 • 吴慰慈. 网络环境下信息存储与检索技术的发展.四川图书馆学报,2003,(01) • 王知津; 李明珍.十年来我国信息检索研究述评.现代图书情报技术,2004,(12) • 焦玉英. 网络环境中信息检索理论与实践的发展.图书情报知识,2001,(01)
一些重要的工具 • Lemur:包含各种IR模型的实验平台,C++ • SMART:向量空间模型工具, C编写 • Weka:分类工具,Java编写 • Lucene:开源检索工具,各种语言编写的版本 • Larbin:采集工具,C++ • Firtex:检索平台,C++,计算所开发
2. 研究历史和现状 • 历史分段: 计算机出现以前 计算机出现以后Internet出现以后
2. 研究历史和现状——计算机出现以前 • 约4000年前,人类就开始有目的地组织信息,一个典型的例子就是图书中的目录。 • 随后,逐渐出现索引的概念,即从一些词和概念指向相关信息或者文档的“指针”。 • 计算机问世以前,人们主要通过手工方式来建立索引。
2. 研究历史和现状 ——计算机出现以后 • 1948年C. N. Mooers在其MIT硕士论文中第一次使用了“Information Retrieval”这个术语。 • 1960-70年代在建立文摘检索系统中,产生了布尔模型(Boolean Model)、向量空间模型(Vector Space Model)和概率检索模型(Probabilistic Model) • 1980年代出现商用数据库检索系统:Dialog,ORBIT, MEDLINE
2. 研究历史和现状——Internet出现以后 • 1986年Internet正式形成。 • 1990’s第一个网络搜索工具:1990年加拿大蒙特利尔大学开发的FTP搜索工具Archie。 • 第一个WEB搜索引擎: • 1994年美国CMU开发的Lycos。 • 1995斯坦福大学博士生开发Yahoo。 • 1998斯坦福大学博士生开发的Google,提出PageRank计算公式。 • 1998年基于语言模型的IR模型提出。
2. 研究历史和现状 • 1990年代的其他重要事件:推荐系统的出现:Ringo,Amazon,NetPerceptions文本分类和聚类的使用:信息抽取:Whizbang
2. 研究历史和现状 • 2000’s的重要事件文本检索会议TREC(Text Retrieval Conference )的发展问答系统评测专项Q/A track(Question Answering Track)2001年,百度成立。
2. 研究历史和现状 • 2000’s以来的其他重要事件:多媒体IR,Image,Video,Audio and music,跨语言IR,DARPA Tides,文本摘要,DUC评测
2. 研究历史和现状 • 国际著名研究机构和代表人物—— • 康奈尔大学的Salton领导的研究小组是该领域研究的佼佼者。伦敦城市大学的Robertson及剑桥大学的SparckJones是概率模型的倡导者。 • 美国W. B. Croft,ACM Fellow:基于统计语言建模IR模型的提出者和倡导者和CMU共同开发了Lemur工具
2. 研究历史和现状 • 1990年代的其他重要事件:评测会议NIST:机器翻译自动评测指标 文本检索会议TREC(Text Retrieval Conference )
2. 国际著名研究机构和代表人物 • 美国康奈尔大学Salton(1927-1995) • 现代信息检索的奠基人 • SMART的完成人 • 第一任Salton奖得主,ACM Fellow • 英国剑桥大学SparckJones (1935-2007) • 概率检索模型的提出者之一 • NLP和IR中的先辈 • 曾获ACL终身成就奖和Salton奖
2. 国际著名研究机构和代表人物 • 美国UMassCIIR W. B. Croft,ACM Fellow • 基于统计语言建模IR模型的提出者和倡导者 • 和CMU共同开发了Lemur工具 • Salton奖得主 • 英国Glasgow大学Rijsbergen,ACM Fellow • 信息检索逻辑推理学派的提出者和倡导者 • 现在试图用量子物理的方法解决IR问题 • Salton奖得主 • 英国微软剑桥研究院、伦敦城市大学Robertson • 概率检索模型的倡导者 • 开发了OKAPI • Salton奖得主
2. 国际著名研究机构和代表人物 • 美国CMU • 美国UIUC • 微软研究院 • IBM研究院 • Google研究院
2. 一些活跃的华裔学者 • 加拿大蒙特利尔大学聂建云教授 • 跨语言检索 • IR模型 • 美国UIUC ChengxiangZhai博士 • IR模型 • 美国CMU YimingYang教授 • 文本分类 • 台湾中研院简立峰 • 号称“中文搜索”第一人 • 加入Google研究院
2. 研究历史和现状 • 国内一些活跃的研究机构—— • 软件端 • 北京大学,复旦大学,清华大学,哈尔滨工业大学,中科院计算所,中科院软件所,中科院自动化所 • 应用端 • 武汉大学,南京大学,北京大学
2. 研究历史和现状 • 清华大学计算机科学与技术系 • 文本自动分类,自动文摘 • 陈群秀 • 复旦大学计算机系 • 文本过滤、音频视频检索 • 黄萱菁
2. 研究历史和现状 • 中国科学院计算技术研究所 • 文本自动分类 • 文本检索 • 知识网格 • 白硕 • 北京大学信息管理系 • 图像检索 • 文本检索 • 赖茂生,黄崑,马张华
2. 一些重要的会议 • 国际会议: • SIGIR、ACL、WWW、SIGKDD • CIKM、ICML • TREC • AIRS • 国内会议: • 全国信息检索及内容安全学术会议(2年一届) • 全国计算语言学联合会议(2年一届)
2. 一些重要的期刊 • 国际 • ACM Transactions on Information Systems(TOIS) • ACM Transactions on Asian Language Information Processing(TALIP) • Information Processing & Management(IP&M) • Information Retrieval • 国内 • 中文信息学报 • 情报学报
知识发现 开发各种软件系统,揭示数据库中不同领域知识的联系和问题的答案,找出知识发现的新途径。 语义网研究 ——这方面的研究项目有 面向自然语言处理的语法, 语义计算机模式的研究, 潜在的语义索引, 复合词的分析模型研究, 自动构成多语种词库, 存取多语种信息, 用户自适应集合分类法研究, 知识共生现象研究, 网络知识搜寻代理等 2. 研究历史和现状— 研究前沿
2. 研究历史和现状— 研究前沿 • 信息检索技术 • 前沿课题包括:元数据技术、语料库技术、海量信息存储与压缩技术、信息可视化技术、图像检索技术、人机界面技术、多语言浏览器、跨语言信息检索、自然语言理解、人工智能、大规模真实文本评测、自动抽词、自动标引、自动分类、自动文摘、概念分类(Ontology)、“云”检索、信息安全和保护技术等。 • 当前要着重内容和知识开发利用的新技术和新应用的研究和探索,以及实现这些技术和应用不可或缺的基础研究、基础建设和标准规范的采用。
3. 学科体系和相关研究领域—内涵 • 信息检索基础理论 • 标引理论 • 检索语言,词频统计,引文分析 • 检索模型 • 集合论,布尔代数,模糊数学 • 检索结果的可视化
3. 学科体系和相关研究领域—内涵 • 检索模型 • 布尔模型 • 基于集合论和布尔代数,适用于普通用户,核心是二值相关,不能进行相关性排序 • 向量空间模型 • 以向量表示提问和文档,向量计算在后台进行,与用户无关,优点是可以进行相关性排序,也可产生文档文摘 • 概率模型 • 基于贝叶斯概率论,更具有普遍性,适应多媒体、语义文档的检索,具有逻辑推理能力 • 以上模型在实践中,常常混合使用,以达到最佳效果
3. 学科体系和相关研究领域—内涵 • 信息处理与信息组织 • 自动标引 • 自动分类与聚类 • 自动摘要 • 视频音频信息索引 • 信息的组织
3. 学科体系和相关研究领域—内涵 • 自动分类 • 研究历史 • 1964年以前,HP Luhn开创性工作,Maron第一篇论文,解决自动分类的可行性问题 • 1965-1974年,试验性研究阶段 • 1975~至今,实用化研究阶段 • 研究内容:聚类,类号转换 • 自动文摘 • 语料库技术,词法分析,句法分析,信息抽取,评价
3. 学科体系和相关研究领域—内涵 • 查询扩展与优化 • 检索词选择方案,控制词表技术,整体与局部分析技术 • 检索相关性分析 • 内涵:主题相关---系统相关 用户相关---主观因素 • 实证:1955年 kent对查全率查准率的研究
信息检索技术与方法 布尔检索 加权检索 全文检索 超文本检索 信息检索技术与方法 多媒体检索 智能检索 跨语言检索 跨平台检索 3. 学科体系和相关研究领域—内涵
3. 学科体系和相关研究领域—内涵 • 信息可视化 • 一维信息的可视化(含有某种规律的一组数据,具有与相关性排列的检索结果) • 二维信息可视化(地理信息系统,图形方法表示的调查统计数据) • 三维信息可视化(将查全率、查准率检索速度等指标进行可视化排序)