420 likes | 898 Views
现代信息检索 Modern Information Retrieval. 第○章 课程相关情况简介 (About the course) 授课人:王斌 wangbin@ict.ac.cn http://ir.ict.ac.cn/ircourse/ 2008 年 9 月. 最后更新日期: 2014/8/30. 为什么要开这门课?. 市场发展的需求. 用户需要信息检索技术:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易
E N D
现代信息检索Modern Information Retrieval 第○章 课程相关情况简介 (About the course) 授课人:王斌 wangbin@ict.ac.cn http://ir.ict.ac.cn/ircourse/ 2008年9月 中科院研究生院2008年度秋季课程 最后更新日期:2014/8/30
为什么要开这门课? 中科院研究生院2008年度秋季课程
市场发展的需求 • 用户需要信息检索技术:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易 • 公司需要信息检索技术:信息检索技术可以挣大钱,搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu、Tecent、Netease都加入到这个搜索技术的竞争。不只是搜索引擎才需要信息检索技术,电子商务(如亚马逊网站、阿里巴巴)、数字图书馆工程都需要信息检索技术 • 人才的竞争:搜索相关人才人数出现缺口,他们非常抢手,待遇如日中天 • 是不是泡沫:2000年左右出现的网络泡沫和现在的互联网有什么不同,搜索引擎在其中占什么位置? 中科院研究生院2008年度秋季课程
对计算机研究生的基本要求 • 目前国外已经开课多年,国内已经有些大学在本科阶段就开始上信息检索课,科学院研究生院要加大步伐跟进 • 信息检索将会成为一门计算机专业的基础学科 • 搜索的三个层次(个人观点) 中科院研究生院2008年度秋季课程
应用层次:搜索是一项非常重要的应用! 中科院研究生院2008年度秋季课程
中间层次:搜索是极其重要的API 中科院研究生院2008年度秋季课程
www.Googlefight.com 中科院研究生院2008年度秋季课程
介绍一本有趣的书! 中科院研究生院2008年度秋季课程
核心层次:搜索是未来操作系统的重要组成部分!核心层次:搜索是未来操作系统的重要组成部分! 中科院研究生院2008年度秋季课程
上了这门课你会学到…… 中科院研究生院2008年度秋季课程
信息检索的基本原理、模型和方法(含部分机器学习、自然语言处理方法)信息检索的基本原理、模型和方法(含部分机器学习、自然语言处理方法) • 信息检索系统的基本实现方法 • 如何进行(信息检索)研究 • 选题、查找文献、读论文、做实验、写论文、作报告、写申请书等等 中科院研究生院2008年度秋季课程
提纲 • 授课老师介绍 • 本课程内容介绍 • 考试安排 • 其他信息 中科院研究生院2008年度秋季课程
提纲 • 授课老师介绍 • 本课程内容介绍 • 考试安排 • 其他信息 中科院研究生院2008年度秋季课程
老师介绍(1) • 主讲老师:王斌,中科院计算所博士毕业,副研究员。现为中科院计算所前瞻研究实验室信息检索课题组负责人。先后从事和承担信息检索、自然语言处理相关的国家级研发项目10余项,发表相关论文100余篇。培养研究生16名。计算机学会高级会员,IEEE、中文信息学会会员,中文信息学会信息检索专委会委员,《中文信息学报》编委。 • http://ir.ict.ac.cn/~wangbin/ • wangbin@ict.ac.cn • 办公电话:62601350 中科院研究生院2008年度秋季课程
老师介绍(2) • 助教:蔡少婕,中科院研究生院信息学院媒体分析课题组3年级硕士研究生。 • sjcai@jdl.ac.cn 中科院研究生院2008年度秋季课程
提纲 • 授课老师介绍 • 本课程内容介绍 • 考试安排 • 其他信息 中科院研究生院2008年度秋季课程
本课程的特点 • 不是教学生学怎么使用信息检索工具(另有课程),而是了解信息检索工具背后的基本原理和技术,并且能够进行深层的研究或开发相关的应用。 • 基本原理+广泛实践 中科院研究生院2008年度秋季课程
授课内容简介 • 信息检索的基本概念 • 信息检索的评价 • 信息检索模型和算法 • 模型、相关反馈、查询扩展 • 文本处理技术 • 文本分类和聚类技术(倾向性分析) • 信息过滤技术 • 信息组织和索引 • 并行和分布式检索 • 信息检索的应用 • WEB检索 • 数字图书馆 • 多媒体检索 • 跨语言检索及问答式系统 中科院研究生院2008年度秋季课程
授课方案 • 课堂讲述和课后练习相结合 • 讲授内容既包含传统内容,也注意吸收最新研究成果 • 学术内容和业界进展相结合 • 既考虑一般学生普及入门的需求,也考虑相关专业学生更高的要求 • 尽量用简单而风趣的语言、形象而逼真的例子进行讲授 中科院研究生院2008年度秋季课程
提纲 • 授课老师介绍 • 本课程内容介绍 • 考试安排 • 其他信息 中科院研究生院2008年度秋季课程
考核方式 • 平时作业+期末考试(开卷) • 不定期考勤 5% • 若干小作业 15% • 1个大作业 20% • 1篇申请书 10% • 1篇读书报告 15% (顶级会议论文阅读) • 期末考试 35% 中科院研究生院2008年度秋季课程
2006年选课情况分析 • 来自13个不同培养单位的62名学生选择本课程,其中计算所25人、软件所13人、自动化所5人 • 计算机类专业有48人(占总数的77.4%),图书情报类专业学生有7人(占总数的11.3%),其他专业背景的学生7人(占总数的11.3%)。 中科院研究生院2008年度秋季课程
2006年考试结果分析 中科院研究生院2008年度秋季课程
2007年选课情况分析 • 来自12个单位的71人选择该课程,其中计算所30人、网络中心8人、院图7人、软件所和自动化所各6人、其他单位14人。 • 计算机类(计算机、自动化)专业58人(占总数的81.7%)、图书情报类专业9人(占总数的12.7%) 、其他专业(信号处理、数学等)4人 (占总数的5.6%) 中科院研究生院2008年度秋季课程
2007考试结果分析 中科院研究生院2008年度秋季课程
提纲 • 授课老师介绍 • 本课程内容介绍 • 考试安排 • 其他信息 中科院研究生院2008年度秋季课程
国际著名研究机构和代表人物 • 美国康奈尔大学 Salton (1927-1995) • 现代信息检索的奠基人 • SMART的完成人 • 第一任Salton奖得主,ACM Fellow • 英国剑桥大学 Sparck Jones (1935-2007) • 概率检索模型的提出者之一 • NLP和IR中的先辈 • 曾获ACL终身成就奖和Salton奖 中科院研究生院2008年度秋季课程
国际著名研究机构和代表人物 • 美国 UMass CIIR W. B. Croft,ACM Fellow • 基于统计语言建模IR模型的提出者和倡导者 • 和CMU共同开发了Lemur工具 • Salton奖得主 • 英国Glasgow大学 Rijsbergen, ACM Fellow • 信息检索逻辑推理学派的提出者和倡导者 • 现在试图用量子物理的方法解决IR问题 • Salton奖得主 • 英国微软剑桥研究院、伦敦城市大学 Robertson • 概率检索模型的倡导者 • 开发了OKAPI • Salton奖得主 中科院研究生院2008年度秋季课程
国际著名研究机构和代表人物 • 美国CMU • 美国UIUC • 微软研究院 • IBM研究院 • Google研究院 中科院研究生院2008年度秋季课程
一些活跃的华裔学者 • 加拿大蒙特利尔大学聂建云教授 • 跨语言检索 • IR模型 • 美国UIUC Chengxiang Zhai博士 • IR模型 • 美国CMU Yiming Yang教授 • 文本分类 中科院研究生院2008年度秋季课程
一些活跃的华裔学者 • 台湾中研院 简立峰 • 号称“中文搜索”第一人 • 加入Google研究院 中科院研究生院2008年度秋季课程
国内一些相关研究机构 • 北京大学 • 复旦大学 • 清华大学 • 哈尔滨工业大学 • 中科院计算所 • 中科院软件所 • 中科院自动化所 • …… 中科院研究生院2008年度秋季课程
重要会议 • 国际会议(COLING2010、SIGIR2011将在北京举行): • SIGIR、ACL、WWW、SIGKDD、WSDM、ICML • CIKM、EMNLP、COLING • TREC • AIRS、ECIR • 国内会议: • 全国信息检索及内容安全学术会议(2年一届,今年11月中旬在北京西郊宾馆举行) • 全国计算语言学联合会议(2年一届) • 搜索引擎和WEB挖掘学术会议(2年一届) 中科院研究生院2008年度秋季课程
重要期刊 • 国际: • ACM Transactions on Information Systems (TOIS) • ACM Transactions on Asian Language Information Processing (TALIP) • Information Processing & Management (IP&M) • Information Retrieval • 国内 • 中文信息学报 • 情报学报 中科院研究生院2008年度秋季课程
重要工具 • Lemur:包含各种IR模型的实验平台,C++ • SMART:向量空间模型工具, C编写 • Weka:分类工具,Java编写 • Lucene:开源检索工具,各种语言编写的版本 • Larbin:采集工具,C++ • Firtex:检索平台,C++,计算所开发 中科院研究生院2008年度秋季课程
课程网站和邮件列表 • 外部网站:http://ir.ict.ac.cn/ircourse/ • 网站上有邮件列表加入方法 • 研究生院课程主页:http://elearning.gucas.ac.cn/ 中科院研究生院2008年度秋季课程
参考书籍及文献 • Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 (国内有机械工业出版社出版的影印版和中文翻译版) • 李国辉等著,信息的组织与检索,科学出版社,2003年 • Witten, Ian et al. Managing Gigabytes. Orlando, FL: Morgan Kaufmann Publishers Incorporated, 1999 • William Frakes & Ricardo Baeza-Yates, Information Retrieval Data Structures and Algorithms. PrenticeHall, 1992 • Karen Sparck Jones & Peter Willet eds. Readings in Information Retrieval, Morgan Kaufmann, 1997 • SIGIR/WWW/SIKDD/TREC/CIKM/ Proceedings • Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press (to appear in 2008) , 2007 Cambridge University Press. Electronic version can be downloaded from http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html 中科院研究生院2008年度秋季课程
The end 中科院研究生院2008年度秋季课程