E N D
导 言 一、文献检索是一门既古老又年轻的学科 约4000年前,人类就开始有目的地组织信息,一个典型的例子就是图书中的目录。 随后,逐渐出现索引的概念,即从一些词和概念指向相关信息或者文档的指针。 到了1948年,C. N. Mooers在其MIT的硕士论文中第一次创造了“Information Retrieval”这个术语。
文献检索是一门既古老又年轻的学科 信息检索发端于19世纪前期,主要以手工检索方式为主,其发展速度较为缓慢,检索效率普遍不高。到20世纪50年代,1951年世界上出现了最早的计算机系统,这可称得上是信息检索发展史上的一个里程碑。随着计算机技术的不断进步,进入 20世纪90年代,网络技术开始进入社会生活各个领域,计算机检索也逐步由脱机检索、联机检索发展到如今Internet环境下网络检索。
二、网络信息检索是文献检索面对的新课题 网络检索以其低廉的费用、迅速的存取等多种功能对传统的检索造成了强力的冲击,与此同时,一些新的理论、新的课题也应运而生,加速了现代情报学和信息学的发展。 网络信息检索是指对利用Internet信息发布技术,通过Internet发布的信息进行的检索,主要利用搜索引擎、网络机器人和门户站点等来完成。随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,其信息数量之大、类型之多,已经给人们的工作、学习和生活方式带来了巨大影响。
网络信息检索是文献检索面对的新课题 为了充分发挥网络信息的重要作用,并能迅速在上百万个网站中快速有效地查找到想要得到的信息,必须对网络检索的特性进行研究分析,并掌握网络信息资源的特点、基本方法和检索技巧与检索工具等重要内容。
信息检索意义 ◆当今的社会没有一门学科对人一辈子有用,最重要的是学会如何学习的方法。 ◆二十一世纪能力素质 *基本学习技能(指读、写、算) *信息素养 *创新思维能力 *人际交往与合作精神 *实践能力
信息素养(Information Literacy)能够认识到何时需要信息、查找、评价和有效利用所需信息的一系列能力。主要包括四个方面: • 信息意识 即人的信息敏感程度。面对不懂的东西,能积极主动地去寻找答案,并知道到哪里、用什么方法去寻求答案。 • 信息知识 既是信息科学技术的理论基础,又是学习信息技术的基本要求。 • 信息能力 包括信息系统的基本操作能力,信息的采集、传输、加工处理和应用的能力,以及对信息系统与信息进行评价的能力等。 • 信息道德 对媒体信息进行正确的判断和选择,合理、合法地检索、搜集和利用信息。
信息检索作用 • 应用信息的能力 • 提高信息素养 • 遇到问题本能地去求助信息 • 成为会终身学习的人
学习本课程能解决的问题: • 问题1:我想到图书馆借一本高等数学习题集或者借几本小说,在偌大的书库中怎样找到我需要的书呢? • 问题2:我想报考某学校某位导师的研究生,想知道这个教授的研究方向和研究内容,需要阅读该教授近几年来发表的论文,怎样才能看到这些文章呢? • 问题3:我要写毕业论文了,需要参考一些外文资料,但这些外文资料该去哪儿找呢? • 问题4:我要考英语四六级,我想找一些历年的试题做做。到哪儿能获得这些资料呢?(最好是免费获取) • 问题5:我在从事某个科研课题的研究,需要全面掌握该课题国内外有关研究的背景与进展,从而保证研究成果的先进性、新颖性等,怎样才能有效获取相关信息? • 等等………
信息素养能力标准 • 美国在2000年批准的《高等教育信息素养能力标准》认为,一个具备信息素养的人应达到如下的标准: • 确定所需信息的范围; • 有效地获取所需的信息; • 鉴别信息及其来源; • 将检索出的信息融入自己的知识基础; • 有效地利用信息去完成一个具体任务; • 了解利用信息过程中所涉及的经济、法律和社会问题,合理、合法地检索、搜集和利用信息。
目 标 知道从哪里获取知识(在正确的地方使用正确的工具和正确的方法查找正确的内容) ◆能够确定所需信息的范围,鉴别信息及其来源,有效地获取所需的信息 ◆将获取的信息融入自己的知识体系 ◆有效地利用信息去完成一个具体的任务。提高信息素养,将信息获取作为终身学习的手段。
“文献检索课是不可多得的中国高校开展信息素质教育的一个重要基地。”“文献检索课是不可多得的中国高校开展信息素质教育的一个重要基地。” “文献检索课是我们研究和试验信息素质教育的一个重要平台。”
学习内容: 了解科技文献信息 认识文献信息:类型、特点 认识检索工具:构成原理、类型、特点 检索的原理、方法和途径 如何查找文献信息 常用数据库的介绍和使用 网上资源的查找 其它文献的查找
纲 要 1-2:绪论、信息检索原理方法、信息检索语言、计算机检索技术与方法 3:电子资源概述、网络搜索引擎 4-5: 中文数据库 6:外文数据库 7:其它文献、论文写作 8:考试
考核方式 1、考勤 10% 2、平时成绩 30% 3、期末考试 60%
参考教材 1、信息检索与利用/黄亚男主编.长沙:中南大学出版社,2009 2、信息检索与利用教程/彭奇志主编.北京:中国轻工业出版社,2006 3、科技信息检索/陈英主编.北京:科学出版社,2005 4、科技信息检索与网络应用/田红梅编著.北京:气象出版社
一 概述 1、信息(information) 从客观上看,信息是一切事物存在方式和运动规律的表征。从主观上看,信息是指人们对世界的认识所形成的知识、学问、消息,它们与人类的智能活动相关。 属性:普遍性 客观性 扩散与传递性 增值性 可存储性与压缩性 共享性
2、知识(knowledge) 人们对客观事物运动规律的认识,是经过人脑处理过的系统化了的信息。知识是人类经验和智慧的总结,是人们科学认识世界、改造世界的力量。 3、情报(intelligence) 指传递着的有特定效用的知识。是人们为了解决某个具体问题所需的知识信息。 基本属性:知识性、传递性、效用性
文献信息资源 将信息用文字、数据、图像、声频、视频等手段记录在特定的载体上。最主要的特征是文献信息资源拥有不依附于人的物质载体 。
现代文献信息资源的特点 1、数量急剧增长 目前全世界出版各种文献总量每年为一亿多册,平均每天出版文献三十多万件 2、内容交叉重复 3、文献分布散乱 4、文献更新周期缩短 使用寿命5-7年,各类文献的使用寿命不同
文献信息资源类型 不同划分标准可以划分出不同的文献信息资源类型 • 根据文献记录方式的不同,可以将现代的文献信息资源划分为:印刷型、声像型和电子型信息资源(数字信息资源)。 • 根据文献信息加工深度划分,可以分为:零次文献、一次文献、二次文献和三次文献。 • 根据出版形式划分的文献信息资源类型:图书、期刊、报纸、专利文献、标准文献、会议文献、学位论文、科技报告、档案文献和产品样本。
文献信息资源类型 • 根据文献记录方式的不同划分为:印刷型、声像型和电子型信息资源(数字信息资源)。 • 印刷型文献以纸张为载体以印刷为记录手段而存在的一种形式。 • 声像型文献是以磁性材料、光学材料为记录载体,利用专门的机械电子装置记录、显示声音和图象的文献。 • 电子型文献(数字型)是指以“0”、“1”数字代码方式将文字、图片、声音、动态图像等信息存贮在磁带、磁盘、光盘等介质上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端上。
文献信息资源类型 根据文献信息加工深度可以划分为:零次文献、一次文献、二次文献和三次文献。 • 零次文献是指非正式出版物或非正式渠道交流的文献,未公开于社会,只为个人或某一团体所用,如未经发表的名人手迹、会议记录、实验记录、设计草稿等。 • 一次文献是以作者本人的研究工作或研制成果为依据撰写的原始文献,已公开发表进入社会流通使用的专著、学术论文、专利文献、标准文献、科技报告等。
文献信息资源类型 • 根据文献信息加工深度可以划分为:零次文献、一次文献、二次文献和三次文献。 • 二次文献通过对一次文献进行外部特征和内容特征的分析、整理而形成的新的文献形式。一般包括目录、题录、索引、文摘、搜索引擎等。 • 三次文献是对一定范围内的一次文献信息进行分析、研究、综合生成的系统化的文献信息,它可分为综述研究类和参考工具类(用于检索)两种类型。前者如动态综述、学科总结、专题述评、进展报告等;后者如年鉴、手册、大全、词典、百科全书等。
文献信息资源类型 根据出版形式划分的文献信息资源类型: 图书、期刊、报纸、专利文献、标准文献、会议文献、学位论文、科技报告、档案文献和产品样本。
数字信息资源的类型 • 数字信息资源狭义讲,也可称为电子资源,指一切以数字形式生产和发行的信息资源。所谓数字形式,是以能被计算机识别的、不同序列的“0”和“1”构成的形式。数字资源中的信息,包括文字、图片、声音、动态图像等,都是以数字代码方式存储在磁带、磁盘、光盘等介质上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端上。 • 随着互联网的发展,利用网络传递的数字信息资源的数量每年都以几何倍速增长,我们把这一类数字资源均称为网络信息资源,网络信息资源目前在数字信息资源中占有绝对比例。
数字信息资源的类型 • 数字信息资源的范围非常广泛,类型多种多样,划分标准也有很多种。 • 1)按照数字资源的加工深度,可以分为一次文献、二次文献、三次文献。 • 2)按照数字资源的生产途径和发布范围划分为:商用电子资源、网络公开学术资源、特色资源等。 • 3)按照数字资源的载体可以划分为光盘数据库、网络数据库等。 • 4)按照出版形式和检索对象的不同,可以划分为参考数据库、全文数据库、事实数据库、电子图书、电子期刊、电子报纸、搜索引擎/分类指南、网络学术资源学科导航、个人主页、BBS、FTP、博客等网络信息资源。
印刷型文献资源类型 图书(Book)联合国教科文组织规定:48页以上、不定期出版的印刷品称为图书。 • 图书的外表特征(ISBN)ISBN是国际标准书号(英文名称为:International Standard Book Number )的简称,是国际上通用的出版物标识编码。 • 馆藏图书的外表特征(索书号) • 如何查找馆藏图书(OPAC)
印刷型文献资源类型 中国标准书号中国标准书号是国际标准书号(ISBN)系统的组成部分,中国标准书号为在中国的合法出版者所出版或制作的每一出版物及每一版本提供唯一确定的、国际通用的标识编号方法。修订后的中国标准书号将在2007年1月1日实施。 中国标准书号的结构 中国标准书号由标识符ISBN和13位数字组成。13位数字又分为5部分:——前缀号:国际物品编码协会提供给国际ISBN中心使用的编码。目前使用的前缀号为:978(预留979前缀)。——组号:标识国家、地理区域、语言及其他社会集团划分的组织。由国际ISBN中心设置和分配,我国的组号为一位数字“7”。——出版者号:标识具体的出版者。长度2至6位数字,它由中国ISBN中心设置和分配。——书序号:标识出版物的出版次序,由出版者管理和分配。——校验码:采用加权算法计算,检验中国标准书号正确与否。 中国标准书号的书写或印刷格式为: ISBN 978-7-5064-2595-7
印刷型文献资源类型 • 期刊(Periodical, Journal, Magazine) • 期刊是指有固定名称、定期或不定期出版、汇集了多位著者论文的连续出版物。 • 期刊的外表特征(ISSN、核心期刊) • 馆藏期刊的外表特征(索刊号) • 如何查找馆藏期刊(OPAC)
ISSN是International Standard Serial Number(国际标准连续出版物号)的英文缩略语。 • ISSN是为不同国家、不同语言、不同机构(组织)间各种媒体的连续性资源信息控制、交换、检索而建立的一种标准的、简明的、唯一的识别代码。 • 国际标准连续出版物号又称国际标准刊号。ISSN由前缀“ISSN”和8位数字组成。8位数字分为2段,每段为4位数字,中间用“-”隔开。8位数字的最后一位是校验码。如:ISSN 1001-7143 • ISSN没有任何特殊含义,它不反映连续出版物的语种、国别或出版者,ISSN的8位数字分为两组只是为了阅读方便。
中国标准刊号 • 中国标准刊号由国际标准刊号和国内统一刊号两部分组成。 • 中国标准刊号的结构: 中国标准刊号(CSSN)一个以”ISSN”为标识的国际标准刊号(International Standard Serial Numbering,缩写为ISSN)和一个以中国国别代码”CN”为标识的国内统一刊号两部分组成,其一般格式如下: ISSN ××××-×××× CN ××-××××/YY • 例如:ISSN 1000-0097 CN11-1340/G2
核心期刊(corn journal) • 刊载与某一学科(或专业)有关的信息较多,水平较高,能够反映该学科最新成果和前沿动态,受到该专业读者特别关注的那些期刊。 • 核心期刊的种类是运用文献计量学的方法,经过复杂的统计和运算最后确定的。 • 某一学科的核心期刊能集中该学科的大部分重要文献,能反映该学科当前的研究状况和发展方向,学术性强,研究成果新颖,专题集中、系统,因此是获得专业领域前沿信息的主要信息源。 • 中文核心期刊以北京大学图书馆编写的《中文核心期刊要目总览》为准。
报纸(Paper, Newspaper) • 报纸是出版周期最短的定期连续出版物。 • 报纸的内容报道及时,时效性强,普及面广。但是,报纸的缺点是知识不系统,信息分布零乱,保存时间不长。 学位论文(Thesis, Dissertation)高等学校、科研机构的毕业生、研究生为获得各级学位所撰写的论文。有较高的参考价值。学位论文除被本单位收藏外,一般还在国家指定单位专门收藏。
专利文献(Patents) • 专利文献可以划分为说明书类和公报类。 • 按照对专利的保护形式划分又可分为发明专利、实用新型专利和外观设计专利。 • 另外,由于审批制度的原因,说明书类专利文献又形成了几种不同的类型。例如,中国对发明专利申请实行先申请、早期公开和延迟审查制度,所以就出现了未经实质性审查的发明专利申请公开说明书和经过实质性审查合格的发明专利说明书。
标准文献(Standard Literature) • 标准文献主要是指技术标准、技术规格和技术规则等文献的总称,具有法律性和时效性,约束力强。 • 标准一般过若干时间就要进行修订,查阅时应以最新标准为准。 • ISO 国际标准化组织(International Organization for Standardization) GB ANSI 美国国家标准学会(American National Standards Institute: ANSI)
数字信息资源的类型 • 一般是正式电子出版物,由正式出版商/数据库商提供,其特点是:学术信息含量高;具备检索系统,便于检索利用;图书馆只是购买使用权,并不面向社会公众免费开放。 • 按照出版形式和检索对象的不同,可以划分为参考数据库、全文数据库、事实数据库、电子图书、电子期刊、电子报纸。
参考数据库(reference database) • 参考数据库指包含各种数据、信息或知识的原始来源和属性的数据库。数据库中的记录是通过对数据、信息或知识的再加工和过滤,如编目、索引、摘要、分类等形成的。 • 到目前为止,参考数据库主要是针对印刷型出版物开发的,目的是指引用户能够快速、全面地鉴别和找到相关信息。 • 参考数据库主要包括:书目数据库、文摘数据库、索引数据库。 • 参考数据库最重要的用途是搜集文献线索,快速和全面查询某个学科或主题的文献信息。
全文数据库(full-text database) • 收录有原始文献全文的数据库 • 特点:直接性、综合性、检索方法增加全文检索技术;支持布尔逻辑检索和位置算符检索、文件格式多采用PDF文件和文本文件两种。CNKI、维普、万方 • 英文全文数据库:ProQuest系统全文数据库、EBSCO系统全文数据库
事实数据库(factual database) • 指包含大量数据、事实,直接提供原始资料的数据库,又分为数值数据库、指南数据库、术语数据库等,相当于印刷型文献中的字典、辞典、手册、年鉴、百科全书、组织机构指南、人名录、公式与数表、图册等。 • 数值数据库,指专门以数值方式表示数据,如统计数据库、化学反应数据库等; • 指南数据库,如公司名录、产品目录等; • 术语数据库,即专门存储名词术语信息、词语信息等的数据库,如电子版百科全书、网络词典等。 • 中文事实数据库:中国资讯行、万方数据资源系统 • 英文事实数据库:人类生物基因组数据库
电子图书(electroinc books) • 提供在电脑上阅读的一种新型的数字化书籍。包括两种类型: 一类是将各种印刷型的书籍,通过扫描仪等计算机处理技术将它们转换为数字格式的、用计算机阅读和存储的电子读物。 另一类是原生数字出版物,即一开始就有电子文本的电子图书。
电子图书:Netlibrary(全球最大的在线计算机图书馆中心(OCLC)的下属部门)电子图书:Netlibrary(全球最大的在线计算机图书馆中心(OCLC)的下属部门)