730 likes | 881 Views
数字信息资源 及其检索概述. 北京大学图书馆 张春红 E-mail:zhangch@lib.pku.edu.cn. 第一部分 数字信息资源的概念与类型. 数字信息资源概述:定义. 数字信息资源: 狭义上也称为电子资源,指一切以数字形式生产和发行的信息资源。所谓数字形式,是以能被计算机识别的、不同序列的“0”和“1”构成的形式。数字资源中的信息,包括文字、图片、声音、动态图像等,都是以数字代码方式存储在磁带、磁盘、光盘等介质上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端上。. 数字信息资源概述:特点. 存储介质和传播形式发生变化 以多媒体作为内容特征
E N D
数字信息资源及其检索概述 北京大学图书馆 张春红 E-mail:zhangch@lib.pku.edu.cn
数字信息资源概述:定义 • 数字信息资源: • 狭义上也称为电子资源,指一切以数字形式生产和发行的信息资源。所谓数字形式,是以能被计算机识别的、不同序列的“0”和“1”构成的形式。数字资源中的信息,包括文字、图片、声音、动态图像等,都是以数字代码方式存储在磁带、磁盘、光盘等介质上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端上。
数字信息资源概述:特点 • 存储介质和传播形式发生变化 • 以多媒体作为内容特征 • 信息资源类型多种多样 • 多层次的信息服务功能 • 更新速度快、时效率性强 • 具备检索系统,使用方便快捷 • 不受时间、地域限制,可随时随地存取
数字信息资源概述:产生与发展 • 最早形式:数据库 • 产生标志:1961年美国化学文摘社(CAS)开始发行《化学题录》(Chemical Title)机读磁带 • 发展: • 六十年代初,以《化学题录》和《医学索引》(美国国家医学图书馆)的出现为标志,至1965年已有大约20个数据库可供使用 • 1975年,已达到近300个数据库 • 七十年代莫到八十年代末,数量已达到3600多个 • 进入九十年代,网络和信息处理技术的发展,使得基于互联网开发的数字资源及其检索系统有了突飞猛进的增长。
1975年 1999年 增长倍数 数据库 301 11,681 39 数据库生产者 200 3,674 18 数据库代理商 105 2,454 23 数据记录条数 5,200万 128.6亿 242 数字信息资源概述:产生与发展(续) • 数据库数量增长情况
数字信息资源概述:产生与发展(续) • 数据库类型分布
数字信息资源概述:产生与发展(续) • 数据库内容分布
数字信息资源概述:产生与发展(续) • 信息存取与检索 • 数据库:网络数据库比例越来越大,人们为数据库检索支付费用的比例不断增加,数据库检索人次飞速增长… • 电子期刊:出版周期短,可以检索和重复下载全文,图像与文本结合,包含有多媒体及其它类型动态信息,具备超链接功能,可以向用户主动提供期刊目次报道服务… • 电子图书:可以逐页阅读,并能够快速检索书中的信息 … • 电子报纸:网上阅读… • 其他网络学术资源:飞速发展…
数字信息资源概述:产生与发展(续) • 电子资源现状(以北大图书馆为例)—— • 数据库: • 370余种410多个,其中外文160种187个; • 覆盖北大所有重点学科 • 电子期刊: • 中文9000余种20000余份(纸质期刊4000余种) • 西文14000余种20000余份(纸质期刊3000余种)全世界总量大于24000种 • 除覆盖北大所有重点学科外,更在工程、能源、医学、农业等学科弥补传统资源的不足 • 电子图书: • 中文18万余册,覆盖所有学科,以教学参考资料为主;另中文电子古籍:近4000部 总量近100万 • 西文电子图书:6000余册 总量约10万 • 电子报纸:中文近300种,外文500余种
数字信息资源概述:类型 • 按性质和功能: • 一次文献:全文数据库、电子期刊、电子图书报纸.. • 二次文献:文摘/索引数据库、书目数据库、搜索引擎.. • 三次文献:元搜索引擎 • 按生产途径和发布范围: • 见数字信息资源结构图 • 按载体: • 光盘:CA光盘版,SCI光盘版… • 网络数据库:CA网络版SciFinder,WOS… • 按学科:
数字信息资源概述:类型(续) • 参考数据库 • 全文数据库 • 事实数据库 • 电子图书 • 电子期刊 • 电子报纸 • 搜索引擎/分类指南 • 网络学术资源学科导航 • FTP资源 • 其他:网站、BBS、新闻组等
数字信息资源概述:类型(续) • 参考数据库(Reference database)概念: • 参考数据库是指包含各种数据、信息或知识的原始来源和属性的数据库。它报道文献信息的存在,揭示文献信息的内容。 • 参考数据库信息源: • 期刊、报告、会议论文、专利文献、学位论文、技术标准、图书、政府出版物、报纸、各种数字资料等。
数字信息资源概述:类型(续) • 参考数据类型-按数据库内容划分 • 书目数据库 • 如图书馆的馆藏机读目录。 • 文摘数据库 • 如INSPEC, Chemical Abstracts, Biological Abstracts等。 • 索引数据库 • 如Science Citation Index, Engineering Index等。
数字信息资源概述:类型(续) • 参考数据库的结构 • 构成:参考数据库的基本组成单位为记录,而记录是由字段组成。 • 记录(record):作为一个单位来处理的数据集合,在参考数据库中,一条记录通常指一篇特定文献。 • 字段(field):构成记录的单元,用来描述记录的某一属性。如一般记录中包含下列字段:题目、作者、出处、关键词、主题词、文摘、题目、出版社、专利号、报告号、访问号等。
数字信息资源概述:类型(续) • 参考数据库的特点 • 综合性:数据量大,文献类型齐全,索引系统完备,语种多,出版连续性强。 • 出版物类型:出版历史悠久,大多数数据库具有对应的印刷出版物。 • 数据库结构:结构简单,数据规范性好,记录格式固定。 • 使用:参考数据库的使用一般是开放性的,可以购买、租用,也可联机检索。 • 标引:多数数据库具有规范的主题标引词。 • 文件格式:多采用文本文件格式。
数字信息资源概述:类型(续) • 参考数据库的用途 • 主要用途是搜集文献线索,快速和全面的获取某个主题、学科、领域的文献信息。 • 用于制定个性化的用户服务,如最新目次报道、定题服务、回溯服务等。 • 用于各类统计和评估,如统计期刊、个人或机构的发文量、文章被转载或被引用情况,评估期刊影响力等。
数字信息资源概述:类型(续) • 全文数据库 • 英文为full-text database,即收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和案例、商业信息等为主。如美国的LEXIS-NEXIS数据库、学术期刊图书馆(ProQuest Academic Research Library)及《中国人民大学书报资料中心复印报刊资料全文数据库》等。
数字信息资源概述:类型(续) • 事实数据库 • 英文为factual database,指包含大量数据、事实,直接提供原始资料的数据库,又分为数值数据库(numeric database)、指南数据库(directory database)、术语数据库(terminological database)等,相当于印刷型文献中的字典、辞典、手册、年鉴、百科全书、组织机构指南、人名录、公式与数表、图册(集)等。数值数据库,指专门以数值方式表示数据,如统计数据库、化学反应数据库等;指南数据库,如公司名录、产品目录等;术语数据库,即专门存储名词术语信息、词语信息等的数据库,如电子版百科全书、网络词典等。
数字信息资源概述:类型(续) • 电子期刊 • 英文为electronic journals或简称e-journal,包括: • 与纸本期刊并行的电子期刊,如著名的《科学》(Science)、《自然》(Nature)、Elsevier/Wiley/Springer/Kluwer等出版商的电子期刊、中国电子期刊杂志社的期刊等; • 纯电子期刊,如《数字图书馆杂志》(D-Lib Magazine)
数字信息资源概述:类型(续) • 电子图书 • 英文为electronic books,最初的电子图书主要以百科全书、字典词典等工具书为主,但近年来发展迅速,已涉及到了很多学科领域,文学作品、学术专著所占比例越来越大,电子图书正在逐步发展成为比较主要的数字信息资源 • 如国外的NetLibrary、Ebrary;国内的超星数字图书馆、书生之家电子图书、方正Apabi数字图书馆等
数字信息资源概述:类型(续) • 电子报纸 • 英文为electronic newspaper,目前网上已有数千种报纸供用户使用。同电子期刊一样,电子报纸同样也有印刷型报纸的电子版和纯电子报纸两种类型 • 电子报纸全文检索系统如人民日报等;全文数据库中的电子报纸如ABI、lexis、中国资讯行全文数据库等;还有网上免费的电子报纸(印刷型报纸的电子版);纯电子报纸如《圣何塞信使报》
数字信息资源概述:类型(续) • 搜索引擎/分类指南 • 英文为search engine,是目前利用互联网开放信息的常用工具,也可以称得上是互联网开放信息的索引目录。搜索引擎主要是使用一种计算机自动搜索软件,在互联网上检索,将检索到的网页编入数据库中,并进行一定程度的自动标引,用户使用时输入检索词,搜索引擎将其与数据库中的信息匹配,然后产生检索结果。例如常用的Yahoo、Hotbot、Alta Vista、Excite、Google、天网、悠游等。分类指南是将搜索到的网页按主题内容组织成等级结构(主题树),用户按照这个目录逐层深入,直到找到所需文献。通常搜索引擎与分类指南是结合在一起的,例如Yahoo、新浪、悠游等
数字信息资源概述:类型(续) • 网络学术资源学科分类导航 • 将互联网上的开放信息加以甄别、筛选和科学整理,按学科组织起来,构成完整的学科导航系统,为教学、科研、技术人员提供各类学术信息。与搜索引擎/分类指南不同的是,网络学术资源的学科导航库通常是由图书馆单独或联合建设的。例如CSDL的学科信息门户http://www.csdl.org.cn
数字信息资源概述:类型(续) • FTP资源 • FTP含义是File Transfer Protocol,意为文件传送协议,是互联网上最早应用的协议之一,它可以使用户远程登录到远端计算机上,把其中的文件传回到自己的计算机上,或把自己计算机上的文件上传到远端计算机系统上。所谓FTP资源,是指互联网上的开放FTP站点,这些站点允许用户登录上去,从中下载各类数据、资料、软件等。 • 可以利用FTP搜索引擎查找FTP资源,例如北大天网文件引擎http://e.pku.edu.cn
数字信息资源检索:检索系统 • 检索系统 • 检索系统构成 • 检索系统评价 • 联机数据库检索 • 光盘数据库检索 • 网络数据库检索 • 检索语言 • 相关的网络基础知识
数字信息资源检索:检索系统(续) • 检索系统构成——物理构成 • 硬件(hardware):也可以说是硬件环境,是和计算机检索有关的各种硬件设备的总称,如大型计算机主机(服务器)、存储器(硬盘或光盘)、网络(广域网、局域网、存储区域网)、输入输出设备(键盘、打印机、鼠标等)、计算机终端或个人计算机(PC)等。 • 软件(software):与计算机检索相关的数据库系统软件及相关应用软件。包括:信息采集、存储、信息标引加工、建库、词表管理、用户检索界面、提问处理、网络发布、数据库管理等模块。随着网络和计算机技术的发展,软件的开发平台、程序语言的持续升级,用户功能需求的增加,这一部分的具体结构也在不断发生变化。
数字信息资源检索:检索系统(续) • 检索系统构成——物理构成(续) • 数据库(database):数据库是指按一定方式、以数字形式存储、可通过计算机存取、相互关联的数据集合。数据库的特点是:重复数据少;可以共享数据资源,以最优的方式为一个或多个应用服务;数据具有独立性,其存放独立于应用程序之外。由于数据库中的信息都经过了详细、精心的选择和加工,主题化,有序,能够提供多种检索途径,因此相对互联网上无组织和大量无用的信息来说,检索结果准确,时间少,价值高。从发展的角度看,以网络为中心的分布式数据库系统是今后的发展趋势。
数字信息资源检索:检索系统(续) • 检索系统构成——功能划分 • 信息采集模块(collection):本模块的任务是连续、快速地采集各类信息,为数据库提供充足的数据来源。 • 信息存储模块(repositories):存储介质包括磁带、磁盘、光盘。从根本上讲,存储方式决定了应用方式,存储方案决定了整个系统的的扩展性和灵活性。 • 标引著录模块(description):即对信息的内容和特征进行分析,然后给予一定数量的标识,作为信息组织、存储与检索的基础。例如信息的名称、创作者、主题、分类、出版/生产时间、出版/生产者、关键词等,都可以作为信息的描述性标识。
数字信息资源检索:检索系统(续) • 检索系统构成——功能划分(续) • 规范模块(authorities):指对信息特征和用户提问的语言形式做出规定,如主题词表、人名规范、地名规范、时代名称规范等,目的在于,一是使用户的检索更具准确性;二是逐步形成一个知识网络,通过相关信息的提供,使用户的检索更为完整。 • 内容发布模块(publish):将数据库内容传递到网络上,让用户以常规手段(如通过浏览器)查询浏览。
数字信息资源检索:检索系统(续) • 检索系统构成——功能划分(续) • 检索模块(access):也就是狭义理解的检索系统,即将用户的需求进行分析,并和数据库中的信息匹配运算,再反馈给用户所需的检索结果。 • 检索界面:即人-机接口; • 检索功能:如简单检索、复杂检索、浏览、图象检索等; • 检索途径:如题名、作者、主题、文摘等检索入口; • 检索技术:如布尔逻辑、组配检索、截词符、词根检索、位置算符等; • 检索结果:打印、存盘、结果格式、二次检索; • 提问处理:也可称匹配运算,即处理和运算用户的检索式。
数字信息资源检索:检索系统(续) • 检索系统构成——功能划分(续) • 服务模块(services):这是在传统检索系统基础上发展起来的新功能,如最新目次报道服务、文献传递服务,虚拟咨询服务等。 • 管理模块(administration):主要指管理客户端,即对用户和用户行为进行管理和调查分析。主要包括三个部分,一是对用户的管理;二是运用数学和统计学方法,对用户行为的各种相关信息进行累积、加工、分析,生成各种状态报告,提供给数据库生产者、系统开发者和用户,以便对数据库及其系统进行修改、完善,使其不断得到提高;三是监控系统使用情况,如观察用户有无违反版权规定、恶意下载(abuse)现象,并对违法用户进行相应处罚。
数字信息资源检索:检索系统(续) • 检索系统评价-主要评价指标 • 检索功能:指系统提供给用户的各种检索途径和检索入口。 • 检索技术:即系统是否允许用户使用各种检索技巧,以便更准确和快速地找到自己所需信息。 • 检索结果:即用户是否得到了内容全面、下载和使用均比较方便的检索结果,例如显示格式包含的内容是否全面;检索结果数量较多时是否允许在翻页的同时标记记录;是否提供存盘、打印、email发送等多种下载功能;检索结果是否与其它资源之间存在链接,为用户提供查找到其它资源的捷径等。 • 用户服务:主要是指在检索功能之外,系统还为用户提供了哪些服务。
数字信息资源检索:联机检索 • 联机检索(online retrieval)是指用户利用计算机终端设备,通过通信线路或网络,在联机检索中心的数据库中进行检索并获得信息的过程。
数字信息资源检索:光盘检索 • 联机光盘检索是指把单用户系统发展成多用户的局域网系统,通过网络(如校园网)连接多个用户终端,用服务器管理多组光盘数据库及其检索系统
数字信息资源检索:网络数据库检索 • 网络数据库(web-database)检索是指用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索,是基于互联网的分布式特点开发和应用的
数字信息资源检索:检索语言 • 检索语言的概念与作用 • 检索语言(information retrieval language),是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。所谓检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。
检索语言作用示例—— • 已知3篇文献的篇名,在对信息存储的过程中,对这三篇文献内容分别进行了分析,并使用检索语言对其进行标引,标引结果为: • 文献1:篇名(title):A model of multimedia information retrieval 主题(subject):information retrieval,multimedia computer applications • 文献2:篇名(title):The Information retrieval in chemistry WWW server 主题(subject):chemistry,educational materials • 文献3:篇名(title):ERIC resources 主题(subject):Educational materials • 标引后这三篇文献分别被存储进数据库。 • 信息检索过程:检索语言及标识匹配。 • 检索语言作用:对文献的外部特征和内容进行多层次描述,提供多种检索途径,以方便用户从不同角度检索。
数字信息资源检索:检索语言(续) • 检索语言类型——人工语言 • 人工语言:人工语言(artificial language)是根据信息检索的需要而由人工创制的,采用规范词(controlled term),用来专指或网罗相应的概念,可以将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制,包括 • 分类检索语言(分类号) • 主题检索语言:标题词、单元词、叙词 • 代码检索语言
数字信息资源检索:检索语言(续) • 检索语言类型——人工语言(续) • 分类检索语言:按照学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。使用这种检索语言建立的信息检索系统可以反映知识的从属、派生、重合、交叉、并列等关系,用户因此可以鸟瞰全貌、触类旁通,系统地掌握和利用一个学科或专业范围的知识和信息。目前常用的分类法有《中国图书馆图书分类法》(简称《中图法》)、《美国国会图书馆分类法》、《杜威分类法》、《国际专利分类表》等。
数字信息资源检索:检索语言(续) • 检索语言类型——人工语言(续) • 主题检索语言:由主题词汇构成,即将自然语言中的名词术语经过规范化后直接作为信息标识,按字母顺序排列标识,通过参照系统揭示主题概念之间的关系,也称主题法。主题语言表达的概念比较准确,具有较好的灵活性和专指性,不同的检索系统、不同的专业领域可以有各自的主题词表。 • 标题词语言(subject heading):是一种先组式的规范词语言,即在检索前已经将概念之间的关系组配好。具有较好的通用性、直接性和专指性,灵活性较差。常用的标题词表有《美国国会标题词表》(Library of Congress Subject)、《医学主题词表》(Medical Subject Headings)。
数字信息资源检索:检索语言(续) • 检索语言类型——人工语言(续) • 主题检索语言(续): • 单元词(元词法,uniterm):是一种最基本的、不能再分的单位词语,亦称元词,从文献内容中抽出,再经规范,能表达一个独立的概念。例如“信息检索”是一个词组,“信息”和“检索”才是单元词。 • 叙词(叙词法,descriptor):是计算机检索中使用较多的一种语言,可以用复合词来表达主题概念,在检索时可由多个叙词形成任意合乎逻辑的组配,形成多种组合方式。由叙词组成的词表叫叙词表(thesaurus)。
数字信息资源检索:检索语言(续) • 检索语言类型——人工语言(续) • 代码检索语言 • 就事物的某一方面特征,用某种代码系统来加以标引和排列,目前主要应用于化学领域。例如,化合物的分子式索引系统,环状化合物的环系索引系统等。 • 此外,如DII专利代码索引,BP的concept code list…
数字信息资源检索:检索语言(续) • 检索语言类型——自然语言 • 自然语言(natural language)检索用词是从信息内容本身抽取的,主要依赖于计算机自动抽词技术完成,辅以人工自由标引(非依据词表的标引方法),是非规范词(uncontrolled term)。自然语言标识包括—— • 关键词(keyword):直接从信息资源名称、正文或文摘中抽出的代表信息主要内容的重要语词。 • 题名:信息资源的名称,如论文篇名、图书书名、网站名称等。 • 全文:从资源的全部内容中自动抽取、查找,是目前网上各类搜索引擎使用的最多的方法。 • 引文:将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。 • 此外还有责任者(作者)、摘要等。
数字信息资源检索:检索语言(续) • 检索语言类型——人工语言和自然语言的关系 • 成熟的检索系统中,两种语言并用 • 主题词和关键词 • 人工语言和自然语言正在不断融合,形成一种新的知识体系——NKOS(Networked knowledge organization systems / schemes / services)。它融合了叙词表、标题词表、语义网络、分类体系的功能,得到了普遍关注,并开始在各类数据库、搜索引擎以及知识管理方面应用,例如Yahoo、Google的主题分类指南,以及许多企业门户网站的分类索引服务即是NKOS体系应用的雏形。
数字信息资源检索:相关基础知识 • 关于网络 • 互联网:Internet(现在译为因特网),是世界上最大的计算机互联通信网络,最早起源于美国国防部的计算机网络ARPAnet。它本身不是一种具体的物理网络,而是一种虚拟的计算机网络。互联网络实际上是把全世界各个地方已有的各种网络,如计算机网络、数据通信网以及公用电话交换网等通过TCP/IP协议相互联结,组成一个跨越国界的庞大的综合网络 • 广域网(Wide Area Network – WAN):分布距离大于50公里,可以覆盖多个单位或多个国家,如我国的Chinanet、CERnet等。 • 局域网(Local Area Network – LAN):分布距离在10公里范围内,通常为某个单位专用,如北京大学校园网等。具有结构简单、投资少、数据传输速度快、可靠性好、保密性强等特点。
数字信息资源检索:相关基础知识 • 关于网络技术与结构 • 服务器server • 网卡SCSI • 路由器router:路由器是一种连接多个网络或网段的网络设备,它能将不同网络或网段之间的数据信息进行“翻译”,以使它们能够相互“读”懂对方的数据,从而构成一个更大的网络 • 网关gateway:网关实质上是一个网络通向其他网络的IP地址。