980 likes | 1.09k Views
所谓计算机信息检索,简单来说就是利用电子计算机对信息和数据的高速处理能力来存贮数据并从中查找、取出数据这样一个过程。. 第 6 章 计算机信息检索. 计算机信息检索:是人们根据特定的信息需求, 利用计算机 从相关的 机读数据库 中识别并获取所需的信息。 计算机信息检索过程: (1) 信息存储过程 (2) 信息检索过程 计算机信息检索的本质是信息用户的提问标识和信息集合数据库特征标识匹配的过程。 ( 原理 ). 计算机信息检索的含义.
E N D
所谓计算机信息检索,简单来说就是利用电子计算机对信息和数据的高速处理能力来存贮数据并从中查找、取出数据这样一个过程。所谓计算机信息检索,简单来说就是利用电子计算机对信息和数据的高速处理能力来存贮数据并从中查找、取出数据这样一个过程。 第6章 计算机信息检索
计算机信息检索:是人们根据特定的信息需求,利用计算机从相关的机读数据库中识别并获取所需的信息。计算机信息检索:是人们根据特定的信息需求,利用计算机从相关的机读数据库中识别并获取所需的信息。 计算机信息检索过程: (1)信息存储过程 (2)信息检索过程 计算机信息检索的本质是信息用户的提问标识和信息集合数据库特征标识匹配的过程。(原理) 计算机信息检索的含义
计算机将输入机检系统的用户提问标识(检索词)与已存储在系统中数据库内的文献特征标识(标引词)进行机械性匹配比较,凡符合给定的比较原则和逻辑运算条件即为命中信息。计算机将输入机检系统的用户提问标识(检索词)与已存储在系统中数据库内的文献特征标识(标引词)进行机械性匹配比较,凡符合给定的比较原则和逻辑运算条件即为命中信息。 检索提问字符串 数据库中特征标识字符串 计算机检索的原理 匹配
空间技术 外部条件 通信技术 数据传输技术 文献数量激增 内部需求 用户检索需求 1 概 论 计算机信息检索的产生
计算机信息检索系统的发展 1 概 论 最早的计算机情报检索系统是由美国海军兵器中心(NOTS)图书馆于1954年研制的。从50年代初计算机首次应用于情报检索试验,到如今的多元化全面发展,计算机情报检索经历了以下几个阶段 : 脱机检索阶段(1954-1964) 没有实用性,内部的实验性或半实验性系统 第三代集成电路计算机、硬磁盘及磁盘机的出现,再加上数字通讯技术的发展和分组交换公用数据通信网的普及,使得文献检索从脱机批处理阶段进入联机检索阶段 。DIALOG系统和MEDLARS系统最具代表性。 联机检索阶段(1965-1972) 第四代计算机的出现,卫星通讯技术和光纤通讯技术的实用化,使得计算机情报检索冲破时间和空间的限制,为快速全面地获取全球性科技情报资料和经济信息提供了非常方便的条件,从而极大地提高了情报资料的可获得性和利用价值,充分实现了人类情报资源的共享。 国际联机检索(1973- )
1985年出现CD-ROM数据库.使用方便,存贮量大,不受检索时间、通信费用、打印篇数的严格限制而深受读者欢迎。1985年出现CD-ROM数据库.使用方便,存贮量大,不受检索时间、通信费用、打印篇数的严格限制而深受读者欢迎。 光盘检索系统(1985- ) Internet是世界上最大的互联网络;是一个以TCP/IP通讯协议连接各个国家、各个部门、各个机构计算机网络的数据通信网;是一个集合各个专业、各个领域、各种资源为一体的供网上用户共享的信息资源网 在Internet上的科技信息资源占全部信息资源的20%以上。 Internet检索(1985- )
检索速度快,效益高 检索功能强,检索更方便灵活 检索途径多,手段灵活 检索范围广,资源共享 数量大,更新快 服务方式多,二次开发容易 检索结果可以直接输出 计算机信息检索特点
硬件:运算器、控制器、存储器、输入输出装置等硬件:运算器、控制器、存储器、输入输出装置等 软件:系统操作程序、数据库管理程序、联机控制程序、应用程序等。 通讯线路:电话通讯网、数据通讯网、卫星通讯网等。 检索终端:信息用户与检索系统主机进行人机对话,实现联机检索的设备。包括上网设备、调制解调器等。 数据库:是计算机检索的对象。是由一个或数个文档构成,并能够满足某一特定目的或某一特定数据处理系统需要的一种数据集合。 计算机信息检索系统组成
检索系统的构成 硬件 软件 数据库 系 统 软 件 应用系统软件 计算机信息检索系统
数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。是检索系统的信息源,也是用户检索的对象。数据库可以随时按不同的目的提供各种组合信息,以满足检索者的需求。数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。是检索系统的信息源,也是用户检索的对象。数据库可以随时按不同的目的提供各种组合信息,以满足检索者的需求。 检索系统中的数据库一般由各个数据库生产者提供,也有一些是系统本身建的。
相关数据 分 类 共同存取方式和一定组织方式 数值型数据库 事实型数据库 文献型数据库 共享 数据库 数据库是以特定的组织方式将相互关联的数据集合、存储的总汇。它将各种数据中的信息单元经过有序处理、组织 ,可以按通常的方法进行维护和检索。是可以共享的某些具有共同存取方式和一定组织方式的相关数据的集合。 数据库本质的三个要素
数据库的类型 书目数据库 数值型数据库 源数据库 词典型数据库 全文数据库
文献型数据库 文献型数据库也称书目数据库(Bibliographic Database)主要是文摘索引等文献检索工具的机读版,如MEDLINE , CBMDISC , VIPdata等。书目检索就是检索文摘、索引的相应的机读数据库,检索的结果是书目信息,即文献的线索。书目数据库是计算机文献检索最常用的数据库类型。 数值数据库 主要包含的是数字数据,有的也包含用来定义数字所必需的少量文字。数字是指可以计算、测量或以数值表现的项目。如化学物质毒性数据库、人口统计数据库、化学结构图数据库等。 事实数据库或词典数据库 直接提供科学依据或事实。如美国国立癌症研究所建立的PDQ(Physician Data Query)数据库,可提供所有主要癌症类型的最新治疗及预后,标准治疗方案和研究中治疗方案,以及主要从事癌症治疗的医生名录及有关癌症治疗护理的保健组织机构名录 。 数据库的类型
①书目数据库(bibliographic database) ②数值数据库(numeric database) ③全文数据库(full text database) ④事实数据库(fact database) ⑤超文本型数据库(hypertext database) 数据库的类型
是机读的目录、索引和文摘检索工具,检索结果是文献的线索而非原文。是机读的目录、索引和文摘检索工具,检索结果是文献的线索而非原文。 如许多图书馆提供的基于网络的联机公共检索目录(Web-based Online Public Access Catalogue)、MEDLINE、CBMDisc等。 ①书目数据库(bibliographic database)
主要包含的是数值数据 例如美国国立医学图书馆编制的化学物质毒性数据库RTECS,包含了10万多种化学物质的急慢性毒理实验数据。 ②数值数据库(numeric database)
存储的是原始文献的全文,有的是印刷版的电子版,有的则是纯电子出版物存储的是原始文献的全文,有的是印刷版的电子版,有的则是纯电子出版物 例如《中国学术期刊(光盘版)》 ③全文数据库(full text database)
存储指南、名录、大事记等参考工具书的信息 例如美国医生数据咨询库PDQ(Physician Data Query)。 ④事实数据库(fact database)
存储声音、图象和文字等多种信息 例如:美国的蛋白质结构数据库PDB,该数据库可以检索和观看蛋白质大分子的三维结构。 ⑤超文本型数据库(hypertext database)
数据库的结构 数据库是由一个或多个文档(File)构成 的集合,每个文档由若干记录(Record)组成,每条记录由若干字段(Field)构成。
文档(File) 文档是数据库中由若干个逻辑记录构成的数据的集合。许多大型数据库往往包含有数个以万计的记录,为便利用户检索,常划分为若干文档。如MEDLINE数据库根据年代被分为现期文档和回溯文档。 另一方面,从数据库内部结构来看,文档是指数据库内容的组成的基本形式,是由若干个逻辑记录构成的信息集合。数据库的文档由顺排文档和若干倒排文档组成。一般来说,一个数据库至少要包括一个顺序文档(Serial File)和至少一个倒排文档(Inverted File)。
按文献记录的存取号从小到大排列。 218653(AN) Nonverbal Communication in Teaching TI1 TI2 TI3 TI4 Smith, Howard A AU Reviews of Educational Research.V49 n49 p631-72 Wtr1983 JN PY Language:English LA School –related research is reviewed under… AB1 AB2 AB3 AB4 AB5 AB6 …… 218654 218655 …… 顺排文档
关键词索引文档表 索引词 记录号 字段号 Article 195895,195892 AB2 Artifacts 218653 AB22 Behavior 218653,336455 AB17 Body 195895 TH2 195895 AB10 …… 倒排文档 倒排文档:从数据库全部记录的基本字段中,按照著者、主题、分类等提取出所有的检索词,分别按字顺排列而重新形成的索引文档。如下图:
顺排文档以完整记录为检索和处理的单元 倒排文档以信息的检索入口为检索和处理单元 顺排文档和倒排文档的主要区别
由若干不同字段组成的文献单元,一条记录在数据库中代表一篇文献。由若干不同字段组成的文献单元,一条记录在数据库中代表一篇文献。 计算机检索系统存储文献条目和标引的信息载体,每条记录记载了一篇文献的内部特征和外部特征。 记录(Record)
文献著录(构成记录)的基本单元,是对实体的具体属性进行描述的结果,反映文献外部特征和内容特征的每一项目,在数据库中就称为字段。如:题名、作者。文献著录(构成记录)的基本单元,是对实体的具体属性进行描述的结果,反映文献外部特征和内容特征的每一项目,在数据库中就称为字段。如:题名、作者。 基本字段:描述文献的内容特征。如:关键词KW、题名TI、文摘AB、叙词DE等 辅助字段:描述文献的外部特征。如:作者AU、刊名JN、出版时间PY、语种LA等 字段(Field)
选库的4C原则: 内容 Content 范围 Coverage 时效 Currency 费用 Cost
1.信息存储过程:在计算机中存有多个数据库,每个数据库里有顺排文档和若干倒排文档。1.信息存储过程:在计算机中存有多个数据库,每个数据库里有顺排文档和若干倒排文档。 2.信息检索过程:当有检索提问式输入计算机时,计算机将提问标识和数据库倒排文档中的特征标识进行比较,如果基本相同,就将该记录存取号保存下来;如果找不到相同的字符,检索结果为零。这种匹配是字面上的匹配过程,而不是概念匹配。 计算机信息检索过程
1.根据所检索数据库的形式(检索的内容)分:1.根据所检索数据库的形式(检索的内容)分: (1)书目检索 (2)数据检索(Numerical Retrieval):检索结果 主要为数据。 (3)事实检索Fact Retrieval):检索结果为事实 (新闻)。 (4)全文检索 (1)、(4)统称文献检索(Document Retrieval):检索结果为文献信息(期刊论文信息)。 计算机信息检索分类
2.根据计算机检索服务方式 (检索文献出版的时间): (1)定题检索(Selective Dissemination of Information,SDI):定期提供最新文献,是目前信息服务提倡的一种文献服务方式。 (2)回溯检索(Retrospective Search):根据用户提问提供某一时间段的文献的检索方法。是目前最常用的检索方法。 (3)问答式检索 (4)文献递送 计算机信息检索分类
定题检索服务是用户根据检索课题的内容,一次性输入事先确定好的检索提问式保存在检索系统中,检索系统根据数据库更新周期,定期地对保存的检索提问式进行检索,将检索出的最新文献信息提供给用户。定题检索服务的特点是定期性、新颖性和批处理式,即每隔一定时间就某个主题在检索系统中检索一次;检索的都是近期的新数据;成批处理检索提问。定题检索服务是用户根据检索课题的内容,一次性输入事先确定好的检索提问式保存在检索系统中,检索系统根据数据库更新周期,定期地对保存的检索提问式进行检索,将检索出的最新文献信息提供给用户。定题检索服务的特点是定期性、新颖性和批处理式,即每隔一定时间就某个主题在检索系统中检索一次;检索的都是近期的新数据;成批处理检索提问。 定题检索(Selective Dissemination of Information,SDI)
回溯检索服务主要是指追溯查找过去的信息,帮助用户查找过去几年甚至几十年的文献,使用户一次检索就可以全面了解某一课题在某一段时间中的发展情况。比较适合申请专利时的新颖性检索、科研课题的立项或鉴定时的查新、撰写综述性论文以及编写教材时信息的收集等。回溯检索服务主要是指追溯查找过去的信息,帮助用户查找过去几年甚至几十年的文献,使用户一次检索就可以全面了解某一课题在某一段时间中的发展情况。比较适合申请专利时的新颖性检索、科研课题的立项或鉴定时的查新、撰写综述性论文以及编写教材时信息的收集等。 回溯检索(Retrospective Searching,RS)
用户直接利用终端检索,检索系统即时提供用户所需的文献信息。用户直接利用终端检索,检索系统即时提供用户所需的文献信息。 问答式检索服务
用户通过联机检索得到的结果一般都是二次文献(题录和文摘等),如果需要一次文献,可以通过终端联机订购原始文献的复印件或原文。用户通过联机检索得到的结果一般都是二次文献(题录和文摘等),如果需要一次文献,可以通过终端联机订购原始文献的复印件或原文。 文献递送服务
3.根据检索方式分: (1)脱机检索 (2)联机检索 (3)国际联机检索 (4)光盘检索 (5)网络检索 计算机信息检索分类
脱机检索阶段(1954-1964) 联机检索阶段(1965-1971) 国际联机检索阶段(1972-1994) 网络信息检索阶段(1995-) 国外计算机信息检索发展阶段
1975年,从国外引进数据库开展机检服务; 1980年,建立国际联机终端开展检索服务; 20世纪80年代中后期,自建数据库; 90年代初,发展光盘检索; 90年代中期,Internet网络化检索阶段。 国内计算机信息检索发展阶段
是六十年代发展起来的批次检索,用户不与检索系统发生直接联系,只需把检索要求送往检索中心,由检索人员在计算机主机旁进行文献检索的一种方式。是六十年代发展起来的批次检索,用户不与检索系统发生直接联系,只需把检索要求送往检索中心,由检索人员在计算机主机旁进行文献检索的一种方式。 优点:价格便宜,无网络通讯费,检索费用由用户平摊,随机存储。 缺点:一次机会检索,检索结果延误,委托性检索。 (1) 脱机检索
在利用计算机进行信息检索的早期,人们只是用单台计算机的输入输出装置进行检索,用磁带作存储介质,一般为连续的顺序检索方式。检索部门把许多用户的检索提问汇总到一起,进行批量检索,然后把检索结果通知各个用户,用户不直接接触计算机。这种方法更适合大批量的定题信息检索,所以也叫脱机批处理检索或定题情报服务。在利用计算机进行信息检索的早期,人们只是用单台计算机的输入输出装置进行检索,用磁带作存储介质,一般为连续的顺序检索方式。检索部门把许多用户的检索提问汇总到一起,进行批量检索,然后把检索结果通知各个用户,用户不直接接触计算机。这种方法更适合大批量的定题信息检索,所以也叫脱机批处理检索或定题情报服务。
联机检索是用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行“人机对话”,从检索中心的数据库查找所需要的文献信息过程。联机检索是用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行“人机对话”,从检索中心的数据库查找所需要的文献信息过程。 特点:检索的速度快,检索结果可以得到及时修改。 缺点:检索费用高。 (2) 联机检索 Online retrieval
该系统是70年代出现的一门现代化情报检索手段,目前已发展到相当高的水平,计算机联机网络和检索终端已遍及世界所有主要国家和地区。该系统是70年代出现的一门现代化情报检索手段,目前已发展到相当高的水平,计算机联机网络和检索终端已遍及世界所有主要国家和地区。 特点: (1)可以实现资源共享; (2)检索速度快; (3)信息资源专业化; (4)查全率和查准率较高。 (3) 国际联机检索
1.DIALOG:有900多个数据库,其中广泛使用的有600多个,内容涉及多个学科领域,文献存储量超过3亿篇。1.DIALOG:有900多个数据库,其中广泛使用的有600多个,内容涉及多个学科领域,文献存储量超过3亿篇。 2.ORBIT:提供专利、化学、能源、市场、工程和电子等方面的信息,约有100个数据库。 3.BRS:内容涉及医学、生物科学、教育、健康、物理和社会科学及其它综合性学科。有150个数据库和40个私用数据库。 4.OCLC:联机计算机图书馆中心,是世界上最大的为读者提供文献信息机构。有60个数据库,提供会议录、工业通告、图书评论等信息。 5.STN:有联邦德国、美国、日本共同合作创建的数据库,有110个数据库,多个数据库向中国免费服务。 6.DIMDI:德国医学文献资料学会于1969年推出的联机检索系统。有55个数据库,侧重于提供生命科学领域资料。如:生物化学、肿瘤学、公共卫生、海洋生物学、兽医学、食品科学等。 世界上最著名的国际联机检索系统
光盘 是80年代发展起来的激光存储载体,继纸张感光材料、磁性载体之后问世的又一种新型的信息存储介质。能存储数据、文字、图形、图像、声音、动画等各种信息。一张普通的光盘、信息存储量约为650兆。 光盘的分类:按存储方式分为以下几种。 (1)只读型光盘:CD-ROM (2)一次写入型光盘:WORM (3)可擦写型光盘:ERM (4) 光盘数据库检索
定义: 是一种用激光技术在特制原盘上记录信息的检索方式。 特点:(1)投资成本低;存储容量大,占据空间小 (2)费用低; (3)运行(读取)速度快; (4)检索效果好; (5)下载方便; (6)安全性能高。 (7)对硬件有一定要求 光盘检索的定义和特点
CD-ROM数据库 最初是单机检索,后来逐渐发展出了联机光盘检索 单机光盘检索系统组成: (1)数据库:光盘 (2)软件:系统软件和检索软件 (3)硬件:计算机、光盘驱动器、显示屏、打印机等 网络光盘检索系统组成: (1)光盘塔 (2)光盘组网软件 (3)光盘塔服务器 光盘检索的系统组成 • 联机光盘检索指把单用户系统发展成多用户的局域网系统,通过网络(如校园网)连接多个用户终端,用服务器管理多组光盘数据库及其检索系统
Web-database 用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索 (5) 网络数据库检索 • 网络数据库是指将数据存放在远程服务器上,用户通过Internet直接访问,也可通过Web服务器或中间服务器访问。如《EI Compendex Web》。 • 用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索
万方数据电子出版社是中国科技信息(万方数据库(集团))的电子出版单位,专门从事数据库光盘和多媒体光盘的制作、出版与发行以及数据库的技术开发、技术服务。该电子出版社以中国科技信息研究所丰富的资源为依托,将一批具有规模和影响的科技类、工商类数据库(共计20多个系列近百种产品)相继投放市场,数据记录几乎覆盖全部学科领域,总量达1,000万条以上。另外万方数据电子出版社拥有自主权的《中国企业、公司及产品数据库》(英文版)已进入美国Dialog国际联机检索系统,向全球用户提供服务,以该库为基础与美国Elite International group 合作开发的中国商务信息(Chinese Business Information)数据库光盘也向欧美市场发行。 万方
DIALOG系统(美国) 建库时间:1966— 国际联机:1972— 国外著名联机检索系统