1.33k likes | 1.46k Views
第一章 信息检索理论基础. 主要知识点 (一)信息检索原理 (二)信息检索技术简介 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆. 信息检索原理 -- 信息检索及其发展. ( 1 ) 信息检索 (Information Retrieval) 是 “ 一种时间性的通讯形式 ” , “ 在时间上从一个时刻通往一个较晚的时刻,而在空间上可能还在同一地点 ” 。这一看法,揭示了信息存储与获取两个环节是一种延时行的通讯形式。
E N D
第一章 信息检索理论基础 主要知识点 (一)信息检索原理 (二)信息检索技术简介 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆
信息检索原理--信息检索及其发展 (1)信息检索(Information Retrieval)是“一种时间性的通讯形式”,“在时间上从一个时刻通往一个较晚的时刻,而在空间上可能还在同一地点” 。这一看法,揭示了信息存储与获取两个环节是一种延时行的通讯形式。 (2)信息检索的基本原理,是对信息集合与需求集合的匹配和选择。信息集合是有关某一领域的文献或数据的集合体,它是一种公共知识结构,可能可以弥补该用户的知识结构缺陷。而匹配与选择则是一种机制,它负责把需求集合和信息集合进行比较,然后根据一定的标准选出符合需求的信息。 (3)在社会科学化的进程中,信息检索经历了从手工检索到机械检索再到计算机化检索的发展过程。
信息检索原理--信息检索模型简介 (1)信息检索的模型的含义:信息检索的模型就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。 (2)布尔逻辑模型:它是由Y. Bar-Hillel在1957年首先提出的,他提出了将布尔逻辑应用于计算机检索的可能性,10年后,正式被大型文献检索系统所采用,并逐渐成为各种大型联机检索系统、甚至是网络搜索引擎的典型、标准检索模式。布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。
信息检索原理--信息检索模型简介 在传统的布尔模型中,每一文献用一组标引词表示。如,表达式Di = ( T1, T2, T3, …, Tm ),为文献i,式中T1, T2, T3, …, Tm表示文献i中的所有标引词集合。每个提问式Q除表示用户需求中的标引词组合外,还有各标引词的布尔组配。系统在对提问进行处理时,输出一个包含有该提问式的组配元(标引词)且符合组配条件(逻辑运算符)的文献集合。布尔检索模型因其简单、易理解、易实现、能处理结构化提问等优点,在信息检索系统 中得到了广泛的实际应用。 传统布尔检索模型的具体缺陷主要表现在以下五方面: ①布尔检索式的非友善性,即构造一个好的检索式是不容易的。 ② 易造成零输出或输出过量。 ③ 无差别的组配元,不能区分各组配元的重要程度; ④ 匹配标准存在某些不合理的地方。对于文献中标引词的数量没有评判,都一视同仁; ⑤ 检索结果不能按照重要性排序输出。
信息检索原理--信息检索模型简介 (3)向量空间检索模型:向量检索是以向量的方式确定检索内容的方法,系统中的每一篇文献和每个提问均用等长的向量表示。如:文献集合中的第i篇文献用Di = ( T1, T2, T3, …, Tm )表示,其中T1, T2, T3, …, Tm为系统中所有标引词集合;提问集合中的第j个提问用Qj = ( T1, T2, T3, …, Tm )表示;Tk表示文献向量或提问向量中的第k个分量,即文献表示或提问式中所含的第k个标引词或检索词。 传统的向量空间模型将Tk取值为“0”或“1”,现在大多在[0,1]区间取值。这样,就可以构成一个向量空间,把信息检索中文献与提问的匹配处理过程转化为向量空间中文献向量与提问向量的相似度计算问题。某一文献与某一提问的相关程度通过计算该向量对之间的相似度来测定。这种方法自然引入了检索的柔性和模糊性,从理论上使检索更为合理。
信息检索原理--信息检索模型简介 与采用布尔模型的普通检索系统相比,该系统有以下几个特色: ① 采用自动标引技术为文献提供标引词; ② 改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度可在[0,1]闭区间中取值; ③ 由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与否,从而使检索更趋于合理; ④ 检索结果可按与提问的相关度排序输出,便于用户通过相关反馈技术修正提问,控制检索量; ⑤ 布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。向量模型也存在着某些明显的缺陷。如检索过程转化为向量的计算方法,不能反映出文献之间的复杂关系;由于对任何一个提问都需要计算全部文献库中的每一篇文献,因此计算量大、算法复杂性较高;由于标引加权和检索加权是分离的,因此随意性较大,难以保证质量。
信息检索原理--信息检索模型简介 (4)概率检索模型:它是基于概率排序原理,即文献根据它们与提问的相关概率来排序输出。有证据表示,在一定条件下,它可以产生优良的排序结果。事实上,对于某个特定的检索提问,文献集合中的某一文献是否符合用户的信息需求(即是否是相关文献)可以看成是一个随机事件,每篇文献是相关文献的概率各不相同,综合信息需求的概率和文献与标引的相关概率,才能更为合理地划分检索结果。概率检索模型正是基于这一思想建立起来的。 其主要优点是: ① 采用了理论上更为严密的方式来进行决策; ② 容易与加权方法结合起来使用,为人们提供了一种理论基础; ③ 不设计布尔逻辑运算符,回避了构造布尔提问式的困难; ④ 文献可按用户的期望值输出排序; ⑤ 吸收了相关反馈原理,可开发出理论上更为合理的方法。但是,它也有明显的不足,如增加了存储和计算资源的开销;参数估计问题也增加了该模型使用时的难度。
信息检索原理--信息检索模型简介 (5)扩展布尔逻辑检索模型:扩展布尔模型是以对布尔算符的一种近似解释系统为基础,在此模型中,能以一种比传统布尔模型限制更小的形式来处理布尔提问式。特别当某一给定文献中出现较多提问词时,它的值就大于含提问词较少的文献。 这种扩展布尔检索模型具有以下优点: ① 它适应常规布尔检索中的标准提问式结构,且通过计算提问-文献的相似度,可以避免潜在的无意义解释; ② 许可在文献表示和提问式中加入词权值; ③ 可以按相似度的来排列输出文献,因而在响应某一给定提问时,可以控制要检索的文献数量; ④ 便于区分强制性短语和严格的同义解释与试探性短语和较不严格的同义关系。
信息检索原理--信息检索模型简介 (6)相关反馈模型:用户在使用信息系统时,需要将自己的信息需求按照系统所使用的概念和表达方式输入到系统中,由于用户表达问题的方式各有不同,在将信息需求表达为提问式时会与原意有一定的出入,这样,就难以保证检索到的文献能非常好地满足用户的需求。因此,一般的信息检索系统中都需要有一种反馈装置,使用户可以通过反馈修改自己的提问式,从而达到较完满的检索目的。 (7)信息检索模型的发展趋势:20世纪70年代末,人们又重新着手对传统的布尔模型进行研究,并对改进布尔检索做了大量的工作。如用截词检索以改进提问式中对同义词列举不全造成的漏检现象,用概念加权检索以弥补传统布尔检索中不能揭示概念与检索主题相关程度的缺陷。因此,在今后信息检索的理论研究中,布尔检索的研究仍将占据十分显著的地位。目前,商用信息检索系统主要以布尔模糊逻辑加向量空间模型为主,辅以部分自然语言处理。自然语言处理,特别是自然语言理解在信息检索中应用,将大大提高信息检索的精度和相关性。文本检索中常用布尔模型,向量空间、相关反馈模型常被用在多媒体检索、搜索引擎、自动分类、智能检索、数据挖掘等技术中。
第一章 信息检索理论基础 主要知识点 (一)信息检索原理 (二)信息检索技术简介 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆
信息检索技术简介—信息检索常用技术简介 (1)布尔检索技术:它是利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索中最常使用的一种方法。 (2)截词检索技术:它也是一种常用的检索技术,尤其在西文检索中使用更广泛。它可以一次性地解决词干相同的词、英美不同拼法的词的检索。 (3)限制检索技术:在信息检索系统中,为缩小命中文献的数量,常将检索范围限定在某个字段、或某个范围中。 (4)位置检索技术:位置检索可以反映出两个检索词在文献中的邻近关系。这种检索技术常用在全文检索中,可以弥补布尔检索的不足。
信息检索技术简介--信息检索常用技术简介 (5)加权检索技术:加权检索的侧重点并不是在于是否检索到某篇文献,而是对检索出的文献与需求的相关度作评判。 (6)多媒体检索技术:基于内容的多媒体信息检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。它的研究目标是提供在没有人类参与的情况下能自动识别或理解声音、图像、视频重要特征的算法。它色括基于内容的声频检索和基于内容的图像信息检索二类。基于内容的多媒体检索技术的日益成熟不仅将创造出巨大的社会价值,而且将改变人们的生活方式。 (7)超文本检索:超文本是一种信息的组织方法,它把不定长的基本信息单元存放在结点上,这些基本信息单元可以是单个字、句子、章节、文献,甚至是图像、音乐或录像,结点以链路方式链接,链路可以分为层次链、交叉引用链、索引链等,构成网状层次结构。超文本的特点是以联想式的、非线性的,链路的网状层次关系,允许用户在阅读过程中从其认为有意义的地方入口,直接快速地检索到所需要的目标信息。
信息检索技术简介--信息检索当代技术简介 (1)并行检索技术:并行检索为实现大容量文本信息的存储与快速检索提供了一条有效的途径,它一改以往利用顺序实现计算机信息检索的状况,这就使在检索系统的信息规模较大时,也能满足用户的检索响应要求。目前的大型搜索引擎中一般都采用并行检索技术,以提高检索的响应速度。 (2)分布式检索技术:分布式信息检索允许检索请求在分布在不同地点、不同结构的系统平台上运作。主要原理是由检索代理程序将检索任务同时提交给网络上的多个主机,由位于这些主机上的检索程序分别独立检索并将检索结果返回到检索代理程序,并经整理后显示给用户。 (3)基于知识的智能检索技术:全文检索的效果需要进一步提高,其适应不同应用的能力还需要改进,其核心是发展知识检索。智能检索常被理解为,如检索“华人”,可把包含“中华人民共和国”的内容不被检索出来,检索“电脑”,可以把包含“计算机”的内容检索出来,这些只是智能检索的初级阶段。未来的智能化知识检索更应该注重文本挖掘的功能。 (4)知识挖掘技术:主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、分类(聚类)和相似性检索等方面。
信息检索技术简介--信息检索当代技术简介 (5)异构信息整合检索和全息检索技术:在信息检索分布化和网络化的趋势下,需要信息检索系统能够检索和整合不同来源和结构的信息,这是异构信息检索技术发展的基点。所谓“全息检索”的概念就是支持一切格式和方式的检索,从目前实践来讲,发展到异构信息整合检索的层面,但这还有待于突破。 (6)自然语言检索技术:自然语言检索应是信息检索的发展趋势,但只有自然语言与人工跨语言信息检索将用一种自然语言书写的信息需求通过机器翻译自动转换成另一种可为系统接受的语言。即可以用一种语言去检索其他语言的资源语言相结合,才能更好地发挥自然语言检索的优势。 (7)跨语言信息检索技术:跨语言信息检索将用一种自然语言书写的信息需求通过机器翻译自动转换成另一种可为系统接受的语言。即可以用一种语言去检索其他语言的资源。
信息检索技术简介--信息检索当代技术简介 (8)问答系统技术:问题回答输入的查询是问题,要求从给定语料库中返回文本。问题回答系统可由三个模块组成:问题分析、候选窗口查找和答案抽取。。 (9)概念空间技术:概念空间技术是为迎合信息检索的智能化而设计的,主要针对网络信息资源。与词表不同的是,概念空间直接从目标文档构建而来,通过对目标文档进行概念选取、概念聚类而形成,是一个概念网络。概念空间实际上是一个智能化索引,每个索引项(概念)通过一层或多层的概念与原文档建立联系。当用户用自然语言检索时,系统会自动地在概念语义空间联想搜寻相似性最高的概念,并根据相似性递减规律列出检索结果。 (10)信息融合技术技术:信息融合技术是一种综合利用多种信息资源,以获得对某一事物更客观、更本质认识的信息处理技术。信息融合技术应用于信息检索系统中,通过对各种信息源中信息的集成(连接)、集成(连接)之后对信息的取舍和集合的划分,可以合理地组织查询结果,使信息检索系统能提供更好的服务功能。
第一章 信息检索理论基础 主要知识点 (一)信息检索原理 (二)信息检索技术简介 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆
信息检索系统 1、信息检索系统的组成:一个完整的信息检索系统,通常由以下几个功能模块组成:信息源选择与采集子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统。(参阅教材图1.4) 2、信息选择子系统:本功能模块的任务是:根据系统的目标和服务对象的需要,确定数据收集范围,并广泛地、定期地采集各种信息源,为系统提供充足而适用的数据。目前,本模块的工作主要由系统工作人员承担,计算机只起辅助作用。 3、标引子系统:标引,就是根据系统的规则和程序,对文献内容进行分析,然后赋予每篇文献以一定数量的内容标识(如分类号、主题词、关键词等),作为存储与检索的依据。标引作业通常与文献编目和文摘工作一起进行,然后把标引结果和其他描述事项(如著者、著者单位、文献出处等)填入工作单,由录入员输入到计算机中。 4、建库子系统:本模块的功能是建立和维护可直接用于检索的数据库,包括系统所用的各索引文档。其工作流程主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。
信息检索系统 5、词表管理子系统:词表管理子系统管理维护系统中已有的主题词表,使它与标引、建库等子系统相连接,支持用户查询操作,并从提问、对话或其它文本中采集新的词汇信息,以及输出各种形式的词汇数据或词表产品。 6、用户接口子系统:它的全称是“系统-用户接口”,简称用户接口,是面向系统用户的人-机接口程序。它承担用户与系统之间的交流功能,是信息系统中不可缺少的模块。 7、提问处理子系统:提问处理子系统专门负责处理用户输入的提问式,将提问式中的检索元和算符区分,并转换成系统内部的可接受的命令方式。在对提问进行转换后,与数据库中存储的数据进行比较运算,然后把运算结果输出给用户。
第一章 信息检索理论基础 主要知识点 (一)信息检索原理 (二)信息检索技术简介 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆
信息检索语言 1、信息检索语言及其在信息检索中的作用:信息检索语言是根据信息检索的需要而创制的人工语言,又称信息语言、检索语言、标引语言、标识系统等等。信息检索语言是沟通讯息存储和检索两个过程中标引人员和检索人员的。因此,它在信息检索过程中所起的作用是极为重要的。 2、信息检索语言的基础:概念逻辑和知识分类是信息检索语言的基础。概念逻辑是一种科学思维方法,它能揭示事物的本质属性及各种事物之间的联系与区别,概念则是事物本质属性的概括。 3、信息检索语言的分类:信息检索语言按其构成原理,可分为分类语言、主题检索语言和代码检索语言三大类型。分类检索语言用分类号表达各种概念,将各种概念按学科性质进行和系统排列。它集中体现学科的系统性,反映事物的从属、派生关系,由上至下,从总体到局部层层展开,是一种等级体系。主题检索语言用语词来表达各种概念,将各种概念忽略其相关关系按字顺排列。由主题词汇构成,表达的概念较准确,主题词表中通过参照系统反映词汇之间的关系,具有较好的灵活性和专指性。代码检索语言一般针对事物的某一方面特征用某种代码系统来加以标引和排列。
信息检索语言 4、信息检索语言基本方法:信息检索语言使用的标识可分为号码标识、语词标识和代码标识三类。这三类标识形成信息检索语言的三个语系,即分类检索语言(分类法系统)、主题检索语言(主题法系统)和代码检索语言(代码系统)。标识中需要做规范化处理,使其符合唯一性、规律性、定型性、通用性、准确性、及正确性的要求,这也是提高标识质量的重要措施。 5、自然语言在信息检索中的应用:自然语言在信息检索中大体分为无标引方式、自动标引方式、和人工标引方式三种。无标引方式包括文本关键词匹配检索、单字检索。自动标引方式包括:自动抽词标引、自动赋词标引、自动赋分类号、自动聚类、人机结合抽词标引。人工标引方式包括:自由标引、自由词补充标引。上述各种自然语言在信息检索中应用的方式,都可借助于后控制词表来弥补其缺点。自然语言与信息检索语言各有优缺点。自然语言由于适用于现代的网络信息检索,无需标引,文献处理成本较低,检索时无需对照词表选词,因此越来越受到某些领域专家的赞同。而信息检索语言由于其比较严谨、适应范围广、检索效率高,而受到信息界人士的认可。
第一章 信息检索理论基础 主要知识点 (一)信息检索原理 (二)信息检索技术简介 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆
信息检索评价—检索系统评价 (1)信息源评价:数据库规模、收录范围、信息源质量控制等指标可反映信息源的质量。 (2)信息组织管理:主要指信息标引的方法、组织方式、及更新周期。 (3)系统功能评价:取决于系统所能提供的检索途径、检索方式、和检索方法。 (4)输出结果评价:主要包括信息检索系统对用户提问的响应时间、命中记录的排序功能和输出显示形式。 (5)用户接口:“用户友好”是信息检索系统用户接口的建设宗旨,它决定了用户是否喜欢使用该系统。 (6)系统技术支持:系统技术支持主要指系统及其软、硬件平台的通用性、兼容性、先进性、可靠性和稳定性。系统的性能价格比也是评价系统技术经济性能的指标。
信息检索评价--检索效果评价 (1)查全率:定义为: 检出的相关信息数 查全率 = —————————————×100% 信息库中相关信息总数 (2)查准率:定义为: 检出的相关信息数 查准率 = ———————————————×100% 检出的信息总数 (3)误检率:定义为: 检出的非相关信息数 误检率 = ————————————×100% 检出的信息总数 (4)漏检率:定义为: 未检出的相关信息数 误检率 = ———————————————×100% 信息库中相关信息总数
信息检索评价--检索效果评价 (5)其它评价指标 并不是每个用户都喜欢高查全率,不同的用户对查全率和查准率的要求都有不同。用户对查准率的容忍程度可能与他对查全率的要求有直接关系。由于查全率和查准率是基于与提问相关的文献数来计算的,而此相关文献数是由用户来判定的,不同的用户具有不同的判定标准。因此,提出了一种基于用户的评价方法,诸如覆盖度、新颖度、相关查全率和查全影响度等。检索效果评价的指标还有错检率,是测定检出的非相关信息数占库中非相关信息总数的比例;相关率,表明与提问相关的信息在系统中的分布密度等。 检索效益评价 对于检索效益的评价取决于社会效益和经济效益,评价并不是直接就可以显现的,因为它由一些不可比较的因素组成,有些方面需要通过间接的方法才能获得。另外,检索效益还具有潜在性和不确定性。因此在对检索效益评价时,需要考虑各个方面的问题。
第一章 信息检索理论基础 主要知识点 (一)信息检索原理 (二)信息检索技术简介 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆
信息检索与数字图书馆 数字图书馆是信息存储技术、信息检索技术、信息检索系统与现代网络技术结合的一个综合性应用的案例。数字图书馆定义有多种,其中之一认为“数字图书馆是全球信息高速公路上信息资源的基本组织形式,这一形式满足了分布式面向对象的信息查询需要”。数字图书馆并不是简单地将图书馆信息进行数字化存储,而是一个以统一的标准和规范为基础,以数字化的各种信息为底层,以分布式海量资源库群为支撑,以智能检索技术为手段,以宽带高速网络为传输通道的将丰富多彩的知识领域信息传递到千家万户的虚拟图书馆。
第一章 信息检索理论基础 重点和难点
重点和难点 (一)本章重点:信息检索模型及其特点;信息检索技术及其特点;信息检索系统及其组成;信息检索语言的作用、分类及应用。 (二)本章难点:信息检索模型、信息检索技术、信息检索语言的内含正确理解。
第二章 文献信息及其数字化发展 主要知识点 (一)文献信息源及其形式知识 (二)图书及其数字化发展 (三)期刊及其全文数据库 (四)特种文献及其网上分布
文献信息源及其形式知识—信息与文献的含义 (1)信息的定义: 信息可定义为:生物以及具有自动控制系统的机器,通过感觉器官和相应的设备与外界进行交换的一切内容。但是,人们一般意义上所理解的信息则只是信息的一部分,即构成人们所需的人类社会信息。 (2)信息资源的含义: 信息资源是信息的一部分,是信息世界中与人类需求相关的信息;信息资源是可利用的信息,是在当前生产力水平和研究水平下人类所开发与组织的信息;信息资源是通过人类的参与而获取的信息,人类的参与在信息资源的形成过程中具有重要作用。总之,信息资源就是经过人类开发与组织的有用信息的集合。 (3)文献的含义: 文献是记录有知识信息的一切载体的统称,是用文字、图形、图像、符号、声频、视频等技术手段记录人类知识信息的物质载体,或称其为固化在一定物质载体上的知识或信息。它包括两个核心部分:载体及其承载的信息。我们通常所说的信息资源主要指依附于信息载体的信息资源,也可以称之为文献信息资源。
文献信息源及其形式知识—文献的类型和出版形式文献信息源及其形式知识—文献的类型和出版形式 (1)按文献的载体形式划分 : 可分为:刻写型;印刷型;缩微型;声像型;电子型。 (2)按文献被加工处理的深度划分: 可分为:一次文献;二次文献;三次文献。 (3)按文献的出版形式划分: 可分为:图书;期刊(含报纸、工具书等);特种文献(包括:会议文献、学位论文、专利文献、标准文献、政府出版物、科技报告、产品样本和产品目录、档案)。
第二章 文献信息及其数字化发展 主要知识点 (一)文献信息源及其形式知识 (二)图书及其数字化发展 (三)期刊及其全文数据库 (四)特种文献及其网上分布
图书及其数字化发展—经典著作及其网上分布 (1)什么是经典著作? 经典著作是人类思想与文化的源泉,它们集中了前人积累的知识和经验,是读书治学的门径。 (2)经典著作的推荐及有关信息 基于对中西学术文化的整体考察,结合学术史的总结,本书推荐经典著作50种,并按照中等以上文化程度的一般人了解学术思想的目的,本书从中选择了核心经典30种,供大学生、研究生阅读。这些经典著作的学科分布如下: 科学: 推荐经典8种,其中核心经典6种; 哲学: 推荐经典8种,其中核心经典6种; 宗教与历史: 推荐经典8种,其中核心经典6种; 文学: 推荐经典12种,其中核心经典6种; 社会科学:推荐经典8种,其中核心经典6种; 艺术: 推荐经典6种。 以上著目及有关情况参阅教材2-1。
图书及其数字化发展--电子图书网站及数据库 (1)什么是电子图书? 电子图书是指以数字代码方式将图、文、声、像等信息存储在磁、光、电介质上,通过计算机或类似设备使用,并可复制发行的大众传播体。 (2)免费电子图书网站 免费电子图书网站可以说是互联网上最先涌现出来的电子图书网站 (3)收费电子图书网站/数据库 收费电子图书网站在阅读图书时需要交费。这类网站一般采取两种方式运行。其一是发行读书卡,它主要针对个人用户,通过用户名和密码的控制,方便读书卡持有者随时上网使用该网站中的电子图书。其二是以机构租赁形式提供使用。
图书及其数字化发展—图书相关信息的网上分布及查询技巧图书及其数字化发展—图书相关信息的网上分布及查询技巧 (1)什么是图书相关信息? 图书的各种相关信息,是指有关图书的信息,如内容信息(书名、作者等)、出版信息(出版社、出版年等)、收藏信息等,是我们获取图书的主要线索。 (2)图书出版信息的网上分布 ①综合性的图书(出版)网站:除了部分网络出版的电子图书,绝大部分的图书都是由出版社出版并通过多种途径进行发行的。目前互联网上有许多专业图书出版网站,他们为我们提供了许多与图书相关的信息。 ②出版社网站:由出版社(尤其是大型出版社)建立的宣传自己的产品和服务的网站,一般都提供如下信息: 出版社信息; 最新图书信息; 图书目录 ; 辅助信息;
图书及其数字化发展—图书相关信息的网上分布及查询技巧图书及其数字化发展—图书相关信息的网上分布及查询技巧 ③网上书店:各类网上书店通常集成了以下信息: 大量的图书信息; 详细的书目信息; 增值服务信息 在互联网上获取图书的馆藏信息一般可以采取以下步骤: 首先,根据自己掌握的有关所需图书的部分信息,如主题、部分书名、作者等猜测其馆藏地的可能性,以此确定可能的收藏单位; 其次,根据对收藏地的推测,首先选择本地区的图书馆进行查询。在本地区查不到的情况下再查找国内其他地区图书馆甚至国外图书馆的OPAC系统; 第三,进入选定的某个图书馆的主页(如果不知道网址,可以利用搜索引擎搜索该图书馆),找到并进入其联机公共书目系统(OPAC在不同图书馆的主页上可能有不同的标示,例如馆藏查询或馆藏书目等); 第四,根据自己所掌握的图书信息的不同,选择相应的检索途径(书名、作者、主题等),进行检索;
图书及其数字化发展—图书相关信息的网上分布及查询技巧图书及其数字化发展—图书相关信息的网上分布及查询技巧 第五,查看检索结果,确定是否有需要的图书信息,如果有,选择并下载详细的书目信息。 上述直接查询各个图书馆OPAC的方法带有较大的猜测成分,因而有可能需要花费不少时间。为了减少查找馆藏信息的盲目性,快速确定图书的馆藏地点,我们可以利用国内外各种地区性、全国性乃至全球性的联合目录数据库,一次性查询多个图书馆的馆藏图书书目。 根据互联网上图书信息的分布规律,我们可用四种不同的方法定位和获取因特网上的图书或图书信息: ①如果我们知道某个出版社、网上书店或电子图书网站的网址,通过该信息的URL就可直接找到其Web页面。 ②在Web页面上的超文本链接往往是页面作者所考虑的与其网站(页)相关的一些站点。在前面介绍的每个网站上都有一些相关的链接点,通过它们,我们可以找到更多的图书信息; ③通过搜索引擎查询所需图书信息的网站或网页。但需要注意的是这种方式检索出来的结果往往很多,需要我们仔细鉴别和筛选。 ④利用搜索引擎获取有关出版社或网上书店等网址信息再查询。
第二章 文献信息及其数字化发展 主要知识点 (一)文献信息源及其形式知识 (二)图书及其数字化发展 (三)期刊及其全文数据库 (四)特种文献及其网上分布
期刊及其全文数据库—核心期刊及其网上分布 (1)核心期刊的含义 在某一学科中,少数期刊覆盖了该学科的大部分最有参考价值的文献,而多数期刊仅包含该学科的少量最有参考价值的文献,这少数期刊就是该学科的核心期刊。 (2)核心期刊的网上分布 各学科代表性核心期刊及网址参见教材表2-2。
期刊及其全文数据库—国内外电子期刊全文数据库期刊及其全文数据库—国内外电子期刊全文数据库 电子期刊全文数据库既是电子期刊的集成,也是电子期刊提供服务的主要载体和方式。这里对国内外一些主要的电子期刊全文数据库进行简要介绍。 (1)中文电子期刊全文数据库 ①中国期刊全文数据库:由清华同方光盘股份有限公司组织实施的中国知识基础设施工程(China National Knowledge Infrastructure,CNKI)的核心数据库资源之一,也是国内最大型的学术期刊全文数据库之一。 ②中文科技期刊数据库:由重庆维普公司开发,包含1989年以来的经济管理、教育科学、图书情报、自然科学、农业科学、医药卫生、工程技术等学科8000余种期刊刊载的600余万篇文献,并以每年100万篇的速度递增。 ③万方数字化期刊:数字化期刊收纳了基础科学、农业科学、医药卫生、工程技术等四大学科70余个类目的3000余种期刊,多为2000年以来的文献。该库期刊浏览功能强,可以按从类——刊——期——目录——全文的方式浏览期刊,符合传统的期刊浏览习惯。但其检索功能则相对较弱。
期刊及其全文数据库—英文电子期刊全文数据库期刊及其全文数据库—英文电子期刊全文数据库 ①Elsevier SDOS:荷兰Elsevier Science公司是世界著名的出版公司,已有100多年的历史。除了出版图书外,还出版有近2000多种世界公认的高品位学术期刊。1997年,该公司开始推出名为Science Direct的电子期刊计划,将该公司的全部印刷版期刊转换为电子版,同时也推出了其本地服务措施Science Direct Onsite(SDOS),即在用户本地建立镜像服务器。2000年1月,SDOS进入中国。 ②Kluwer Online:荷兰Kluwer Academic Publisher是具有国际性声誉的学术出版商。Kluwer Online是其出版的800余种期刊的网络版,专门基于互联网提供Kluwer电子期刊的查询、阅览服务。 ③Springer Link:德国施普林格(Springer-Verlag)是世界上著名的科技出版集团,它出版的期刊、图书深受专家、学者青睐。LINK是施普林格出版社和它的合作公司推出的科学、技术和医学(STM)方面的在线信息资源。目前,Springer LINK全文期刊可在线阅读约490种。 ④Wiley Interscience:美国约翰威利出版公司(John Wiley & Sons, Inc)是世界上著名的科技出版公司。该出版社期刊的学术质量很高,是相关学科的核心资料,其中被SCI收录的核心期刊达200种以上。
期刊及其全文数据库—英文电子期刊全文数据库期刊及其全文数据库—英文电子期刊全文数据库 ⑤Blackwell Synergy:Blackwell Publishing出版社综合出版社会科学、科学与医学方面的资料。目前Blackwell共有670多种电子刊通过Internet提供服务。 ⑥IEEE/IEE Electronic Library:IEEE/IEE Electronic Library (简称IEL)是美国电气电子工程师学会(IEEE)和英国电气工程师学会(IEE)所有出版物的电子版全文数据库,它包括IEEE和IEE编辑出版的全部学术期刊120多种,科技会议录600多种和875个IEEE工业标准。 ⑦Academic Research Library:是Proquest 公司出品的一个 文图像期刊数据库。ProQuest公司是全球最大的文献信息服务公司之一,Academic Research Library是其出品的20余个全文数据库中的一个,它收录2831种综合性期刊和报纸的文摘/索引(内含同行评审期刊1502种),其中1955余种是全文期刊(其中477种期刊的全文延期几个月到1年上网),包括SCI收录的核心全文刊170多种,SSCI收录的核心全文刊400多种。 ⑧Academic Search Premier:EBSCO公司出品,该公司也是全球最大的文献信息服务公司之一,它可以提供近百个数据库为全世界用户服务,Academic Search Premier是其中一个比较适合大学使用的数据库。该库收录有生物科学、工商经济、资讯科技、通讯传播、工程、教育、艺术、文学、医药学等领域的7000多种期刊(内含同行评审期刊6477余种),其中有4,000余种全文刊(内含同行评审期刊2401种)。
期刊及其全文数据库—英文电子期刊全文数据库期刊及其全文数据库—英文电子期刊全文数据库 ⑦Academic Research Library:是Proquest 公司出品的一个 文图像期刊数据库。ProQuest公司是全球最大的文献信息服务公司之一,Academic Research Library是其出品的20余个全文数据库中的一个,它收录2831种综合性期刊和报纸的文摘/索引(内含同行评审期刊1502种),其中1955余种是全文期刊(其中477种期刊的全文延期几个月到1年上网),包括SCI收录的核心全文刊170多种,SSCI收录的核心全文刊400多种。 ⑧Academic Search Premier:EBSCO公司出品,该公司也是全球最大的文献信息服务公司之一,它可以提供近百个数据库为全世界用户服务,Academic Search Premier是其中一个比较适合大学使用的数据库。该库收录有生物科学、工商经济、资讯科技、通讯传播、工程、教育、艺术、文学、医药学等领域的7000多种期刊(内含同行评审期刊6477余种),其中有4,000余种全文刊(内含同行评审期刊2401种)。
期刊及其全文数据库—期刊信息的网上获取 (1)通过专业数据库:目前已经有一些专业的期刊信息数据库供我们选择。例如《中国报刊订阅指南信息库》光盘是期刊报纸的快速、方便、简捷的查询工具。中文的还有清华同方的《中国期刊信息与知识数据库》、《中国核心期刊要目数据库》等。而美国ISI的期刊引证报告数据库(Journal Citation Reports,JCR)则是对权威期刊进行系统客观评价的有效工具,它收录了世界上自然科学和社会科学各学科最具影响的7000多种期刊,涵盖了200多门学科,从中不仅可以找到期刊的各种出版信息,还可以查到系统客观的评价数据。
期刊及其全文数据库—期刊信息的网上获取 (2)利用期刊联合目录和各馆的联机公共检索目录:期刊联合目录是查询期刊出版信息和馆藏信息的最主要的工具。中科院的《全国期刊联合目录》提供国内近300家主要文献机构收藏的西、日、俄、中文期刊8万种可供查询。国家科技图书文献中心提供了基础科学、医学、农学、工程技术等四大类近百个子类的期刊浏览,同时也提供了检索功能。OCLC的WorldCat数据库则是一个包含其成员馆的所有类型资料的联合目录数据库,其中也同样可以查到连续出版物的信息。 (3)访问一些相关的网站或利用搜索引擎查找:网上有一些网站提供了诸如专业核心期刊目录或其他一些信息,如果我们知道这些网站,可以直接访问它们;如果不知道上述网址,则可以直接利用搜索引擎查找某种刊物,一般也能获取需要的信息。
期刊及其全文数据库—文献的网上查询 (1)利用文摘索引型检索工具/数据库 ①如果需要查找外文期刊文献,那么选择查找自然科学的《科学引文索引》(Science Citation Index,SCI)、查找社会科学的《社会科学引文索引》(Social Science Citation Index,SSCI)、查找工程技术信息的《工程索引》(Engineering Index,EI)、查找化学文献的《化学文摘》(Chemical Abstract,CA)、查找生命科学的《生物学文摘》(BIOSIS Previews,BP)、查找医学信息的《MEDLINE》等世界著名的权威检索工具将帮助我们迅速快捷的获取所需的期刊文献信息,包括文章名称、作者、期刊名、卷期页码等,我们可以根据这些信息找到相应的期刊获取全文。
期刊及其全文数据库—文献的网上查询 ②如果需要查找中文社会科学方面的期刊文献,那么可以选择《全国报刊索引》《报刊资料索引》等检索工具。《全国报刊索引》是上海图书馆上海科学技术情报研究所主办出版的报道国内报纸、期刊的大型综合性检索刊物。该库已回溯至1950年,内容主要涉及马列主义、毛泽东思想、哲学、社会科学、政治、军事、经济、文化、科学、教育、体育、语言文字、文学、艺术、历史地理等各个学科,是查找国内社会科学期刊文献的首选数据库。《报刊资料索引》系列刊是由中国人民大学书报资料中心按月度或年度编排的大型检索工具书,也是检索社会科学文献的重要工具。《复印报刊资料索引》数据库是其对应的电子版。它汇集1978年以来《报刊资料索引》系列刊(S1~S8)的全部内容。 ③如果需要查找中文自然科学领域的期刊文献,则可以选择重庆维普的《中文科技期刊篇名数据库》和万方的系列科技文献数据库。
期刊及其全文数据库—文献的网上查询 (2)访问期刊出版商的网站和数据库 电子期刊的出版商通常在网站上提供了其出版期刊的题录和文摘的免费检索和浏览,有的还提供免费的全文或者是收费的全文数据库。所以如果知道期刊的出版商,直接访问该出版商网站是一个比较可靠的方法。 (3)检索期刊集成商提供的数据库 网络期刊集成商本身不出版电子期刊,而是将出版商(通常是多个)的网络期刊集成在一起,建立统一的检索界面提供检索服务。 (4)通过提供电子期刊链接的网站获取 有的网站搜集了大量的电子期刊链接,包括相当数量的免费期刊,为我们获取电子期刊信息提供了一条捷径。 (5)通过搜索引擎获取 在查找不知网址的电子期刊时,搜索引擎仍然是常用的一种方法。有些搜索引擎中提供了关于电子期刊的一些类目,直接点击可以获得一些电子期刊的链接点。