370 likes | 605 Views
文献检索课 二. 文献信息检索及其原理. 文献信息检索的含义 文献信息检索是 信息检索 和 文献检索 两个概念的统一 信息检索 是指从任何信息集合中获取所需信息的过程及其所采取的一系列方法和策略。 广义上 , 信息检索包括信息的存储和检索 狭义上 , 信息检索只指信息查询 文献检索 是指依据一定的方法,从已经组织好的大量有关 文献集合 中,查出特定的相关文献的过程。. 文献信息检索: 是指依据一定的方法,从已经组织好的文献信息集合中,查出所需特定文献信息的过程。 这里的文献信息是指关于文献的信息和文献记录着的信息。. 信息检索的类型
E N D
文献信息检索及其原理 • 文献信息检索的含义 • 文献信息检索是信息检索和文献检索两个概念的统一 • 信息检索是指从任何信息集合中获取所需信息的过程及其所采取的一系列方法和策略。 广义上,信息检索包括信息的存储和检索 狭义上,信息检索只指信息查询 • 文献检索是指依据一定的方法,从已经组织好的大量有关文献集合中,查出特定的相关文献的过程。
文献信息检索: • 是指依据一定的方法,从已经组织好的文献信息集合中,查出所需特定文献信息的过程。 • 这里的文献信息是指关于文献的信息和文献记录着的信息。
信息检索的类型 • 按照检索手段分: • 手工检索:即用人工来处理和查找所需信息的检索方式,一般是利用各种印刷型检索工具。 • 计算机检索:是利用计算机和一定的通信设备为手段,通过光盘、联机和网络等现代检索方式进行的信息检索。分:联机检索、光盘检索、 网络检索
按照检索对象分: • 文献检索(document retrieval) :指以文献为检索对象的信息检索,检索的目的通常是为读者提供文献的线索或原文。 • 数据检索(data retrieval) :是以数值或图表为检索对象,检索的结果是确定性的数据,如统计数据、人口数据、气象数据、并提供一定的运算推导。 • 事实检索(fact retrieval) :是以原始文献中抽取的事物的情况的为检索对象,检索结果是事物发生的时间、地点和情况等具体答案,也是一种确定性的检索。
分辨以下问题分别属于哪种检索 • 世界上最长的大桥是哪一条? • 世界上最长的大桥有多长? • 关于铁路大桥有多少文献? • 世界上有多少条铁路大桥?
在以上三种检索类型中,文献型信息检索是事实型信息检索和数据型信息检索的基础。在以上三种检索类型中,文献型信息检索是事实型信息检索和数据型信息检索的基础。 前二种类型的信息检索往往在文献型信息检索的基础上展开, 三者之间在原理、方法和实践等方面有着密切的关系。 前两种信息检索类型都能够得到确切的答案,或者是文献中的具体信息。 参考工具书 • 数据检索 • 事实检索 • 文献检索 全文数据库 文摘数据库等
信息检索的原理 • 检索原理:检索提问标识与存储在检索工具中的标引标识进行比较,两者一致或信息标引标识中包含提问标识即是命中的信息。标引,即文献信息的整序加工。 (1)存储过程:标引员广泛收集信息,形成检索标识,把这些标识按一定方法组织成形成各种检索系统,即信息源的形成过程 (2)检索过程:检索人员分析课题,用检索提问标识,从检索系统中查获所需的信息。
检索语言 • 又称为标引语言,索引语言,文献检索语言,信息存储与检索语言等 • 概念: ◆是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。 ◆是根据文献存储与检索的需要,在自然语言的基础上规范化了的一种人工语言 ◆它是信息标引人员和信息检索人员沟通的桥梁。 • 主要作用是对文献的外部特征和内容进行多层次描述,提供多种检索途径,以便用户从不同角度检索查找。
检索语言的类型 • 按照标识的性质与原理可分为:分类语言、主题语言、代码语言 • 按照表达文献的特征可分为: • 表述文献外表特征的检索语言: • 名称——题名索引、篇名索引 • 责任者——个人著者索引、机关团体著者索引 • 文献编号——报告号索引、专利号索引、合同号索引、存取号索引 • 其它——人名索引、地理索引、引用文献目录等 • 表达文献内容特征的检索语言: • 体系分类语言——分类索引 • 标题词语言、叙词语言——统称主题索引 • 关键词语言——关键词索引 • 其它——分子式,结构式索引等
分类语言 • 国外常用的分类法: 《国际十进分类法》(Universal Decimal Classification, 简称UDC) 《杜威十进分类法》(Dewey Decimal Classification, 简称DDC) 《美国国会图书馆图书分类法》(Library of Congress System, 简称LC)和自编分类表为多见。
《中国图书馆分类法》的体系结构 • 《中图法》将知识门类分成5大部类,22个基本大类(分别用除L、M、W、Y外的其他英文字母表示,),在这一基础上再按照从总到分,从一般到具体逐级展开而构成的一个纲目分明的体系。图书分类时主要根据图书的内容进行分类标引
标记符号(分类号) 采用拉丁字母与阿拉伯数字相结合的混合号码制。大类采用字母表示,其它各级类目用数字表示。类号的变化体现了学科之间的关系。每增加一位字母和数字,通常代表增加一级分类。如: O 数、理、化 一级类目 O1…… 数学 二级类目 O11 古典数学…… 三级类目 O12 初等数学 O121 算术 四级类目 O122 初等代数 O123 初等几何
分类号 书次号 • 图书馆图书的排架与查询: • 图书是按索书号排列在书架上的 • 图书查询先确定索书号 • 索书号:由图书分类号和书次号组成;分类号在上,书次号在下。 • 书次号:我馆的书次号采用著者号;相同著者的著者号相同,这样能集中同一类文献中相同著者的文献。 • 著者号类型: 4个数字、字母+数字、全字母
图书排架先根据分类号排列,分类号相同再依书次号排。图书排架先根据分类号排列,分类号相同再依书次号排。 例如: TP TP1 TP31/1240 TP31/1350 TP31-62/1350 TP311/2520 TP311.13/1350 TP311.13/1360 TP311.13/D.M.C. TP311.13/G.H. TP311.13:S7/0120 TP311.13-62/0120
主题检索语言 • 概念:由主题词汇构成,即将自然语言中的名词术语经过规范化后直接作为信息标识,按字母顺序排列标识,通过参照系统提示主题概念之间的关系,也称主题法。 • 类型:主题语言分关键词语言和规范化词语言两种。 • 关键词语言:它是以关键词作为信息内容标识和检索依据的主题语言。它将描述主题内容的关键词抽出,按字顺排列提供检索。一般不加或加以少量规范处理。 • 关键词:是指那些出现在文献标题(篇名、章节名)、摘要和正文中对表达文献主题内容具有实质意义的语词。 • 关键词语言是一种未经规范化的自然语言词汇,因此,对于同一事物概念,不同著者,甚至同一著者在其不同的著作中用词也会有所不同。
规范化主题语言 • 概念:规范化词称作叙词、标题词等。指从自然语言中优选出来的并经过规范化处理(对词类、词形、同义词、多义词等处理)的名词术语。把规范化词按照一种便于检索的方式编排起来,就形成的主题词表。 • 例如,同义词规范类型: • 同一事物的不同称呼,如:西红柿与蕃茄、网上聊天与QQ、儿歌与童谣等。 • 同一事物的简称、全称、音译等,如:日本语与日语、互联网与因特网、中央电视台与CCTV等。
例:查关于大学教育系的文章。 • 用关键词标识:原文中使用什么就抽取什么如:education department/education school/school of education, • 用主题语言标识:则使用主题词表将这一类文章统一规范为school of education。检索时,结果将包括所有关于大学教育系的文章。 • 关键词语言与规范化主题语言的比较 • 前者为自然语言,没有词表的约束和复杂规则的限制,检索者可以使用在文献中出现的任何一个有实际意义的词进行检索,所以,比使用受控语言方便得多。 • 后者对同义词、近义词、一词多义、一义多词加以规范统一,显示多种形式的相关关系,因而,查准率和查全率较高。
检索工具 • 概念:就是人们用来报道、存储和查找文献情报的工具。 • 类型: ●按加工文献和处理信息的手段分:手工检索工具、机械检索工具。 ●按出版形式分:期刊式和单卷式检索工具。 ●按照载体形式分:书本式、胶片式、磁带式检索工具 ●按著录格式分:目录型、题录型、索引型,文摘型检索工具
目录型检索工具 • 含义:对图书、期刊(单位出版物)外表特征的揭示和报道。 • 文献条目构成:名称、作者、出版地、时间、主题词、分类号。 • 以整个出版单位或收藏单位为基本著录单元,如“本”、“种”、“件”等。 • 目录种类:篇名、著者、分类、主题目录。 • 排检规则: • 篇名、著者、主题目录:按字顺+笔画进行。 • 分类目录:按分类号顺序进行。
题录型检索工具 • 含义:揭示和报道单篇文献的文献条目集合。如一篇论文、一份报告、一件专利等。如《全国报刊索引》。 • 文献条目构成:名称、作者、出版地、时间、主题词、分类号。 • 题录类型:篇名、分类、主题题录。 • 排检规则: • ①篇名、主题题录:按字顺+笔画 • ②分类题录:按分类号顺序进行。
文摘型检索工具 • 文摘的含义:通过描述文献外表特征及内容特征(文献的摘要)的一种检索工具。 • 在题录的基础上每个著录单元再加上文摘。如美国《工程索引》、《科学文摘》等。 • 文摘的类型 • ①报道性文摘:定量信息+定性信息 • ②指示性文摘:主题范围+目的 • 文摘条目构成 • ①期刊论文:文摘号、分类号、名称、作者、时间、出处、摘要 • ②会议文献:文摘号、分类号、名称、作者、会议时间、会议地点、摘要。 • ③专利文献:文摘号、专利名称、作者、机构、专利号、专利公布日期、摘要。 • 检索规则:按分类号顺序进行。
索引型检索工具 • 索引的含义:将文献有检索价值的知识单元(主题词、分类号、公式等)摘录出来,并注明其所在文献的页码、文摘号,再按一定顺序组织起来。 • 索引的构成 • ①索引款目:文献特征标识(分类号、主题词、著者)、地址(文献线索:页码、文摘序列号)。 • ②参照系统:包括各种参照和注释。 • 索引类型 • ①分类索引:索引款目是分类号 • ②主题索引:索引款目是主题词 • ③著者索引:索引款目是作者名称 • ④号码索引:索引款目是各种号码 • 排检查规则:按分类号、字顺、号码顺序进行。
检索途径 • 检索途径主要有:分类、主题、著者、序号。 • 分类途径: 按文献内容的学科分类体系查找文献的途径。 在印刷型检索工具中主要有分类目录和分类索引。 在计算机检索系统中,则把文献按分类聚类,通过层层点击进行检索,或利用系统提供的分类号进行检索 • 主题词/关键词途径: 按表达文献主题内容的主题词或关键词作为标识查找文献的途径。 在计算机检索系统中,都提供主题词和关键词检索途径,输入某一主题词或关键词,可检索出文献标题、文摘或正文中包含该的文献。
题名途径:是根据文献的标题或名称,包括书名、刊名、篇名等来查找文献的途径题名途径:是根据文献的标题或名称,包括书名、刊名、篇名等来查找文献的途径 • 著者途径:是根据已知文献著(编、译)者的名称查找文献的途径。 • 代码途径:如标准号、专利号、ISSN号等 • 时间途径:以文献的时间范围查找文献的途径。
检索方法 • 一般有直接检索法、间接检索法、追溯检索法和循环检索法四种 • 直接检索法 又称浏览法,是通过广泛阅读、浏览近半年的各类文献资料来获得所需的最新信息。同时,在课题确定后,可阅读百科全书、专业手册、年鉴等参考工具书,了解课题的相关背景知识。 缺点:费时费力,具有一定的盲目性和偶然性
间接检索法 又称系统检索法,指借助于检索工具或系统查找所需文献的方法。常用的有顺查法、倒查法和抽查法。 • 顺查法: 是以所查课题的起始年代为起点,由远而近按时间顺序查找文献的方法,适合于大课题的检索。优点是查全率高,缺点是工作量大。 • 倒查法: 是由从最新的文献开始,由近到远进行查找的方法。特点是效率高,查得的文献比较新颖,时常用于科技查新。 • 抽查法:是根据检索需求,抓住课题研究发展迅速、出版文献较多的时间段进行集中检索。 用这种方法能获得一指具有代表性、反映学科发展水平的文献。
追溯法 利用文献末尾所附的参考文献为线索查找文献的方法,这种检索方法基于文献之间的引用和被引用揭示了文献主题之间存在着某种内在的联系。 • 追溯引文法:先查出一批与检索课题有关的文献,再以这批文献后面的参考文献作为线索,查找文献的方法。 • 引文索引法:利用引文索引,从被引文献开始查找引用它的全部论文的方法。
交替检索法 间接检索法和追溯法的结合。先利用检索工具查得一批相关文献,然后再利用这批文献所附的参考文献进行追溯查找,如此交替使用,直至满足检索需求为止。