410 likes | 535 Views
科技信息检索. 授课人:王峥. 第二章 基本检索原理. 3. 3. 3. 3. 1. 3. 4. 2. 检索工具. 本章目录. 信息检索的基本原理. 检索途径. 检索步骤. 一、信息检索的基本原理. 1 、 信息检索的历史背景 ( 1 )数量大、类型多 ; ( 2 )语种分布分散 ( 3 )内容重复交叉 ; ( 4 ) 质量下降,老化速度加快 2 、信息检索
E N D
科技信息检索 授课人:王峥
第二章 基本检索原理
3 3 3 3 1 3 4 2 检索工具 本章目录 信息检索的基本原理 检索途径 检索步骤 科技信息检索第二章
1、 信息检索的历史背景 • (1)数量大、类型多;(2)语种分布分散 • (3)内容重复交叉;(4)质量下降,老化速度加快 • 2、信息检索 信息检索(Information Retrieval),是指将信息按一定的方式组织和存贮起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存贮与检索”(Information Storage and Retrieval)。信息检索又叫情报检索或文献检索,文献信息检索是指从文献信息集合中查找所需文献或文献中包含的信息内容的过程。 科技信息检索第二章
3、文献信息检索的分类(按其检索对象 ) 文献检索(Document Retrieval) 文献信息检索 数据检索(Data Retrieval) 事实检索(Fact Retrieval) 文献检索是以文献全文(或文献线索、文摘)为检索对象的一种检索,凡是查找某一主题、学科、时代、地区、著者、文种的有关文献均属于这一范畴。 是以数值或图表形式表示的数据为对象的检索。例如,查找某一数学公式、数据图表、某种材料的成分、性能等。 是以事实作为检索对象,查找用户所需的描述性事实,其检索对象为机构、企业、人物的基本情况、历史变迁等。 科技信息检索第二章
4、检索原理图 文献存储过程 检索过程 文献 检索需求 检索者 主题分析 主题分析 情报工作人员 主题概念 主题概念 用检索语言对文献进行描述 用检索语言对文献进行描述 文献标识 检索表达式 检索工具(系统) (提问标识) 否 输出结果为零 是否匹配 是 得到检索结果 科技信息检索第二章
二、检索途径__文献分类法与文献主题法 标引文献与揭示文献内容的两种基本方法: 1、分类法:按照文献资料的学科属性(分类法最有利于查全) 分类法的特征在于知识的系统性,不仅揭示图书的学科知识内容,而且把有关同一学科内容的文献资料集中在一起,使学科临近的文献排在相近的位置,根据各类图书之间的亲疏关系将藏书组织成一个系统. 2、主题法:按照所论述的事物 将文献所论述的事物按照规范化的语言(主题词)的字顺进行排检,从本质上讲,是用词语来揭示文献所阐释或研究的对象、事物和问题。与分类法相比,从不同角度来揭示文献。 科技信息检索第二章
分类法 世界上有代表性的分类法: 1、《杜威十进制分类法》(Dewey Decimal Classification and Relative Index 简称DDC) 2、《国际十进制法》(Universal Decimal Classification,简称UDC)(被广泛应用于科学论文的分类 ) 3、《美国国会图书馆图书分类法》(Library of Congress Classification,简称《国会法》或LC)(目前广泛应用于北美大中型图书馆,特别是大学等学术性图书馆 ) 4 、《中国图书馆分类法》 科技信息检索第二章
《中图法》介绍 《中图法》——《中国图书馆分类法》,以学科来组织知识,将全部知识领域划分为5个基本部类,22大类。 五大部类分别为:马列主义、毛泽东思想; 哲学;社会科学;自然科学; 综合性图书。 中图法简表 科技信息检索第二章
《中图法》从大类到小类,层层展开,不断细分,形成完整的知识体系。例如:《中图法》从大类到小类,层层展开,不断细分,形成完整的知识体系。例如: 关于红楼梦研究资料的分类为 I207.411 I 文学 I2 中国文学 I207 文学评论和研究 I207.4 小说研究 I207.41 古代小说研究 I207.411 《红楼梦》研究与评论 科技信息检索第二章
有关互联网的知识分类为TP393.4 T 工业技术 TP 自动化技术 计算机技术 TP3 计算机技术 TP39 计算机的应用 TP393 计算机网络 TP393.4 国际互联网 科技信息检索第二章
主 题 法 自然语言(非规范语言):信息检索系统中使用的标引词直接来自文献和用户提问而不加控制的一类检索语言,主要有关键词语言。 自然语言的应用以计算机为前提,否则,自然语言检索将难以实现。 受控语言(规范语言或人工语言):标引词来自文献或者用户,并受到信息检索系统的控制的一类检索语言的总称,又叫规范化语言。受控语言包括分类语言和主题语言。 受控词在检索实践中具体体现为词表。词表在网络检索工具中的应用主要体现在辅助选词以及检索式的扩展。 科技信息检索第二章
汉语主题词表 《汉语主题词表》是我国第一部大型综合性主题词表。1979年出版,自然科学部分1991年修订.收录正式主题词91158条,非正式主题词17410条。 全表共分3卷10分册,由主表、词族索引、范畴索引、英汉对照索引等组成。 是我国应用最广的一部主题标引和检索的工具。其款目(条目)格式如下:(下一页) 科技信息检索第二章
主题词汉语拼音━━━> Xianxiangguan 主题词━━━> 显像管 [E56] <━━━范畴号 主题词英译名━━━> kinescope Picture tube Y 显像管 D 电视显像管 监视管 F 彩色显像管 固体显像管 黑白显像管 S 电子束管 Z 电子管 C 显示管 指示管 注释: Y 用项符号:表示该主题是正式主题词 D 代项符号:表示该主题是非正式主题词 F 分项符号:表示该主题是“显像管”的分主题词,即下位词 S 属项符号:表示该主题是“显像管”的上位主题词 Z 族项符号:表示该主题是“显像管”的族首词(大主题词) C 参项符号:表示该主题是“显像管”的相关主题词 科技信息检索第二章
↗ 用项 Y 正式主题词 等同关系 ↘ 代项 D 非正式主题词 ↗ 分项 F 下位类主题词 分属关系 ↘ 属项 S 上位类主题词 族项 Z 族首词 相关关系 → 参项 C 相关词 科技信息检索第二章
其他词表 中国期刊网“扩展”功能 EI的序词表 美国医学图书馆编篡的大型医学专业叙词表——医学主题词表(MeSH) 科技信息检索第二章
其它途径: 作者(外文检索注意作者姓名的拼写) 作者单位(分清楚作者单位和地址的关系) 号码(ISSN ISBN 专利号 标准号等) 科技信息检索第二章
计算机检索技术 布尔检索 截词检索 限制检索 位置检索 科技信息检索第二章
布尔检索(布尔运算符) 逻辑“与”(AND),表示为 A and B 或 A * B 逻辑“或”(OR),表示为 A or B 或 A + B 逻辑“非”(NOT),表示为 A not B 或 A - B 布尔逻辑算符检索优先级为not ,and,or 科技信息检索第二章
逻辑“与” (AND) 表示检出的记录必须同时包含所有的检索词,可以缩小检索范围,减少命中文献量,提高查准率。 B A 图中阴影部分表示“概念A and概念B”的命中结果 科技信息检索第二章
逻辑“或”(OR) 表示检出的记录中至少含有多个检索词中的任何一个, 可以扩大检索范围,增加命中文献量,防止漏检。常用于连接同义词,相关词等。 A B 上图阴影部分表示“概念A or 概念B”的命中结果 科技信息检索第二章
逻辑“非”(NOT) 表示检索结果中排除含有某些词的记录,可以缩小检索范围,减少文献输出量,但并不一定能提高查准率。 A B 图中阴影部分表示“概念A not概念B”的命中结果。 科技信息检索第二章
截词符(通配符) ————提高查全率,防止漏检的有力手段,也可以简化输入。 包括有限截词和无限截词,常用的截词符有:*, #,?,!,$ 注:不同的数据库所用的截词符不一样,使用时应先查一下各数据库的帮助加以确认。 科技信息检索第二章
三、检索工具 检索工具的职能 1、存贮职能:管理文献,使大量毫无规律、分散的一次文献成为有序的集合体(文献库)。即把所有有关文献的外部特征记录下来,并按规定的格式把这些特征组成一条条文献线索,然后选择某一特征项(例如著者、分类号、主题词等)等作为标识,将这些线索有系统地排列起来,形成一个有机的整体。 2、检索职能:即利用检索工具检索文献。 3、报道和浏览职能:检索工具以简洁的文字报道大量的文献,并能揭示文献的外表特征和内容特征,使人们花费较少的时间和精力就能了解到某一时间、某一专业学科发展的水平、成就,从而分析该学科或研究领域的发展趋势。 科技信息检索第二章
检索工具的类型 • 1、手工检索工具 • 计算机检索工具(搜索引擎,数据库) • 2、只能查找出版物的检索工具(OPAC,联合目录等) • 可查找文章的检索工具(题录与文摘数据库) • 目录——题录——文摘——索引 • 3、 只可以检索文章线索的数据库 • 可以直接下载全文的数据库 科技信息检索第二章
目录型检索工具 目录是图书、期刊等出版物外表特征的揭示和报道。它以完整的出版物(如一本书、一种期刊)作为著录的基本单位,所以也可以说它是按某种顺序编排的文献清单。是指导阅读和科学管理文献的重要手段。 目录的著录对象一般是整本书或整种刊物 《全国总书目》揭示每年国内图书出版情况 每个图书馆的OPAC(联机公共目录)揭示该馆的管藏 联合目录揭示许多家图书馆出版物收藏情况。 科技信息检索第二章
题录型检索工具 题录的含义 题录是描述文献外部特征的文献条目。文献的外部特征包括题名、著者、出处、卷期、页码、时间、文献类型、语种等著录项目。 题录的著录对象一般是单篇文献。 科技信息检索第二章
文摘型检索工具 文摘的定义 我国国家标准GB 3468-1983; 《检索期刊编辑总则》说明定义:“除题录部分外还对文献内容作实质性描述的文献条目称之为文摘”。 文摘是文献原文浓缩后的产物,是忠实于原文内容的简要记录单元。揭示文献的内容特征,在文摘的编写中不能加入编写人员的主观见解和任何解释性说明,也不能对原文作任何修改。 科技信息检索第二章
文摘型检索工具的特点与作用 1、对文摘的阅读,在一定程度上起到代替原文作用.科技人员阅读了著录较为详细的文摘之后,大体上就掌握了原文内容要点,不必再阅读原文了。这一点,对于那些难索取到原文的“难得文献”尤为重要,也大大节省了科技人员查找和阅读文献的时间 2、确定相关性,即帮助读者判断所检索到的文献是否合乎需要,从而决定原始文献的取舍. 3、帮助读者克服语言上的障碍,因为在一种检索工具中,无论原始文献是什么语种,其文摘都被译为统一的一种语言(一般为英语). 科技信息检索第二章
索引型检索工具 索引是将图书、期刊等文献中的一些重要的、有检索价值的知识单元根据需要一一分析摘录出来,并注明它们所在文献的页码和文献号,再按一定的顺序编排组织起来,构成检索的种种途径。这种检索工具称之为索引。 索引的作用: ①为查找特定的文献或事实提供多种检索途径; ②揭示事物之间的联系; ③揭示出容易被人们忽略的内容; ④为读者了解某一学科或领域的全面文献信息提供了捷径; 科技信息检索第二章
手工检索工具 索引: 将文献中具有检索意义的事项(可以是人名、 地名、词语、概念、或其他事项)按照一定方式有序编排起来以供检索的检索工具。 相对于目录,题录、文摘等类型的检索工具,索引深入到文献的细节,涉及到具体的知识点。 常用的印刷版的工具书都有索引,以便检索。 科技信息检索第二章
其他类型的手工检索工具——工具书 年鉴——查找事实或统计数据 百科全书——查找不熟悉的知识 手册——成熟稳定的知识,查找参数,公式等 辞书——词典或辞典,查找科技词汇的解释,或汉外对照辞典 ,缩略语辞典。还有大量的专门性辞典。 年表——查找一些历史大事记录 科技信息检索第二章
检索效率 • 1、影响查全和查准率的主要因素 • (1)人为因素 • 检索工具编制时收录文献不全面、不明确;检索时对课题内容分析错误或不全面 • (2)客观因素 • 查准与查全互为影响,不可能达到100% 科技信息检索第二章
2、提高检索效率措施: • (1)选好检索工具; • (2)准确使用检索工具; • (3)用泛指性强的检索语言来提高查全率; • (4)用专指性强的检索语言来提高查准率; • (5)善于利用检索工具的各种辅助索引。 科技信息检索第二章
限制检索 泛指检索系统中提供的缩小或约束检索结果的检索方法。主要有以下方式: 字段检索——利用字段进行限制,如题名、摘要、全文等 通常的字段限制范围的大小顺序是: 题名<关键词<摘要<全文 二次检索——在前一次检索的结果中进行另一概念的检索 科技信息检索第二章
词组的查询:通常用"" 来表示两词是作为一个词组来检索如:hypermedia database 表示pypermedia AND database“hypermedia database”表示一个词组 • 禁用词:通常一些虚词(如冠词和连词不包含在检索范围之内) • 如:汉语中“的、地、得、了”等助词。英语中的a about also and any as at be between by both for some so not this with等 科技信息检索第二章
扩大检索范围,提高查全率的方法 1、考虑同义词或近义词(使用布尔逻辑符or连接) 2、选择较大检索范围的字段如摘要 3、使用截词符 4、使用上位词(如飞行器 ____航天飞机____ 载人航天飞机) 科技信息检索第二章
缩小检索范围,提高查准率的方法: 1、使用and 、not等限制检索范围 2、使用位置算符 3、选择检索范围较小的字段如题名 4、使用二次检索 5、使用下位词 6、使用精确检索,如对于固定短语来说可用“”引起来 科技信息检索第二章
四、文献检索的步骤 • 分析检索课题,明确检索要求 • 选择检索工具,确定检索途径 • 选择检索词汇, 编制检索提问 • 获取初步结果, 进行检索评价 • 调整检索策略,获取所需信息 科技信息检索第二章