信息检索与利用

信息检索与利用

第二章书目数据库及参考工具书 第一节计算机信息检索一、数据库（一）数据库概述1.数据库的概念数据库（ database ）是指计算机存贮器中合理组织相互有关的数据集合。

2. 数据库的种类 按照数据库的内容性质分，有文献型数据库和非文献型数据库。（1）文献型数据库，主要以文献形式存贮,如一次文献或二次文献,可分为书目数据库(bibliographic database)和全文数据库(full-text database)。（2）非文献型数据库可以分为四类: 一类是数据型数据库(numeric database),是一种以自然数值形式表示的信息源数据库。

二类是事实型数据库(fact database),库内记录各种有检索和利用价值的事实。三类是术语型（概念型）数据库,实际上就是一种电脑化的名词术语词典或词库。四类是图像型数据库,库内存有某些图像信息。如卫星图片、工程设计图等。一般为内部使用。

3.数据库的结构数据库是由一个或若干个文档组成的，具有最小冗余度的数据的集合，其中的数据是按照一定的数据结构进行分级存贮的。

文档（File） 文档是一种数据和信息的容器，是可以包含文本、图像、视频、音频、动画等复杂非结构化数据的集合。 • 记录（record）对某一文献的记录，字段的集合，包括该文献的主要特征。 • 字段（field）文献特征的记录，题名（title）、作者（author）、来源（ source）、关键词（ keywords ）、Full-text 等。

4.数据库文档的组织方法 计算机检索系统中的数据库通常有两种编排方式，即顺排文档和倒排文档。（ 1）顺排文档顺排文档又称主文档或线性文档，是数据库的核心文档，基本单元是“记录”。（2）倒排文档在倒排文档中，文献的某种属性或特征被用作文献标识，即当成可检索的字段，主题词、著者名、

分类号等。假设有3篇文献，它们的文献号和主题词分别如下 ： 001 A、B A 001、002 002 A、B、C B 001、002、003 003 B、C C 002、003 顺排文档的结构倒排文档的结构

输出调整检索方案 (二)数据库检索基本知识确定检索途径编制检索式选择数据库需求分析检索结果

1.选择检索模式 ◆ 浏览 ◆ 基本检索 ◆高级检索 ◆专家检索理念：面向最终用户

（1）浏览（Basic Search，Simple Search ）

（2）基本检索（Basic Search，Simple Search ） 适合于初次使用检索的新手或检索式非常简单、仅使用于少数常用字段

在线帮助（3）高级检索（Advanced） • 提供更多的检索选项 • 从下拉菜单中选择合适的字段 • 选择检索限制，使用布尔算符组合检索项，限制检索的年代、语种。

（4）专家检索（Expert） • 命令式检索，可构建复杂的检索式 • 适合熟悉系统命令的有经验的检索人员 • 使用布尔算符、位置符、括号和字段标识符（例如ab=或 ti=）

2.确定检索途径

author, title, keywords, journal title subject, descriptor (主题词) All fields

3.掌握检索技术 在计算机文献检索中，用户的检索需求是通过检索提问式表达的，逻辑算符在检索提问式中起着逻辑组配作用，它们能把一些具有简单概念的检索词（或检索项）组配成为一个具有复杂概念的检索式，用以表达用户的检索需求。

3.编制检索式 检索词+连接组配符号检索式的编制（城市改造 or 城市建设 or 城市规划） and ( 旧城 or 老城）

如何确定检索词 • 两大类： • 描述文献主题内容的词 • 主题词、关键词、分类号等 • 描述文献外部特征的词 • 著者、著者单位、出处、访问号(access number)等

subject, descriptor (主题词) 用可代表这些中心思想、基本问题、研究对象的词语（被称为主题词），对每一篇文献进行标引。按主题词排序，可将论述同一主题词的文献排在一起；用主题词检索，可将论述同一主题的文献检索出来主题指文献所要表达的中心思想、所讨论的基本问题、研究的对象等

subject descriptor (主题词) 主题词是经过规范化的语词（controlled-terms）主题标引的依据是“主题词表” 主题词检索是主要检索点，可以保证很高的查准率和查全率

检索文摘含有“机械”，并且关键词含有“CAD或CAM”、或者题名含有“雷达”，但关键词不包含“模具”的文献。检索文摘含有“机械”，并且关键词含有“CAD或CAM”、或者题名含有“雷达”，但关键词不包含“模具”的文献。 (k=( CAD+CAM)+T=雷达)*R=机械-K=模具此检索式也可以写为： ((K=(CAD+CAM)*R=机械)+(T=雷达*R=机械))-K=模具 (K=(CAD+CAM)*R=机械)+(T=雷达*R=机械)-K=模具

需注意： • 同义词：计算机辅助教学 • Computer aided instruction、Computer assisted instruction • 下位词： • china or shanghai or guangdong or zhejiang or …… • 全称与简称：麻省理工学院/MIT • 异称：电脑、计算机 • 不同拼写形式：center and centre

（1）布尔逻辑检索 在计算机文献检索中，用户的检索需求是通过检索提问式表达的，逻辑算符在检索提问式中起着逻辑组配作用，它们能把一些具有简单概念的检索词（或检索项）组配成为一个具有复杂概念的检索式，用以表达用户的检索需求。运用布尔逻辑算符（logical operator）AND/*（与）、OR/+（或）、NOT/—（非）对检索词进行逻辑组配，表达两个概念之间的逻辑关系，确定各检索词之间的逻辑关系，Boolean operators 。

1.逻辑“与” 运用AND或 * 算符实现逻辑“与”组配检索时，检索同时含有检索词A 和检索词B的文献用于交叉概念或限定关系的组配，专指性强。如：logistics AND e-commerce traffic AND control

逻辑“或”（or、+） 检索时，命中信息包含所有关于逻辑A或逻辑B或同时有A和B的，用于并列或平行关系的组配，检索范围比AND扩大。如：rapid transit OR light rail OR subways railway OR railroad

逻辑“非”（not 、 -） 命中信息包含逻辑A、不包含逻辑B或同时有A和B的，从含有检索词A的文献记录中删去含有检索词B的文献记录。用于排斥关系的组配如：fruit NOT apple windows NOT Microsoft

逻辑算符在数据库中是有执行顺序的 逻辑运算符（logical operator） (Computer-aided or Computer-assisted or computer-based) and English testing NOT→ AND → OR 用括号变更顺序

（2）位置算符（ proximityoperator） 用来决定两个检索词间的邻近位置关系 Near（N）tax N5 reform “tax reform”、“ reform of income tax” Within（W）tax W8 reform 对于全文型数据库，特别是进行全文字段检索时，使用位置算符往往更理想

(3)截词检索 截词检索是用截断词的一个局部进行的检索，凡是满足这个截词所有字符(串)的记录，系统都为命中。是在词干后可能变化的位置加上截词符号。这样既可减少检索词的输入量,又可扩大查找范围，提高查全率。截词检索在西文数据库中广泛使用。通配符（wildcard character）-实现模糊检索

截词检索（truncation）多为前方一致检索。截词符多采用“*”，可以用它代表多个字符。截词检索（truncation）多为前方一致检索。截词符多采用“*”，可以用它代表多个字符。 comput*---computer，computation等单词 ne?t ---neat/nest/next 主要用于西文电子资源检索

限定检索范围 (4)限定检索范围指对检索词的范围（如时间、国别、语种、信息类型等）进行约束或压缩的方法，它大多通过检索系统的限制指令或菜单选择来实现。

用检索历史号构建新的检索式 浏览本次检索结果概要检索历史号可用来组成新的检索式检索式 (5)查看检索历史二次检索(Refine Search)/在结果中检索

(6)修正检索策略 • 缩窄检索条件使用含义更窄的检索词用主题词替代关键词增加AND或使用位置算符增加限定条件 • 放宽检索条件增加同义词 All fields 字段

数据库检索三要诀 了解database可以提供的检索途径，每种检索途径的含义是什么了解database可以提供哪些构建检索式的方法，设法运用检索策略表达自己的检索需求 Online help

图书馆购买、拥有使用权 的电子资源（网络资源）由IP地址限制，专线访问，免费使用注意：严禁过量下载并发用户（ 50人）即在一定时间内集中、批量下载全文数量超过50篇以上电子资源知识产权

二、获取原文 （一）获取的意义传统的文检检索是通过二次文献的检索来获取一次文献的线索,在此基础上最终取得一次文献。读者利用题录文摘型数据库获取原始文献时,能得到的原文十分有限或困难。而获取原文是文献检索的最终目的和最高形式。信息技术的发展极大地改变了人们获取信息的方式和途径。尤其是网络化、数字化的快速发展和普及，为人们获取原文提供方便，通过计算机网络检索实现了原文获取。

（二）原文获取的途径 1.本馆传统资源：印刷型文献 2.本馆数字馆藏：网络版全文数据库 3.开放存取（Open Access）站点 4.利用Google.com获取全文，确定文献信息 5.通过馆际互借与文献传递服务获取全文

1.本馆传统资源：印刷型文献源－－书目检索

2.本馆数字馆藏：网络版全文数据库

3.开放存取（Open Access）站点 在互联网可提供全文学术文献的主要来源—Open Access，简称“OA” 。 “开放获取” 是指“可以在公共因特网上免费地获取文献，允许任何的用户阅读、下载、复制、发布、打印和查找，或者提供对这些论文文本的链接、对他们进行索引、将它们作为素材纳入软件、以及其它任何法律许可的应用。

能够开放获取的文献应该是学者提供给世界的文献，他们不指望取得任何报酬。 能够开放获取的文献应该是学者提供给世界的文献，他们不指望取得任何报酬。 “开放获取运动”旨在让科学研究的成果供全世界共享，共同促进人类科技和文明的发展，是一种暂新的学术文献出版和学术交流方式，并形成了教学科研可供自由使用的新的文献资源类型—OA资源。

信息检索与利用

信息检索与利用

Presentation Transcript