1.48k likes | 1.69k Views
信息检索与利用. 第二章 书目数据库及参考工具书. 第一节 计算机信息检索. 一、数据库 (一)数据库概述 1. 数据库的概念 数据库( database )是指计算机存贮器中合理组织相互有关的数据集合。. 2. 数据库的种类 按照数据库的内容性质分,有文献型数据库和非文献型数据库。. ( 1 )文献型数据库,主要以文献形式存贮 , 如一次文献或二次文献 , 可分为书目数据库 (bibliographic database) 和全文数据库 (full-text database) 。 ( 2 )非文献型数据库可以分为四类 :.
E N D
第二章 书目数据库及参考工具书 第一节 计算机信息检索 一、数据库(一)数据库概述1.数据库的概念 数据库( database )是指计算机存贮器中合理组织相互有关的数据集合。
2. 数据库的种类 按照数据库的内容性质分,有文献型数据库和非文献型数据库。 (1)文献型数据库,主要以文献形式存贮,如一次文献或二次文献,可分为书目数据库(bibliographic database)和全文数据库(full-text database)。 (2)非文献型数据库可以分为四类: 一类是数据型数据库(numeric database),是一种以自然数值形式表示的信息源数据库。
二类是事实型数据库(fact database),库内记录各种有检索和利用价值的事实。 三类是术语型(概念型)数据库,实际上就是一种电脑化的名词术语词典或词库。 四类是图像型数据库,库内存有某些图像信息。如卫星图片、工程设计图等。一般为内部使用。
3.数据库的结构数据库是由一个或若干个文档组成的,具有最小冗余度的数据的集合,其中的数据是按照一定的数据结构进行分级存贮的。
文档(File) 文档是一种数据和信息的容器,是可以包含文本、图像、视频、音频、动画等复杂非结构化数据的集合。 • 记录(record) 对某一文献的记录,字段的集合,包括该文献的主要特征。 • 字段 (field) 文献特征的记录,题名(title)、作者(author)、来源( source)、关键词( keywords )、Full-text 等。
4.数据库文档的组织方法 计算机检索系统中的数据库通常有两种编排方式,即顺排文档和倒排文档。 ( 1)顺排文档 顺排文档又称主文档或线性文档,是数据库的核心文档,基本单元是“记录”。 (2)倒排文档 在倒排文档中,文献的某种属性或特征被用作文献标识,即当成可检索的字段,主题词、著者名、
分类号等。假设有3篇文献,它们的文献号和主题词分别如下 : 001 A、B A 001、002 002 A、B、C B 001、002、003 003 B、C C 002、003 顺排文档的结构 倒排文档的结构
输出 调整检索方案 (二)数据库检索基本知识 确定检索途径 编制检索式 选择数据库 需求分析 检索结果
1.选择检索模式 ◆ 浏 览 ◆ 基本检索 ◆高级检索 ◆专家检索 理念:面向最终用户
(2)基本检索(Basic Search,Simple Search ) 适合于初次使用检索的新手或检索式非常简单、仅使用于少数常用字段
在线 帮助 (3)高级检索(Advanced) • 提供更多的检索选项 • 从下拉菜单中选择合适的字段 • 选择检索限制,使用布尔算符组合检索项,限制检索的年代、语种。
(4)专家检索(Expert) • 命令式检索,可构建复杂的检索式 • 适合熟悉系统命令的有经验的检索人员 • 使用布尔算符、位置符、括号和字段标识符(例如ab=或 ti=)
author, title, keywords, journal title subject, descriptor (主题词) All fields
3.掌握检索技术 在计算机文献检索中,用户的检索需求是通过检索提问式表达的,逻辑算符在检索提问式中起着逻辑组配作用,它们能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。
3.编制检索式 检索词+连接组配符号 检索式的编制 (城市改造 or 城市建设 or 城市规划) and ( 旧城 or 老城 )
如何确定检索词 • 两大类: • 描述文献主题内容的词 • 主题词、关键词、分类号等 • 描述文献外部特征的词 • 著者、著者单位、出处、访问号(access number)等
subject, descriptor (主题词) 用可代表这些中心思想、基本问题、研究对象的词语(被称为主题词),对每一篇文献进行标引。 按主题词排序,可将论述同一主题词的文献排在一起;用主题词检索,可将论述同一主题的文献检索出来 主题指文献所要表达的中心思想、所讨论的基本问题、研究的对象等
subject descriptor (主题词) 主题词是经过规范化的语词 (controlled-terms) 主题标引的依据是“主题词表” 主题词检索是主要检索点,可以保证很高的查准率和查全率
检索文摘含有“机械”,并且关键词含有“CAD或CAM”、或者题名含有“雷达”,但关键词不包含“模具”的文献。检索文摘含有“机械”,并且关键词含有“CAD或CAM”、或者题名含有“雷达”,但关键词不包含“模具”的文献。 (k=( CAD+CAM)+T=雷达)*R=机械-K=模具 此检索式也可以写为: ((K=(CAD+CAM)*R=机械)+(T=雷达*R=机械))-K=模具 (K=(CAD+CAM)*R=机械)+(T=雷达*R=机械)-K=模具
需注意: • 同义词:计算机辅助教学 • Computer aided instruction、Computer assisted instruction • 下位词: • china or shanghai or guangdong or zhejiang or …… • 全称与简称:麻省理工学院/MIT • 异称:电脑、计算机 • 不同拼写形式:center and centre
(1)布尔逻辑检索 在计算机文献检索中,用户的检索需求是通过检索提问式表达的,逻辑算符在检索提问式中起着逻辑组配作用,它们能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。 运用布尔逻辑算符(logical operator)AND/*(与)、OR/+(或)、NOT/—(非)对检索词进行逻辑组配,表达两个概念之间的逻辑关系,确定各检索词之间的逻辑关系,Boolean operators 。
1.逻辑“与” 运用AND或 * 算符 实现逻辑“与”组配 检索时,检索同时含有检索词A 和检索词B的文献用于交叉概念或限定关系的组配,专指性强。 如:logistics AND e-commerce traffic AND control
逻辑“或”(or、+) 检索时,命中信息包含所有关于逻辑A或逻辑B或同时有A和B的,用于并列或平行关系的组配,检索范围比AND扩大。 如:rapid transit OR light rail OR subways railway OR railroad
逻辑“非”(not 、 -) 命中信息包含逻辑A、不包含逻辑B或同时有A和B的,从含有检索词A的文献记录中删去含有检索词B的文献记录。用于排斥关系的组配 如:fruit NOT apple windows NOT Microsoft
逻辑算符在数据库中是有执行顺序的 逻辑运算符(logical operator) (Computer-aided or Computer-assisted or computer-based) and English testing NOT→ AND → OR 用括号变更顺序
(2)位置算符( proximityoperator) 用来决定两个检索词间的邻近位置关系 Near(N)tax N5 reform “tax reform”、“ reform of income tax” Within(W)tax W8 reform 对于全文型数据库,特别是进行全文字段检索时,使用位置算符往往更理想
(3)截词检索 截词检索是用截断词的一个局部进行的检索,凡是满足这个截词所有字符(串)的记录,系统都为命中。是在词干后可能变化的位置加上截词符号。这样既可减少检索词的输入量,又可扩大查找范围,提高查全率。截词检索在西文数据库中广泛使用。 通配符(wildcard character)-实现模糊检索
截词检索(truncation)多为前方一致检索。截词符多采用“*”,可以用它代表多个字符。截词检索(truncation)多为前方一致检索。截词符多采用“*”,可以用它代表多个字符。 comput*---computer,computation等单词 ne?t ---neat/nest/next 主要用于西文电子资源检索
限定检索范围 (4)限定检索范围 指对检索词的范围(如时间、国别、语种、信息类型等)进行约束或压缩的方法,它大多通过检索系统的限制指令或菜单选择来实现。
用检索历史号构建新的检索式 浏览本次检索结果概要 检索历史号可用来组成新的检索式 检索式 (5)查看检索历史 二次检索(Refine Search)/在结果中检索
(6)修正检索策略 • 缩窄检索条件 使用含义更窄的检索词 用主题词替代关键词 增加AND或使用位置算符 增加限定条件 • 放宽检索条件 增加同义词 All fields 字段
数据库检索三要诀 了解database可以提供的检索途径,每种检索途径的含义是什么 了解database可以提供哪些构建检索式的方法,设法运用检索策略表达自己的检索需求 Online help
图书馆购买、拥有使用权 的电子资源(网络资源) 由IP地址限制, 专线访问, 免费使用 注意:严禁过量下载 并发用户 ( 50人 ) 即在一定时间内集中、 批量下载全文数量 超过50篇以上 电子资源 知识产权
二、获取原文 (一)获取的意义 传统的文检检索是通过二次文献的检索来获取一次文献的线索,在此基础上最终取得一次文献。读者利用题录文摘型数据库获取原始文献时,能得到的原文十分有限或困难。而获取原文是文献检索的最终目的和最高形式。信息技术的发展极大地改变了人们获取信息的方式和途径。尤其是网络化、数字化的快速发展和普及,为人们获取原文提供方便,通过计算机网络检索实现了原文获取。
(二)原文获取的途径 1.本馆传统资源:印刷型文献 2.本馆数字馆藏:网络版全文数据库 3.开放存取(Open Access)站点 4.利用Google.com获取全文,确定文献信息 5.通过馆际互借与文献传递服务获取全文
3.开放存取(Open Access)站点 在互联网可提供全文学术文献的主要来源—Open Access,简称“OA” 。 “开放获取” 是指“可以在公共因特网上免费地获取文献,允许任何的用户阅读、下载、复制、发布、打印和查找, 或者提供对这些论文文本的链接、对他们进行索引、将它们作为素材纳入软件、以及其它任何法律许可的应用。
能够开放获取的文献应该是学者提供给世界的文献,他们不指望取得任何报酬。 能够开放获取的文献应该是学者提供给世界的文献,他们不指望取得任何报酬。 “开放获取运动”旨在让科学研究的成果供全世界共享,共同促进人类科技和文明的发展,是一种暂新的学术文献出版和学术交流方式,并形成了教学科研可供自由使用的新的文献资源类型—OA资源。