510 likes | 886 Views
一、信息检索 ( Information Retrieval ). 包括两个部分: 一是 信息存储 ,即把大量分散的无序的信息集中起来,经过加工,使之有序化、系统化,成为有功能的检索工具或检索系统。 二是 信息检索 ,利用已组织好的检索工具或检索系统,按照课题的要求将所需信息查找出来。. 信息检索类型 , 分为 : 数据检索 (Data Retrieval)-- 特定的数据 事实检索 (Fact Retrieval)-- 特定的事实 文献检索 (Document Retrieval)-- 特定的文献
E N D
一、信息检索(Information Retrieval ) 包括两个部分: 一是信息存储,即把大量分散的无序的信息集中起来,经过加工,使之有序化、系统化,成为有功能的检索工具或检索系统。 二是信息检索,利用已组织好的检索工具或检索系统,按照课题的要求将所需信息查找出来。
信息检索类型,分为: 数据检索(Data Retrieval)--特定的数据 事实检索(Fact Retrieval)--特定的事实 文献检索(Document Retrieval)--特定的文献 是根据课题的要求,采用科学的方法,利用专门的检索工具,如书刊或数据库,从大量的文献资料中找到所需文献的过程。 包括,书目检索、题录或索引检索、文摘检索、全文检索。
二、检索原理与检索语言 1 、检索原理 是指通过一定的方法和手段,使信息存储与检索两个过程所采用的特征和标识达到一致,以便有效地获取和利用文献。 存储过程--对文献进行标引 检索过程--根据需求,确定提问式
2 、检索语言(检索标识,Retrieval Language) 检索语言是一种在文献存储和检索过程中共同使用的语言。它的用途是描述文献特征,表达情报提问,并使两者能相互沟通。 可分为规范化语言(受控语言)和非规范化语言(自然语言)。
规范化语言:是指对文献检索用语的概念加以人工控制和规范,把检索语言中各种同义词、多义词、近义词、同形异义词等进行规范化处理,使每个检索词只能表达一个概念。规范化语言:是指对文献检索用语的概念加以人工控制和规范,把检索语言中各种同义词、多义词、近义词、同形异义词等进行规范化处理,使每个检索词只能表达一个概念。 例:《IM》的Subject Index;《CA》的CS、GS;《中目》的分类目次 非规范化语言:它对检索用语中的各种同义词、多义词、近义词、同形异义词等不加处理,所以也叫自然语言,如关键词。 例:《CA》Keyword Index
文献特征 文献标识 目录或索引 --------------------------------------------------------------------------------------------------- 检外部特征 文献名称 文献名称索引(Title Index)引用期刊一览表等 著者名称 著者索引(Author Index)著者、专利权人索引 文献序号 序号索引(Number Index)专利号、报告号等 索引用文献引文索引(Citation Index)SCI 内部特征 分类号 分类索引(Classified Index) 主题词 主题索引(Subject Index) 语 关键词 关键词索引(Keyword Index) 分类主题分类主题索引(Classified and Subject Index) 言其它专用索引分子式索引,环系索引等 (Formula Index),(Index of Ring system)
三、常用文献检索算符 • 逻辑“与”and /* • 检索式“A and B”表示文献中同时包含检索词A和检索词B的文献才是命中文献。 • 如:查找“胰岛素治疗糖尿病”的检索式为 insulin (胰岛素) and diabetes(糖尿病)。 A AND B
逻辑“或”OR/+ • 检索式“A or B”表示包含检索词A的文献或者包含检索词B的文献或者同时包含检索词A和B的文献为命中文献。 • 如:查找“肿瘤”的检索式为cancer(癌)or tumor(瘤)or carcinoma(癌) or neoplasm(新生物)。 A OR B
逻辑“非”NOT/- • 检索式“A not B”表示包含检索词A同时不包含检索词B的文献为命中文献。 • 如:查“动物的乙肝病毒(不要人的)”的文献的检索式为hepatitis B virus(乙肝病毒)not human(人类)。 A NOT B
邻近度算符 With • 检索式“A with B”表示检索词A和检索词B不仅要同时出现在一条记录中,还要同时出现在一个字段里的文献才是命中文献. • 如:“drug with abuse”检索出的是同一个字段中同时出现这两个词的记录。
邻近度算符Near • 检索式“A near B”表示检索词A和检索词B不仅要同时出现在一条记录的同一字段里,还必须在同一个子字段(一句话)里的文献才是命中文献。 • 如:drug nearabuse检索出的是同一句话中同时出现这两个词的记录。(也可说成是两个词之间没有句号的文献)。
邻近度算符Near# • 其中“#”代表一个常数,检索式“A near# B”表示检索词A和检索词B之间有0~#个单词的文献(A和B在同一记录、同一字段里)。在near后加一个数字,指定两个词的邻近程度,且不论语序 。 • 如:information near2 retrieval表示检索词 information和retrieval同时出现在一个句子中,且这两个检索词之间的单词数不超过两个的那些文献为命中文献。
四、文献检索工具的含义和类型 1 、检索工具的定义与特点 定义:检索工具(Retrieval Device)是指用于报道、存储和查找文献的工具。它具有存储(编制过程)和检索(查找过程)两大职能。 特点:(1)收摘一次文献、(2)著录文献特征、 (3)提供多种检索手段
2 检索工具的类型 *按摘录方式划分如下: 目录 题录或索引 文摘 全文
目录(Catalogue) 含义: 目录是对文献的外表特征的著录。它通常以完整出版物(如一本书或一种刊或一个会议录的名称)作为著录的基本单位来报道和记录文献。 著录内容: 文献名称、著者、出版项与馆藏信息等内容。
按职能划分目录种类: 出版发行目录 馆藏目录:按检索标目划分为 书名目录(Title Catalogue) 著者目录(Author Catalogue ) 分类目录(Classified Catalogue) 主题目录(Subject Catalogue ) 联合目录 资料来源目录,如IM、CA、BA
题录(Title)或索引(Index) 概念: 其一,是指检索工具,它揭示文献的外表特征和内容特征,即著录文献是以一个完整出版物的某一部分(如书的章节或刊中一篇论文题目)为著录单位。 其二,是指检索途径(附录式索引),如,分类索引、主题索引、生物体索引、著者索引等。 著录内容: 论文题目、著者、文献出处(刊名、发表年月、卷、期、页码)及文种等。如,《中目》、《IM》、《CNKI》免费题录等。
文摘(Abstract,Excerpta,Digest) 含义: 文摘是指对文献内容选择重要部分以简练的形式作为摘要,并按一定的原则和方法编排而成的一种检索工具。 著录内容: 同⑵+文摘。 如,中国医学文摘,中国药学文摘, 中国生物学文摘,CA,BA,CBM,CMCC,MEDLINE/PubMed等。
根据摘要详简程度,文摘可分为: 指示性文摘(简介,Indicative Abstract)是以最简短的语言,概略指示原文的研究对象、内容范围、研究目的及方法,一般在50-150个字。 报道性文摘(Informative Abstract)内容详细,反映文献的中心内容、观点、数据及结论,一般在200~300,500,1000字左右。
全文(Full-text) 全文检索是指以文献所含的全部信息作为检索内容的文献检索。 中文:CNKI数据库、万方数据库 外文:EBSCO数据库、Ovid系统 Springer电子全文期刊 Nature电子全文期刊
五、检索的途径与步骤 (一)检索途径 1 、从文献外表特征 题名途径-Title Index 著者途径-Author Index 号码途径-Number Index
2、从文献内容特征 • 分类途径-Classified Index • 关键词途径-Keyword Index • 主题词途径-Subject Index • 分类主题途径-Classified and Subject Index • 其它-Formular Index…
使用著者途径应注意: 书写格式 姓前(全称)、名后(缩写,即用首字母) Willian Henry Harrison →Harrison W H 姓前有前缀M’、Mc、Mac,在索引中一律按Mac的字顺排在一起 姓前带冠词De、Della、Des、La、Van、Vanden、Von与姓名字顺一起排列; 有等级制称号的著者排在无等级制称号的著者之后,先排Johs W后排Johs W jr 音译中国人著者-按汉语拼音著录;俄国人-按英俄文音译对照表;日本人-按黑本氏英日文音译对照表对译。 学术团体,企业单位等名称按原名著录,并加国名以示区别。
分类途径 根据文献内容在学科分类体系中的位置作为文献信息的检索途径,它的检索标识是分类号,是一种族性检索。 我国按《中国图书资料分类法》进行分类。如,R 医药卫生、R28 中药学、R5 内科学、R9 药学 国外有《国际十进分类法,UDC》;《杜威法,DDC》。
关键词途径 是按照文献题目或内容中具有实质意义并能表达文献的主要内容、起关键作用的词或词组,从关键词字顺的检索系统中检索的一种途径,它的检索标识为关键词。 如,程序性细胞死亡;细胞调零;细胞调亡 维生素B2;VitB2
主题词途径 通过文献所属学科的主题对文献进行检索,是以主题词为检索标识,它是一种特性检索。 主题词是用来表达文献的主题概念的,经过规范化处理的名词或词组。 如,吞噬作用 核黄素(thiamine)
分类主题途径 是分类和主题途径的结合 例,《BA》的目次 (Major Concept Headings)
(二)检索步骤 1 、分析检索课题,明确检索要求、时间、范围 2 、选择检索工具、确定检索方法[追溯法、常用法(顺查法,倒查法,抽查法)、分段法] 3 、检索途径、明确检索标识、制定检索提问式 4 、查找文献线索(论文题目、著者、文献出处) 5 、索取原始文献
六、医学数据库使用简介 • 中国生物医学文献数据库(CBMdisc) • 中国生物医学文献光盘数据库(CBMdisc)是由中国医学科学院医学信息研究所开发研制的综合性医学文摘型数据库。 • 收录范围:1978年-至今、涵盖《中目》(医药卫生)和CMCC 1000多种中国生物医学刊物、近340万篇文献;约26万篇/年;文献类型有期刊、汇编、会议文献等。 • 收录涉及基础医学、临床医学、预防医学、药学、中医学及中药学等生物医学的各个领域。
检索途径 • 自由词检索 • 主题词检索 • 索引词检索 • 分类检索 • 期刊检索
检索步骤: 1、选择检索字段 缺省字段、全部字段、特定字段 2、输入检索词或检索式,点击[检索]按钮 备注:[二次检索]是指在最后一个检索式检索结果的范围内进行进一步 查询。 选择检索字段: 缺省字段:TI、AB、AU、MH、TG、TW、TA 全部字段:ALL 特定字段:仅在某一指定字段内检索 精确检索 au=xx 非精确检索 xx in au 特殊字符或标点的检索 例如,MH=“肝炎, 病毒性, 人”;“1004-616X” IN ISSN
检索步骤: 1、点击[主题词]按钮 2、输入检索词(中文或外文),点击[浏览]按钮 3、选中所要检索的主题词,点击[主题词注释]按钮之后, 可对该词进行不扩展、扩展、加权检索及树状结构选择 4、点击[检索]按钮,选择相应的副主题词与主题词进行组 配检索
检索步骤: 1、点击索引词[浏览] 2、输入检索词,点击[浏览]按钮 3、通过浏览选择检索词,点击[检索]按钮 备注: 检索多个索引词时,使用[加入列表]、 [浏览列表]和[检索列表] 按钮
检索步骤: 1、点击[分类]按钮 2、输入检索词(分类号或分类词),点击[浏览]按钮 3、选择要查找的检索词,点击[检索]按钮 4、在“选择复分”对话框中,选择相应的复分号,以便与主类号进行组配检索
检索步骤: 1、点击[期刊]按钮 2、输入检索词(刊名、出版单位、出版地、主题词),点击[浏览]按钮 3、选中欲检刊名,点击[检索]按钮 备注: 点击[词条注释]按钮,显示该刊的主编、编辑单位、电话、地址等内容,可作为投稿查询信息。
中国期刊网全文数据库 中国学术期刊全文数据库(CAJ)由清华大学中国学术期刊(光盘版)电子出版社编辑出版,是我国第一个连续出版的大规模集成化、多功能学术期刊全文检索系统,收录国内中、 英文核心期刊和专业特色期刊6000余种。 分为理工A(数理科学)、理工B(化学化工能源与材料)、理工C(工业技术)、农业、医药卫生、文史哲、经济政治与法律、教育与社会科学综合、电子技术与信息科学9大专辑,126个专题数据库,网上数据每日更新。 • 浏览全文需下载CAJ全文浏览器,可从期刊网首页下载.
七、如何提高信息检索效率 • 查全率(Recall ratio)和查准率(Precision ratio) 60~70%----互逆关系----40~50% • 手检与机检的关系 • 检索策略的制定* • 索取全文*
制定检索策略 • 根据检索目的和要求,确定检索的学科范围、文献类型、回溯年限、语种 • 选择检索手段和检索系统 • 确定检索途径,注意各种检索途径的配合使用 • 确定检索标识 ,正确使用各种运算符,编制检索提问式 • 检索过程方案调整,通过上下位词的选择和逻辑算符的应用,可进行扩大或缩小检索范围,使检出的结果符合要求
索取原文 • 记录文献线索 • 掌握各种缩写的还原 • 向著者索取 • 利用馆藏目录、公共查询系统、联合目录* • 利用网上全文传递服务* • 检索网上全文数据库* • 利用网上出版社、杂志*