810 likes | 1.08k Views
科技文献检索与利用. 第二部分:信息检索技术 及中文全文库 (CNKI 、维普 ). 信息咨询部 ( 情报所 ) :费盛华 E-mail:shfei@lib.tongji.edu.cn Phone:021-65982423. 课程安排. 为什么还要进行数据库检索 ? ---- 搜索引擎检索与数据库检索的区别(布尔逻辑算符、字段) 专业搜索达人基础技能 ---- 截词符、位置算符 “ 达人 ” 评价标准 ---- 查全率、查准率及其影响因素 从最常用的中文全文库开始练习 ---- 《 中国期刊全文数据库 》 ( CNKI )
E N D
第二部分:信息检索技术 及中文全文库(CNKI、维普) 信息咨询部(情报所):费盛华 E-mail:shfei@lib.tongji.edu.cn Phone:021-65982423
课程安排 • 为什么还要进行数据库检索? ----搜索引擎检索与数据库检索的区别(布尔逻辑算符、字段) • 专业搜索达人基础技能 ----截词符、位置算符 • “达人”评价标准 ----查全率、查准率及其影响因素 • 从最常用的中文全文库开始练习 ---- 《中国期刊全文数据库》(CNKI) 《中文科技期刊数据库》(维普)
搜索引擎检索与数据库检索的区别 1.搜索引擎: 定义:搜索引擎(Search Engines)是一个对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。 搜索引擎是一个提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。 检索优点:任何内容,检索简单 检索缺点:检全率高,检准率低,结果数量大,学术文献量少且无法获取全文(免费文献除外)
2.数据库: 定义:数据库是存储在一起的相关数据的集合,这些数据是结构化 的,无有 害的或不必要的冗余,并为多种应用服务;数据的存储独立于使用它的程序;对数据库插入新数据,修改和检索原有数据均能按一种公用的和可控制的方式进行。( J.Martin) 检索:布尔逻辑检索 字段检索 检索优点:检准率高、具有针对性、学校资源提供大量的学术文献(可获取全文、文摘等)、检索方法多种 检索缺点:每个数据库相对独立、只能检索数据库限定的内容、检索相对复杂 搜索引擎检索与数据库检索的区别
1)布尔逻辑检索(Bool Logical Operators) 用布尔逻辑算符将检索词、短语或代码进行逻辑组配,指定文献的命中条件和组配次序,凡符合逻辑组配所规定条件的为命中文献,否则为非命中文献。 搜索引擎检索与数据库检索的区别1--布尔逻辑运算符
①逻辑“与” 是检索词之间的相交关系运算。运算符号为“AND”或 “*”。检索式为: A AND B 或 A * B 搜索引擎检索与数据库检索的区别1--布尔逻辑运算符 B A (交集)
②逻辑“或”(和) 是检索词之间的并列关系,用运算符号“OR”或“+”。表示两个检索项任一项出现在一条记录中。 检索式为:A OR B 或 A + B 搜索引擎检索与数据库检索的区别1--布尔逻辑运算符 A B (并集)
③逻辑“非” 用于在某一记录集合中排队含有某一概念的记录。运算符号用“NOT”或“-”表示。 检索式为: A NOT B 或 A –B 搜索引擎检索与数据库检索的区别1--布尔逻辑运算符 B A (排除)
搜索引擎检索与数据库检索的区别1--布尔逻辑运算符搜索引擎检索与数据库检索的区别1--布尔逻辑运算符
实例 污水处理装置自动化控制方面的文献研究 高层建筑结构抗震分析与设计 公共关系在WTO中的应用 搜索引擎检索与数据库检索的区别1--布尔逻辑运算符
字段是文献著录的基本单元,反映文献的外部特征和内容特征的每一个项目。 字段是文献著录的基本单元,反映文献的外部特征和内容特征的每一个项目。 搜索引擎检索与数据库检索的区别2--字段检索 【中文题名】 XML语言及其应用 【英文题名】XML LANGUAGE AND ITS APPLICATION【作 者】黄婉秋;黄筱霞;贾旭光 【作者单位】北京工商大学,计算机学院,北京,100037;北京工商大学,计算机学院,北京,100037;北方交通大学,计算机学院,北京,100044; 【刊 名】北京工商大学学报(自然科学版) 【英文刊名】JOURNAL OF BEIJING TECHNOLOGY AND BUSINESS UNIVERSITY(NATURAL SCIENCE EDITION)【年 卷 期】2002 Vol.20 No.3 【关 键 词】XML; HTML; Web页面语言; 置标语言 【摘 要】简要阐述了XML语言的概念及特点,对它的语言结构进行了详细的分析,包括DTD、XSL、 XLL三部分.并将XML和HTML进行了比较,同时也对它和数据库之间的关系进行了描述.最后论述了XML的 发展与前景.
基本索引字段:在数据库中把描述文章主题性质,反映文章内容的字段称为基本索引字段。文献的标题(TI)、文摘(AB)、主题词(DE)及关键词(KY)等属于基本索引字段。基本索引字段:在数据库中把描述文章主题性质,反映文章内容的字段称为基本索引字段。文献的标题(TI)、文摘(AB)、主题词(DE)及关键词(KY)等属于基本索引字段。 辅助索引字段:描述与主题内容无关的字段,叫做辅助索引字段。作者(AU)、文献出处(SO)、出版年代(PY)、语种(LA)等属于辅助索引字段,与基本索引字段配合使用,起限定检索范围的作用。 搜索引擎检索与数据库检索的区别2--字段检索
截词检索技术在计算机检索系统中的应用非常普遍,在西文单词中经常会遇到词的不同变化,为了不漏检,可采用截词的方法处理检索词。截词就是利用计算机检索系统提供的截词符,保留检索词中的相同部分,允许检索词可有一定范围内的变化,以提高文献的查全率。 截词检索技术在计算机检索系统中的应用非常普遍,在西文单词中经常会遇到词的不同变化,为了不漏检,可采用截词的方法处理检索词。截词就是利用计算机检索系统提供的截词符,保留检索词中的相同部分,允许检索词可有一定范围内的变化,以提高文献的查全率。 检索技巧进阶之--截词检索(Truncation)
检索技巧进阶之--截词检索(Truncation) 截词检索在西文数据库中广泛使用。是在词干后可能变化的位置加上截词符号。检索词的单复数形式,同一词英、美不同拼法,词根相同的词都可用截词检索。这样既可减少检索词的输入量,又可扩大查找范围,提高查全率。 按 截 词 位 置 分: 有前截断、后截断、中截断; 按截词的字符数量分:有限制截断、无限截断。 表示截词的截断符号,各检索系统有不同的规定,没有统一标准。 常用的截词符有:?和*
1. 后截断 后截断是在检索词词干后面加截词符,表示不限制或限制词尾可变化的字符数,即查找词干相同的所有词。从检索性质上讲,后截断是前方一致检索。 非限制截断:是在检索词词干后面加一个截词符,表示不限制词尾可变化的字符位数,即查找词干相同的所有词。 例:同根词,如comput*表示允许其后可带有任何字符且数量不限,相当于查找compute、 computed、 computes、 computing、 computer、 computers、computerize、computerized、computation、 computations、 computational、 computationally等词。 • 例:年代,如199?(90年代) • 例:作者,如用Eric* 可检出所有姓Eric的作者。 注意:不宜将词截得过短,否则容易造成误检。 限制截断 :是在检索词词干后面加若干个截词符,表示限制可变化的字符数。 例:fib?? 相当于查找 fiber 或fibre …… educat?? 相当于Educator,educated……
2. 中截断 (通配符或屏蔽) 是把截断符号置于一个检索词的中间,对词中间出现变化的字符数加以限定。一般中截断仅允许有限截断。 例:organi?ation, 可检索到包含organization和organisation的记录。 wom?n , 可检索到包含woman和women的记录 一个?代表零个或任意个字符。 例: colo?r,可检索到包含 color、colour、colonizer、 colorimeter的记录。 一个? 和数字,其中的数字代表可替换的字符数。 例:colo?1r, 只能检索到包含colour的记录。
检索技巧进阶之--位置算符 利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系,会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索系统都提供文中自由词检索功能,也称全文检索功能(Full text searching)。 所谓全文检索是利用文献记录中任何有实义的关键词、词组或字符串作为检索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免AND逻辑组配产生的词义含糊或误检。 为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。 全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点: • 规定的位置算符不同; • 位置算符的职能和使用范围不同。 下面介绍几种数据库经常使用的位置运算符:
检索技巧进阶之--位置算符 1.W - With W 算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。 例: intelligent (W) robot? Wn( 或nW) 表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许在连接的两个词之间最多插入n个单元词。 例: intelligent w1 robot* 2. N - Near N算符是Near的缩写,表示此算符两侧的检索词必须紧密相连,所连接的词之间不允许插入任何其他单词或字母。但词序可以颠倒。 例: intelligent NEAR robot* Nn (或nN)表示在两个检索词之间最多可插入n个单词,且两词的词序任意。 例: intelligent N1 robot* 3. Adj - adjacency 邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其他的词或字母。相当于短语检索。 例:intelligent adj robot*
构造检索提问式示例: 课题:数字化图书馆的文献检索服务 检索概念分析: document retrieval 并列概念document delivery document delivery system digital library 同义词 virtual library electronic library 检索提问式: (document W retrieval ordocument W delivery or document W delivery W system*) and (digital W librar* or electronic W librar* or virtual W librar*)
检索效果评价 查全率(R)= 检出相关文献量 文献库中相关文献总量 查准率(P)= 检出相关文献量 检出文献总量
(1)影响查全率的种种因素 如:检索词是否扩大到穷尽,是否已用了所有可能的同义词和准同义词或不同的拼法;是否合理运用了逻辑“或”;是否对课题检索策略作了必要的扩大。 (2)影响查准率的因素 如:是否尽量选用了专指度较高的检索词;是否采用了逻辑“与”和逻辑“非”算符来优化检索;是否对检索课题作了范围的有效限制等等。 影响因素分析
1)课题分析不透;“学科归属”不清。 2)“语言”不通。 3)主题概念不是大了,就是小了。 4)“同义词库”不全 5)核心词太多 6)选择的检索工具专业性不够。E-journal or search engine? 造成漏检或误检的原因
对课题的真正含义和学科归属不清楚,会造成最大的失误。对课题的真正含义和学科归属不清楚,会造成最大的失误。 如查找有关“玻璃钢”制造工艺方面的资料: 如果没有认真分析课题的真正含义和学科归属,就匆匆着手检索,往往会欲速不达,或多走弯路,甚至导致失败。 1)课题分析不透;“学科归属”不清。 如果从字面含义着手,以为它属玻璃工业或金属材料的范畴,而事实上,玻璃钢既不属硅酸盐工业里的玻璃类,也不属金属材料里的钢铁制品,而是合成树脂与塑料工业里的增强、填充塑料制品。
基于计算机的文献检索的特点与其说是人机对话,不如说是标引人员与检索人员的对话,只有标引人员与检索人员所表达的“语言”一致,才能顺利实现文献检索。基于计算机的文献检索的特点与其说是人机对话,不如说是标引人员与检索人员的对话,只有标引人员与检索人员所表达的“语言”一致,才能顺利实现文献检索。 往往检索工具使用的是标引语言,而检索者使用的多数是自由词,未经规范化,这样在表达方式上有差异,造成了检索障碍。如: 自由词:维生素 C (vitamin C);标引词 :抗坏血酸 (ACID,ASCORBIC) 自由词:艾滋病 (AIDS); 标引词:ACQUIRED IMMUNODEFICIENCY SYNDROME(后天免疫缺陷综合症);又如“沙示”(SARs), 禽流感(Bird flu)……. 2)“语言”不通。
检索者不知道如何正确定位课题的主题概念,往往会不是大了,就是小了,初学者更容易把概念偏大。检索者不知道如何正确定位课题的主题概念,往往会不是大了,就是小了,初学者更容易把概念偏大。 主题概念的范畴太大造成大量没用的文献被误检,太小造成重要的的文献被漏检。 如“石油工业的废水处理”,若用“废水处理”作为主题概念,就会太大,在《中国期刊网》中有1400多篇,如果我们知道石油工业主要排放的是毒性较大的含酚废水,那么主题概念定位在“含酚废水处理”就比较恰当了,此时查出的文献大概有20~30篇。 3)主题概念不是大了,就是小了。
往往同一件事情或事物,不同作者喜欢用不同的词来表达,这就造成了庞大的同义词库,如果偏偏你头脑中的“同义词库”不是那么全,造成漏见就不足为怪了。例:往往同一件事情或事物,不同作者喜欢用不同的词来表达,这就造成了庞大的同义词库,如果偏偏你头脑中的“同义词库”不是那么全,造成漏见就不足为怪了。例: 艾滋病——艾滋病、爱滋病 碳纤维——碳纤维、炭纤维 聚四氟乙烯——PTFE,polytetrafluoroethylene, Teflon 设备——apparatus,equipment,device…… 汽车——car,automobile,vehicle…… 4)“同义词库”不全
对于由A、B、C、D、E多个主题组合的多主题概念课题,如果将所有主题混在一起同时组配,会造成“零结果”现象。对于由A、B、C、D、E多个主题组合的多主题概念课题,如果将所有主题混在一起同时组配,会造成“零结果”现象。 因为,只要A、B、C、D、E其中之一的检索结果为零,则经过布尔逻辑“和”的运算,检索结果=A*B*C*D*E =0 。 5)核心词太多
E-journals: 中文:中国期刊网、万方数据库系统、维普。。。。。。 英文:Elsevier…… Search engine: 北大天网,百度, GooGle, Yahoo! Openfind, ……. 6)选择的检索工具专业性不够
同义词 常用词 缩写词 练习 • 案例一:氧化铝碳纳米管 • 检索式:氧化铝*(碳纳米管+碳管+纳米纤维) • 案例二:耐高温粘接剂研究 • 检索式:高温*(粘接剂+胶粘剂+粘合剂+粘结剂+黏合剂+胶黏剂+粘固剂+胶结剂)
隐含概念 练习 • 案例一:京九铁路卫运河特大桥 • 从结构上分析,该桥是斜拉式预应力混凝土连续桁架桥,所以检索式为: • 预应力混凝土*斜拉*桁架*连续梁 • 案例二:唐山综合防灾研究 • 唐山: 城市 • 由于唐山是一个城市,该项目实际为“城市综合防灾的研究” • 灾害: 地震、洪水、火灾 • 所采用的研究手段是决策支持系统和专家系统 • 研究: 决策支持系统、专家系统
中国期刊网(CNKI)简介 中国知识基础设施工程 CNKI:China National Knowledge Infrastructure 是采用现代信息技术,建设适合于我国的可以进行知识整合、生产、网络化传播扩散和互动式交流合作的一种社会化知识基础设施的信息化工程。 该工程由清华大学发起,同方知网技术产业集团承担建设,被国家科技部确定为“国家级重点新产品重中之重”项目。CNKI 工程于1995年正式成立,历经十多年,已经建成了“ CNKI 数字图书馆”,涵盖了我国自然科学、人文与社会科学、工程技术、期刊、博硕士论文、报纸、图书、会议论文等公共知识信息资源。CNKI用户遍及全国和欧美、东南亚、澳洲等各个国家和地区,实现了我国知识信息资源在互联网条件下的社会化共享与国际化传播。目前,CNKI系列数据库已经被海内外17000多个高校、科研、医院、企业、政府、中小学等各类机构所采用。
《中国学术期刊网络出版总库》收录了国内出版的6642种学术期刊,其中核心期刊、重要评价性数据库来源期刊2460种,期刊种数完整率不低于99%;其他期刊4182种,期刊种数完整率不低于90%。文献收录期数完整率不低于99.9%,文献篇数收录完整率不低于99.9%。是目前世界上最大的连续动态更新的中国期刊全文数据库。《中国学术期刊网络出版总库》收录了国内出版的6642种学术期刊,其中核心期刊、重要评价性数据库来源期刊2460种,期刊种数完整率不低于99%;其他期刊4182种,期刊种数完整率不低于90%。文献收录期数完整率不低于99.9%,文献篇数收录完整率不低于99.9%。是目前世界上最大的连续动态更新的中国期刊全文数据库。 《中国博士学位论文全文数据库》收录了全国420家博士培养单位的博士学位论文,是目前国内相关资源最完备、高质量、连续动态更新的中国博士学位论文全文数据库。 《中国优秀硕士论文全文数据库》收录了全国652家硕士培养单位的优秀硕士学位论文。是目前国内相关资源最完备、高质量、连续动态更新的中国优秀硕士学位论文全文数据库。 《中国重要会议论文全文数据库》收录我国2000年以来国家二级以上学会、协会、科研院所、政府举办的重要学术会议、高校重要学术会议、在国内召开的国际会议上发表的文献的论文集。 《中国重要报纸全文数据库》收录2000年以来国内公开发行的700多种重要报报纸刊载的学术性、资料性文献,是连续动态更新的数据库。 《中国年鉴全文数据库》收录了国内中央、地方、行业和企业等各类年鉴的全文文献。是目前国内最大的连续更新的动态年鉴资源全文数据库。内容覆盖基本国情、地理历史、政治军事外交、法律、经济、科学技术、教育、文化体育事业、医疗卫生、社会生活、人物、统计资料、文件标准与法律法规等各个领域。 《中国工具书网络出版总库》目前收录了近200家出版社的语言词典、专科辞典、百科全书、图鉴(谱)年表共2000多种,以及作者直接向本网投稿的辞书约20种,词条近千万,图书70万张,向人们提供精准、权威、可信的知识搜索服务。
中国学术期刊网使用方法 CNKI检索功能 •初级检索 • 高级检索 •专业检索 •跨库检索 •单库检索 数据库导航 •期刊导航 •基金导航 •会议导航 •报纸导航 CNKI搜索引擎 简单易操作的检索工具,可方便地查找CNKI系列资源。
中国学期刊全文数据库为例 初级检索 问题1: 查找2005年-2008年发表在期刊《交通运输工程学报》上的有关运输系统方面的文献.
选择检索项(主题),输入检索词,限定检索时间选择检索项(主题),输入检索词,限定检索时间 选择检索的学科范围:默认全选
限定期刊名,进行二次检索 初次检索结果
最终检索结果,可点击任何一条查看详细信息,也可选择其中几条存盘最终检索结果,可点击任何一条查看详细信息,也可选择其中几条存盘
存盘方式的选择,自定义格式可以选择自己需要的内容存盘方式的选择,自定义格式可以选择自己需要的内容
相关文献功能条:可进行相关研究内容跟踪 下载全文:安装浏览器 引文反映一篇文章的未来发展,及文章的质量
中国期刊全文库:高级检索 高级检索:高级检索是一种比初级检索要复杂一些的检索方式。但也可以进行简单检索。 高级检索的功能有: 多项双词逻辑组合检索多项是指可选择多个检索项;双词频控制双词是指一个检索项中可输入两个检索词(在两个输入框中输入),每个检索项中的两个词之间可进行五种组合:并且、或者、不包含、同句、同段, 每个检索项中的两个检索词可分别使用词频、最近词、扩展词;逻辑是指每一检索项之间可使用逻辑与、逻辑或、逻辑非进行项间组合。
高级检索举例 问题1:查找1999年以来在《图书馆杂志》上发表的,有关机构库(机构知识库)的文章。 问题2:查找王金荣发表在《地球科学进展》杂志的有关“地壳早期演化”方面的文章。
中国期刊全文库——专业检索 专业检索: 多个检索项的检索表达式可使用“AND”、“OR”、“NOT”逻辑运算符进行组合,逻辑关系符号前后要空一个字节; 三种逻辑运算符的优先级相同; 如要改变组合的顺序,请使用英文半角圆括号“()”将条件括起; 所有符号和英文字母(包括下表所示操作符),都必须使用英文半角字符; 字符计算:按真实字符(不按字节)计算字符数,即一个全角字符、一个半角字符均算一个字符。