550 likes | 676 Views
计算机检索常用技术. 陈延顺 (chysh20008839@yahoo.com.cn ) 北华大学 2011 年 11 月 20 日. 版权声明. 尊重知识产权、遵守学术道德 版权归制作人及所在单位所有 CALIS 三期建设项目享有复制、编辑、推广、宣传等使用权. 培训目标. 通过学习,了解计算机检索常用技术的种类,掌握各种检索技术的应用范围和使用方法,从而提高检索的效率。 适用于高校教师、研究生、本科学生。. 内容提纲. 布尔逻辑算符检索 位置算符检索 截词检索 字段限定检索 范围限制检索 聚类检索 加权检索 词表助检 检索技术的应用.
E N D
计算机检索常用技术 陈延顺(chysh20008839@yahoo.com.cn) 北华大学 2011年11月20日
版权声明 • 尊重知识产权、遵守学术道德 • 版权归制作人及所在单位所有 • CALIS三期建设项目享有复制、编辑、推广、宣传等使用权 信息素养-培训课件
培训目标 • 通过学习,了解计算机检索常用技术的种类,掌握各种检索技术的应用范围和使用方法,从而提高检索的效率。 • 适用于高校教师、研究生、本科学生。 信息素养-培训课件
内容提纲 • 布尔逻辑算符检索 • 位置算符检索 • 截词检索 • 字段限定检索 • 范围限制检索 • 聚类检索 • 加权检索 • 词表助检 • 检索技术的应用 信息素养-培训课件
布尔逻辑算符检索-1 • 布尔逻辑算符检索 • 是用来处理检索词之间相互逻辑关系的一种检索技术。布尔逻辑算符有逻辑与、逻辑或、逻辑非三种逻辑关系。 • 布尔逻辑算符检索通过对文献集合的运算获得相应的检索结果。 • 文献集合是具有某一特征(包括文献的外部特征和内容特征)的文献总体。在一个文献的集合中可以包含若干个不同的文献子集。 在关于糖尿病的文献集合中, 可以包括下面的几个子集 病因 病理 诊断 治疗 预后 信息素养-培训课件
布尔逻辑算符检索-2 • 逻辑“与”运算 • 逻辑“或”运算 • 逻辑“非”运算 • 逻辑运算顺序 信息素养-培训课件
布尔逻辑算符检索-3 • 布尔逻辑算符检索 • 逻辑“与”运算 • 在两个或两个以上的检索词具有交叉和限定关系时使用。表达了概念之间的交叉和限定关系。 • 逻辑“与”运算采用“并且”、“和”、“and” 或“*”表示。 • 检索表达式:检索词A and 检索词B。 • 检索结果:只有同时包含检索词A和检索词B的文献才为命中文献。 含有检索词A的文献 A B 含有检索词B的文献 获得的检索结果 信息素养-培训课件
布尔逻辑算符检索-4 • 布尔逻辑算符检索 • 逻辑“或”运算 • 在两个或两个以上检索词之间具有并列关系时使用。表达了概念之间的并列关系。用于同义词和近义词的检索。 • 逻辑“或”运算采用“或”、“或者”、“or ”或“+”表示。 • 检索表达式:检索词A or 检索词B。 • 检索结果:凡含有检索词A和检索词B的文献均为命中文献。 含有检索词A的文献 A B 含有检索词B的文献 获得的检索结果 信息素养-培训课件
布尔逻辑算符检索-5 • 布尔逻辑算符检索 • 逻辑“非”运算 • 在两个检索词之间具有不包含关系时使用。表达了概念之间的不包含关系。 • 逻辑“非”运算采用“不包含”、“not ”或“-”表示。 • 检索表达式:检索词A not 检索词B。 • 检索结果:在含有检索词A的文献中不含有检索词B的文献才为命中文献。 含有检索词A的文献 A B 含有检索词B的文献 获得的检索结果 信息素养-培训课件
布尔逻辑算符检索-6 • 布尔逻辑算符检索 • 逻辑运算顺序 • 当一个检索表达式中,同时含有多个布尔逻辑算符时,首先运算逻辑“非”,其次运算逻辑“与”,最后运算逻辑“或”。 • 可以用圆括号改变运算顺序,将需要优先运算者置于圆括号中。 • 当检索表达式含有截词符、位置算符、限制符时,布尔算符最后运算。 A A B B C C A or B and C 阴影部分为命中文献 (A or B) and C 阴影部分为命中文献 信息素养-培训课件
位置算符检索-1 • 位置算符检索 • 也称为原文逻辑算符检索,是用来处理原始记录中词与词之间位置关系的一种检索技术。 • 位置算符可以弥补布尔逻辑算符定性规定检索词的逻辑关系,而没有检索词位置关系,容易造成误检的不足。 • 在自由词检索过程中,使用位置算符检索对控制命中文献的内容和数量有较大的灵活性和自由度,能有效地提高检索效率。 • 位置算符检索多用于仪器、仪表名称、疾病名称等专有名词的检索。 信息素养-培训课件
位置算符检索-2 • 相邻位置算符 • (W)—With • (nW)—nWord • (N)—Near • (nN)—nNear • 句子位置算符 • 字段位置算符 • 其它位置算符 信息素养-培训课件
位置算符检索-3 • 相邻位置算符 • (W)—With • 表示此算符两侧的检索词位置相邻,顺序不能颠倒,允许有一个空格或一个标点符号,但不允许在两个检索词之间插入任何其它的单词或字母。 • 如:double (W) digit 表示具有“double digit” 或“double-digit”形式的文献记录为命中文献。 信息素养-培训课件
位置算符检索-4 • 相邻位置算符 • (nW)—nWord • 表示在此算符两侧的检索词位置相邻,两个检索词之间可以插入n个或n个以下的单词,但检索词的顺序不能颠倒。 • 如:laser(1W)printer 表示具有“laser printer”或“ laser colour printer”形式的文献记录为命中文献。 • 检索时,n值愈大,检出的文献数量愈多,其检索效果与逻辑“与”运算的检索效果愈接近,误检也随之增多。 信息素养-培训课件
位置算符检索-5 • 相邻位置算符 • (N)—Near • 表示在此算符两侧的检索词位置相邻,两个检索词之间不许插入任何单词,检索词的顺序可以颠倒。 • 如:tax(N)reform 表示具有“tax reform” 或“reform tax”形式的文献记录均为命中文献。 信息素养-培训课件
位置算符检索-6 • 相邻位置算符 • (nN)—nNear • 表示在此算符两侧的检索词位置相邻,在两个检索词之间可以插入n个或n个以下的单词,检索词的顺序可以颠倒。 • 如:cotton(2N)processing 表示具有“cotton processing”、“processing of cotton”或“processing of Egyptian cotton”形式的文献记录为均命中文献。 • 检索时,n值愈大,检出的文献数量愈多,其检索效果与逻辑“与”运算的检索效果愈接近,误检也随之增多。 信息素养-培训课件
位置算符检索-7 • 句子位置算符 • (S)-subfield • 表示其两侧的检索词,必需出现在文献记录中的同一个子字段中才为命中文献,检索词的词序不限,两个词之间可间隔若干个词。 • 如:strength (S) steel 表示凡在同一个子字段或文摘的同一个句子中,检索出同时含有strength 和 steel的文献记录为命中文献。 • 句子位置算符检索放宽了对检索词相邻位置的要求,使表达同一概念但不满足检索词相邻位置条件的文献,也可以被检索出来,从而提高了查全率。 信息素养-培训课件
位置算符检索-8 • 字段位置算符: • (F)-Field • 表示在此算符两侧的检索词,必须出现在文献记录的同一个字段内,不限制在两个检索词之间插入的单词数量及检索词的先后顺序。 • 如:pollution (F) control,表示凡在同一个字段中检出含有 pollution 和 control的文献记录均为命中文献。 信息素养-培训课件
位置算符检索-9 • 其它位置算符 • (L)-Link • 表示在此算符两侧的检索词之间具有的从属关系。要求检索词在同一文献记录的叙词字段(DE)中同时出现,并具有词表所规定的从属关系,才为命中文献。 • 如:iron(L)corrosion表示corrosion (腐蚀)是iron (铁)的下属词。 • 该算符只适用于具有叙词词表的数据库检索。 信息素养-培训课件
截词检索-1 • 截词检索 • 是采用检索词的词根或不完整词形加上截词符,以替代检索词完整形的一种检索技术。 • 截词检索主要应用于名词的单复数、单词不同拼写方法、及词干相同的各个衍生词的检索。 • 按截断的位置可分:后截词、前截词和中截词三种形式。 • 按截去字符的数量可分为:有限截词和无限截词两种形式。 信息素养-培训课件
截词检索-2 • 截词检索 • 后截词 • 用符号“*”表示,通常是词的右截断,不限制截去的字符数量,是一种无限截词。在检索的匹配的模式上属于“前方一致”检索。 • 如:输入Comput*,可检出含有“Compute”、“Computer”和“Computation”等词的文献记录。 • 后截词检索主要应用于词的单复数、年代、作者、同根词汇的检索。 • 采用后截词检索时,词干不能截得太短,以免检索出与原有含义内容不相关的文献。 信息素养-培训课件
截词检索-2 • 截词检索 • 前截词 • 用符号“*”表示,通常是词的左截断,不限制截去的字符数量,是一种无限截词。在检索的匹配模式上属于“后方一致”检索。 • 如:输入*phosphate,可检出含有“diphosphate”、“dipolyphosphate”和“orthophosphate”等词的文献记录。 • 前截词检索多用于检索化学、化工方面的文献及一些复合词较多的文献。 • 目前在检索系统中,前截词检索还比较少见。 信息素养-培训课件
截词检索-3 • 截词检索 • 中截词 • 用通配符“?”表示,通配符“?”可以出现在单词的任意位置,一个 “?”代替一个或一个以下的字符。是一种有限截词。 • 如:输入defen?e,可检出“defence”、“defense” 等词的文献;输入wom?n,可检出“woman”和“women”等词的文献。 • 主要用于英美拼写不同及某个元音位置上出现单复数不同词的检索。 • 如果在单词中变化字符数量不同,不能使用嵌入式截词检索,必须详细写出每个单词,将所有的词用“OR”组配后检索。 信息素养-培训课件
字段限定检索-1 • 字段限定检索 • 是将检索词限定在文献记录中的特定字段内,用来缩小或约束检索范围的一种检索技术。 • 字段限定检索通过将检索词限定在一个或几个字段内,使检索结果更为准确,减少文献的误检。 • 字段限定检索包括两种形式:通过菜单选择检索字段和以命令的方式输入字段限制算符。 信息素养-培训课件
字段限定检索-2 • 字段限定检索 • 菜单选择字段 • 在检索系统提供的界面中,通过点击的方式选择检索字段。 可选择检索字段 信息素养-培训课件
字段限定检索-3 • 字段限定检索 • 使用字段限制符 • 在检索提问框中,以命令的方式输入字段限制符。 • 字段限制符有:前缀限制符和后缀限制符两种。前缀限制符多用于中文检索系统,后缀限制符多用于外文检索系统。 前缀限制符 后缀限制符 信息素养-培训课件
范围限制检索 • 范围限制检索 • 是将检索结果限制在指定的范围内,用以缩小或约束检索结果的一种检索技术。 • 范围限制检索的方式多种多样,可以限制检索的时间范围、语种范围、文献类型范围、期刊重要性等。 • 中文检索系统对范围限制的条件相对简单,而外文检索系统则对范围限制的条件更全面、系统。 限制检索时间范围 限制检索学科范围 限制检索期刊范围 信息素养-培训课件
聚类检索-1 • 聚类检索 • 是在文献自动标引基础上,按照一定的聚类方法,计算出文献之间的相似度,并把相似度较高的文献集中在一起,形成一个一个的文献类的检索技术。 • 聚类检索兼有主题检索和分类检索的优点,同时具备族性检索和特性检索的功能。 • 聚类检索的方式多种多样,通常是对检索结果按照出版时间、出版物类型、学科范围、主题、期刊,作者等不同的方式进行聚类,用以进一步优化检索结果。 信息素养-培训课件
聚类检索-2 • 尊重知识产权、遵守学术道德 • 组成单元 • 组成单元 • 组成单元 • 。。。。。。 按学科聚类 按文献类型聚类 按出版时间聚类 按刊名聚类 信息素养-培训课件
加权检索-1 • 加权检索 • 是检索系统中提供的一种定量检索技术。 • 基本方法:是对每个检索词按照其重要程度给出不同的权值,在检索时,先查找检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。当记录中所有检索词的权值之和达到或超过设定的阈值时,该记录即为命中记录。 • 加权检索可以命中核心概念文献,是一种缩小检索范围提高查准率的有效方法。通常在检索界面中采用复选的方式进行。 • 不是所有检索系统都提供加权检索,不同的检索系统,对权的定义、加权方式、权值计算和检索结果的判定等方面,又有不同的技术规范。 信息素养-培训课件
加权检索-2 加权检索, 选中即只对重要主题词检索。 信息素养-培训课件
词表助检-1 • 词表助检 • 是利用检索系统提供的联机词表,帮助用户进行检索的一种技术。 • 词表助检具有帮助用户选择检词和对检索词的下位词扩展检索及对检索词进行加权检索的功能。 • 在具有叙词检索功能的检索系统中,词表助检可以将用户输入的非规范化检索词,转换为规范词检索,并在选词功能的基础上,对其下位词进行自动扩展检索,并同时对检索词进行加权 检索。 信息素养-培训课件
词表助检-2 帮助选择检索词, 指出拟检索词“cancer”, 在检索时使用“neoplasm”。 信息素养-培训课件
词表助检-3 对neoplasm的下位词 执行扩展 检索。 neoplasm的下位词 信息素养-培训课件
词表助检-4 加权检索, 选中即只对重要主题词检索。 默认扩展检索, 选中则不对其下位词检索。 信息素养-培训课件
检索技术应用-1 • 查找“心得安治疗高血压”方面的文献 • 以CNKI高级检索为例 • 通过题名扩展检索1980年-2011年的文献,并通过“血压异常”进一步对文献进行筛选。 • 应用下列检索技术 • 布尔逻辑算符检索 • 字段限定检索 • 范围限制检索 • 聚类检索 • 扩展检索 • 检索表达式: • 题名=高血压 and 题名=心得安 信息素养-培训课件
检索技术应用-2 字段限定检索 范围限制检索 布尔逻辑算符检索 扩展检索 聚类检索 信息素养-培训课件
检索技术应用-3 • 查找“计算机检索技术”方面的文献 • 以EBSCOhost的基本检索为例 • 应用下列检索技术 • 布尔逻辑算符检索 • 截词检索 • 位置算符检索 • 检索表达式: • Comput* and search W2 technolog* 信息素养-培训课件
检索技术应用-4 “search W2 technolog*”表示在“search”和“technolog*”之间可以插入两个或两个以下的单词。 “comput*”表示检索出以“comput”为词干,尾不同的词。 “technolog*”同样也表示截词。 信息素养-培训课件
检索技术应用-5 • 检索“胃癌治疗”方面的文献 • 以PUBMED的Mesh检索为例 • 利用拟检索词stomach cancer选择规范化检索词,并对其进行扩展和加权检索。 • 应用下列检索技术 • 词表助检 • 字段限定检索 • 加权检索 • 扩展检索 • 检索表达式 • Stomach Neoplasms/therapy [Majr] 信息素养-培训课件
检索技术应用-6 输入拟检索词 限定检索字段 词表选词 加权检索 默认扩展检索, 选中则不对其下位词检索。 信息素养-培训课件