360 likes | 457 Views
第四讲 信息检索方法与技术. 天津商学院图书馆. 主要内容. 一、 信息检索方法与途径 1 、信息检索方法 2 、信息检索途径 二、检索途径和检索方法的综合运用 三、检索程序 四、信息检索系统. 信息检索方法. 信息检索方法 : 就是制定正确、恰当的检索策略为检索过程进行指导。目的是为了优化检索过程,提高检索效率,全面、准确、快速地帮助用户找到所需信息 。. 常用检索方法- 布尔检索. 布尔检索 : 用布尔逻辑算符来表达检索词间的逻辑组配关系,是最基本、最常用的检索技术。 常用的布尔逻辑算符有 : 逻辑或 ( + , OR )
E N D
第四讲 信息检索方法与技术 天津商学院图书馆
主要内容 一、信息检索方法与途径 1、信息检索方法 2、信息检索途径 二、检索途径和检索方法的综合运用 三、检索程序 四、信息检索系统
信息检索方法 信息检索方法: 就是制定正确、恰当的检索策略为检索过程进行指导。目的是为了优化检索过程,提高检索效率,全面、准确、快速地帮助用户找到所需信息 。
常用检索方法-布尔检索 • 布尔检索:用布尔逻辑算符来表达检索词间的逻辑组配关系,是最基本、最常用的检索技术。 • 常用的布尔逻辑算符有: • 逻辑或(+,OR) • 逻辑与(*,AND) • 逻辑非(-,NOT)
布尔检索 • 逻辑或(+,OR):表达检索词间的并列关系。可扩大检索范围,提高查全率。如:A+B,表明结果中含有A或B都为检索命中 • 逻辑与(*,AND):表达检索词间的交叉关系。可缩小检索范围,提高查准率。如:A*B,表明结果必须同时含有A和B才为命中 • 逻辑非(-,NOT):表达检索词间的排除关系。可缩小检索范围,提高查准率,但要慎用。如:A—B,表明结果是A中不包含B的那部分
A A B B 逻辑与 逻辑或 A B 逻辑非
computer adventure game 最基本的搜索方式。查找与该关键词有关的记录,在过去通常情况下相当于布尔逻辑命令中“OR”的关系,翻译过来就是: • computer (OR)adventure(OR)games • 因此搜索结果中不仅有同时包含三个关键字的记录,也有仅含部分关键字串(如 computer games)和个别关键字(如computer)的记录。目前搜索引擎的趋势是默认匹配全部关键词搜索,即仅返回包含所有关键词的记录,相当于下面将介绍的“+”号和AND的关系,当然有时也有例外。
+computer +adventure +game 相当于布尔逻辑命令中的“AND”关系,翻译过来就是: • computer(AND)adventure(AND)games • 因此搜索结果中只列出同时包含三个关键字的记录。在搜索条件中使用“+”号还可强制搜索引擎将一些停用词当作关键词进行搜索。比如我们搜索“who am i”时,其中“who”和“i”是停用词,我们可以在两个单词前加上“+”号强制对其进行搜索,此时的搜索条件即可为:+who +am +i。
+computer +game -adventure 翻译过来就是: • computer(AND)game(NOT)adventure • 列出所有包含computer game的记录,但在其中排除有关adventure的记录。 • 综上所述,“+”号(AND)用于在搜索中指定涵盖某项内容,而“-”号(NOT)则用来从结果中排除某项内容。
常用检索方法-截词检索 • 截词检索:又称词干检索、模糊检索。检索时,只需用词干加截词符号,凡是含有与该词干相同的文献均能被检出。该方法能很好避免漏检现象的出现。检索系统不同,截词符也不同,常用的有:#,?,*等。 • 根据截词符出现的位置不同,可分为: • 后截词 • 前截词 • 中间截词
截词检索-后截词 • 后截词:将截词符放在词根后面,前方一致。 是最常用的截词方式。主要用在词的单复数、年代、作者、查同根词等情况。 • 如:王伟?(可查出所有名字中含“王伟”的作者的文献);Social*(可代替social, socialist, socialistic, sociality, socialization)
截词检索-前截词 • 前截词:将截词符放在词根的前面,后方一致。多见于复合词较多的文献检索,也可进行一个学科的不同应用领域的检索。但有此功能的系统不多。
截词检索-中间截词 中间截词:将截词符置于检索词中间,词的前后方一致。又称“通用字符法”或“内嵌字符截断” ,该方式能解决英美拼法不同单词的书写或有些词在某个元音位置上出现的单复数的不同拼写。 • 如:wom?n(可代替woman, women) 社会科学?发展(可代替社会科学的发展,社会科学研究的发展等)
常用检索方法-限制检索 限制检索:限制检索是缩小或约束检索结果的方法,主要是指限定字段检索,即是指定检索词在记录中出现的字段。限制检索的方法很多,如利用前、后缀符进行的字段检索;利用系统规定的限制符、限制检索命令进行的限制检索等。
(三)限制检索 • 限制检索是缩小或约束检索结果的方法,主要是指限定字段检索,即是指定检索词在记录中出现的字段。 • 常用的字段代码有: TI(题名) AU(作者) AB(文摘) JN(刊名) PY(年代) LA(语种) …… 如: information/TI LA=english 文摘=网络信息资源
(四)位置算符 通过位置算符对复合检索词进行加工,限定词与词之间的位置关系,提高检准率。 * (W)算符:表示该算符两边的检索词顺序排列,不能颠倒,且除空格和标点符号外,不能插入其他词或字母。 例:High(w)Strength 结果:High Strength High_Strength
*(nW)算符:允许两词间最多插入n个词 例:Heat(1W)Combustion 结果:Heat of Combustion *(N)算符:除空格和标点符号外,不得插入其它词或字母,但两词顺序可以颠倒。 例:money(N)supply 结果:money supply supply money *(nN)算符:两词顺序可以颠倒,中间可以插入最多n个词。 例:number(2N)theory 结果:number theory theory of number theory of the number
各个数据库的不同检索技巧(OCLC) • 位置符: N,W (限定检索词的前后位置及间隔词数)N或 W 后可插入1-25之间的间隔词数 例: ab:head w2 class • 逻辑符: AND,OR,NOT (确定检索词间的逻辑关系) 例:information and sharing • 括号:例: (baseball AND Brewers) OR Twins • 复数符: + 加在词尾,单、复数全检索。例: librar+ • 截词符: * 至少键入前3个字符的词根,例:econ* • 通配符: #:代表一个可替换字符。例: wom#n ?: 代表零个或任意个可替换字符。 例:colo?r,colo?4r
各个数据库的不同检索技巧(EBSCO) • 通配符:对不确定的字母可使用“?”来查询 如:键入“Re?d”可找到“read”、“reed”、“reid” • ■ 截词符:在关键词后面加上“*”可以找到不同意义的字 如:键入“walk*”可以找到“walk”、“walked”、“walking”、“walkway” • (6)位置算符:“Nn”和“Wn”表示两个检索词之间的位置邻近关系 • ■ Nn:两个检索词相隔距离最多为n个单词,两词出现的顺序可互换 例如,tax N5 reform • ■ Wn:两个检索词相隔距离最多为n个单词,两词出现的顺序不可互换 例如,income W2 tax
各个数据库的不同检索技巧(SpringerLink) • 布尔逻辑检索(Boolean Logic): 逻辑“与” And(或*) 逻辑“或” Or (或+) 逻辑“非” Not(或-) • 截词检索(Wildcards): SpringerLink截词符 “*” e.g.Ti=defen* 会检索出标题中含有“denfense”或“defence”或“defensive” 等同根词
各个数据库的不同检索技巧(CSA) • 布尔算符 AND;OR;NOT; • 优先算符 (),例如: (mouse and mice)and (gene or pseudogene); • 位置算符 WITHIN “X”(X代表数字),如“women within 8 movement”; NEAR; • 替代算符 “?” • 截词算符 “*”
机检系统常用检索方法 • 简单检索(basic search):是一种单项检索。一般只需输入一个检索词,辅以相应的途径即可进行检索。 • 二次检索:在原有简单检索的结果基础上,再进行检索。可反复使用,不断缩小检索范围。 • 高级检索(advanced search):是一种多项组合检索,一般输入多个检索词进行组配。有的检索系统也称为复杂检索或扩展检索。 • 专家检索:用多个检索词与各种运算符组成检索式,功能与高级检索相似。
六、检索效果评价 • 检索效果(retrieval effectiveness)是指检索系统检索的有效程度 • 有6项评价检索效果的指标,它们由克兰弗登(Cranfield)在分析用户基本要求的基础上提出的,包括:收录范围、查全率、查准率、响应时间、用户负担及输出形式。其中两个主要的衡量指标是查全率(Recall ratio)和查准率(precision ratio),分别用R 和P大写字母表示。
检准率:指检出的相关文献量与检出文献总量的比率。反应检索结果的准确性。检准率:指检出的相关文献量与检出文献总量的比率。反应检索结果的准确性。 • 检全率:指检出的相 关文献量与检索系统中相 关文献总量的比率。反映检索结果的全面性。
举 例 • 查找某主题文献 • 查准率= • 查全率=
七、信息检索技巧 提高检全率的方法 • 用“全文”等低相关度的检索途径进行检索 • 使用同、近义词(or) • 使用“模糊检索”和“截词检索”等 • 利用文献后所附“参考文献”进行检索
提高检准率的方法 • 使用高相关度的检索入口 题名/关键词 ___ 文摘 ___(全文) • 使用限制检索 如:在百度中可以进行多种限制: 网页位置;限定搜索网站;网页格式等。 • 反复使用二次检索(and) • 使用“精确检索” 如:百度中的“”(双引号)与《》(书名号)等 维普与CNKI中的“精确检索”
2、检索途径 检索途径:依据文献的外部特征(题名、责任者、标识、出版者、出版时间等)和内部特征(分类号、主题词、关键词或自由词等)来确定,是信息检索的入口点。
三、检索程序 • 分析研究课题 • 选择检索工具 • 确定检索途径 • 查找文献线索 • 索取原始文献
检索系统的原理 文献群 入选文献 信 息 存 储 信 息 存 储 概念分析 信 息 检 索 语 言 词汇转换 文献库 文献库索引 信 息 查 找 词汇转换 概念分析 信息 需求 用户 检索提问
检索实施过程 用 户 检 索 提 问 选 择 检 索 系 统 确 定 检 索 途 径 确 定 检 索 标 识 确 定 检 索 方 法 实 施 具 体 查 找 文 献 描 述 原 始 文 献
作业: • 1、按下列要求构造检索式: (1) 要求检索结果含有搜索引擎的历史,但是不能带有世界历史、中国历史、历史文化等不相关的知识; (2)检索全部唐诗 • 2、说出以下检索符号及各个检索式的意义: (1) walk*、compt*、defen*、 Social* (2) income W2 tax、 tax N5 reform