1.1k likes | 1.36k Views
信息检索技术、方法 及 搜索引擎. 第一节:信息检索技术. 1. 2. 3. 4. 布尔逻辑检索技术. 截词检索技术. 邻近检索技术. 字段检索技术. 数字资源的检索技术. 1 布尔逻辑检索技术. 布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法。 主要的布尔逻辑关系词有 : 逻辑与 (AND) 、逻辑或( OR )、逻辑非( NOT ). 逻辑与. 逻辑乘: “ and” 或“*”表示 组配方式: A*B 或者 A and B 表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息
E N D
1 2 3 4 布尔逻辑检索技术 截词检索技术 邻近检索技术 字段检索技术 数字资源的检索技术
1 布尔逻辑检索技术 • 布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法。 • 主要的布尔逻辑关系词有:逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)
逻辑与 • 逻辑乘: “and”或“*”表示 • 组配方式:A*B或者A and B 表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息 • 作用:增加限制条件,即增加检索的专指性,以缩小提问范围,减少文献输出量,提高查准率。
逻辑或 • 又称逻辑和:“or”、“+” • 组配方式:A OR B或者A+B,表示检索含有A词,或含有B词,或同时包含A、B两词的文章。 • 作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率。
逻辑非 • 又称逻辑差: “not” “-” • 组配方式:A-B,表示检索出含有A词而不含有B 词的文章。 • 作用:逻辑非用于排除不希望出现的检索词,它和“*”的作用相似,能够缩小命中文献范围,增强检索的准确性。
布尔逻辑检索举例 • 例如检索:“打印机驱动程序” • 查询关键词:打印机、驱动程序 • 检索表达式:打印机 AND 驱动程序 • 例如检索:“微型计算机”方面的有关信息 • 查询关键词:微型计算机、微机 • 检索表达式:微型计算机OR 微机
布尔逻辑运算符优先级 • 布尔运算符优先级比较 • 有括号时:括号内的先执行; • 无括号时:NOT > AND > OR • 例:检索“唐宋诗歌”的有关信息。 • 关键词:唐、宋、诗歌; • 检索表达式: • (唐 OR 宋)AND诗歌; • 唐 AND 诗歌 OR宋 AND 诗歌; • 错误表达式: • 唐 OR 宋AND诗歌; • 唐 AND 宋AND诗歌; • 唐 OR 宋OR诗歌; • 唐AND 宋OR诗歌;
请注意 • 在不同的数据库中,所使用的逻辑符号可能是不同的,有的用“and、or、not” 有的用“*、+、-”。 • 一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。 • 一些网络检索工具如搜索引擎甚至用“︺、,、-”(即空格、逗号、减号)来表示。
2 截词检索技术 • 主要应用于西文数字资源的检索 • 定义:是指在检索式中用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化。 • 作用:主要是提高查全率 • 截词符一般用“?”或“*”表示
截词位置 • 按截词位置可分为前截词、后截词、前后截词和中间截词; • 按截断字符数的不同,可分为有限截断和无限截断。
右截词,又称后截词、前方一致。允许检索词尾有若干变化。例如comput*将检索出computer 、computing、computerised、computerized、computerization等结果。 • 中间截词,又称前后方一致。允许检索词中间有若干变化。例如wom*n,检索到woman、women的结果。英美的不同拼法,defen*e可同时检出defence和defense的结果。
左截词,又称前截词、后方一致,允许检索词前有若干变化,例如*physics就可检索到physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。左截词,又称前截词、后方一致,允许检索词前有若干变化,例如*physics就可检索到physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。 • 前后截词:词干的前后各有一个截词符,允许检索词的前端和尾部各有若干变化形式。如?computer?可检索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等结果。
请 注 意 • 在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用“?”,有的用“*”,有的用“#”,用的用“$”等。 • 即便常用的“?”和“*”在不同的数据库中其用法也是不一定相同的。 • 在允许截词的检索工具中,一般是指右截词,部分支持中间截词,左截词比较少见。 • 我们将要使用的一些数据库,一般用“*”代表一个字符串,用“?”代表任意一个字符。
3 邻近检索技术 • 邻近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。 • 例如检索“生物防治”的文献,若用检索式“biological*control”检索,则会将“抑制生物”(control biological)的文献也查出来,这显然不是所需文献。 • 主要有相邻位置算符(W)、(nW)、(N),(nN),句子位置算符(S),字段算符(F)。
(W) 算符 • (W)是with(word)的缩写,表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号。 • 如biological (W) control相当于检索biological control • CD (W) ROM相当于检索CD ROM或CD-ROM。
(nW) 算符 • (nW)是n words的缩写,表示此算符两侧的检索词之间允许插入最多n个词,且词序不可变。 • 如wear (1W) material相当于检索wear materials、wear of materials等。
(N)算符 • (N)是near的缩写,表示此算符两侧的检索词必须紧密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号。 • information(N)retrieval • 可检出: information retrieval • retrieval information
(nN)算符 • (nN)表示两词间可插入最多n个词,词序可变。 • 如检索式environment (2N) protection 就可检索出包含“environment protection”、“environment of the protection ”、“environment of water protection”、“protection of forest environment”
(S)、(F)算符 (S)是sentence的缩写,表示两个检索词须同时出现在文献记录的同一子字段中,两词的词序不限,两词间插入词的数量不限。 (F)算符:在联机检索中还有对同字段进行检索的(F)算符。(F)表示此算符两侧的检索词必须同时出现在信息记录的同一个字段内,两词的词序不限,两词间插入词的数量不限。用此算符时须指定所要查找的字段,如题名字段、文摘字段、叙词字段等。例如digital (F) computer/TI表示在题名字段(TI)中同时出现这两个检索词的才算命中信息。
3 字段检索技术 • 字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进行查找。
数据库中的字段包括 • TI(题名)、AB(摘要)、DE(主题词)、ID(标识词)、SU(主题词)、KW(关键词) AU(著者)、BN(国际标准书号)、SN(国际标准刊号)、CC(分类类目)、CS(机构)、DT(文献类型)或PT(出版物类型)、JN(刊名)或JA(刊号)、LA(语种)、PY(出版年)、SO(来源出版物) • 注意:不同的数据库其字段代码可能不同。
举例 • 在EBSCO数据库检索中,某一用户需检索有关“数字图书馆与信息检索、参考咨询”方面的文献信息,检索要求:题名或文摘中包含数字图书馆digital library,数字图书馆要求考虑单复数,主题为信息检索information retrieval或参考咨询reference,请编制其检索策略(检索式)。 • (ti:digital librar* or ab:digital librar*) and su:(reference or information n2 retrieval)
信息需求分析 • 选择信息资源 • 选定检索词 • 构造检索表达式 • 确定检索途径 • 对检索策略进行调整 • 实施并输出检索结果
1 信息需求分析 • 分析信息检索目的,制定检索目标。 • 分析所需信息涉及的学科,确定检索的学科范围。 • 分析所需信息的类型、年代,确定检索的信息类型和年代范围。
2 选择信息资源(数据库的选择) • 数据库的类型 • 学科范围 • 时间范围
3 选定检索词 • 分析主题,找出课题所包含的显性概念和隐含概念。 • 找出核心概念,排除无关概念和重复概念。 • 从待检数据库和检索工具的词表中选取规范化的词或词组。 • 选用上位词、近义词或下位词作为检索词。
4 构造检索表达式 • 分析检索提问式是数字资源检索中用来表达用户检索提问的逻辑表达式。 • 找出在编制检索提问式时,准确、合理地运用位置逻辑算符、截词符、字段符等技术是编制检索式的基本要求。
5 确定检索途径 • 第一类是表示主题概念的检索词---主题词,包括标题词、单元词、叙词、关键词。 • 第二类是表示学科分类的检索词,如分类号。 • 第三类是表示作者的检索词,如作者姓名、机构名称等。 • 第四类是表示特殊意义的检索词,如专利号、国际标准书号、分子式等
举 例 • 一个研究生在做论文题:“数字图书馆中的元数据体系与互操作研究”,这是一个计算机科学、信息科学方面的课题,请你帮助他在维普数据库中找到最新的参考文献。
第三节:搜索引擎 Search Engine
目录 • 搜索引擎的概念和作用 • 搜索引擎的工作原理 • 搜索引擎的分类 • 搜索引擎的一般检索技术 • 搜索引擎利用技巧 • 主要搜索引擎
搜索引擎的概念和作用 • 搜索引擎是一个用来搜索世界各地Internet网络资源的WEB服务器。它像一本书的目录,Internet各个站点的网址就像是页码,可以通过关键词或主题分类的方式来查找感兴趣的信息所在的WEB页面。 • 搜索引擎提供的导航服务(搜索引擎就是网络的指南针)已经成为互联网上非常重要的网络服务,成为和电子邮件并列的最重要的互联网应用。
搜索引擎的工作原理 • (1)信息搜集 • (2)信息索引 • (3)信息查询 • (4)检索结果的相关性处理
(1)信息搜集 • 各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的“网页搜索软件”,在互联网中漫游,发现和搜集信息。 • 访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,要尽可能多、尽可能快地搜集各种类型的新信息。 • 因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接。
(2)信息索引 • 将“网页搜索软件”带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容。 • 有的搜索引擎把“网页搜索软件”发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词。
(3)信息查询 • 根据用户的查询需求在索引库中快速检出相关网页,并反馈检索结果。 • 一般包括分类目录及关键词两种信息查询方式。
(4)检索结果排序 • 概率法是根据关键词在文中出现的频率来判定的,出现的次数越多,认定其与查询的相关程度越高; • 位置法是根据关键词在文中出现的位置来判定,位置越靠前,文件的相关程度越高; • 分类或聚类方法是指搜索引擎采用分类或聚类技术,自动把查询结果归入到不同的类别中。
搜索引擎的分类 • (1)关键词搜索引擎 • (2)主题分类搜索引擎 • (3)综合搜索引擎
(1)关键词搜索引擎 • 界面提供输入框,用户通过输入框提交查询请求(关键词),搜索引擎将检索结果反馈给用户。 • 适用于查找目的明确,并具备一定检索知识的用户。
(2)主题分类搜索引擎 • 依据某种分类方式(如学科分类),建立主题树状层浏览体系;搜索程序搜索来的信息被标引后放入浏览体系的个大类或子类下面,呈现错落有致的上下位关系。 • 查准率高,但查全率低。
(3)综合搜索引擎 • 此类搜索引擎既可以搜索网站也可搜索全文,用户输入关键词后,可以选择是搜索网站还是网页,不同的选择返回不同的结果,国内的搜狐(Sohu)就是此类搜索引擎 • 查全率高,但查准率低。