490 likes | 611 Views
第四章 计算机信息检索. 计算机信息检索系统 数据库的类型及结构 计算机信息检索的原理. 第一节、计算机信息检索系统. 计算机信息 检索系统的构成 计算机信息检索系统的类型. (一)计算机信息 检索系统 的构成. 1 、概念 计算机信息检索 (简称机检),指检索人员在电子计算机或计算机网络的终端上,对用户的检索提问使用 特定的检索指令和组配关系 ,由计算机从数据库中检索出所需的文献、事实、数据或其他记录,用电子化的手段传输,显示或打印检索结果,提供给用户使用的过程 .
E N D
第四章 计算机信息检索 • 计算机信息检索系统 • 数据库的类型及结构 • 计算机信息检索的原理
第一节、计算机信息检索系统 计算机信息检索系统的构成 计算机信息检索系统的类型
(一)计算机信息检索系统的构成 1、概念 计算机信息检索(简称机检),指检索人员在电子计算机或计算机网络的终端上,对用户的检索提问使用特定的检索指令和组配关系,由计算机从数据库中检索出所需的文献、事实、数据或其他记录,用电子化的手段传输,显示或打印检索结果,提供给用户使用的过程. 计算机信息检索系统——利用计算机的有效存贮和快速查找能力来进行信息的分析、组织、存贮和查找的系统。
2、构成 按物理构成分:硬件、软件、数据库 (1)硬件系统: 主机:计算机的核心部件。 外围设备: 外部存贮器:磁带、磁盘、光盘等 输入输出设备:数据录入设备、键盘、鼠标器、光学字符识别装置、光笔、缩微扫描器、扫描仪、显示终端等。 其他:运算器、控制器。
(2)软件系统 软件是用来管理、控制与规定计算机运行步骤的各种程序的总称。包括系统软件和应用软件。 系统软件:主要用于简化设计及使用方法,管理计算机资源,提高其使用效率,发挥和扩大其功能及用途。包括各种系统服务程序、语言处理程序、操作及数据库管理系统。如WINDOWS。 应用软件(检索软件),是用户利用计算机来解决某一问题而编制的程序,包括数据库管理系统、自动标引、输入输出控制软件及检索匹配程序等.如文件管理程序、检索程序、记帐统计程序等。
(3)数据库 其含义有多种表达: 国际标准组织标准ISO/DIS5127规定,数据库是指至少由一种文档(file)组成,能满足特定目的或特定功能数据处理系统需要的数据集合. 数据库是“按照数据结构来组织、存储和管理数据的仓库”。 数据库(DataBase,DB)是一个长期存储在计算机内的、有组织的、有共享的、统一管理的数据集合。它是一个按数据结构来存储和管理数据的计算机软件系统 。 数据库是依照某种数据模型组织起来并存放二级存储器中的数据集合
(二)计算机检索系统的功能 1.信息处理、存贮与检索的功能: 包括对信息的自动搜集、排序、生成关联数据库,并按一定方式进行检索。 2.输出功能:将检出文献按一定的格式(目录、题录、文摘或全文等)输出。 3.自我完善与更新的功能:即可维护功能 4.网上检索功能:
文献信息检索系统 事实信息检索系统 数值信息检索系统 图像信息检索系统 多媒体信息检索系统 检索系统存储的内容 计算机信息检索系统的类型 脱机信息检索系统(20世纪50~60年代) 联机信息检索系统(20世纪70年代~ 光盘信息检索系统(20世纪80年代~ 网络信息检索系统(20世纪90年代~ 检索访问模式 三、计算机信息检索系统的类型
1.脱机检索 是采用单机进行存储和处理信息,回答检索提问时,采用批处理方式。这种机检方式,人机不能进行应答,必须由专职人员建立用户提问档,系统定期进行检索。 时间:20世纪50年代-60年代 检索人员→检索策略→成批检索→用户 不足:地理上的障碍;时间上的迟滞;封闭式的检索
2.联机检索(Online search) 联机检索是指利用检索终端,通过通信网络和检索系统联机,从检索系统的数据库中进行检索 时间:20世纪70年代- 用户→检索策略→“人机对话”→获取所需信息 著名的国际联机检索系统有美国的DIALOG系统、ORBIT系统、BRS系统以及IBM公司的“文献处理系统”等.
3.光盘检索(CD-ROM search) 时间:20世纪80年代以后 光盘检索阶段: 单机光盘检索 →联机光盘检索(光盘库,2-6个光驱,多达500张光盘→光盘塔,8-64个光驱)
4.网络信息检索 • 网络信息检索一般指因特网检索,通过网络接口软件,用户可以在任一终端查询各地上网的信息资源。 • 时间:20世纪90年代以来 • 广域网(WAN):连接地理范围较大,常常是一个国家或是一个洲。通信系统是广域网的关键。 • 局域网(LAN):一般是由一个部门或一个单位组建,范围限于一幢楼或一个单位内。如:校园网。 • 城域网(MAN):介于两者之间。 • 网间网(Internetwork):是一系列局域网和广域网的组合,Internet便是一个当前最大也最为典型的网间网。
第二节、 数据库的类型及结构 数据库的类型 数据库的结构
(一)数据库的类型 按存储文献类型分为: 1.全文数据库: 存贮一次文献全文或其中主要部分等。 2.书目数据库: 存贮文摘、索引、目录、题录等二次文献,提供文献线索,一般都有相应的印刷型检索工具。
书目型 全文型
(一)数据库的类型(续) 3.事实数据库 指包含大量数据、事实的数据库,如指南数据库、术语数据库等,相当于印刷型文献中的字典、辞典、百科全书、组织机构指南、人名录、图册(集)等。 4.数值数据库 提供数值信息,如统计数据库 5.图像数据库 提供图像信息。 6.多媒体数据库 提供文字、图像和声音等多种信息。
(二)数据库的结构 数据库 database 文档 file, archive 顺排文档 记录Record 字段Field 倒排文档(索引index)
1、记录(record) 记录:构成数据库的基本单元,也是文档的构成单位,是对某一实体的属性进行描述的结果。在书目数据库中,被描述的实体是某一特定文献,其属性就是该文献的外表特征和内容特征。即一条文献信息(款目)。
2、字段(field) 是组成记录的下级单位(条目中的一个信息项),用来描述实体的某一具体属性。如表述文献内容特征的有文摘、叙词、自由词字段,表述文献外表特征的有著者、篇名、出版年、专利号等等字段, 子字段(subfield),是字段的构成单位。
3、文档(file) • 文档:是由若干数量的记录所构成的一类数据的集合。 • 一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。
顺排文档 122 Student Teaching in the Context of a School-University 123 Cooperative Learning in Response to an 是将记录中的信息按某一字段(一般为存取号)的顺序存放起来形成的文档,通常按记录存入的先后顺序线性排列,所以也称为线性文档,或主文档. 124 In Search of Responsive Teaching for 125 Teaching Topography: Introducing Students to Contour Map Construction. Fife, Barbara S. Science Teacher, v62 n5 p38-43 May 1995 ISSN: 0036-8555 Available From: UMI
倒排文档 • 数据库的“索引”即是它的倒排文档,它是将记录中一切可检索的标识抽出,按某种顺序(如字顺,分类)重新排列而形成的文档。如主题、著者、文种等倒排文档。
第三节、计算机信息检索的原理 信息存贮 信息检索
一、信息存贮 信息的存贮实际上是生成数据库:文献数据库的形成,先产生线性主文档,然后依一定的规则,由线性文档构造倒排文档。这个过程要对禁用词和词标引作一些处理。 禁用词:是指那些频率较高而对标引和检索没有价值的词,如一些介词,连词,冠词及一些泛指意义的词等。
♣ ♥ ♠ﻚﺦﷲ 二、信息检索 布尔逻辑检索 截词检索 字段限定检索 全文检索
1、布尔逻辑检索 它是不同的单一主题概念,通过“布尔”逻辑算符组配形成多主题概念的检索式。常用的布尔逻辑算符有4种:逻辑与(AND、*)、逻辑或(OR、+)、逻辑非(NOT、-)、异或(XOR,不常用)。 如solar和energy,它们的三种逻辑组配关系分别为:
逻辑与(and、*、空格等) • solar and energy • solar * energy
逻辑或(or、+、|) solar or energy solar + energy
逻辑非(not、-、^、!) solar not energy solar - energy
例如: • 1、“城市绿化” • 检索式:城市绿化+(城市+北京+天津+上海+…)*(园林绿化+绿化建设+…) • 2、“禾谷类作物病害防治,不是白粉病” • (禾谷类作物+小麦+水稻+玉米+…)* 病害 -(白粉病) • 3、土壤环境条件对豆科植物固氮作用的影响 • 关键词:土壤环境条件(温度、湿度,ph值) 豆科植物(大豆、花生等) 固氮作用(固氮菌、根瘤菌) • 检索式:(土壤环境条件+温度+湿度+ph值)*(豆科植物+大豆+花生+…)*(固氮作用+固氮菌+根瘤菌)
2、截词(truncation)检索 截词——指检索者将检索词在他认为合适的地方截断。 截词检索(也称模糊检索或词干检索),是用截断的词的一个局部进行的检索,并认为凡是满足这个词局部中的所有字符(串)的文献,都为命中文献。 截词符号一般为“?”,也常用“$”,“*”。加在检索词的词干或不完整的词形后或中间,可以减少词的输入量。其基本含义是布尔逻辑OR的组配 截词方式: 根据截词的位置不同分为:前截断、后截断、中截断; 根据截断的数量不同分为:有限截断和无限截断。
A.无限截词*(或叫非限定性截词?) 后方截词:在一个词干后加一个“*”,表示可检出在该词后加任意个字符或不加字符的记录,如computer*,可检出computer,computers,computerisation等词。 前方截词:如 *computer,可检出computer,minicomputer,microcomputer等 前后截词又称无限中截词,它是满足中间一致的检索。用截词符“*、?”加在词干的前后,表示检索词与被检索词之间只需中间匹配即可,如“*relation*”,可检索出“relation”,“relations”,“interrelation”等等。
B、有限截词(controlled Length truncation)(又叫限定性截词 ) • 有限后截词: • smok???,其后最多有三个字符变化 • 可检出:smoke, smoky, smoker, smokers,smokes, smoking等 • Smok??,最多有两个字符变化,可检出: smoker, smokes等. • smok? ?,最多有一个字符变化 • 可检出:smoke, smoky等
有限中截词(中间屏词) 如: wom?n 可检出: women woman 如: fib??board 可检出: fiberboard fibreboard
3、字段限定检索 • 将检索词限定在某一字段中,检索时,计算机只对限定字段进行运算。 • A.主题字段:是内容特征的字段(有Title,Keywords,Subject,Summary等) • B、非主题字段:是外部特征字段,如作者、文献类型、语种、出版年份等字段. 常用的检索符号有: in、=、<、>、≤、≥ 例1:English in la 例2: py≥1992 例3:查“玉米方面的英文”文献 检索式=(maize or zea-mays or corn)in de and(English in la)
4、全文检索 又叫位置检索position operators)、或邻接检索(proximity)限定两个关键词在文本中的距离, (1)记录级检索 C(cition)——两词必须同时出现在同一文献记录中,不限定词序和字段.如 Solar (C) energy
(2)字段级检索 • F(field)——两词必须同时出现在文献记录的同一个字段中,词序和词间插入词数不限,但需指明要查找的字段,如pollution (F) control/AB • 文摘中含有如:control and management of industrial pollution,等等均为命中文献。
(3)子字段级检索 S(Subfield)——表示两词必须同时出现在同一个子字段中,即同一句子或短语中,词序和中间插入词数不限 。 Same(Sent)——两个词在同一个段落中。
(4)词位置检索 W(with)或 Pre——检索算符两侧的词必须相邻且词序不能颠倒。 如:(w)及(nW)——与(with) flue(w)cure tobacco 可检出: flue-cure tobacco fluecure tobacco building(1W)construction 可检出: building and construction building under construction等
N(near)——检索算符两侧的词必须相邻但词序可以变。N(near)——检索算符两侧的词必须相邻但词序可以变。 如:(N)及(nN)——邻近(near) 如:information(1N)retrieval 可检出:information retrieval,retrieval of information等 L(link)——检索算符两侧的词必须在数据库界定的统一规范字段内。且有一定的从属关系,可以用来链接主标题词和副标题词 X两边的检索词完全一致,并以指定的顺序相邻.
注意: 不是每一个检索系统都使用上述位置算符,不同的系统使用的位置算符不同,不同的算符在不同的系统中有时可能含义不同。例如“W”算符,在Dialog检索系统表示两词相邻,输入顺序不变;在ProQuest系统中,“W”算符表示输入的两个词相邻,但顺序可变,如顺序要求不变,则使用“Pre”算符。用户可以查阅help帮助文档说明。
检索式 命中记录solar 1796 • energy 21526 • solar + energy 22548 • solar * energy 774 • solar (F) energy 722 • solar (S) energy 522 • solar (2w) energy 444 • solar (1w) energy 439 • solar (w) energy 434
三、检索技巧 检索技巧主要是对逻辑运算符、词间位置算符、检索主题概念的提取方法等的综合应用,其目的是保证查全率和查准率. (一)扩大检索结果的检索技巧 1、同义词技术: (1)元素和元素符号,例:“AI”和“Aluminium” (2)缩写和全称,例:“计算机辅助设计”和“CAD”和“Computer Aided Design” (3)相关词,例:“Database”,其相关词有“Expert System”、“software”等。
2、截断技术 3、布尔逻辑或“OR” (二)缩小检索结果的检索技术 1、布尔逻辑与“AND” 2、布尔逻辑非“NOT” 3、字段限定检索
小结 • 1、数据库的类型及结构 • 2、几种主要的计算机信息检索技术 • 3、扩大或缩小检索范围的方法