1 / 83

第二章 信息检索基础

第二章 信息检索基础. 本章主要内容. 信息检索类型. 信息检索语言. 信息检索方法、途径与步骤. 网络信息检索技术. 信息检索的类型. 书目信息检索. 全文信息检索. 获取的全文. 数据信息检索. 事实数据检索. 本章主要内容. 信息检索类型. 信息检索语言. 信息检索方法、途径与步骤. 网络信息检索技术. 信息检索语言. 分类语言. 主题语言. 分类语言. 分类语言是按照一定体系由上至下,从总体到局部,由一般到具体,从低级到高级,从简单到复杂 的逻辑次序逐级展开 。. 分类语言可以分为以下三类. 主题分类语言. 学科分类语言.

Download Presentation

第二章 信息检索基础

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第二章 信息检索基础

  2. 本章主要内容 信息检索类型 信息检索语言 信息检索方法、途径与步骤 网络信息检索技术

  3. 信息检索的类型

  4. 书目信息检索

  5. 全文信息检索

  6. 获取的全文

  7. 数据信息检索

  8. 事实数据检索

  9. 本章主要内容 信息检索类型 信息检索语言 信息检索方法、途径与步骤 网络信息检索技术

  10. 信息检索语言 分类语言 主题语言

  11. 分类语言 分类语言是按照一定体系由上至下,从总体到局部,由一般到具体,从低级到高级,从简单到复杂 的逻辑次序逐级展开。

  12. 分类语言可以分为以下三类 主题分类语言 学科分类语言 图书分类语言

  13. 主题分类语言 其特征是一个主题充当一个类目,类目象主题词表一样按字顺排列,而不是按逻辑顺序排列。 优点:以事物分类,能将相关的内容全部集中在一起。对交叉学科的主题揭示非常有利。

  14. 学科分类语言 学科分类语言是以知识分类为基本,按照学科性质及从属、层次关系来组织资 源,类目排序以字顺为标准。 优势:类目容量大,内容针对性、学术性更强,符合族性检索的要求。

  15. 图书分类语言 目前采用的主要有杜威十进分类法《DDC》、国际十进分类法《UDC》、美国国会图书馆分类法《LCC》和中国图书馆图书分类法《中图法》

  16. 中国图书馆图书分类法(一级类目) 基本大类: (22个) A 马列主义毛泽东思想 N 自然科学总论 邓小平理论 B 哲学 O 数理化科学 C 社会科学总论 P 天文学、地理 D 政治、法律 Q 生物科学 E 军事 R 医学、卫生 F 经济 S 农业科学 G 文化、科学、教育、体育 T 工业技术 H 语言、文字 U 交通运输 I 文学 V 航空、航天 J 艺术 X 环境科学 K 历史、地理 Z 综合性图书 • 基本部类: • 1、马克思主义、列宁主义、毛泽东思想、邓小平理论 • 2、哲学 • 3、社会科学 • 4、自然科学 • 5、综合性图书

  17. 中国图书馆图书分类法(经济类) • F 经济 F1 世界各国经济概况、经济史、经济地理 F11 世界经济、国际经济关系 F12 中国经济 F13/17 各国经济 F2 经济计划与管理 F20 国民经济管理 F21 经济计划 F22 经济计算、经济数学方法 F23 会计 F239 审计 F24 劳动经济 F25 物资经济 

  18. F27 企业经济 F29 城市与市政经济 F3 农业经济 F4 工业经济  F7 贸易经济 F72 中国国内贸易经济 F73 世界各国国内贸易经济 F74 国际贸易 F75 各国对外贸易 F8 财政、金融 F81 财政、国家财政 F82 货币 F83 金融、银行 F84 保险 

  19. 中国图书馆图书分类法(二级类目) • T 工业技术 • TB 一般工业技术 TL 原子能技术 • TD 矿业工程 TM 电工技术 • TE 石油、天然气工业 TN 无线电电子学、电讯技术 • TF 冶金工业 TP 自动化技术、计算机 • TG 金属学、金属工艺 TQ 化学工业 • TH 机械、仪表 TS 轻工业、手工业 • TJ 武器工业 TU 建筑科学 • TK 动力工程 TV 水利工程

  20. 分类号的排列次序 • 图书馆的藏书都是按分类号排架的。分类号的排列采用由左至右逐位对比的方法进行排列,先比较字母部分,再比较数字部分。

  21. ——字母部分按英文字母固有的次序排列 例: B2中国哲学 B3世界哲学 E27各种武装力量 E512苏联军事 TM92电气化、电能应用 TU201建筑设计原理

  22. ——分类号中的阿拉伯数字依小数制排列 例: B021辩证唯物主义的物质论 B022辩证唯物主义的意识论 B022.2客观规律性与主观能动性 D035.37交通公安管理 D035.4监察、监督

  23. 分类号的排列次序(续) ——数字之后如还有字母,则在前部类号相同的基础上,再按字母顺序排列。例: TP312AL ALGOL程序语言 TP312BA BASIC程序语言 TP312CO COBOL程序语言 ——总论复分号“-”要排在数字“0”的前面。例: H-61,H0,…, H31-61,H310, … ——总论复分号“-”要排在组配符号“:” 的前面。例: H31,H31-62,H31:F,H31:I,…,H319, H319.4,H319.4-44, H319.4:B,H319.4:C,…

  24. 分类号和索书号 • 读者实际利用图书馆时,往往需要知道书刊的分类号和索书号(又称索取号)。 • 索书号是图书馆赋予每一种馆藏图书的号码,是读者查找图书非常必要的代码信息。它的第一部分是分类号,第二部分是书次号。索书号的两部分之间有一个空格或一条斜线“/”。书次号或者是按照图书作者姓名所编排的著者号码,或者是按照图书进入馆藏时间的先后所取用的顺序号码。 ——不同的索书号确定排列先后顺序的步骤是,先比较分类号码;如分类号码相同再比较著者号码或顺序号码。分类号比较:先英文字母排,后阿拉伯数字按小数制排。分类号中“-”排在0之前,例如:先排F-43再排F0。分类号的数字排列比较采用对位比较法,字符序列以ASCII字符集为依据。比如:B11、B111、B112、B12,书次号的数字排列比较采用自然顺序排列方法,即1,2,3,...,9,10,11,...,99,100,101,…。

  25. 问题:重新排列以下索取号的顺序 TP3/1044 TP3-43/3060 TP311. 2/1713 TP311.13/9091 TP393/4027 TP393/7732 TP393-43/4723

  26. 答案 TP3-43/3060 TP3/1044 TP311.13/9091 TP311.2/1713 TP393-43/4723 TP393/4027 TP393/7732

  27. 信息检索语言 分类语言 主题语言

  28. 关键词语言 纯自然语言 主题语言 标题词语言 单元词语言

  29. 本章主要内容 信息检索类型 信息检索语言 信息检索方法、途径与步骤 网络信息检索技术

  30. 常规法 引文法 一、信息检索方法 交替法

  31. 引文法

  32. 通过引文找到的信息

  33. 反映内容特征的检索途径 (内部途径)

  34. 分类检索 这种检索是根据信息内容的学科分类来进行的。最大的优点能保证信息的系统性,而且具有较好的族性检索功能。 分类检索的要点:1、对待检课题的概念及学科间的各种关系清楚;2、正确掌握相关课题的分类名称、分类号,手工检索中掌握工具的分类排检。

  35. 主题和关键词途径

  36. 反映信息外部特征的检索途径(外部特征)

  37. 责任者途径 :①姓前名后,名缩写; ②姓名中的“De”、“Von”、“Della”等前缀,与姓一起按字顺排,如De Leferore, Alfred Von Kampf; ③团体机构名称名按名称字顺排。 • 代码途径:号码包括编号(number)、代码(code)等,特定的号码如:技术标准的标准号,专利说明书的专利号,科技报告的报告号,学会的会议论文连续号,或合同号、任务号、国际标准书号(ISBN)、国际标准刊号(ISSN),以及文献收藏单位编的馆藏号、索取号、排架号等,都可以此作为检索点。

  38. 题名检索:包括书名、刊名、篇名和其他信息的标题等题名检索:包括书名、刊名、篇名和其他信息的标题等 机构途径 来源途径 其他特殊途径

  39. 三、信息检索的基本步骤 确定检索词 1.切分 2.删除 3.替补 4.组合 5.增加 分析检索课题 1.主题概念 2.信息类型 3.时间范围 4.检索目的 选择检索系统 1.学科范围 2.系统类型 3.系统功能 用户评价 构造检索式 (试验性检索) 1.简单提问式 2.上下文提问式 3.复合提问式 4.结构性提问式 调整检索策略(正式检索) 1,信息量过多时 2.信息量太少时 输出检索结果 1.文摘 2.全文

  40. 分类检索的步骤: 1. 分析待检课题,确定其学科,并弄 清学科间的 各种关系。 2. 查出待检课题的分类号(工具简单时可以省略) 3. 选择适当的检索工具 4. 进入检索系统后选择分类号途径,并在对话框内 输入分类号,开始检索。 5. 对比题目,阅览相关信息,选出所需信息,并下 载相关信息 6. 原文的索取

  41. 词语检索的步骤: 1、 分析课题,确定检索词及词间关系 2、选择适当的检索工具 3、在对话框内输入检索词 4、 根据快捷显示,选出有用信息并下载。 5、 原文的索取

  42. 1 分析检索课题 例如:查找有关消防的文献。 • 所有的“消防”文献?还是只需有关“消防事业”、“消防队伍”、“消防设施”、“消防材料”、“消防器材”、“消防方案”等中某一方面的文献?(主题分析和检索目的) • 需要一般的文献资料?还是比较专深的文献?需要科技论文?还是专利、标准、数据等?(信息类型) • 需要新颖的信息?或者是与别人的研究进行先进性比较?还是系统的学科知识?(时间范围) ——需要系统地掌握某学科的知识,可以选择图书; ——需要撰写研究项目的开题报告、论文,开展技术攻关,可以选择研究报告、科技论文、学位论文、会议文献等; ——需要进行发明创造、工艺改革、新产品设计、引进设备、签订合同,可以选择专利说明书、标准文献、产品资料等。

  43. 2 选择检索系统 • 学科范围。对于交叉学科、新兴学科、应用研究、综合研究,不应局限于某一学科范围,可根据情况适当扩大检索系统的学科范围。 • 系统类型。首先,在不同的文献类型系统中选择。其次,要在文摘、索引系统和全文数据库系统之间选择。第三,在专业性数据库中去查找。 • 系统功能。一般说来,使用分类语言、主题语言的检索系统,要优于使用自然语言的检索系统,专业检索系统要优于搜索引擎。检索途径、检索方式(如分类浏览、简单检索、高级检索、专家检索、自然语言检索)多,收录时间跨度长,来源语种、国别多,文本(数据)质量高,附加个性化服务,检索系统就更值得选择。

  44. 搜索引擎 数据库

  45. 确定检索策略 • 确定检索途径 检索入口 检索途径的选择 检索途径 • 构造检索式

  46. 确定检索词技巧 • 1.切分 • 切分是对课题的语句以自由词为单位进行拆分,转换为检索的最小单元。自由词切分仅适用于自然语言检索。 • 例:检索“妇女吸烟与肺癌的关系研究”相关文献。 • 直接切分:妇女|吸烟|与|肺癌|的|关系|研究) • 注意,当词切分后将失去原来的意思时,不应再切分,即必须注意保持意义的完整。如“中国科学院”、“电子邮件”不可再切分。

  47. 确定检索词技巧 • 2.删除 • 删除是对自然语言中不具有实质性检索意义的虚词(如介词、连词、副词等),或者使用频率较低的词,或者专指性太高、过分宽泛的词,或者过分具体的限定词、禁用词,或者不能表达课题实质的高频词,或者存在蕴含关系可以合并的词,一律予以删除,使自然语言转换成为关键词和主题词的集合。如上例中的“与”、“的”、“关系”、“研究” 。 • 例:检索“中国非常规天然气工业的发展前景研究”方面的相关文献。进行拆分以后,工业、发展、前景、研究这四个自由词具有一定的检索意义,但是由于或者是意义过于宽泛、或者是不能表达课题实质、或者是存在蕴含关系的原因,没有必要全部作为检索词,根据需要可以保留1-2个作为检索词。

  48. 确定检索词技巧 • 3.替补 • 替补就是在进行切分、删除后,对检索词进行替换和补充。 • “公交”应替换为:公共交通; • “非典”应考虑补充:SARS、非典型肺炎、传染性非典型肺炎、严重急性呼吸综合征(severe acute respiratory syndrome)。

More Related