1 / 68

信息检索

信息检索. 杨艳红 984457330@qq.com. 检索. 检索:即检查索取 。 检索词:就是你在检索的时候 在检索栏内输入的内容 。 信息检索 ( Information Retrieval) :

roy
Download Presentation

信息检索

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 信息检索 杨艳红984457330@qq.com

  2. 检索 • 检索:即检查索取 。 • 检索词:就是你在检索的时候在检索栏内输入的内容 。 • 信息检索( Information Retrieval): 该词出现于20世纪50年代 ,又称信息存贮与检索、情报检索,是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息的过程和技术。也就是说,包括“存”和“取”两个环节和内容。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查询(Information Search 或Information Seek)。

  3. 检索 • 信息检索是一个渐进的过程,期望一个检索语句的一次检索就能得到十分确切的结果是不现实的。 • 分析检索需求---确定检索范围和检索工具---确定检索途径---拟定并执行具体的检索步骤——分析评价检索效果和检索操作---提高检索效果的方法,最终得到确切结果。所谓“确切”的结果,其实是由检索要求/检索效果决定的。 • 检索效果即检索的有效性,通常用查全率和查准率来衡量。 • 查全率:检索出的相关文献的能力,即文献库中实有的相关文献量在多大程度上被检索出来; • 查准率:拒绝不相关文献的能力,即文献库中实际检出的全部文献中有多少是相关的。

  4. 查全率、查准率 • 计算方法  假定:从一个大规模数据集合中检索文档的时,可把文档分成四组: - 系统检索到的相关文档(A) - 系统检索到的不相关文档(B) - 相关但是系统没有检索到的文档(C) - 不相关但是末被系统检索到的文档(D)  则: - 查全率R:用检索到相关文档数作为分子,所有相关文档总数作为分母 即R = A / ( A + C ) - 查准率P:用检索到相关文档数作为分子,所有检索到的文档总数作为分母. 即P = A / ( A + B ). • 举例来说:  一个数据库有500个文档,其中有50个文档符合定义的问题。系统检索到75个文档,但是只有45个符合定义的问题。 查全率R=45/50=90% 查准率P=45/75=60% 本例中,系统检索是比较有效的,查全率为90%。但是结果有近一半的检索结果是不相关。研究表明:在不牺牲查准率的情况下,获得一个高查全率是很困难的 。 若C=0,则R=100% 若B=0,则P=100%

  5. 网 络 检 索——查全率、查准率 查全率 相对最高 • 检索词/关键词:南平 搜索引擎:soso 检索结果:2,360,000条(截止2010-4-28上午11:20 ) • 检索词/关键词:南平惨案 搜索引擎:soso 检索结果:148,000条(截止2010-4-28上午11:22 ) 查准率 相对高 “查全率”与“查准率”虽然没有必然的关系,然而在大规模数据集合中,这两个指标却是相互制约的。 对于一个检索系统来讲,查全率和查准率不可能两全其美:查全率高时,查准率低,查准率高时,查全率低。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以查全率很难计算。目前的搜索引擎系统都非常关心查准率。   凡是设计到大规模数据集合的检索和选取,都涉及到“查全率”和“查准率”这两个指标。而由于两个指标相互制约,我们通常也会根据需要为“检索策略”选择一个合适的度,不能太严格也不能太松,寻求在查全率和准确率中间的一个平衡点。这个平衡点由具体需求决定。

  6. 网 络 检 索——扩检、缩检 • 在检索实践中,我们以扩检和缩检的方法来调整查全率与查准率。扩检获得较高的查全率,缩检获得较高的查准率。 扩检与缩检是网络搜索中为满足查全率和查准率要求而经常使用的两种检索策略/方法。 • 扩检是指初始设定的检索范围太小,命中文献不多,需要扩大检索范围的方法。即查全率太低,需要增加查全率的一个方法。 方法主要可以有以下几种: ①概念扩大; ②范围扩大; ③增加同义词; ④年代扩大等。 • 缩检是指初始设定的检索范围太大,命中文献太多,需要缩小检索范围的方法。即查准率太低,需要增加查准率的一个方法。 方法与扩检相反,即:概念缩小、范围限定、年代减少等。 此外,还可以通过以下方法进行限定: ①核心概念的限定; ②语种的限定; ③特定期刊的限定等。

  7. 网 络 检 索——扩检、缩检 • 在检索实践中,我们以扩检和缩检的方法来调整查全率与查准率。扩检获得较高的查全率,缩检获得较高的查准率。 扩检与缩检是网络搜索中为满足查全率和查准率要求而经常使用的两种检索策略/方法。 • 扩检是指初始设定的检索范围太小,命中文献不多,需要扩大检索范围的方法。即查全率太低,需要增加查全率的一个方法。 方法主要可以有以下几种: ①概念扩大; ②范围扩大; ③增加同义词; ④年代扩大等。 • 缩检是指初始设定的检索范围太大,命中文献太多,需要缩小检索范围的方法。即查准率太低,需要增加查准率的一个方法。 方法与扩检相反,即:概念缩小、范围限定、年代减少等。 此外,还可以通过以下方法进行限定: ①核心概念的限定; ②语种的限定; ③特定期刊的限定等。

  8. 网 络 检 索——缩检/查准率 (核心概念限定) 查全率 相对最高 • 检索词/关键词:南平 搜索引擎:soso 检索结果:2,360,000条(截止2010-4-28上午11:20 ) • 检索词/关键词:南平惨案 搜索引擎:soso 检索结果:148,000条(截止2010-4-28上午11:22 ) • 检索词/关键词:南平惨案 社会 搜索引擎:soso 检索结果:87,800条(截止2010-4-28上午11:24) • 检索词/关键词:南平惨案 社会安全 搜索引擎:soso 检索结果:42,000条(截止2010-4-28上午11:46) • 检索词/关键词:南平惨案 心理干预 搜索引擎:soso 检索结果:6,210条(截止2010-4-28上午11:24) 查准率 相对高 查准率 相对较高 查准率 相对更高 查准率 相对更高

  9. 网 络 检 索——缩检/查准率 (核心概念限定) • 缩检过程中选择关键词注意事项: • 选择具体的关键词:应当避免拿含义宽泛的一般性词语作为关键词。 比如:南平——南平惨案 南平凶杀案——南平惨案 • 使用多个关键词组合/组配:当您发现搜索结果中存在很多无关信息的时候,您可以尝试增加关键词来过滤掉无关的结果。 比如:南平惨案——南平惨案 心理干预 南平惨案——南平惨案 评论 • 避免使用无意义的实词和虚词:比如去掉关键词中的疑问词、连词、叹词、助词、语气词等无意义的虚词,有助于提高检索质量。 比如:南平的惨案——南平惨案 南平发生了惨案——南平惨案 福建南平实验小学发生的凶杀案——南平惨案

  10. 网 络 检 索——搜索引擎比较 (核心概念限定)

  11. 网 络 检 索——查全率、查准率 • 影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。 •   由于“检索策略”并不完美,希望更多相关的文档被检索到时,放宽“检索策略”时,往往也会伴随出现一些不相关的结果,从而使查准率受到影响。 •   而希望去除检索结果中的不相关文档时,务必要将“检索策略”定的更加严格,这样也会使有一些相关的文档不再能被检索到,从而使查全率受到影响。 提高查全率,扩检 提高查准率,缩检

  12. 检索语言 • 检索语言,是根据信息检索的需要创造出来的一种人工语言,是在文献检索领域中用来描述文献特征和表达信息检索提问的一种专用语言。检索语言是一种受控语言,它依据一定的规则对自然语言进行规范,将其编制成表,供信息标引以及检索时使用。

  13. 检索语言 自然语言 非受控语言 关键词语言 主题语言 标题词语言 受控语言 描 述 内 容 特 征 语 言 单元词语言 叙词语言 人工语言 中图法 检 索 语 言 类 型 体系分类法 DDC UDC等 分类语言 组配分类法 冒号分类法 代码语言 分子式索引、结构式索引等 描 述 外 表 特 征 语 言 题名 书名、刊名、专利名称等 责任者 编著者、申请人、发明人等 编号 存取号、报告号、专利号等 机构名称 出版社、责任者所在机构等 其他

  14. 检索语言 自然语言 非受控语言 关键词语言 主题语言 标题词语言 描 述 内 容 特 征 语 言 受控语言 单元词语言 叙词语言 人工语言 检 索 语 言 类 型 分类语言 中图法 描 述 外 表 特 征 语 言 题名 书名、刊名、专利名称等 责任者 编著者、申请人、发明人等 编号 存取号、报告号、专利号等 机构名称 出版社、责任者所在机构等 其他

  15. 信息检索途径 • 检索系统主要从文献外部特征和内部特征来揭示文献。 • 文献外部特征:与文献信息外表(外在的物理载体)关系密切的信息。包括:题名、责任者、机构、代码等。 • 文献内部特征:文献所载的知识信息中隐含的、潜在的、与文献信息主题内容密切相关的信息。包括:主题词、分类、摘要和全文等。 • 我们通过文献的外部特征和内部特征进行检索,这些内部特征和外部特征构成检索途径。

  16. 信息检索途径 分类途径是指按照文献资料所属学科(专业)类别进行检索的途径 信 息 内 部 特 征 分类途径 主题途径 其他途径 主题途径是指通过文献资料的内容主题进行检索的途径 检 索 途 径 其他途径包括从文摘、全文、字段、句子、参考文献等进行检索的途径 题名途径 著者途径 机构途径 代码/序号途径 信息源类型途径 其他途径 机构途径是指通过著者单位、图书出版发行单位、期刊编辑单位等进行检索的途径 信 息 外 部 特 征 代码/序号途径是指通过文献资料的ISBN、ISSN、索书号、报告号、专利号等等进行检索的途径 信息源类型途径是指通过文献资料所属类型如图书、期刊、报纸会议文献、学位论文、专利文献、标准文献等进行检索的途径

  17. 信息检索技术——布尔逻辑检索 • 布尔逻辑检索: 是最基本的检索技术,在检索词之间使用:逻辑或、逻辑与、逻辑非,来规定检索词之间的逻辑关系,以便对复杂的课题进行高效的检索。

  18. 1、布尔逻辑检索——逻辑或 • 逻辑或(运算符号:or 、+) 它连接的两个检索词只要其中任何一个出现在结果中就满足检索条件,检索式可写成:A or B,A+B。 例:信息 or 计算机,就要求检索结果有“信息”或有“计算机”或同时包括 “信息”和“计算机”。 逻辑或的基本作用是扩大检索范围,增加命中文献量,提高检索结果的查全率。

  19. 2、 布尔逻辑检索——逻辑与 • 逻辑与(运算符号:and 、*、&) 它连接的两个检索词必须同时出现才能满足检索条件,检索式可写成:A and B,A*B,A&B。 例:信息 and 计算机,就要求检索结果必须同时包括“信息”和“计算机”。 逻辑与的基本作用是缩小检索结果范围,减少命中文献量,提高检索结果的查准率。

  20. 3、布尔逻辑检索——逻辑非 • 逻辑非(运算符号:not 、—) 它连接的两个检索词应该包含第一个检索词而不包含第二个检索词才能满足检索条件,检索式可写成:A not B,A—B。 例:信息 not 计算机,就要求检索结果中包括“信息”但不包含“计算机”。 逻辑非的基本作用是缩小检索结果范围,减少命中文献量,提高检索结果的查准率。

  21. 三种检索工具 • 1、OPAC检索系统 • 2、电子全文数据库 • 3、网络搜索引擎

  22. 1、OPAC 检 索 • OPAC: 全称Online Public Access Catalogue, 在图书馆学上被称作“联机公共目录查询系统”。 查找方式: 根据图书的特性,有着不同的查找途径: 书名/题名检索、作者/责任者检索、ISBN/ISSN检索、出版年份检索、主题词检索、分类号检索、索取号检索等。 • OPAC的正确使用是减少书目检索时间的一条重要途径。

  23. 检索途径限定 时间 限定 库限定 检索方式限定

  24. 查找途径/检索字段说明 • 题名——即书名,包括正题名、并列题名、从属题名、其它题名、丛书名等。  例如:在“题名”中输入“文学研究”四字,检索时如果正题名、并列题名、从属题名、其它题名、丛书名等各项中只要其中一项含有“文学研究”字样,即为符合条件的检索结果。 • 责任者——即作者,包括文献的编者、著者、译者、撰者、校注者等。 既包括个人责任者,也包括团体责任者,如“国家技术监督局”。 例:《杜诗详注》为(唐)杜甫撰,(清)仇兆鳌注,则在责任者中输入“杜甫”或“仇兆鳌”即可检索出该书目。

  25. 查找途径/检索字段说明 • ISBN—International Standard Book Number的缩写,即国际标准书号。ISBN号是由10位数字组成,共分四段,中间用短横相连。即国家区域或文种、出版者号码、书序码和校验位。 例如: 《 京味儿夜话》一书的ISBN号是:7-02-002816-0,所代表的意思是:7,代表中国;02,代表人民文学出版社;002816,是书序码,由出版社自己给出;0,是检验码。 • ISSN—International Standard Serial Number的缩写,即国际标准刊号。ISSN是为不同国家、不同语言、不同机构(组织)间各种媒体的连续出版物(报纸、期刊、年鉴和指南等)信息控制、交换、检索而建立的一种标准的、简明的、唯一的识别代码。 每组 ISSN由八位数字构成,分前后两段,每段四位数,段与段间以一短横相连接,其中后段的最末一数字为检查号。 例如:1005-1805

  26. 主题词——经过规范化的词、词组或代码。所选用词依据《汉语主题词表》。主题词——经过规范化的词、词组或代码。所选用词依据《汉语主题词表》。 例如:“电影文学剧本”、“文学评论”等。 • 分类号——文献的学科属性标识。1. 中文图书采用《中国图书馆图书分类法》进行分类。分类号由字母和数字组配而成,共22大类。如:红楼梦,分类号为I242.4。 具体参见http://202.196.16.22/clc/ 2. 古籍善本图书采用本馆编制的《中文古籍分类表》。分经、史、子、集、丛五部,部下再分细类。 • 索取号——即索书号,是图书馆赋予每一种馆藏图书的排架号码,这种号码具有一定结构并带有特定的意义。在馆藏系统中,每种索书号是唯一的,可借以准确地确定馆藏图书在书架上的排列位置,是读者查找图书非常必要的代码信息。 索取号的结构:索取号由两部分构成,即分类号和种次号,分类号与种次号中间用“/”相隔。分类号是图书的学科属性标识,种次号则是此类图书的编制顺序号。

  27. 索书号的构成与作用 A752 30 《历史的真知:"文革"前夜的毛泽东》 A752/30

  28. 前方一致与模糊检索 • 前方一致检索,即最前端中含有该检索词的就满足检索条件。如:题名中输入“计算机”,则可检出“计算机会计学”、“计算机原理与系统结构”等。 完全一致检索,即只有与检索词完全相同的才能满足检索条件。 部分一致/模糊检索,即只要含有该检索词的就满足检索条件。

  29. 前方一致检索 模糊检索

  30. 2、电子全文数据库 • 2.1CNKI全文数据库 • 2.2电子图书全文数据库

  31. 2.1CNKI全文数据库 CNKI——《中国知识资源总库》简介 • 国内9000多种期刊 • 514种报纸 • 371家博士培养单位的博士学位论文 • 511家硕士培养单位的优秀硕士学位论文 • 10000多种全国各学会/协会重要会议论文集 • 1577种各类年鉴 • 3600部工具书 • 大型动态知识库、知识服务平台和数字化学习平台 • 提供最丰富的知识资源和最有效的知识传播与数字化学习服务

  32. 深入研究的 前沿问题 行业领域的 最新动向 博硕 会议 连续出版的 专题文献 特定主题的 最新报道 知识资源总库 期刊 报纸 工具书 年鉴 学习研究的 最佳参考 年度更新的 原始资料 中国学术文献网络出版总库 各具特色、重点突出 各种资源优势互补,为用户提供一站式的信息服务平台。

  33. CNKI课件 学术类文献总量8210万篇。文献类型包括:学术期刊、博士学位论文、优秀硕士学位论文、工具书、 重要会议论文、年鉴、专著、报纸、专利、标准、科技成果、知识元、哈佛商业评论数据库、古籍等;还可与德国 Springer公司期刊库等外文资源统一检索。

  34. 总库检索平台 提供十种检索方式

  35. 可以进行跨库统一检索 细致专业的学科分类 整合了多种类型的资源

  36. 一站式将各种文献资源查找出来,全面系统的调研,提高检索效率。一站式将各种文献资源查找出来,全面系统的调研,提高检索效率。

  37. 检索结果的九种分组方式 • 来源数据库 • 学科类别 • 研究层次 • 文献来源 • 文献作者 • 作者单位 • 中文关键词 • 研究获得资助 • 发表年度 • 可以对检索结果进行分组分析和排序分析,进行反复的精确筛选得到最终的检索结果。

  38. 按学科类别分组可以查看检索结果所属的更细的学科专业,进一步进行筛选,找到所关注的文献。按学科类别分组可以查看检索结果所属的更细的学科专业,进一步进行筛选,找到所关注的文献。

  39. 按中文关键词分组展示了知识系统,帮助学习者获得领域的全局知识结构;关键词将文献/知识进行聚类,把知识组织成簇,揭示了知识的背景,方便学习和研究;关键词分组比学科导航更细,更深入,更具有时效性,使得文献选择更精细,更准确。按中文关键词分组展示了知识系统,帮助学习者获得领域的全局知识结构;关键词将文献/知识进行聚类,把知识组织成簇,揭示了知识的背景,方便学习和研究;关键词分组比学科导航更细,更深入,更具有时效性,使得文献选择更精细,更准确。

  40. 按文献作者分组可以帮助研究者找到学术专家,学术榜样;帮助研究人员跟踪自己已知学者的发文情况,发现未知的有潜力学者。按文献作者分组可以帮助研究者找到学术专家,学术榜样;帮助研究人员跟踪自己已知学者的发文情况,发现未知的有潜力学者。

  41. 按作者单位分组帮助学者找有价值的研究单位,全面了解研究成果在全国的全局分布,跟踪重要研究机构的成果,也是选择文献的重要手段。按作者单位分组帮助学者找有价值的研究单位,全面了解研究成果在全国的全局分布,跟踪重要研究机构的成果,也是选择文献的重要手段。

  42. 按文献出版来源分组可以帮助科研人员查到好的刊物,因为好文献大部分都发表在好刊上;可以从总体上判断这一领域期刊的质量,对学者投稿也是很有帮助的。按文献出版来源分组可以帮助科研人员查到好的刊物,因为好文献大部分都发表在好刊上;可以从总体上判断这一领域期刊的质量,对学者投稿也是很有帮助的。

  43. 通过按“研究获得资助”分组,可以了解国家对这一领域的科研投入如何;研究人员可以对口申请课题;国家科研管理人员也可以对某个基金支持科研的效果进行定量分析、评价和跟踪。通过按“研究获得资助”分组,可以了解国家对这一领域的科研投入如何;研究人员可以对口申请课题;国家科研管理人员也可以对某个基金支持科研的效果进行定量分析、评价和跟踪。

  44. 按文献发文年度分组,帮助学者了解某一主题每一年度发文的多少,掌握该主题研究成果随时间变化趋势,进一步分析出所查课题的未来研究热度走向。按文献发文年度分组,帮助学者了解某一主题每一年度发文的多少,掌握该主题研究成果随时间变化趋势,进一步分析出所查课题的未来研究热度走向。

  45. 按来源数据库分组可以获取不同类型的文献。因为数字出版平台通过自动翻译实现了跨语言检索,所以这也是获取英文文献的有效途径。按来源数据库分组可以获取不同类型的文献。因为数字出版平台通过自动翻译实现了跨语言检索,所以这也是获取英文文献的有效途径。

  46. 多种排序方式 相关度反映了结果文献与用户输入的检索词相关的程度,越相关越排前,通过相关度排序可找到文献内容与用户检索词最相关的文献

  47. 根据文献发表的时间先后排序。可以帮助学者评价文献的新旧,找到最新文献,找到库中最早出版的文献,实现学术跟踪,进行文献的系统调研。根据文献发表的时间先后排序。可以帮助学者评价文献的新旧,找到最新文献,找到库中最早出版的文献,实现学术跟踪,进行文献的系统调研。

More Related