270 likes | 568 Views
信息检索与利用教程. 沈艳红 江南大学图书馆. 第四章 Web 信息检索. 4.1 Web 信息搜索 概述 4.2 网站目录及举要 4.3 搜索引擎及举要 4.4 Web 学术信息搜索工具举要. 4.1 Web 信息搜索 概述. 4.1.1 Internet 与 Web 4.1.2 Web 信息搜索工具的发展 4.1.3 Web 信息搜索的基本方式 基于超文本 / 超媒体的信息浏览 基于目录的信息查询 基于搜索引擎的信息检索. 4.1 Web 信息搜索 概述. 4.1.4 Web 信息搜索的技巧
E N D
信息检索与利用教程 沈艳红 江南大学图书馆
第四章 Web信息检索 4.1 Web信息搜索概述 4.2 网站目录及举要 4.3 搜索引擎及举要 4.4 Web学术信息搜索工具举要
4.1 Web信息搜索概述 • 4.1.1 Internet 与 Web • 4.1.2 Web信息搜索工具的发展 • 4.1.3 Web信息搜索的基本方式 • 基于超文本/超媒体的信息浏览 • 基于目录的信息查询 • 基于搜索引擎的信息检索
4.1 Web信息搜索概述 • 4.1.4 Web信息搜索的技巧 • 选择合适的搜索工具, 使用多个搜索工具进行查询。 • 抽取适当的关键词。 • 正确使用布尔逻辑和其他操作符号。 • 尽量多地给出查询项。 • 使用限制“域”功能。
4.1 Web信息搜索概述 • 4.1.5 网络信息检索的发展趋势 • 智能化 • 可视化 • 多样化 • 个性化
4.2 网站目录及举要 • 4.2.1 网络目录组织的信息资源的特点 • 树型目录结构组织信息资源,具有严密的系统性和良好的可扩充性。 • 分类不够细。 • 维护工作量大,信息量相对较少,信息更新不及时。
4.2 网站目录及举要 • 4.2.2 网络目录举要 • 雅虎中国(http://cn.yahoo.com) 雅虎中国既支持目录检索,也支持词语检索。它对网站信息按主题建立分类索引,按字母顺序列出大类,大类下设二级类目,各子类下有大量相关网站信息。这些类目是人工建立的,标引比较准确,因此查准率较高。
4.2 网站目录及举要 • 4.2.2 网络目录举要 • 雅虎中国(http://cn.yahoo.com)
4.3 搜索引擎及举要 • 4.3.1 搜索引擎的工作原理 • 搜索引擎构成 • 搜索器 • 索引器 • 检索器 • 搜索引擎的不足 • 准确性差 • 各种搜索引擎使用的检索符号、格式等不统一
4.3 搜索引擎及举要 • 4.3.2 Google • Google是从第一代搜索引擎中脱颖而出的第二代搜索引擎的代表。1998年,两位斯坦福大学的博士生Larry Page和Sergey Brin创立了Google,它的使命就是要为用户提供网上最好的查询服务,促进全球信息的交流。 • Google开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对20多亿网页进行整理,可为世界各地的用户提供适合需要的搜索结果,而且搜索时间通常不到半秒。现在,Google每天提供1.5亿次查询服务。
4.3 搜索引擎及举要 • 4.3.2 Google • Google并非只使用关键词或代理搜索技术,它将自身建立在高级的PageRank™(网页级别)技术基础之上,这项技术可确保始终将最重要的搜索结果首先呈现给用户。 • 网页级别可对网页的重要性进行客观的分析。用于计算网页级别的公式包含5亿个变量和20多亿个项。网页级别利用巨大的网络链接结构对网页进行组织整理。实质上,当从网页A链接到网页B时,Google就认为“网页A投了网页B一票”。 • Google复杂的自动搜索方法可以避免任何人为感情因素。与其他搜索引擎不同,Google的结构设计即确保了它绝对诚实公正,任何人都无法用钱换取较高的排名。Google可以诚实、客观并且方便地帮助用户在网上找到有价值的信息。
4.3 搜索引擎及举要 • 4.3.2 Google • 基本检索:(布尔检索功能) • 逻辑“与”:检索框中的两个关键词之间用空格隔开则默认为是“AND”(“与”运算)连接。 • 逻辑“非”:用“—”(减号)表示,同时要求在减号前保留一个空格。 • 逻辑“或”:用“OR”表示。 • 双引号、连字号、斜线、问号、等号、省略号都可以作为短语的连接符号查找名言或专有名词。 • 指定网域:利用site:xxxx.com可以在某个特定的网站或域中进行搜索。 • 指定文件类型:filetype:文件类型,可以在一类文件中进行搜索,比如,filetype:pdf, filetype:ppt等。
4.3 搜索引擎及举要 • 4.3.2 Google 逻辑与功能
4.3 搜索引擎及举要 • 4.3.2 Google 逻辑或功能
4.3 搜索引擎及举要 • 4.3.2 Google 逻辑非功能
4.3 搜索引擎及举要 • 4.3.2 Google 词组检索
4.3 搜索引擎及举要 • 4.3.2 Google 指定网域
4.3 搜索引擎及举要 • 4.3.2 Google 指定文件类型
4.3 搜索引擎及举要 • 4.3.2 Google • 其它检索语法 • 搜索的关键词包含在URL链接中:inurl: • 搜索的关键词包含在网页标题中:intitle: • 搜索的关键词包含在网页的“锚”中:inanchor: 或allinanchor: • 搜索所有链接到某个URL的网页:link:
4.3 搜索引擎及举要 • 4.3.2 Google • 高级检索功能 • 可以排除某个特定站点的网页(限定网域) • 可以对检索结果页面的语言类型进行限制(限定语种) • 可以限定检索结果的时间范围(更新日期) • 可以限定关键词出现的位置(字词位置) • 可以检索链向某一个网页的所有页面(键连功能) • 可以检索与某一个网页相关的所有网页(相似网页检索)
4.3 搜索引擎及举要 • 4.3.2 Google 高级检索
4.3 搜索引擎及举要 • 4.3.2 Google 高级检索检索结果
4.3 搜索引擎及举要 • 4.3.2 Google 学术搜索
4.3 搜索引擎及举要 • 4.3.3 百度 • 2000年1月1日,公司创始人李彦宏、徐勇从美国硅谷回国创建百度。目前,百度是全球最大的中文搜索引擎。 • 百度每天响应来自138个国家超过数亿次的搜索请求。用户可以通过百度主页,在瞬间找到相关的搜索结果,这些结果来自于百度超过百亿的中文网页数据库。 • 百度一直致力于倾听、挖掘与满足中国网民的需求,秉承“用户体验至上”的理念,除网页搜索外,还提供MP3、图片、视频、地图等多样化的搜索服务,率先创造了以贴吧、知道、百科、空间为代表的搜索社区,将无数网民头脑中的智慧融入了搜索。“百度一下”已经成为了人们进行搜索的新动词。
4.3 搜索引擎及举要 • 4.3.3百度
4.3 搜索引擎及举要 • 4.3.4 Scirus • Scirus是目前互联网上最全面、综合性最强的科技文献门户网站之一,由Elsevier科学出版社开发。 • Scirus覆盖的内容:目前Scirus已将90,000,000个网页编入索引中。除了此之外,它还包括12,800,000条MEDLINE文摘;1,600,000篇ScienceDirect全文;900,000项USPTO的专利;657,000篇Beilstein文摘;248,000篇IDEAL全文;10,310篇NASA技术报告;197,000篇来源于E-Print ArXiv的电子文献;1,410篇来源于CogPrints的电子文献;565种来自Mathematics Preprint Server的预印本;820篇来源于BioMed Central的全文;565条来源于Neuroscion的新闻;465种来自Chemistry Preprint Server的预印本。 • Scirus覆盖的学科范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。
4.3 搜索引擎及举要 • 4.3.4 Scirus