920 likes | 1.05k Views
网络信息资源搜索. 一、网络信息资源含义 所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。 即通过计算机网络可以利用各种信息资源的总和。. 二、构成 信息内容 信息内容的记录符号 信息内容的记录方式 信息表述所依附载体. 二、网络信息资源特性 离散性 海量信息、内容丰富 动态性 时效性强,无序且不稳定 不均衡性 地区、学科、行业 ……. 不规范性 质量良莠不齐、难于管理 开放性
E N D
一、网络信息资源含义 所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。 即通过计算机网络可以利用各种信息资源的总和。
二、构成 信息内容 信息内容的记录符号 信息内容的记录方式 信息表述所依附载体
二、网络信息资源特性 • 离散性 海量信息、内容丰富 • 动态性 时效性强,无序且不稳定 • 不均衡性 • 地区、学科、行业……
不规范性 质量良莠不齐、难于管理 • 开放性 节点多、链接多
三、网络信息资源检索方法 • 浏览; • 直接访问法; • 通过网络资源指南查找信息; • 利用网络信息检索工具查找信息。
四、 网络信息搜索引擎 广义:在Web中主动搜索信息并将其自动标引以及将标引的内容存储在可供检索的大型数据库中,建立相应的索引和目录服务,从而对用户提出的各种检索做出响应,提供用户所需的信息或相关的链接。 狭义:对WWW站点资源和其他网络资源进行标引和检索的一类检索系统机制
发展历程 • 基于文档内容的搜索引擎 上个世纪90年代 yahoo 目录思想 匹配和排序 提问词出现频率 • 基于链接分析的搜索引擎 1996-20世纪初 百度 引文分析思想 网页之间链接 • 基于自然语言搜索 引擎 2003年 中搜 自然语言 语义
搜索引擎的工作原理 • 从互联网上抓取网页 • 建立索引数据库 • 在索引数据库中搜索排序
搜索器 搜索引擎派出网页搜索工具如spider(蜘蛛)在Internet上搜索信息,并把信息带回搜索引擎; • 索引器 将信息进行分类索引,建立网页数据库; • 检索器 通过Web服务器端软件,为用户提供浏览器界面下的信息查询。 • 用户接口 接纳用户查询、显示查询结果、提供个性化查询项。
搜索引擎的一般结构 搜索器 用户接口 检索器 索引器
网络搜索引擎的类型 • 索引型搜索引擎(全文 网页级) • 目录型搜索引擎(网站级) • 元搜索引擎
“元搜索引擎” 实例 百度 谷歌 搜狗 雅虎 必应……..
搜索引擎的查询方式 简单检索(Simple Search) 直接输入一个字或词,提 交搜索引擎查询,最基本的搜索方式。
词组搜索(Phrase Search) 输入两个单词以上的词组(短语),当做一个独立运算单元提交搜索引擎查询,叫词组搜索。
百度—书名号特殊用处 24
百度—双引号特殊用处 23
语句搜索(Sentence Search) 直接采用自然语言句子,作提问式进行检索。也叫任意查询。
例如: • 中国有哪些农业大学 • 中国的农业大学 • 中国农业大学
限制搜索范围 按链接和网域等进行搜索范围的限制。
百度的检索技术——文献类型限定 • 百度支持对Office文档(包括Word、Excel、PowerPoint)、Adobe PDF文档、RTF文档的全文搜索。 • 基本输入格式为: 检索词(空格)filetype:文献类型 • 注意:空格问题,在英文半角状态下输入“:”。
高级搜索(Advance Search) 用布尔逻辑组配方式查询,也叫定制搜索。
百度高级检索界面 高级搜索
分类目录搜索 按搜索引擎提供的分类目录逐级查询,用户一般不需要输人查询,而是按照查询系统所提供的几种分类项目,选择类别进行搜索,也叫分类搜索。
特色查询功能 • 手气不错 • 网页快照 • 类似网页 • 集成化工具条 • 多元化服务 • 相关搜索
英汉互译 • 百度百科 • 百度文库 • 天气查询 • 计算器和度量衡转换 • …………………