1.14k likes | 1.37k Views
文献检索与利用. 青海大学图书馆 季拥政. 第五章 Internet 信息资源及其检索 第一节 Internet 网络信息资源概述. 一、 Internet 概述 (一) Internet 的定义: 1. 从网络互联的角度来看 2. 从网络通信的角度来看 3. 从提供信息资源的角度来看 4. 从网络管理的角度来看. (二) Internet 的特点: 1.TCP/IP 协议是 Internet 的核心.
E N D
文献检索与利用 青海大学图书馆 季拥政
第五章 Internet信息资源及其检索 第一节 Internet网络信息资源概述 一、Internet概述 (一) Internet的定义: 1.从网络互联的角度来看 2.从网络通信的角度来看 3.从提供信息资源的角度来看 4.从网络管理的角度来看
(二)Internet的特点: 1.TCP/IP协议是Internet的核心 TCP:Transmission Control Protocol 传输控制协议TCP是一种面向连接(连接导向)的、可靠的、基于字节流的运输层(Transport layer)通信协议。 TCP协议提供的是可靠的、面向连接的传输控制协议;端到端的通信;全双工方式传输;采用字节流方式;紧急数据传送功能。
IP协议,全称Internet Protocol(因特网协议) 主要用于负责IP寻址、路由选择和IP数据包的分割和组装。目前,我们常用的IP协议是IP协议第四版本,即IPv4,是互联网中最基础的协议。网络中的计算机都有一个惟一的因特网地址,又称IP地址。IP地址如同居民身份证编码具有惟一性。 • IP地址:166.111.4.100 • 域名:www.tsinghua.edu.cn
2.Internet实现了与公用电话交换网的互联 3.Internet是一个用户自己的网络 (三)Internet的发展史 Internet来源于ARPAnet网,现代计算机网络的许多概念和方法都来源于它。
(四)中国Internet的发展1994年我国全面开通了Internet服务,建立了四大网络体系。(四)中国Internet的发展1994年我国全面开通了Internet服务,建立了四大网络体系。 中国科技网CSTnet1994年该网实现了与Internet网的联接。CSTnet主要是提供科学数据库服务、网络信息服务及超级计算服务等,其服务是非商业性的。 中国科技网网的网址是: http://www.cstnet.net.cn,其主页如下图:
中国教育科研网CERNET 中国教育科研网的全称是China Education and Research Network,它是国家教委主持的国家重点工业性研究项目。于1994年启动,1995年12月正式开通运行,并实现与Internet的全方位连接。 CERNET网分为主干网、地区网、和校园网三个层次。中国教育科研网的网址是:http://www.edu.cn,其主页如下图:
中国公用计算机互联网CHINANET中国公用计算机互联网是我国第一个全国性商业网,它由中国信息产业部经营管理,于1994年开始启动。CHINANET为社会提供方便的网络服务,开办代理业务,发展网络用户,建立中文信息站点为网络用户提供多种信息服务,包括电子文件、商业信息、天气预报、娱乐休闲、旅游指南等。 中国公用计算机互联网的网址是: http://www.chinanet.cn.net/,其主页如下图:
中国金桥信息网中国金桥信息网CHINAGBN是三金工程(金桥工程、金关工程、金卡工程)之一, 也称中国经济网,于1996年开始建设,它是国家经济信息通信网,提供Internet网络商业服务。中国金桥信息网的网址是:http://www.gb.com.cn,其主页如下图:
二、Internet网络信息资源概述 (一)网络信息资源的概念 网络信息资源,由称电子信息资源、因特网信息资源、WWW信息资源,是将文字、图像、声音、动画等多种形式的信息,以数字化形式存储,并借助计算机与网络通信设备发布、收集、组织、存储、传递、检索和利用的信息资源。
(二)网络信息资源的特点 (1)从内容方面看,网络信息资源信息类型丰富,信息量大,开放性强、增长快、更新快。 (2)从存放位置看,信息广泛分布在不同的服务器上,而服务器上的操作系统、数据结构、字符集、处理方式并不相同。 (3)从其利用方式看,网络信息资源不受时空限制,跨时空、跨行业传播。
(4)从其组织方面看,网络信息资源分布离散化。(4)从其组织方面看,网络信息资源分布离散化。 (5)从其质量方面看,信息发布有很大的自由度和随意性,缺乏必要的过滤、质量控制和管理机制。 (6)从时效性方面看,网络信息资源时效性强,在互联网上能得到最新的资料以及某个学科和某项科研的最新动态,能检索到最近的(甚至当日的)文献。随机变化大,更新消亡无法预测。 网络信息资源还具有开放性、交互性、通用性等特点。
三、Internet信息检索 (一)WWW与信息检索 1.WWW的概念 环球信息网WWW(World Wide Wed)也称Web或万维网,它是一个基于超文本(hypertext)方式的信息检索查询工具。欧洲粒子物理实验室(CERN)的Tim .Berners-lee等人在1989年为了满足世界各地进行粒子物理研究的科学家能利用计算机网络交流研究成果,开发了World Wide Web,简称WWW。
2.什么是超文本与超媒体 3.WWW的构架 (1)HTML是Hyper Text Markup Language的缩写。 (2)主页(homepage) (3)HTTP (4)URL(Uniform Resource Locator,统一资源定位器)用来定义访问文件的名称、位置、访问的方式。
4.WWW浏览器 5.www采用的是客户机/服务器结构
第二节 搜索引擎 一、搜索引擎概述 (一)搜索引擎(Search engines)的概念 (二)搜索引擎的发展历史 (三)搜索引擎工作原理 (四)搜索引擎的特点
第二节 搜索引擎 一、搜索引擎(Search engines)的概念 二、搜索引擎的发展历史 三、搜索引擎工作原理 四、搜索引擎的特点
五、搜索引擎的检索结果 1.标题:网页的标题。 2. URL :该网页对应的“访问地址”。 3.摘要:网页内容的摘要。
六、搜索引擎的检索技术 1.布尔逻辑检索 (1)逻辑“与” (2)逻辑“或” (3)逻辑“非” 逻辑与 逻辑或 逻辑非
在许多搜索引擎中用空格、逗号、括号、 “&”、“∣”、“﹗”表示布尔逻辑符。空格、“&”的作用与逻辑“与”(and)相同,比如google自动使用“and”进行查询。逗号(,)、“∣”的作用类似于逻辑“或”(or)。 2.位置算符(proximity search) 位置算符检索用诸如“w”、“n”的符号表示词与词之间的位置关系,如information n system表示system出现在information之后,information n system表示与前后关系无关。
3.截词检索(truncation/wildcats) 截词方式主要有右截断、左截断、左右截断、中间截断(中间屏蔽)四种。搜索引擎中的截词符通常采用“*”和“?”。 4.字段限制检索(field limiting) Title:、ubject:、Keyword:、Summary:、Image:、text:、Applet:、host:、anchor:、domain:、site:、url:、from:等。
5.精确检索(exact search) 精确检索又称之为字符串检索、短语检索。 几乎所有的搜索引擎读支持精确检索,并且都采用“ ”来表示。 6.模糊检索(fuzzy search) 7.自然语言检索(natural language search) 8.区分大小写的检索(case-sensitive) 又称为大小写敏感检索,这主要针对检索词中含有人名、地名等专有名词而言的。
9.加权检索(term weighting)、 连接符有加号(+)和减号(-)。即在检索词前置加/减(+/-)号,作用相当于AND/NOT运算。 10.多语言检索(multilingual search) 11.相关性排序 检索结果通常是根据相关程度按从大到小的顺序降序排列。几乎所有的搜索引擎都提供了“对检索结果按其相关性大小排序的功能。”
七、搜索引擎使用方法 1.基本使用方法 (1)分类法 目录式搜索引擎最简单的搜索方法就是掌握它的目录分类原则,确定要查找的内容或网站应该在哪个分类,然后逐级单击寻找。 (2)关键词 这是搜索引擎必备的功能。直接在输入框输入关键词即可进行的检索。
2.使用技巧 (1)选择合适的搜索工具 每种搜索引擎都有不同的特点,只有选择合适的搜索工具才能得到最佳的结果。 (2)使用正确的搜索词 就目前而言,多数搜索引擎不支持容错查询。所以,一定要注意不写错别字。 (3)正确使用布尔检索 正确使用布尔检索方式可以减少搜索结果的返回数。
八、搜索引擎的分类 1.按搜索机制分类 (1)目录型搜索引擎 (2)关键词型搜索引擎 (3)混合型搜索引擎 2.按搜索引擎提供的搜索内容来划分 (1)综合型搜索引擎 (2)专业型搜索引擎
(3)特殊型搜索引擎 3.按搜索引擎在采集信息的方法及对外提供的服务方式划分 (1)机器人搜索引擎 (2)目录搜索引擎 (3)元搜索引擎
二、主要中文搜索引擎介绍 (一)Google 1.概述 (1)网页标题 (2)网页快照 (3)手气不错 (4)类似网页 (5)中英文字典
2.Google的特点 (1)数量庞大 Google目前发展为搜索80亿网页;10亿图片;10亿Usenet信息。 (2)Google支持多达132种语言,包括简体中文和繁体中文。 (3)Google速度极快,它每秒钟能够回应几千次查询,而回应每项查询,Google都要走过30多亿个网页。
Google原名Googol,意思是10的100次方,是个巨大的数字。Google原名Googol,意思是10的100次方,是个巨大的数字。
(4)Google的专利网页级别技术PageRank能够提供准确率极高的搜索结果。 3. Google搜索引擎的功能 (1)基本检索 (2)高级检索
4.Google Scholar学术搜索引擎 2004年11月24日Google推出了世界上第一个针对学术期刊、论文、著作、摘要的免费学术搜索引擎一一GoogleScholar;2006年1月11日,Google推出了面向中文用户的中文版Google学术搜索。 (1)Google Scholar的特点 学科覆盖广泛全面,学科专业性强
①生物学、生命科学、环境科学(Biology,Life Sciences,and Environmental Science);②商业、管理、金融与经济(Business,Administration,Finance,and Economies);③化学与材料科学(Chemistry and Materials Science);④工程、计算机科学和数学(Engineering,computer Science,and Mathematics);⑤医学、药学和兽医学(Medicine,Pharmacology,and Veterinary Science);
⑥物理学、天文学、天体科学(Physics,Astronomy,and Planetary Science);⑦社会科学、艺术和人文科学(Social Sciences,Arts,and Humanities)。 检索功能强大,搜索服务实行一站式 (2) Google Scholar检索方法 基本检索 高级检索