2.16k likes | 2.33k Views
课件制作:王金英. ● 网络信息资源基础知识 ●德州学院图书馆电子资源的 利用. 导 言. 导 言. 一、 文献检索是一门既古老又年轻的学科
E N D
●网络信息资源基础知识 ●德州学院图书馆电子资源的利用
导 言 一、文献检索是一门既古老又年轻的学科 约4000年前,人类就开始有目的地组织信息,一个典型的例子就是图书中的目录。 随后,逐渐出现索引的概念,即从一些词和概念指向相关信息或者文档的指针。 到了1948年,C. N. Mooers在其MIT的硕士论文中第一次创造了“Information Retrieval”这个术语。
文献检索是一门既古老又年轻的学科 • 信息检索发端于19世纪前期,主要以手工检索方式为主,其发展速度较为缓慢,检索效率普遍不高。到20世纪50年代,1951年世界上出现了最早的计算机系统,这可称得上是信息检索发展史上的一个里程碑。随着计算机技术的不断进步,进入 20世纪90年代,网络技术开始进入社会生活各个领域,计算机检索也逐步由脱机检索、联机检索发展到如今Internet环境下网络检索。
导言 二、网络信息检索是文献检索面对的新课题 网络检索以其低廉的费用、迅速的存取等多种功能对传统的检索造成了强力的冲击,与此同时,一些新的理论、新的课题也应运而生,加速了现代情报学和信息学的发展。 网络信息检索是指对利用Internet信息发布技术,通过Internet发布的信息进行的检索,主要利用搜索引擎、网络机器人和门户站点等来完成。随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,其信息数量之大、类型之多,已经给人们的工作、学习和生活方式带来了巨大影响。
网络信息检索是文献检索面对的新课题 • 为了充分发挥网络信息的重要作用,并能迅速在上百万个网站中快速有效地查找到想要得到的信息,必须对网络检索的特性进行研究分析,并掌握网络信息资源的特点、基本方法和检索技巧与检索工具等重要内容。网络信息资源的分布主要以网站为单位,数以千计的网站在Internet上形成了犬牙交错的信息资源库。
网络信息检索是文献检索面对的新课题 • 因特网的发展,逐渐改变了信息资源原有的属性,将文献信息数字化、应用环境网络化、技术手段多媒体化;运用情报学的理论与方法组织无序的网络信息,为用户服务;研究中文数据库的组织与检索技术将是我国情报学界必须重视的问题。 • 网络信息资源开发利用是我国信息化建设的核心内容。在我国信息基础设施建设已初具规模的今天,网络信息资源建设显得极为重要与迫切。这需要情报工作者认真研究解决。此课题包括以下方面的内容:①网络信息组织;②网络信息检索策略;③基于内容检索探讨等
本章内容 • 第一节 因特网基础 • 第二节 网络信息资源 • 第三节 搜索引擎 • 第四节 搜索引擎使用技巧 • 第五节 搜索典型案例
一、因特网概述 • 因特网是英文Internet的中文译名,也有人译作互联网或国际互联网。1997年7月18日,全国科学名词审定委员会正式确定Internet译为因特网。因特网是当今世界上最大最流行的计算机网络,从资源角度看,它是一个集各部门、各领域的各种信息资源为一体的供网上用户共享的信息资源库。 • 因特网现在已成为全球最大的数字化信息资源集散地,是人类的巨大财富。它包含的信息资源几乎包括了人类的全部活动。它包括商业、通信业、教育、科研、娱乐、政府部门、图书出版、工业生产、航空航天、建筑学、生物学、化学、物理、计算机、数学、地球科学、天文学、海洋学、医学、语言、文化、文学艺术、法律、政治与经济学、宗教、体育等许多方面。
二、我国因特网发展概况 因特网在我国的发展,大致经历了两个阶段: 1. 1987年至1993年为第一阶段。 • 1987年9月20日,钱天白教授通过意大利公用分组网ITAPAC设在北京的PAD机,经由意大利ITAPAC和德国DATEX―P分组网,发出我国第一封电子邮件“越过长城,通向世界”,揭开了中国人使用Internet的序幕。实现了和德国卡尔斯鲁厄大学的连接,通讯速率最初为300bps . 进入90年代后,我国也开始投入巨资进行国内的计算机网络建设以及与Internet的连接
我国因特网发展概况 2.1994年至今为第二阶段。 1994年,我国建成第一个跨园区的光纤互联计算机网络——北京中关村地区教育与科研示范网络(NCFC),该网络把清华大学、北京大学的校园网,以及中科院在中关村地区的众多研究所通过光纤连成一体。它通过美国Sprint公司连入Internet的64K国际专线开通从中科院网络中心到美国的国际线路。Internet组织把NCFC国际线路开通的时间,即1994年5月定义为中国加入Internet的时间
三、目前我国已建成的大型互联网络 由邮电部管理的中国公用计算机网(CHINANET)由教育部管理的中国教育与科研网(CERNET)由中国科学院管理的中国科技网(CSTNET)由信息产业部管理的中国金桥网(CHINAGBN) 上述大型互联网络都是经国务院批准、与Internet相连的国家级互联网络,国内其他网络作为接入单位与上述互联网络之一相连,通过它们实现与Internet的连接。1997年6月,中国科学院在中国科学院计算机网络信息中心组建了中国互联网络信息中心(China Internet Network Information Center, CNNIC),行使中国国家互联网络信息中心的职责。
四、常用Internet 术语解析 • IP地址:为了在网络环境下实现计算机之间的通信,网络中的每台计算机都必须有一个地址。Internet中的计算机均称为主机,其所拥有的地址称为IP地址。IP地址的长度为32位,分为4段,每段8位。用十位制数字表示,每段数字范围为1~254,段与段之间用句点隔开。例如:202.103.229.38。IP地址有两部分组成,一部分为网络地址,一部分为主机地址,上例中202.103.229是网络号,38是主机号
常用Internet 术语解析 • 域名:在网络中,IP地址作为主机的一种数字型标识是最有效的,但不便于记忆。于是人们又提出一种字符型标识,这就是域名。域名所使用的合法字符包括字母、数字和字符,总长度不得超过255个字符。域名的结构为:主机号.机构名.网络名.最高层域名 如北京大学校园网上的一台计算机域名为:Ibmstone.pku.edu.cn,其中edu.cn表示中国教育科研网,pku表示北京大学,ibmstone表示主机名。
常用Internet 术语解析 • 主页(Home Page) :直观地讲,是指登录某一WWW服务器首先看到的页面。确切地说,主页是用一种超文本标记语言(描述性语言)将信息组织好,再经过相应的解释器或浏览器翻译出的包括文字、图像、声音、动画等多种信息组织方式。
常用Internet 术语解析 • 超文本标记语言:(Hyper Text Mark-up Language称简HTML)该语言是WWW的描述语言,其目的是使存放在不同计算机中的文本或图形等文件联系在一起,形成有机整体。只要用鼠标在某一文档中点取一个图标或其他标记,Internet就会马上转到与此相关的内容上去,而这些信息可能存放在其他文档或另外的计算机上。
常用Internet 术语解析 • 统一资源定位器(Uniform Resource Location简称URL):是指统一资源定位器(Uniform Resource Locator),用于指明资料在互联网络上的取得方式与位置。其格式为:通讯协议://服务器地址[:通讯端口>/路径/文件名.例如: http://211.64.34.63/gpjs/jiansuoFrameset.htm 含义是浏览器采用http协议,从211.64.34.63的图书馆Web服务器的gpjs子目录下去寻找jiansuoFrameset.htm这个文件(图书馆光盘资源共享管理系统)
五、因特网的信息服务功能 • 1.远程登录(Telnet)服务 • 2.电子邮件(E-mail)服务 • 3.文件传输(FTP)服务 • 4.网络新闻服务(Usenet) • 5.网上信息的浏览和查询服务
1.远程登录(Telnet)服务 远程登录:(Remote-login)是Internet提供的最基本的信息服务之一,远程登录是在网络通讯协议Telnet的支持下使本地计算机暂时成为远程计算机仿真终端的过程。 在远程计算机上登录,必须事先成为该计算机系统的合法用户并拥有相应的帐号和口令。登录时要给出远程计算机的域名或IP地址,并按照系统提示,输入用户名及口令。
远程登录(Telnet)服务 • 例如telnet: bbs.tsinghua.edu.cn 远程登录清华大学bbs 登录成功后,用户便可以实时使用该系统对外开放的功能和资源,例如,共享它的软硬件资源和数据库,使用其提供的Internet的其他信息服务。 另外,目前一种很受欢迎的服务——BBS(Bulletin Board System,电子公告牌系统,可让用户留言的电子公告牌),也是基于Telnet的。
3.文件传输服务(FTP) ·文件传输:是指计算机网络上主机之间传送文件,它是在网络通讯协议FTP(File Transfer Protocol)的支持下进行的。 用户一般不希望在远程联机情况下浏览存放在计算机上的文件,更乐意先将这些文件取回到自己计算机中,FTP正好能满足用户的这一需求。Internet网上的两台计算机在地理位置上无论相距多远,只要两者都支持FTP协议,网上的用户就能将一台计算机上的文件传送到另一台。 FTP与Telnet类似,也是一种实时的联机服务。使用FTP服务,用户首先要登录到对方的计算机上,与远程登录不同的是,用户只能进行与文件搜索和文件传送等有关的操作(文件的执行一般不可以)。
文件传输(FTP)服务 FTP的使用 普通的FTP服务要求用户在登录到远程计算机时提供相应的用户名和口令。许多信息服务机构为了方便用户通过网络获取其发布的信息,提供了一种称为匿名FTP的服务(Anonymous FTP)。用户在登录到这种FTP服务器时无需事先注册或建立用户名与口令,而是以Anonymous作为用户名,一般用自己的电子邮件地址作为口令。
文件传输(FTP)服务 • 匿名FTP是最重要的Internet服务之一。许多匿名FTP服务器上都有免费的软件、电子杂志、技术文档及科学数据等供人们使用。匿名FTP对用户使用权限有一定限制:通常仅允许用户获取文件,而不允许用户修改现有文件或向它传送文件;另外对于用户可以获取的文件范围也有一定限制。在匿名FTP服务器中文件一般预先进行压缩或打包处理。 可以以命令方式来访问,如录入ftp命令,然后录入你连接的远程主机的地址名: ftp:// rtfm.mit.edu
4.网络新闻服务(Usenet) 网络新闻:(Network News)通常又称作USENET,是比WWW浏览更为“古老”的一种网络服务,现在互联网上的各种BBS(含论坛、社区等)都是在它的基础上发展而来的。许多重要的信息(比如新闻、新软件)都往往第一时间出现在一些新闻组上,之后才被更多人所知。
网络新闻服务(Usenet) • 新闻组中对贴子的阅读、发表、回复等都是以E-mail的形式来完成的,用户将自己感兴趣的内容下载后,就可以脱机后再随时浏览。在经历了长期的发展后,新闻组日趋成熟,它的题材面广、信息量大、时效性强、自由度高,成为了许多专业人士进行网上信息传递的最主要途径之一。
网络新闻服务(Usenet) • 它是具有共同爱好的Internet用户相互交换意见的一种无形的用户交流网络,它相当于一个全球范围的电子公告牌系统。 网络新闻是按不同的专题组织的。志趣相同的用户借助网络上一些被称为新闻服务器的计算机开展各种类型的专题讨论。
网络新闻服务(Usenet) 传统的Usenet在阅读文章时,必须使用一个叫新闻阅读器(newsreader)的程序。新闻阅读器作为你的连接口:当你告知它你想要阅读的某个指定的新闻组时,它会给你呈现有关文章,一次一篇。在Unix系统中,最为流行的四种阅读器是rn(是这些新闻阅读器中最早的一个)、 nn、 tin和trn
5.网上信息的浏览和查询服务 • Gopher:是Internet上一个非常有名的信息查找系统,它将Internet上的文件组织成某种索引,很方便地将用户从Internet的一处带到另一处。允许用户使用层叠结构的菜单与文件,以发现和检索信息,它拥有世界上最大、最神奇的编目。 Gopher客户程序和Gopher服务器相连接,并能使用菜单结构显示其它的菜单、文档或文件,并索引。同时可通过Telnet远程访问其它应用程序。
网上信息的浏览和查询服务 • Gopher协议使得Internet上的所有Gopher客户程序,能够与Internet上的所有已“注册”的Gopher服务器进行对话。 • Gopher是Internet工具中最激动人心的发展之一,它使新用户不必成为技术专家,就能迅速找到Internet爱好者们为之欢呼的许多优秀的资源
网上信息的浏览和查询服务 WWW:的含义是环球信息网(World Wide Web),它是一个基于超文本(Hypertext)方式的信息查询工具,将位于全世界Internet网上不同网址的相关数据信息有机地编织在一起,通过浏览器 (Browser)提供一种友好的查询界面:用户仅需要提出查询要求,而不必关心到什么地方去查询及如何查询,这些均由WWW 自动完成。
网上信息的浏览和查询服务 • WWW的发明人Tim Berners Lee在1984年就提出了超文本的概念。所谓(Hypertext)超文本,是一种用计算机来实现连接相关文档的结构,该连接以高亮单词或图像形式嵌入在文档的文本之中。当被激活时,便立即检索连接的文档并显示出来,在被连接的文档中又可以嵌套别的连接,如此多重嵌套,以至无穷。
WWW与Gopher的区别 • WWW展示给用户的是一篇篇的文章、一幅幅图片或精美的动画,甚至是优美的乐曲,而不是象Gopher那些时常令人费解的菜单说明。因此使用它查询信息具有很强的直观性Gopher是一个菜单式浏览工具,它是“树”型结构;WWW采用超链接,是“网”状结构,形如“蜘蛛网”。
WWW与Gopher的区别 • 随着多媒体技术的发展,在超文本结构中除文字外还可以链接图形、视频、声音等多媒体信息,因此人们引出了超媒体概念。换言之,(Hypermedia)超媒体=超文本+多媒体。 虽然WWW并不等于Internet,但是两者之间的关系又相当密切。对一些刚上网的用户,WWW(万维网)几乎成了Internet的代名词,这是因为万维网的发展非常迅速,它以其独特的超文本“链接”方式,方便的交互式图形界面和丰富多彩的内容,在整个Internet活动中占据的位置越来越重要
本节主要内容 • 一、网络信息资源的特点 • 二、网络信息资源的类型 • 三、常见网络数据库检索系统
一、网络信息资源的特点 总体来讲,网络信息资源相比其他信息资源具有如下主要特点 : • 1.离散性与共享性 • 2.动态性和及时性 • 3.不均匀性 • 4.潜在的失控性
网络信息资源的特点 1.离散性与共享性 WWW是受TCP/IP支持的应用协议集,它采用HRL,HTM,HTTP和CGI进行信息定位、存取和显示。在静态上,WWW是一个全球范围内的相互链接的多媒体信息网,同时在逻辑上它也可被看作是用HTML书写的分布式超文本结构。这种超文本结构使得文档之间用热键连接,这种自由度使得信息交换与分享潜力无穷。也正是由于这种离散性,使得网络信息资源能为所有网络用户共享,这一优越性是其他信息资源所不具备的。
网络信息资源的特点 2.动态性和及时性: 网上信息资源的瞬息万变,极其丰富,信息的更新也很迅速。 3.不均匀性 有两重含义,一是网络信息的质量不均匀,二是网络信息分布不均匀。 4.潜在的失控性 任何个人团体只需具备上网条件能够使用HTML,就可以把任何信息放到网上,这种信息经过种种检索工具的标引,就可供用户检索,中间没有任何形式的质量控制,势必影响检索效果的查准率,从而导致检索效率的失控。
二、网络信息资源的类型 • 从文献信息检索角度看,我们可以把网络信息资源分成以下几种类型:1、网上图书信息2、电子期刊 3、专利信息 4、网上数据库 5、网上其它科技信息
1、网上图书信息 • Internet上提供的图书信息主要包括书目信息和电子图书.这些信息我们可从以下几个方面来获取: (1) 出版商提供的书目信息。国内外许多出版社都有自己的网站, 通过Internet发布其出版物的目录、最新图书内容简介、价格等信息。(2) 数字图书馆提供的电子图书。数字图书馆是数字化生存时代的重要文化基础设施。利用这些图书馆,记载人类文明成果的图书资料就会方便地进入人们的生活
网上图书信息 • (3) 图书馆、文献情报中心提供的联机图书馆馆藏目录。目前全球至少有15000个大型图书馆的联机目录24小时对外开放,通过OPAC我们可以查询到大量的书目信息,确定某本书是否在馆,能否通过馆际互借加以利用等,有些联机目录不但提供书目及摘要, 还提供其它的信息资源。
2、网上电子期刊信息 • 电子期刊是非常重要的网络资源。网上电子期刊时效性强、内容丰富、检索途径多样,已成为利用率非常高的网络信息源,特别是免费的电子期刊。网上电子期刊包括与印刷版同时发行和仅在网上发行的两种,其主要来源渠道有: (1)出版商和文摘索引服务商提供的期刊检索服务。目前,国际上大多数主要的期刊出版都建立了全文数字化期刊数据库。并通过Internet提供其服务。
网上电子期刊信息 • (2)网络数据库信息服务商提供的服务。存储在网络服务器上的网络数据库品种多、质量高、大多由信息服务商或大型图书馆机构创建维护。 • (3) 网络版期刊提供的服务。目前,许多期刊正在网上建立自已的网站,便于读者上网检索或提供免费的电子邮件现刊目录服务
网上电子期刊信息 • (4) 文献情报部门或学术性机构提供的服务。文献情报部门或学术性机构通过自己的网站提供期刊或其它类型文献的网上检索服务,用户在有的网站检索二次文献信息的同时,还可以订购原始文献,原文可通过E-mail、传真、浏览、下载和联机打印等方式获取。
3、网上专利信息 • 网上的专利信息资源可从以下几个方面来获取: (1) 利用专利管理机构网站提供的信息。专利管理机构网站主要是指各国(地区)或地方专利局的主页或者由它们及其下属机构开发的网站。这类网站提供的专利信息全面、权威、新颖。例如美国、加拿大、日本等国的专利数据库在INTERNET上均可得到免费使用。
网上专利信息 • (2) 利用联机检索系统中的专利数据库。一些知名的联机检索系统中都包含与专利有关的数据库。如Dialog系统(http://www.dialogweb.com)、STN (www.cas.org/stn.html)系统等。(3) 利用数据库出版机构提供的信息。主要有Derwent公司、英国IEE公司(INSPEC)。
4、网上数据库信息 • 这是最有价值的信息资源之一,一般以商业性数据库或政务数据库的形式出现,需要通过购买或用户授权才能使用。网上数据库有全文型、文摘型、题录型、事实和数值型、多媒体型等。Internet上也有大量、有价值的免费数据库,只要我们要善于发现、搜集,往往会得到意外的惊喜。