550 likes | 672 Views
第二讲 网络信息资源检索. Internet 的入网方式. 网络信息资源的定义. Internet 的互联原理. Internet 的主要服务. 第一节 网络信息资源概述. 1.1 网络信息资源的定义. 指以电子数据的形式将文字、图像、声音、动画等多种形式的信息存放在光、磁等非印刷载体中,并通过网络通信、计算机或终端等方式再现出来的信息资源的总和。. 通过专线连接. 通过拨号接入. 1.2 Internet 的入网方式. 专线连接.
E N D
Internet的入网方式 网络信息资源的定义 Internet的互联原理 Internet的主要服务 第一节 网络信息资源概述
1.1 网络信息资源的定义 指以电子数据的形式将文字、图像、声音、动画等多种形式的信息存放在光、磁等非印刷载体中,并通过网络通信、计算机或终端等方式再现出来的信息资源的总和。
通过专线连接 通过拨号接入 1.2 Internet的入网方式
专线连接 专线连接是计算机利用网卡通过光纤、电缆或其他专用信道与ChinaNet、CSTNet、CerNet或ChinaGBNet相接、进而连通Internet的接入方式,其基础是要求先完成网络综合布线(PDS)工程。 一般企事业单位或公司集体入网时多用专线连接方式。
拨号连接 拨号连接是利用调制解调器(MODEM)和电话线连通Internet的接入方式。 就近期发展看,拨号连接是广大个人用户和家庭用户的联网方式。宽带上网
宽带上网(ADSL) (Asymmetrical Digital Subscriber Line,非对称数字用户环路):是一种能够通过普通电话线提供宽带数据业务的技术,是目前极具发展前景的一种接入技术。
宽带应用领域 网络电视 宽带电影 实时通讯 与交流 网上多媒体 娱乐 网络游戏 网络多媒体 课堂
1.3 Internet 的互联原理 (1)通信的保证机制——TCP/IP协议 (2)地址的标识技术——IP地址和域名DN (3)运作的基本模式——客户机/服务器系统 (4)URL(网址)
(1)TCP/IP协议 Transmision Control Protocol/Internet Protocol传输控制协议/交互网络协议是保证各种不同类型的计算机网络实现相互通信一套规则或协议。 是因特网的基础和核心。
TCP(Transmission Control Protocol) 传输控制协议: 是将信息分组打包,处理由路径不同及其它可能原因造成的数据包颠倒、数据丢失、数据失真等问题。即负责确认收到信息的正确性,发现错误后进行重发。 • IP( Internet Protocol )网际协议: • 是将信息送到指定地址,即负责信息传送时的定位与寻址。
(2)地址的标识技术——IP地址和域名 • IP地址:是Internet上每台主机和用户终端的识别标识。 IP地址在全球范围内都是唯一的。该地址一般由Internet网络信息中心统一分配。 • IP地址一般由用 “”分开的4组十进制数字组成,每段数字取值范围为0-255。 IP地址示例:218.87.32.09表示江西科技学院图书馆的主机
1984年起采用字符型的IP地址,即域名(DN) • 域名DN:即用一组英文字符串来替代难以记忆的数字,称为域名(Domain Name)。 • DN结构为:主机名.机构名.网络类型.最高域名 例:lib.tinghua.edu.cn表示清华大学图书馆的主机
常用网络名 • com(商业机构) • edu(教育机构) • mil(军事部门) • gov(政府部门) • org(非盈利组织) • net(网络服务商) • 最高域名: • cn(中国) • uk(英国) • jp(日本) • 美国享有国家域名默认权
IP和DN的关系 • IP地址是Internet定位所必需的,每台以专线方式联入Internet的计算机都应有一个唯一的IP地址;拨号上网的机子的IP则是由ISP临时分配的。 • DN则非每台上网机必需,只有作为服务器的计算机才需要。 通过域名服务器(DNS)将DN自动转换为IP。 • Internet上DN与IP一般有一一对应关系, 但也有二个DN对一个IP或DN不变而IP改变的情形。
(3)运作的基本模式——客户机/服务器系统(Client/Server System) 服务器:是提供资源的程序和计算机 客户机:是使用资源的程序和计算机
(4)URL • URL (Uniform Resource Locator,URL):意思是统一资源定位器,用它来指向Web上的文档和其它信息资源的位置,即网址。 • URL格式: • 传输协议://文件所在服务器名/目录路径和文件名 例:http://news.sina.com.cn/china
1.4 Internet 的主要服务 (1)电子邮件服务(E-mail) (2)文件传输服务(FTP) (3)远程登录(Telnet) (4)电子论坛( Electronic Forum ) (5)万维网( WWW)
(1)电子邮件服务(E-mail) E-mail地址格式: 用户名@电子邮件服务器名 例如:图书馆文检教研室电子邮件地址 xxzxb2006@163.com
(2)文件传输服务(FTP) • FTP (File Transfer Protocol):是Internet上文件传输的各种规程的集合。 FTP规定了在Internet网络上如何传输文件,通常要由专门FTP程序来具体实现。 • 用户可通过有名或匿名连接方式对远程服务器进行访问,查看和索取需要的文件。用户可将本地文件上载(upload)给远程主机,更多情况是从远程主机上下载 (download)文件。(包括文本、图像、声音、多媒体、软件或数据文件等)
(3)远程登录(Telnet) 是指本地计算机通过Internet访问远程计算机上的硬件资源、软件资源和信息资源的过程。 随着 www的普及,Telnet已少有使用。
(4)电子论坛( Electronic Forum ) • 电子论坛( Electronic Forum ):是Internet用户在网上讨论交流的一种形式,又称新闻组(Newsgroop)或专题讨论(Usenet)。 —电子公告版(Bulletin Board System,BBS)与专题讨论组功能相似,但其规模小得多,且BBS上的观点只留在本地服务器上。
(5)万维网(WWW) • 万维网(World Wide Web,WWW) 又称环球网、全球网,起源于1989年欧洲粒子物理研究中心,采用HTTP(超文本传输协议)在Internet上提供全球范围的多媒体信息服务。 1993年1月,因特网上约有50个WWW服务器在工作,1999年高达300万个。现在WWW有等同于Internet的趋势。
超文本(Hypertext) WWW基本概念 超文本包含两个含义: 其一是信息的表达形式不局限于文字,还可以是图像、动画、视频、音频、动态数据、软件等非文本文件; 其二是网页文件内部包含链接(link)。
HTML (Hyper Text Markup Language) • 超文本标记语言:是制作Web页面的语言,用来标记网页的标题、段落、链接、字体、颜色、表格等,并由浏览器来解释这些标识。 HTML编辑器: • Frontpage • DreamWeaver • Netscape • Composer
HTTP (Hyper Text Transfer Protocol) 超文本传输协议: HTTP是Web客户机和服务器用于在网上传输、响应用户请求的协议。就是告诉浏览器去访问使用HTTP的Web页。
2.1 搜索引擎的工作原理 • 搜索引擎的英译名为Search Engine,是收录网页全文索引的数据库。指通过网络搜索软件或网站登陆等方式,将互联网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。 • 搜索引擎也不能真正理解网页上的内容,它只能机械的匹配网页上的文字 • 至少由三部分组成: • 爬行器(机器人、蜘蛛) • 索引生成器 • 查询检索器
定期搜集信息 利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。 搜索引擎在搜索网站时,总是更为全面和经常地搜索常用的网站(例如用户经常点击和带有许多链接的网站)
建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
数据的匹配 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页(搜索引擎并不真正搜索互联网)。然后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
2.2 搜索引擎的类型 • 独立搜索引擎 • 多元搜索引擎 根据搜索范围区分 • 目录式搜索引擎 • 全文搜索引擎 根据内容组织方式区分 • 单语种搜索引擎 • 多语种搜索引擎 根据工作语种区分
常用中文搜索引擎 百度搜索:http://www.baidu.com 天网搜索:http://e.pku.edu.cn 新浪搜索引擎:http://search.sina.com.cn 网易搜索引擎:http://www.yeah.net 搜狐:http://www.sohu.com 雅虎中文:http://cn.yahoo.com 悠游:http://www.goyoyo.com 若比邻:http://www.robot.com.cn 北极星:http://www.beijixing.com.cn 常青藤:http://www.tonghua.com.cn
常用英文搜索引擎 Google: http://www.google.com.hk Yahoo: http://www.yahoo.com Altavista: http://www.altavista.com/ Dogpile : http://www.Dogpile.com Excite : http://www.Excite.com HotBot: http://www.hotbot.com Infoseek:http://www.infoseek.com Lycos: http://www.lycos.com WebCrawler:http://www.Webcrawler.com
2.3 搜索引擎的一般查询规则 • 布尔逻辑算符 • 连接符——有加号(+)和减号(-) • 截词符 • 邻近符 • 空格、逗号、括号、引号 • 限定字段检索 • 自然语言检索 • 相关信息反馈检索 • 模糊检索 • 概念检索
2.4 主要搜索引擎及其实用技巧 • 百度 • Google
百度——全球最大的中文搜索引擎 百度(bǎi dù,Nasdaq:BIDU),2000年1月由李彦宏等人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。 青玉案·元夕辛弃疾 东风夜放花千树,更吹落星如雨。宝马雕车香满路,凤箫声动,玉壶光转,一夜鱼龙舞。 蛾儿雪柳黄金缕,笑语盈盈暗香去。众里寻他千百度,蓦然回首,那人却在,灯火阑珊处。
一、百度的高级搜索技巧 (1)把搜索范围限定在网页标题中:intitle: 标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。
(2)把搜索范围限定在特定站点中:site: 有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。
(3)把搜索范围限定在url链接中:inurl: 网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词
(4)精确匹配: “”和《》 • 如果输入的查询词很长,百度给出的搜索结果中的查询词可能是拆分的。如果给查询词加上双引号,就可以精确检索。 • 被书名号扩起来的内容,也不会被拆分 ,比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了。 • 书名号是百度独有的一个特殊查询语法,在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。加上书名号的查询词,有两层特殊功能:一是书名号会出现在搜索引擎中;二是被书名号扩起来的内容,不会被拆分。
(5)要求搜索结果中不含特定查询词:减号 - • 如果您发现搜索结果中,有某一类网页是您不希望看见的,那么用减号语法,就可以去除所有这些含有特定关键词的网页。 • 注意,前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能。
(6)专业文档搜索: filetype: • 很多有价值的资料,在互联网上并非以普通的网页形式出现,而是以Word、PowerPoint、PDF等文档格式存在。 • 百度支持对Office文档(包括Word、Excel、PowerPoint)、Adobe PDF文档、RTF文档的全文搜索。 • 方法为在搜索的关键词后面加一个“filetype:”文档类型限定。“filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL包含所有文件类型。
(7)并行搜索:符号︱ • 可以使用“A︱B”来搜索或者包含词语A,或者包含词语B”的网页 • 百度会提供与“︱”前后任何字词相关的资料,并把最相关的网页排在前列
二、百度的特色功能 • 百度知道 • 百度百科 • 百度搜藏 • 百度文库
Sergey Brin Larry Page 世界上最好用的搜索引擎 Google是由美国斯坦福大学的两位博士生Larry Page 和 Sergey Brin于1998年创建的。Google目前已成为最优秀的支持多语种的搜索引擎之一。
一、Google的特点 • 支持多达132种语言 • 提供40多亿个搜索网页,涵盖内容齐全 • 搜索速度快 • 结果命中率高 • 搜索结果摘录查询网页的部分具体内容,而不仅仅是网站简介 • 智能化的“手气不错”功能,提供可能最符合要求的网页 • “网页快照”功能,能从Google服务器里直接取出缓存的网页