680 likes | 836 Views
目次. 第 1 章 绪 论 第 2 章 信息检索基础 第 3 章 搜索引擎 第 4 章 事实和数值型信息检索 第 5 章 图书信息检索 第 6 章 期刊信息检索 第 7 章专利信息及商标信息检索 第 8 章 其他信息检索 第 9 章 检索案例选编 第 10 章 检索效率 第 11 章信息的分析利用. 第 3 章 搜索引擎. 3.1 概述 3.2 典型的搜索引擎 3.3 搜索引擎的检索技巧. 3.1 概述. 3.1.1 基本概念 3.1.2Internet 的主要信息服务类型 3.1.3 搜索引擎的类型. 3.1.1 基本概念.
E N D
目次 • 第1章 绪 论 • 第2章 信息检索基础 • 第3章 搜索引擎 • 第4章 事实和数值型信息检索 • 第5章 图书信息检索 • 第6章 期刊信息检索 • 第7章专利信息及商标信息检索 • 第8章 其他信息检索 • 第9章 检索案例选编 • 第10章 检索效率 • 第11章信息的分析利用
第3章 搜索引擎 3.1 概述 3.2 典型的搜索引擎 3.3 搜索引擎的检索技巧
3.1 概述 3.1.1基本概念 3.1.2Internet的主要信息服务类型 3.1.3 搜索引擎的类型
3.1.1基本概念 1.搜索引擎 搜索引擎是Internet上的一种网站,它的主要任务是在Internet上主动搜索Web服务器信息并将其自动索引,其索引内容存储于可供查询的大型数据库中。 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 2.域名 从字面上讲,域名就是Internet上某个区域的名字。可以简单将域名理解为任何一个想要和Internet连接的公司或机构在Internet上的注册地址。 完整的域名包括三段,例如“www.ibm.com”指的是ibm.com域内的一台名叫www的主机。 注意:域名、IP地址、域名服务器三者之间的关系
3.1.2Internet的主要信息服务类型 • URL是一种统一格式的Internet信息资源地址表达方法,是Uniform Resource Locator的缩写,全称为“统一资源定位器”。简单地说,就是地址栏里的域名等。它将Internet提供的各类服务统一编址,以便用户通过Web客户程序进行查询。在格式上URL可以分成以下三个基本部分: • 信息服务类型://信息资源地址/文件路径
3.1.2Internet的主要信息服务类型 • 目前编入URL中的信息服务类型有以下几种: • http://HTTP服务器。这是主要用于提供超文本信息服务的Web服务器。 • telnet://Telnet服务器。供用户远程登录使用的计算机。 • ftp://FTP服务器。用于提供各种普通文件和二进制代码文件的服务器。 • gopher://Gopher服务器。 • wais://WAIS服务器。 • news://网络新闻USENET服务器。 • 双斜线“//”表示跟在后面的字符串是网络上的计算机名称,即信息资源地址,以示和跟在单斜线“/”后面的文件路径相区别
举例 • http://www.sjstc.edu.cn/wwwboard/default.htm代表使用超级文本传输协议HTTP提供超级文本信息服务的资源。其计算机域名为www.sjstc.edu.cn,超级文本文件(文件类型为.htm)是在目录/wwwboard下的default.htm。从域名上可以看出,这是中国教育网络的一台计算机。 • telnet://odysseus.circe.com:70代表使用远程登录服务协议Telnet提供信息服务的资源。其计算机域名为odysseus.circe.com。使用的端口号是70。这是一家商业公司。 • ftp://ftp.w3.org/pub/www/doc代表使用文件传输协议FTP发布文件的资源。其计算机域名为ftp.w3.org,存放对外发送文件的目录是/pub/www/doc。使用FTP几乎可以传送任何类型的文件,文本文件、二进制文件、图像文件、声音文件、数据压缩文件等
3.1.3 搜索引擎的类型 • 1.根据搜索引擎的数据检索机制划分 • 2.按检索内容划分 • 3.按搜索引擎数据来源划分 • 4.主题搜索引擎的关键词语法规则
3.1.3 搜索引擎的类型1.根据搜索引擎的数据检索机制划分 • 1)主题型搜索引擎 • 2)分类型搜索引擎 • 3)混合型搜索引擎
主题型搜索引擎将不断收集到的网上页面及地址信息以数据库的形式组织存贮。主题型搜索引擎将不断收集到的网上页面及地址信息以数据库的形式组织存贮。 查询时用户向其提问框中输入关键词,搜索引擎便会从数据库中检索与之相匹配的相关记录,按一定的排序返回给用户。 优点:是查询全面、充分,用户能够对各网站的每篇文章中的每个词进行搜索,检索直接、方便,而且可使用布尔逻辑检索、短语检索等高级功能。 缺点:繁多而杂乱的感觉。 代表性的主题型搜索引擎是Google、百度(Baidu)网站。 主题型搜索引擎 图3-1 Google的界面
通过用户浏览层次类型目录来寻找所需信息。 分类一般按主题分类,并辅之以年代、地区等分类。 网站多以此方式组织。例如:新浪>分类目录>计算机与互联网> 硬件>行情报价。 优点:使用户清晰方便地查找到某一大类信息,尤其适合那些希望了解某一范围内信息,并不严格限于查询关键字的用户。 缺点:搜索范围较全文搜索引擎要小许多,尤其是当用户选择类型不当时,可能遗漏某些重要的信息源。 代表性的目录式分类搜索引擎是Yahoo、搜狐、新浪网站 分类型搜索引擎 图3-2 Yahoo的目录界面
3.1.3 搜索引擎的类型2.按检索内容划分 • 综合型 • 专题型 专门采集某一主题范围的信息资源,并用更为详细和专业的方法对信息资源进行标引描述。 • 特殊型
综合型搜索引擎在采集标引信息资源时不限制资源的主题范围和数据类型,又称为通用型检索工具。如:Google、百度(Baidu)、AltaVista、Excite、Yahoo等也有这种混合功能。图3-4是Yahoo的检索界面,既有检索窗口,也有分类浏览目录。综合型搜索引擎在采集标引信息资源时不限制资源的主题范围和数据类型,又称为通用型检索工具。如:Google、百度(Baidu)、AltaVista、Excite、Yahoo等也有这种混合功能。图3-4是Yahoo的检索界面,既有检索窗口,也有分类浏览目录。 综合型搜索引擎 图3-4 Yahoo的检索界面
特殊型检索工具指那些专门用来检索某一类型信息和数据的检索工具,如查询地图的检索工具“MapBlast”、查询图像的检索工具“WebSEEK”等。特殊型检索工具指那些专门用来检索某一类型信息和数据的检索工具,如查询地图的检索工具“MapBlast”、查询图像的检索工具“WebSEEK”等。 图3-5是地图搜索引擎的界面。 特殊型检索工具 图3-5 Go2map.com的界面
3.按搜索引擎数据来源划分 • 单独型搜索引擎 拥有独立的采集标引机制和独立的数据库 • 集中型搜索引擎 没有自己的数据库,它利用一个统一的界面,查询其他独立的搜索引擎。
4.主题搜索引擎的关键词语法规则 • 1)自动将关键词拆分进行模糊查询 目前自动将关键词拆分进行模糊查询的搜索引擎有Google、百度(Baidu)、中文雅虎、首都在线等。 • 2)按关键词进行精确查询 按关键词进行精确查询的有新浪、搜狐、网易、找到啦、中华网和常青藤等。 • 3)检索式的运算符号 (1) 使用逻辑运算算符 (2) 使用位置算符 (3)使用字段限定
(1) 使用逻辑运算算符 • 搜索引擎基本上都支持“与”、“或”、“非”、括号或引号等逻辑运算符号, • 不同的搜索引擎使用的逻辑符不完全相同, • 常见的有“AND”、“OR”、“NOT”以及“+”、“-”、“&”、“^”等逻辑符号 • AND”在中文搜索引擎都可以用空格代替; • “NOT”有时可以用减号代替,格式如“关键词A-关键词B”,减号前面要有空格。 • “OR”有时用“|”表示,例如在百度搜索引擎的格式是“关键词A | 关键词B”。 • Google直接用“OR”表示,格式是“关键词A OR 关键词B”。
(2) 使用位置算符 • AltaVista使用位置算符“NEAR/n”,n是两个词之间的单词的数目 • 如:“Microsoft NEAR/5 Internet”表示在“Microsoft”和“Internet”这两个关键字之间的单词数目不得超过5个。 • 如果不输入n,表示两个词挨在一起。为了控制挨在一起的两个词之间的顺序,可以使用“ADJ”(adjacent)操作符 • 如:“Microsoft ADJ Internet”,表示“Microsoft”必须在“Internet”之前。
(3)使用字段限定 • ① intitletitle是网页的标题, intitle: A指所有搜索结果的title中都要包含“关键词A”。 • ② sitesite是限定在某类站点或某个网站内搜索。 例如“论坛搜索引擎 site:sowang.com ”,是在sowang这个网站内搜索“论坛搜索引擎”的网页。 • ③ filetype filetype是限定文件类型。 用法是“关键词A filetype:文件格式后缀名”。 如“个人年终总结 filetype:doc”,搜索结果全都是word文件的个人年终总结。 • ④ inurl url就是地址栏里的域名等。 inurl常见的使用方式是“关键词A inurl:英文字符B”。 例如“搜索引擎 inurl:ssyq ”,是检索在url中含有ssyq的网页中关于“搜索引擎”的信息。 返回目次3.1
3.2 典型的搜索引擎 • 1. Google • 2. 百度 • 3. 搜狐 • 4. 新浪网 • 5. 其他搜索引擎 • 6. 特殊型搜索引擎 • 返回目次
3.3 搜索引擎的检索技巧 • 3.3.1常规的检索技巧 • 3.3.2 Google和百度的高级检索技巧
3.3.1常规的检索技巧 • 1.分类查询 • 2.关键词查询 • 3.多次查找 • 4.按照地域查询 • 5.查询最新信息 • 6.其它搜索技巧
1.Google高级检索技巧 • 1)短语检索 • 2)字段限定检索 (1) 限定网站 【实例】输入“金庸 site:edu.cn”搜索中文教育科研网站(edu.cn)上所有包含“金庸”的页面。 (2) 限定网页 【实例】输入“inurl:midi 沧海一声笑”查找MIDI曲“沧海一声笑”。 (3) 限定标题 【实例】输入intitle:“Browser Launch Page”,搜索网络摄像头。 (4) 限定文件类型
2.百度的高级搜索技巧 • 【实例】输入“问情 inurl:mp3”,搜索《戏说乾隆》的主题曲。 • 【实例】输入“小说 intitle:bookmarks”查找小说的精彩站点。 • 【实例】输入“摄影site:hao123.com”检索摄影网站hao123的摄影信息。
第4章 事实和数值型信息检索 • 4.1基本知识 • 4.2事实和数值检索工具介绍 • 4.3检索示例
4.1基本知识 • 4.1.1事实和数值型检索的含义 • 4.1.2 事实数据的类型
4.1.1事实和数值型检索的含义 1.事实型检索以特定的事实为检索对象。 2.数值型检索是以特定的数值为检索对象。 3.信息检索分为事实型检索(Fact Retrieval)、数值型检索(Data Retrieval)和文献型检索(Document Retrieval)三种类型。 4.信息检索三种类型之间的区别
4.1.2 事实数据的类型 • 1.查找字、词 • 2.查找名词术语 • 3.查找统计资料 • 4.查找数值、公式、规格、条例、专业知识 • 5.查找人物、机构信息 • 6.查找地名、地图信息 • 7.查找图像资料信息 • 8.查找百科知识 • 9.查找历史事件、年代和日期 • 10.查找产品资料信息 • 11.查找考试信息 • 12.查找广告信息
3.查找统计资料 • 网站类: (1) 政府网站:我国中央和国务院机构、全国性社会团体网站已有100多个政府网站。 (2) 统计网站:主要指各级政府统计行政部门主办的综合性或专门性统计信息网站。在查考最新统计信息、统计数据方面,有其他信息源和检索工具不可比拟的优势。 (3) 经济网站:主要指由经济研究机构、信息咨询公司等主办的以提供经济信息为主要内容的网站。 • 印刷本工具: (1) 年鉴:《世界年鉴》、《中国百科年鉴》、《中国统计年鉴》等。 (2) 手册和资料汇编:《中国统计摘要》、《世界经济统计手册》等。 (3) 公报、报刊:《中华人民共和国国务院公报》、《政府工作报告》等。
4.查找数值、公式、规格、条例、专业知识 • 查考数值、公式、规格、条例、专业知识的数据库主要有: • 1)中国科学数据库(http:// www.sdb.ac.cn/) 由中国科学院创建。内容涵盖了多种学科,提供了大量具有重要科学价值和实用意义的科学数据和资料。 • 2)贝尔斯坦/盖墨林化学数据库Beilstein/Gemlin Cross Fire • 3)物质的物理化学参数数据库(http://physics.nist.gov/CUU/Constants/index. html)。 • 4)化学元素周期表(http://www.Shef.ac.uk/chemistry/web-elements/) 查找此类信息的印刷本参考工具书宜采用手册、表册。手册也有叫“指南”、“便览”、“须知”、“大全”;包括综合性《读者百科词典》、《世界知识手册》等和专科性《农业技术实用手册》、《世界经济手册》等。此外,还有表册,如《常用数学公式大全》、《电子学数据表与公式手册》。
8.查找百科知识 指对综合学科或专门学科知识的了解,以及对各类社会资源的调查、统计和历史记载等,利用百科全书、百科辞典、古代的类书。 • 1)综合性百科全书网络数据库 • 2)专业类网络版百科全书 • 3) 具有百科全书性质古代类书,如:《古今图书集成》、《十通》、《北堂书钞》、《艺文类聚》等
11.查找考试信息 • 查找考试信息的主要网站有: • 1)中国考试网(http://www.xinoexam.cn) • 2)中国教育考试网(http://www.neea.edu.cn),为广大考生提供求学咨询、招考指南、网上报考等全方位服务的大型招生考试类专业网站。 • 3)计算机考试网(http://www.pc30.com) • 4)无忧考试网(http://www.51kaoshi.com) • 5)Kaplan 教育考试中心(http://www.kaplan.com)为高中生、大学生、研究生的各个专业提供考试信息。
12.查找广告信息 • 查找广告信息的网站有: • 1)中国广告网(http://www.cnad.com) • 2)中华广告网(http://www.a.com.cn) • 3)广告人社区(http://www.g999.com) • 4)中国广告人网(http://www.chinaadren.com) • 5)全国广告资料库实时查询系统(http://www.okokok.com.cn/pdayres) • 返回目次4.1
4.2事实和数值检索工具介绍 • 4.2.1综合性检索工具 • 4.2.2专科类检索工具 • 4.2.3专题检索工具
4.2.1综合性检索工具 • 1.中文类 1)《中国大百科全书》 2)《四库全书》 • 2.外文类 1)《美国百科全书》(The Encyclopedia American,EA) 2)《不列颠百科全书》(Encyclopedia Britannica Online,EB ) 3)《科里尔百科全书》(The Collier’s Encyclopedia,CE)
4.2.2专科类检索工具 • 1.中文类 1)年鉴 2)统计资料和统计网站 3)手册 • 2.外文类 • 1)联合国粮农组织的统计数据库 • 2)贝尔斯坦有机化学手册及盖墨林无机化学手册
1)年鉴 • 特点: (1) 连续出版,有重要的史料价值 (2) 内容新颖。 (3) 信息量大 (4) 选材具有一定的权威性 • 【实例】用__检索2004年中国经济领域的统计数据、政策、会议、新理论。 (A)中国经济年鉴 (B)中国统计年鉴 (C)中国大百科全书(经济卷)(D)经济管理大辞典
手册 • 手册是汇集某一专业领域或范围内经常需要参考的资料、文献或专业知识的工具书。 • 被称为指南、要览、便览、大全、须知等等。 • 手册根据收录的内容不同,分为综合性和专科性两种类型。 • 特点:资料准确、内容成熟、叙述简练,常以公式、数据、规章、条例、图表作为表述方法,实用性强,查找方便。 • 【实例】用___检索消化系统药物大黄(Rhizoma Rhei)粉末对犬的致泻量 • 选项 (A)农业大辞典 (B)中国大百科全书(农业卷) • (C)《畜禽药物使用手册》 (D)《肉制品配方1800例》 • (E)水产养殖和鱼病防治手册 (F)中国实用养禽手册
4.2.3专题类检索工具 主要是门户网站 中国国家科学数字图书馆信息门户网址:(http://www.csdl.ac.cn/ejournal/CSDL--SubjInfo.php 数理学科信息门户(http://159.226.100.9:8000/); 化学学科信息门户(http://chemport.ipe.ac.cn); 生命科学学科信息门户(http://www.lifesciences.cn/); 图书情报学科学科信息门户(http://tsg.csdl.ac.cn/); 资源和环境科学信息门(http://www.resip.ac.cn/) 返回目次4.2
4.3检索示例1 【实例】检索课题:有关国内酸奶市场的现状 • 【题解】选择数据库:中国资讯行(CHINA INFOBANK)数据库中的“中国经济新闻库”。 • 选择关键词:酸奶、酸牛乳、乳酸 • 时间选择:全部数据 • 检索字段:标题 • 实施检索:词间用空格隔开,逻辑关系为:任意词命中 • 检索结果:536篇。
4.3检索示例2 【实例】查:世界最长的河流是哪一条? • 【题解】用Google搜索引擎,输入:世界最长的河流,结果:. • 【实例】查:第一部有声电影是什么时候第一次放映的? • 【题解】用百度,高级搜索,输入:世界*第一部*有声电影,结果:
第5章 图书信息检索 • 5.1基本知识 • 5.2主要检索工具 • 5.3检索示例
5.1基本知识 • 定义:图书信息检索是根据用户的需求,运用检索工具和一定的技术手段,对有序化的图书信息集合进行查询,获取符合检索要求的有关信息。 • 本质:匹配过程。 • 检索结果:通常显示为书目信息,即书名、责任者、出版信息(不含图书收藏信息部分)、价格等,馆藏图书还有索书号、馆藏地点、是否在馆、预约等信息。 • 出版书目、书店书目更新快,及时报道新书动态。 • 目前图书信息的检索功能功能和效果远远不及期刊和专利数据库。
5.2主要检索工具 • 5.2.1图书出版信息检索工具 • 5.2.2图书馆目录信息检索系统 • 5.2.3网上书店 • 5.2.4数字图书馆信息检索系统
5.2.1图书出版信息检索工具 • 1.《全国新书目》 该书目收录全国各出版社近期出版的新书。 • 2. 新华书目报 报道最近出版和即将出版的新书 • 3. 出版社目录 只报道本社出版的图书
主要用于检索本馆收藏图书的目录,特别是收藏信息主要用于检索本馆收藏图书的目录,特别是收藏信息 5.2.2图书馆目录信息检索系统 图5-1中国国家图书馆“公共检索”界面
5.2.3网上书店 • 1. 亚马逊网上书店 • 由杰夫·贝索斯创办的全球第一家网上书店 • 2. 当当网上书店 • 1999年11月建成的中文网上书店,网上展示20万余种图书的全部详细信息 • 3. 上海书城 • 是启明公司基于IBM Net Commerce电子商务解决方案开发的国内首家实现网上安全电子交易(即SET协议)的网上商店,可向来自全球的顾客提供20余万册的图书音像等出版物。