610 likes | 1.03k Views
第二章 搜索引擎发展史与基于 google 的高级语法检索. 本章的主要内容:. 搜索引擎 是人们获取网络信息最常用的工具。. 什么是搜索引擎. 搜索引擎的类型. 搜索引擎的历史. 神奇的 Google. 检索策略与技巧. 什么是搜索引擎?. 1. 搜索引擎 (search engine) 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。 数据来源: 百度百科. 2. 工作原理.
E N D
第二章 搜索引擎发展史与基于google的高级语法检索
本章的主要内容: • 搜索引擎是人们获取网络信息最常用的工具。 什么是搜索引擎 搜索引擎的类型 搜索引擎的历史 神奇的Google 检索策略与技巧
什么是搜索引擎? • 1.搜索引擎(search engine) • 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。 • 数据来源:百度百科
2.工作原理 • 是利用其内部的一个叫Spider(蜘蛛)的程序,自动提取网站的信息和网址加入自己的数据库,供用户查询。 因此,搜索引擎并不是直接搜索网络, 而是检索已经建立的索引
Google的PR值 • PR值,即PageRank,网页的级别技术。它是Google排名运算法则(排名公式)的一部分,用来标识网页的等级/重要性。 • PR值级别从0到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。 • 原则上,一个网站的外部链接数越多,其PR值就越高;并且外部链接站点的级别越高(如教育部),网站的PR值越高。
搜索引擎的类型 • 目录式搜索引擎 • 全文搜索引擎 • 元搜索引擎 渐行渐远 如日中天 方兴未艾
2.1目录式搜索引擎 • 目录式搜索引擎:具有搜索功能,严格意义上不是真正的搜索引擎,是靠分类目录检索,用户通过逐级层层点击浏览类目,导找自己所需的信息。 • 因此,用户必须清楚信息所属的类别,才能找到相关的网站。 • 如:Yahoo!、Open Directory 、 Infoseek、 Excite等
2.2全文搜索引擎 • 是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。 • 数据来源:百度百科
常见的全文搜索引擎 • 国内:百度、搜狗、360so、中搜OpenFind、爱问、有道等 • 国外:AltaVista、FAST、Lycos 、Northern Light 、Google等
2.3 元搜索引擎 • 它是通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。 • 数据来源:百度百科
常见的元搜索引擎 • 中文元搜索引擎:万纬搜索、北斗搜索 • 外文元搜索引擎:Ask 、Chubba 、Cyber411 、Infind 、OneSeek 、Savvy Search 、SurfWax
搜索引擎的发展历史 • 缘起:1990年,Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。 • Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。
国外搜索引擎发展史 • 世界上第一个Spider程序,是MIT Matthew Gray的万维网爬行者(World wide Web Wanderer),能够捕获网址(URL)。 • Excite: 1993年2月,支持字词分析; • Yahoo!:1994年4月,人工索引; • Altavista:1995年12月,支持自然语言; • Google:1995年创立,1998年9月27日生日;
中文搜索引擎发展史 • 悠游,1996年在香港成立。一个极具高度智慧的中文搜索器,自动转换繁、简体字 • Openfind 创立于1998年1月,由台湾中正大学吴升教授创建。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎。 • 2000年1月由李彦宏、徐勇两人创立于北京中关村。
神奇的Google • Google之文件搜索 • Google之图片搜索 • Google之字典翻译 • Google之图书搜索 • Google之代码搜索 • Google之学术搜索 • Google之音乐搜索
其他Google产品 • Google earth; Google sky; Google moon; Google Mars: • Google movies: • Google picasa: • Google Groups: • Google talk; • Google mail; • Google trends;
4.1 文件搜索之高级语法 • Site:在某一类站点中查找信息; • Filetype:在某一类文件中查找信息; • Inurl:搜索的关键词包含在url链接中; • Intitle:搜索的关键词包含在标题中; • Link: 链接于该网站的网页; • Related:类似于该网站的网页;
Site语法功能 • “site”表示搜索结果局限于某个具体网站或者网站频道,如“sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“edu.cn”等等。 • “site”后所接网址“www.tzc.edu.cn”和“tzc.edu.cn”的区别; • 前者不包含二级域名,后者包含;
.com:表示商业机构 .net:表示网络服务机构 .org:表示非营利性组织 .gov:表示政府机构 .edu:表示教育机构 .mil:表示军事机构 .biz:表示商业机构 .name:表示个人网站 .info:表示信息提供 .cc:表示商业公司 .mobi:专用手机域名 顶级域名
检索案例 • 例1:想查找台州学院网页上关于你自己的信息,该怎么查找? • 例2:最近网上关于“犀利哥”的报道铺天盖地,想查找一下发布在天涯论坛上关于“犀利哥”的全部帖子,请问如何检索?
Filetype语法功能 • “filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些文档进行检索,如.xls、.ppt、.doc、.pdf、.swf等。目前Google检索的PDF文档大约有2500万左右。
例:假如你是一家企业的企划部负责人,老总突然要求你写一个本企业的网络营销策划方案,而你有没有这方面的资料怎么办?例:假如你是一家企业的企划部负责人,老总突然要求你写一个本企业的网络营销策划方案,而你有没有这方面的资料怎么办? • 语法检索:“网络营销策划方案+ filetype:doc 或者 filetype:ppt”
Inurl语法功能 • inurl语法,拆开来,就是in url ,它的作用是限定在url中搜索。URL,全称Uniform Resource Locator,中文译为“统一资源定位器”,就是地址栏里的内容。
1)、inurl:xxx 作用是命令搜索引擎查找url中包含xxx的网页。如:请查找台州学院主页上有关大运会的消息:inurl:dyh site:tzc.edu.cn • 2)、“inurl:xxx 关键词”或“关键词 inurl:xxx”两者意义一样:要搜索引擎查找满足下面两个要求的网页。如:请查找有关犀利哥新闻类的文章:犀利哥 inurl:news
Intitle语法功能 • “intitle” 语法,指令返回的是页面title中包含关键词的页面。功能是对网页的标题栏进行查询。 • 网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。
举例:搜索关于obama的speech • 检索提问式:“intitle:obama speech”
注意事项 • Site、filetype、inurl、intitle后面的“:”必须是英文符号; • “:”后面的关键词必须紧挨着冒号,不许加空格; • 各语法功能可以复合使用。
4.2 Google之图片搜索 • 支持顺序检索 • 例如:Sergey Brin and Larry Page
请搜索出五副具有中国元素的Google logo; • What:理解什么是中国元素?什么是Google logo? • Where:Google图片 • Google+logo+中国(春节、中秋、端午、清明等)
4.3 Google之翻译功能 • Google之翻译
Google之整段翻译 • [摘要]随着信息技术的迅猛发展及其在社会各个领域中得到广泛应用,信息素养作为生活在现代社会中的公民所必须具备的基本素质,越来越受到世界各国的关注和重视。本文认为信息素养不仅包括使用信息工具和信息资源的能力,还包括获取识别信息、加工处理信息、传递创造信息的能力,更重要的是以独立自主学习的态度和方法、以批判精神以及强烈的社会责任感和参与意识,将这些信息能力用于实际问题的解决和进行创新性思维的综合的信息能力。
Google之其他功能 • Google之图书搜索 • Google之代码搜索 • Google之学术搜索 • Google之音乐搜索 • ······ Gmail G-talk G-earth Picasa
检索策略与检索技巧 • 什么是检索策略? • 检索策略即检索的基本思路,是根据检索课题要求选择便捷的方法、适当的工具、在适宜的地方,查找需要的资料。
5.1 检索策略 • 检索案例的主题分析 • 关键词的提取 • 关键词的组配 • 根据检索结果调整检索策略 • 寻找信息发布源
检索案例的主题分析 • 请查询台州学院网站的Google PR值是多少? • 主题分析:什么是PR值? • 检索思路: • 在百度或Google里输入“Google PR值查询” • 把台州学院的网址URL输入进去 • 检索结果:6
例如:曾经在网上看过一个耶稣的图片,据说是用视觉暂留显示的,请想办法从网上找到它,然后根据网上提供的信息说说你从图中看到了什么?例如:曾经在网上看过一个耶稣的图片,据说是用视觉暂留显示的,请想办法从网上找到它,然后根据网上提供的信息说说你从图中看到了什么? • 主题分析:什么是视觉暂留?如何查?到哪里查?怎么查? • 提取关键词:耶稣+视觉暂留 • Google图片
关键词的提取 • 什么是关键词? • 用于表示文献主题特征或者检索课题的内容,并具有检索意义的词汇。 • 例如:“大学生在信息素养教育中的存在的问题和对策” • 信息素养+素质教育+大学生
例如:请在网上寻找世界名画《蒙娜丽莎》的图片和介绍它被偷的文章。例如:请在网上寻找世界名画《蒙娜丽莎》的图片和介绍它被偷的文章。 • 关键词1:蒙娜丽莎 • 关键词2:被偷==失窃 • Google图片:蒙娜丽莎+失窃
提取关键词的原则 • (1)不具备检索意义的词不用,如助词、虚词、连词、数量词等; • (2)专指性不强的词不用,如“教育”、“学生”; • (3)尽量避免使用口语化的语言。 • (4)注重挖掘隐性主题概念;
隐性主题概念的提取 • 瀑布+桥 • ——Falls+bridge • ——Google图片 • ——维多利亚瀑布 • ——百度百科/wiki百科 • 检索结果:维多利亚瀑布,赞比亚