420 likes | 623 Views
搜索引擎. 搜索引擎. 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。. 搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。 百度和谷歌等是搜索引擎的代表。. 全文搜索引擎是名副其实的搜索引擎,国外代表有 Google ,国内则有著名的百度搜索。它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。.
E N D
搜索引擎 • 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。 • 百度和谷歌等是搜索引擎的代表。
全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
目录索引,虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。目录索引,虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。
元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。
垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。
集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
工作原理 • 抓取网页 • 每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
处理网页 • 搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
提供检索服务 • 用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
搜索引擎历史 • 起源 • 所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。
发 展(1) • Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。 • 注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎 Dogpile
发 展(2) • 1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo!。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。 • 注:Yahoo以后陆续有 Altavista、Inktomi、Google提供搜索引擎服务
发 展(3) • 1995年,一种新的搜索引擎形式出现了——元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。 • 第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上非常好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。
发 展(4) • 智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。
百度 • 百度(Nasdaq:BAIDU)是全球最大的中文搜索引擎,2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案》诗句:“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。
百度搜索特色 • 百度快照 • 如果无法打开某个搜索结果,或者打开速度特别慢,该怎么办?“百度快照”能帮您解决问题。每个未被禁止搜索的网页,在百度上都会自动生成临时缓存页面,称为“百度快照”。当您遇到网站服务器暂时故障或网络传输堵塞时,可以通过“快照”快速浏览页面文本内容。百度快照只会临时缓存网页的文本内容,所以那些图片、音乐等非文本信息,仍是存储于原网页。当原网页进行了修改、删除或者屏蔽后,百度搜索引擎会根据技术安排自动修改、删除或者屏蔽相应的网页快照。
相关搜索 • 搜索结果不佳,有时候是因为选择的查询词不是很妥当。您可以通过参考别人是怎么搜的,来获得一些启发。百度的“相关搜索”,就是和您的搜索很相似的一系列查询词。百度相关搜索排布在搜索结果页的下方,按搜索热门度排序。
拼音提示 • 如果只知道某个词的发音,却不知道怎么写,或者嫌某个词拼写输入太麻烦,该怎么办? 百度拼音提示能帮您解决问题。只要您输入查询词的汉语拼音,百度就能把最符合要求的对应汉字提示出来。它事实上是一个无比强大的拼音输入法。 拼音提示显示在搜索结果上方。
错别字提示 • 由于汉字输入法的局限性,我们在搜索时经常会输入一些错别字,导致搜索结果不佳。别担心,百度会给出错别字纠正提示。错别字提示显示在搜索结果上方。
英汉互译词典 • 百度网页搜索内嵌英汉互译词典功能。如果您想查询英文单词或词组的解释,您可以在搜索框中输入想查询的“英文单词或词组”+“是什么意思”;如果您想查询某个汉字或词语的英文翻译,您可以在搜索框中输入想查询的“汉字或词语”+“的英语”。
计算器 • Windows 系统自带的计算器功能过于简陋,尤其是无法处理一个复杂计算式,很不方便。而百度网页搜索内嵌的计算器功能,则能快速高效的解决您的计算需求。
度量衡转换 • 在百度的搜索框中,您也可以做度量衡转换。格式如下: • 换算数量换算前单位=?换算后单位
专业文档搜索 • 很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行了全文搜索。要搜索这类文档,很简单,在普通的查询词后面,加一个“filetype:”文档类型限定。“Filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型。
股票、列车时刻表和飞机航班查询 • 在百度搜索框中输入股票代码、列车车次或者飞机航班号,您就能直接获得相关信息。
天气查询 • 使用百度就可以随时查询天气预报。再也不用四处打听天气情况了。 • 在百度搜索框中输入您要查询的城市名称加上天气这个词,您就能获得该城市当天的天气情况。
货币换算 • 要使用百度的内置货币换算器,只需在百度网页搜索框中键入您需要完成的货币转换,单击“回车”键或点击“百度一下”按钮即可。
搜索框提示 • 百度会根据您的输入内容,在搜索框下方实时展示最符合的提示词。您只需用鼠标点击您想要的提示词,或者用键盘上下键选择您想要的提示词并按回车,就会返回该词的查询结果。 您不必再费力地敲打键盘即可轻松地完成查询。
高级搜索语法 • 把搜索范围限定在网页标题中——intitle • 网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式,是把查询内容中,特别关键的部分,用“intitle:”领起来。
把搜索范围限定在特定站点中——site • 有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。
把搜索范围限定在url链接中——inurl • 网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词。
精确匹配——双引号和书名号 • 如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。如果您对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。
要求搜索结果中不含特定查询词 • 如果您发现搜索结果中,有某一类网页是您不希望看见的,而且,这些网页都包含特定的关键词,那么用减号语法,就可以去除所有这些含有特定关键词的网页。
百度图片搜索 • 筛选栏 • 筛选栏在搜索结果页面的左侧,默认为隐藏状态。您可以使用该工具栏,同时对搜索结果的尺寸、颜色和类型进行筛选。
把搜索范围限定在特定网页中——ft • 有时候,您如果知道某些网页中有自己需要找的图片,就可以把搜索范围限定在这些网页中,提高查询效率。使用方式是:在查询内容的后面加上“ft:网页地址”。
把搜索范围限定在特定站点中——site • 有时候,您如果知道某个站点中有自己需要找的图片,就可以把搜索范围限定在这个站点中,提高查询效率。使用方式是:在查询内容的后面加上“site:站点域名”。
常见的搜索失败 • 搜索引擎没有帮你找到想要的内容,原因: • 一,用来搜索的关键词太短; • 二,要搜索的内容太常见,以至网上有巨大数量的相关内容 • 链接失败,搜索到的网站已不存在 • 上次能搜到的内容,这次却搜不到,搜索引擎永不停息的从它们的索引库中抛弃已索引的网页
常见错误 • 错别字,如:周小川,周晓川 • 关键词太常见 • 多义词,如:Java • 不输入关键词,想要什么输入什么 • 在错误的地方搜索