240 likes | 651 Views
搜索引擎使用指南. 搜索引擎的发展史. 现代意义上的 ~ 的祖先: Archie 最早现代意义上的 ~ 出现于 1994 年 7 月: lycos 1994 年 4 月: David Filo 和杨致远 超级目录索引 Yahoo. 1998.9 Google. 搜索引擎含义. 搜索引擎,即 Search engine. 是一些在 web 中主动搜索信息(搜索网页上的单词和简短的特定的描述内容)并将其自动索引的 web 网站,其索引内容储存在可供检索的大型数据数据库中,建立索引和目录服务。. 搜索引擎分类.
E N D
搜索引擎的发展史 • 现代意义上的~的祖先:Archie • 最早现代意义上的~出现于1994年7月:lycos • 1994年4月:David Filo 和杨致远 超级目录索引Yahoo. • 1998.9 Google
搜索引擎含义 • 搜索引擎,即Search engine. 是一些在web中主动搜索信息(搜索网页上的单词和简短的特定的描述内容)并将其自动索引的web网站,其索引内容储存在可供检索的大型数据数据库中,建立索引和目录服务。
搜索引擎分类 • 全文搜索引擎(Full Text Search Engine)Google、Altavista、百度 • 目录索引(Search index/Directory)Yahoo雅虎,搜狐、新浪、网易搜索 • 元搜索引擎(METASearch Engine) InfoSpace Dogpile Vivisimo
著名搜索引擎简介 国外英文目录索引 • Yahoo — 最著名的目录索引,搜索引擎开山鼻祖之一。http://www.yahoo.com/ • Dmoz.com/ODP — 由义务编辑维护的目录索引。http://www.dmoz.com/ • Ask Jeeves — 著名的自然语言搜索引擎,2002年初收购Teoma全文搜索引擎。http://www.ask.com • LookSmart — 点击付费索引目录,2002年收购WiseNut全文搜索引擎。http://www.looksmart.com/ • About.com — 有其自身特色的目录索引。
国外英文搜索引擎 • Google — 以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。http://www.google.com/ • Fast/AllTheWeb — 总部位于挪威的搜索引擎后起之秀,风头直逼google。http://www.AllTheWeb.com / • AltaVista — 曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。 由于种种原因,目前国内用户无法直接访问AltaVista。 • Overture — 最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。 • Lycos — 发源于西班牙的搜索引擎,网络遍布世界各地。 http://www.lycos.com / • HotBot — 隶属于Lycos Networks,搜索结果来自其他搜索引擎及目录索引。 http://www.hotbot.com
国内目录索引 • 搜狐(Sohu)— 国内三大门户之一,最早在国内推出搜索引擎收费登录服务。http://dir.sohu.com/ • 新浪(Sina)— 最大的中文门户网站,同样也推出了搜索引擎收费索引项目。http://search.sina.com.cn/ • 网易(Netease)— 网易搜索是ODP的国内翻版,其目录由志愿管理员维护,是google的网页搜索用户。http://search.163.com/
国内目录索引 • 雅虎 http://cn.yahoo.com/ • lycos中国 http://www.lycos.com.cn/ • 法律网站 http://www.law-lib.com/lawseek • 北极星 http://www.beijixing.com.cn
国内搜索引擎 • 百度(Baidu)— 国内唯一商业化的全文搜索引擎,提供搜狐、新浪、263、Tom等站点的网页搜索服务。 http://www.baidu.com/
Google 使用技巧 • 基本搜索 自动使用“and”进行查询。输入多个关键词,只要加空格就可以。 • 搜索:“搜索引擎”结果:已搜索有关搜索引擎的中文(简体)网页。 共约有796,000项查询结果,这是第1-10项 。 搜索用时0.08秒。 • 示例:搜索所有包含关键词“搜索引擎”和“历史”的中文网页搜索:“搜索引擎 历史”结果:已搜索有关搜索引擎 历史的中文(简体)网页。 共约有82,500项查询结果,这是第1-10项 。 搜索用时0.36秒。
搜索结果要求不包含某些特定信息 Google用减号“-”表示逻辑“非”操作。“A –B”表示搜包含A但没有B的网页。 示例:搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史”和“世界历史”的中文网页搜索:“搜索引擎 历史 -文化 -中国历史 -世界历史”结果:已搜索有关搜索引擎 历史 -文化 -中国历史 -世界历史的中文(简体)网页。共约有48,000项查询结果,这是第1-10项 。 搜索用时0.25秒
搜索结果至少包含多个关键字中的任意一个 • Google用大写的“OR”表示逻辑“或”操作。搜索“A OR B”,意思就是说,搜索的网页中,要么有A,要么有B,要么同时有A和B。在上例中,我们希望搜索结果中最好含有“archie”、“lycos”、“蜘蛛”等关键字中的一个或者几个,这样可以进一步的精简搜索结果。 • 示例:搜索如下网页,要求必须含有“搜索引擎”和“历史”,没有“文化”,可以含有以下关键字中人任何一个或者多个:“Archie”、“蜘蛛”、“Lycos”、“Yahoo”。搜索:“搜索引擎 历史 archie OR 蜘蛛 OR lycos OR yahoo -文化”结果:已搜索有关搜索引擎 历史 archie OR 蜘蛛 OR lycos OR yahoo -文化的中文(简体)网页。 共约有7,440项查询结果,这是第1-10项 。 搜索用时0.16秒。
Google 使用技巧 • 英文字符大小写不敏感。 • 搜索整个短语或者句子 • Google的关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语做关键字,必须加英文引号,否则空格会被当作“与”操作符。 • 示例:搜索关于第一次世界大战的英文信息。搜索:“"world war I"”
搜索引擎忽略的字符以及强制搜索 • Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。 • 示例:搜索关于www起源的一些历史资料。搜索:“www的历史 internet”结果:以下的字词因为使用过于频繁,没有被列入搜索范围: www 的. 已搜索有关www的历史 internet的中文(简体)网页。 共约有75,100项查询结果,这是第1-10项 。 搜索用时0.22秒。
搜索引擎忽略的字符以及强制搜索 • 如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。搜索:“+www +的历史 internet”结果:已搜索有关+www +的历史 internet的中文(简体)网页。 共约有106,000项查询结果,这是第1-10项 。 搜索用时0.05秒。
搜索“我的太阳” 搜索“”我的太阳””
高级搜索 • Site表示搜索结果局限于某个具体网站或网站频道,如“zscas.edu.cn” , “sina.com.cn”, 或者是某个域名,如“com.cn”, “com” 等。 注:site后的冒号为英文字符,而且,冒号后不能有空格。此外,网站域名不能有“http”以及“www”前缀。
高级搜索 • 例:在文理学院网站上查找“越文化” 越文化 site:zscas.edu.cn • 例:搜索中文教育科研网站(edu.cn)上的所有包含“三个代表”的页面三个代表 site:edu.cn
搜索的关键字包含在URL链接中 • Inurlinurl语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“MIDI”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。
高级搜索 • 示例:查找MIDI曲“沧海一声笑”。 • 搜索:“inurl:midi 沧海一声笑” • 结果:已搜索有关inurl:midi 沧海一声笑的中文(简体)网页。共约有14项查询结果,这是第1-10项。搜索用时0.01秒。
搜索的关键字包含在网页标题中 • Intitle的用法类似于上面的inurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面
示例:查找有关三个代表的体会的文章。 • 搜索:“intitle:三个代表 体会” • 结果:已搜索有关intitle: 三个代表 体会的中文(简体)网页。共约有5390项查询结果,这是第1-10项。搜索用时0.03秒。
在某一类文件中查找信息 • “filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前Google检索的PDF文档大约有2500万左右,大约占所有索引的二进制文档数量的80%。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。
数据仓库 filetype:doc • 数据挖掘 filetype:doc • 网站策划书 filetype:doc • FDI filetype:doc • FDI filetype:pdf