580 likes | 694 Views
今天你 Google 了吗? —— 走近搜索引擎. Google/baidu/yahoo/sohu/tianwang. 搜索引擎 是用户查找网站的第一途径 —— 数据来源自 CNNIC 发布的《中国互联网络发展状况统计报告 》. 搜索引擎的现状. 全球每天约有近4亿次搜索请求,其中中国超过5000万次 68.3%网民使用搜索引擎,仅次于电子邮件 84.6% 网民是通过搜索引擎发现新的网站,排名第一 41%网民是通过搜索引擎进入在线购物平台. 搜索引擎概述. 搜索引擎的定义.
E N D
今天你 Google了吗?——走近搜索引擎 Google/baidu/yahoo/sohu/tianwang
搜索引擎是用户查找网站的第一途径——数据来源自CNNIC发布的《中国互联网络发展状况统计报告》搜索引擎是用户查找网站的第一途径——数据来源自CNNIC发布的《中国互联网络发展状况统计报告》
搜索引擎的现状 • 全球每天约有近4亿次搜索请求,其中中国超过5000万次 • 68.3%网民使用搜索引擎,仅次于电子邮件 • 84.6% 网民是通过搜索引擎发现新的网站,排名第一 • 41%网民是通过搜索引擎进入在线购物平台
搜索引擎概述 搜索引擎的定义 搜索引擎是一种能够通过Internet 接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统。
搜索引擎的发展史 • 搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。 • 最早现代意义上的搜索引擎Lycos出现于1994年7月 • 同年4月,斯坦福大学的两名博士生和美籍华人杨致远共同创办了超级目录索引Yahoo • 从此搜索引擎进入了高速发展时期, • 在1998年著名搜索引擎Google诞生了。
搜索引擎工作原理 全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。
搜索引擎概述 信息搜集 主要任务 信息处理 信息查询
搜索引擎概述 搜索引擎的种类 按工作语种区分 单语种搜索引擎 多语种搜索引擎
搜索引擎概述 按搜索范围区分 独立搜索引擎 元搜索引擎
搜索引擎概述 元搜索引擎 元搜索引擎是用户同时利用多引擎进行网络搜索的中介。检索时,元搜索引擎根据用户提交的检索请求,调用源搜索引擎进行搜索,对搜索结果进行汇集、筛选、删并等优化处理后,以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。
中外搜索引擎简介 • 国外英文目录索引 • Yahoo — 最著名的目录索引,搜索引擎开山鼻祖之一。 • Dmoz.com/ODP — 由义务编辑维护的目录索引。 • Ask Jeeves — 著名的自然语言搜索引擎 • About.com — 有其自身特色的目录索引。 • 国外英文搜索引擎 • Google —是目前搜索界的领军人物。 • Fast/AllTheWeb — 总部位于挪威的搜索引擎后起之秀 • AltaVista — 曾经的搜索引擎巨人,目前仍是最好的搜索引擎之一。 • Overture — 最著名的搜索引擎广告商 • Lycos — 发源于西班牙的搜索引擎 • 国内三大门户网站
百度 发展历程 2000年1月1日,公司创始人李彦宏、徐勇携120万美元风险投资,从美国硅谷回国,创建了百度公司。 2000年5月,百度首次为门户网站——硅谷动力提供搜索技术服务,之后迅速占领中国搜索引擎市场,成为最主要的搜索技术提供商。 2005年8月5日,百度在美国纳斯达克上市,成为2005年全球资本市场上最为引人注目的上市公司,百度由此进入一个崭新的发展阶段。 2008年1月23日,百度日本公司正式运营,百度全面启动国际化战略。
NASDAQ上市 8月5日晚11点40分,百度公司正式在美国NASDAQ挂牌上市,发行价27美元,开盘价66美元,收于122.54美元,上涨95.54美元,涨幅353.85%。最低60美元,最高见151.21美元,交易量22,516,800股。以上市首日收盘价计算,百度市值已经达到39.58亿美元。
互联网新领军人物 1968年生人 1987--1991年毕业于北京大学信息管理专业 1991赴美国布法罗纽约州立大学完成计算机科学硕士学位 国际知名互联网企业-INFOSEEK资深工程师 观澜湖2010胡润百富榜: 第5名 360亿人民币
百度 (www.baidu.com) 超过10亿张中文网页 baidu 超过9000万张图片 超过500万首中文歌曲
百度 –限定检索策略 把搜索范围限定在网页标题中——intitle 网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中。 格式 intitle: 范例 电子资源 intitle:图书馆
百度 –限定检索策略 把搜索范围限定在特定站点中——site 把搜索范围限定在这个站点中,提高查询效率 格式 site:站点域名 范例 姚明site:sina.com.cn
百度 –限定检索策略 把搜索范围限定在url链接中——inurl 网页url中的某些信息,常常有某种有价值的含义。于是,你如果对搜索结果的url做某种限定,就可以获得良好的效果。 格式 inurl: 范例 photoshop inurl:jiqiao
百度 –限定检索策略 支持Word、PowerPoint、PDF等文档检索 格式 filetype: 范例 细胞学 filetype:ppt “Filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。
百度 小技巧 1.天气查询 常州天气 2.计算器和度量衡转换 798/675*76+8 -5摄氏度=?华氏度
百度 更多 http://image.baidu.com/ 世界上最大的中文图片搜索引擎
百度 更多 http://mp3.baidu.com/ 支持MP3/ rm/ wma格式
百度 更多 http://zhidao.baidu.com/
百度 更多 http://map.baidu.com/ 方便的出行指南,快速获取周边信息
百度 Hi http://im.baidu.com/
Google简介 • Google 是从第一代搜索引擎中脱颖而出的第二代搜索引擎的代表。1998 年,两位斯坦福大学的博士生创立了Google,它的使命就是要为用户提供网上最好的查询服务,促进全球信息的交流。Google 开发出了世界上最大的搜索引擎,
Google基本搜索 • 第一次搜索实践 • 为了方便讲解,我们假定你是个搜索新手,想要了解一下搜索引擎的来龙去脉和搜索技巧。在搜索框内输入一个关键字“搜索引擎”, 选中“搜索中文(简体)网页”选项,然后点击下面的“Google搜索”按钮(或者直接回车),结果就出来了。
Google基本搜索 • 第二步:增加关键词,缩小范围 • 示例: • 搜索所有包含关键词“搜索引擎”和“历史”的中文网页搜索: • 输入:搜索引擎 历史
Google基本搜索 • 第三步、排除某些特定信息 • Google用减号“-”表示逻辑“非”操作。“A –B”表示搜索包含A但没有B的网页。 • 示例:搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史”和“世界历史”的中文网页搜索:“搜索引擎 历史 -文化 -中国历史 -世界历史”
Google基本搜索 • 第四步:从搜索结果中更新检索策略 • 点开se-express.com的这个名为“搜索引擎发展历史”的网页,我们发现,搜索引擎的历史,是与互联网早期的文件检索工具“Archie”息息相关的。此外,搜索引擎有个核心程序,叫“蜘蛛”,使搜索引擎深入人心的是“Yahoo”。了解了这些信息,我们就可以进一步的让搜索结果符合要求了。 • 示例:搜索如下网页,要求必须含有“搜索引擎”和“历史”,没有“文化”,可以含有以下关键字中的任何一个或者多个:“Archie”、“蜘蛛”、“Yahoo”。、 • 检索式: “搜索引擎 历史 archie OR 蜘蛛 OR yahoo -文化”
Google的语法 • 搜索引擎最基本的语法“与”“非”和“或”,这三种搜索语法Google分别用“ ”(空格)、“-”和“OR”表示。顺着上例的思路,你也可以了解到如何缩小搜索范围,迅速找到目的资讯的一般方法,即: • 目标信息一定含有的关键字(用“ ”连起来), • 目标信息不能含有的关键字(用“-”去掉), • 目标信息可能含有的关键字(用“OR”连起来)。
通配符问题 • Google对通配符支持有限。它目前只支持“*”,不支持?号。 • 比如,“以*治国”,表示搜索第一个为“以”,末两个为“治国”的四字或四字以上的短语,中间的“*”可以为任何字符。 • 关键字的字母大小写 • Google对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。 • 搜索整个短语或者句子 • Google的关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语做关键字,必须加英文引号,否则空格会被当作“与”操作符。
搜索引擎忽略的字符 • Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。 • 示例:搜索关于www起源的一些历史资料。如果我们用检索式 “www的历史 internet”进行搜索,则得到的结果冠盖实际上只是搜索了“历史”和“internet” 两个关键词的结果,而“www的”却被忽略了。
强制搜索 • 如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上英文的“+”号。比如:搜索关于www起源的一些历史资料搜索:则我们可以用下面的检索式进行搜索: • +www +的历史 internet • 另一个强制搜索的方法是把上述的关键字用英文双引号引起来。 • 例如上面的例子可以构造成如下的检索式: • "www的历史" internet • 注意:大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。
在某一类文件中查找信息---- filetype:语法 • “filetype:”是个非常强大实用的一个搜索语法。它能实现对某些二进制文档的搜索。如:.xls、.ppt、.doc, .swf、.pdf文档等共13种类型。 • 例如:关键词 filetype:pdf
对搜索的网站进行限制 “site”表示搜索结果局限于某个具体网站或者网站频道,如site:www.sina.com.cn表示只搜索新浪网、site:.com表示只搜索商业机构网站,site:com.cn表示只搜索中国的商业机构网站。 如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。 示例一:搜索中文教育科研网站(edu.cn)上关于搜索引擎技巧的页面。检索式:“搜索引擎 技巧 site:edu.cn”注意: site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http://”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。
其它范围限定搜索方法 • Intitle:搜索关键词( Intitle: 关键字)只搜索网页标题含有关键词的页面 • Inurl:搜索关键词( Inurl: 关键字)只搜索网页链接含有关键词的页面 • Intext:搜索关键词( Intext: 关键字)只搜索网页标签中的文本含有关键词的页面