250 likes | 335 Views
搜 索 引 擎. 搜索引擎的作用. 网页搜索 搜索包含指定关键字的网页。 各种类型的文件搜索 软件安装程序 如 IE6.0 的安装软件 图片文件 如一朵玫瑰 其他指定格式的文件搜索 如一首 MP3 的歌曲、一个 Flash(SWF) 动画文件. 搜索引擎的分类. 一种是通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务,因此是真正的搜索引擎,如 Google 、 Excite 、天网、百度等。
E N D
搜索引擎的作用 • 网页搜索 • 搜索包含指定关键字的网页。 • 各种类型的文件搜索 • 软件安装程序 如IE6.0的安装软件 • 图片文件 如一朵玫瑰 • 其他指定格式的文件搜索 如一首MP3的歌曲、一个Flash(SWF)动画文件
搜索引擎的分类 • 一种是通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务,因此是真正的搜索引擎,如Google、Excite、天网、百度等。 • 另一种是目录索引,仅仅是按目录分类,将网站列表并链接,用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息,实际上这种目录索引算不上是真正的搜索引擎。如Yahoo等。
工作原理 • 搜索引擎使用下面两种方法获得各个网站的信息,并保存到自己的数据库。 • 定期搜索:即每隔一段时间,搜索引擎主动派出“机器人”程序,对指定范围的IP地址的互联网站进行检索,一旦发现新的网站,就自动提取网站的网页信息和网址加入自己的数据库。 • 靠网站的拥有者主动向搜索引擎提交网址:它在一定时间内定向向提交的网站派出“蜘蛛”程序,扫描该网站并将有关信息存入数据库,以备用户查询。 • 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求相符的网站,便采用特殊的算法计算出各网页的信息关联度,然后根据关联度高低,按顺序将这些网页链接返回给用户
常用的几种搜索引擎 • 全文搜索 • Google: http://www.google.com • 网易(http://www.163.com)使用了它的全文搜索引擎服务 • 百度: http://www.baidu.com • 新浪、搜狐、21CN、263、TOM等使用了它的全文搜索引擎服务 • 北大天网:http://e.pku.edu.cn • 大量教育网内的资源,提供FTP搜索 • 网站分类目录搜索 • 新浪:其网站搜索最好 • 搜狐:网站的分类目录整理最好,最适合于浏览 • 网易:开放式目录,有许多网上高手加盟 • 中文Yahoo • 另类:网络实名http://www.3721.com
天网搜索引擎介绍 • 地址:http://e.pku.edu.cn北京大学 • 优点:是教育科研网内的搜索引擎,速度较快,有功能强大的FTP检索能力,可以直接搜索FTP文件,包括图片、声音、动画等。 • 缺点:搜索范围较小,数据库中资料不够多,并且由于有很多是学生提供的网站或网页,当链接的服务器没有运行时,经常造成只能看到摘要,不能调出全文的死链接。
天网的网页搜索 • 查询时无需使用明文的“&”,与操作,只要空格就可以了,“天网”会在关键词之间自动添加“&” • 阅读查询结果: • 页面右上方的是“结果中查询”或者“新查询”的表单。 • 换页链接:当结果数很多时请在“选择页面”右方点击你要切换的页面的结果起始号链接; • 表示统计栏,包括用户输入的查询词,有关查询结果和搜索时间
查询结果, 包括网页标题、该网页网址、(根据上下文确定要查看网页的)动态摘要(在摘要信息中,您的原始查询字词,都高亮显示,以便阅读)和属于该网站下的“更多页面”链接; • 网站类聚,“……上更多页面”说明可以在该站点中找到更多包含查询关键词的页面链接; • 历史网页,保证您在存有网页的服务器暂时出现故障时仍可浏览该网页的内容,或者可以浏览到不是最新版的该网页的内容。
特点 • 支持精确的短语匹配: • 一般情况下,用空格隔开的查询词不进行短语查询;如果需要,请用引号括起来,当做短语来查询。 例如:peer to peer 和"peer to peer"的返回结果是不太一样的 • 支持忽略词(常用的词和字符)查询: • 有些词太常见,在一般的查询中被忽略。如果需要,可以通过把要查询的短语用引号括起来,执行精确短语查询。 例如:美的空调 "的"一般会被忽略,可以用双引号括起,查询词带着引号查询 "美的空调" • 英文字母大小写是否有影响? • 天网搜索不区分英文字母大小写。所有的字母均当做小写处理。例如:搜索“Unix”、或“unix”,得到的结果都一样。
天网的FTP搜索 • FTP搜索是天网的特点,有按文件类型搜索、使用快捷方式搜索和FTP复杂搜索三种方式。 • 按类型搜索:输入主文件名(可使用*、?通配符),文件类型可以直接输入扩展名,也可以通过旁边的类型指定文件扩展名。 • 点击“分类搜索”下的各种类型,如“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”,则搜索引擎在指定的类型里搜索文件。比如点击“图象”,则在所有的图象文件里查找与匹配串相符的文件。 • 搜索结果的处理(打开、保存)
使用快捷方式:天网搜索引擎为用户常用的搜索提供了快捷方式,将FTP文件分类列表,使用起来极为简单,直接点击快捷方式下所要的内容即可。使用快捷方式:天网搜索引擎为用户常用的搜索提供了快捷方式,将FTP文件分类列表,使用起来极为简单,直接点击快捷方式下所要的内容即可。 • FTP复杂搜索:可以指定搜索的文件的长度、最后修改日期和搜索范围。 • 例: • 搜索一朵玫瑰花 • 搜索一张卡通图片 • 搜索一首“二泉映月”的MP3音乐 • 搜索一个IE5的安装程序 • 搜索同学的名字 • 搜索一条新闻 • 搜索一篇关于PDF文件解密的文章
Google搜索引擎__特点 • Google创立于1999年。2000年9月,Google成为中国网易公司的搜索引擎。98年至今,已经获得30多项业界大奖。 • 支持132种语言,包括简体中文和繁体中文; • 网站只提供搜索引擎功能,没有其他累赘的服务; • 速度极快,数据库存有30多亿个Web文件,服务器有3万台 ; • 智能化的“手气不错”功能,提供可能最符合要求的网站; • “网页快照”功能,能从Google服务器里直接取出缓存的网页。
网址 • Google站点:www.google.com • 网易:www.163.com
Google网页搜索——特点 • 文本搜索 • 可使用单个关键词进行搜索 • 可使用两个及两个以上关键词进行搜索 • 直接输入多个关键词,关键词之间用空格,这样就表示“AND”关系; • 用减号“-”表示“非”,用于表示要求搜索结果不包含某些特定信息; • 不支持OR关系; • 可精确搜索一句话。 • 忽略引号中的空格,如“计算机 应用”与“计算机应用”的搜索结果相同 • 对网络上常见的英文单词及一些标点符号作忽略处理
Google网页搜索---例子 • 搜索人名 • 搜索专业资料 • 搜索结果的处理
图象搜索 • 目前Google上可搜索的图片数量达3.3亿张 • 点击Google主页上的“图象搜索”链接。 • 目前的图象搜索主要是基于文件名的搜索,不是基于图象内容的。 • 用法: • 关键词的输入方法同文字搜索,不过搜索图象一般不会用太长、太复杂的关键词(包含在文件名中)。 • 图象搜索中,使用英文作关键词可以搜到许多准确的结果,使用中文,效果较差,但有时Google会自动转换为英文或中文的拼音去搜索。 • 在“高级图象搜索”中可以指定图片文件的类型:JPG或GIF,也可以用“Filetype”指定文件类型, 如 panda filetype:jpg
使用Filetype搜索文件 • 格式: • 关键词(文件名或文件内容)filetype:文件类型 • 注意:filetype要小写,并指定为“搜索网页” • 如:搜索引擎 filetype:ppt • flower filetype:gif • 佛山 filetype:doc • 目前可搜索的文件格式: • DOC、PPT、XLS、RTF、PS、TXT、Lotus文件; • PDF格式(一种电子图书格式) • 最精彩,可搜索Flash文件: SWF文件 • 搜索到的结果,可点击打开,也可用右键快捷菜单“另存为”保存到本地磁盘。对于Office文档,还可以用HTML方式打开,以避免病毒的袭击。
其他特殊搜索 • 搜索的关键词包含在URL链接中 • Inurl:mp3 yesterday once more • 可用于搜索MIDI、MP3等文件 • 搜索的关键词包含在网页标题中 • Intitle:Foshan University • 搜索指定的网站范围 • 在图象搜索中,用:Panda site:edu.cn • 搜索有多少链接到某个地址的网页 • Link:fosu.edu.cn
从网上搜索、下载软件 • 软件下载网站主要有三类: • 大型软件下载网站。主要提供普通的免费和共享软件。如:joyo.foshan.net • 软件主页:一些最新版本的共享软件以及软件的补丁,或者软件公司推出的免费软件。如:Microsfot、Adobe、Lotus等公司的站点 • 其他主页下载:可以找到正式网站找不到的内容。 • 在教育网内,许多情况下可以用天网的FTP搜索。 • 如果用搜索引擎,则选择关键词很重要。可用关键词:软件名,下载, 版本 cdkey 软件大小
网络实名 • 网络实名服务为企业、公司等注册他们的产品或品牌的实名,当用户要在网络上以实名的形式查找自己需要的产品时,只要到实名服务器为自己的浏览器开通实名服务即可。 • 实名服务:www.3721.com • “3721网络实名”是新一代的网络访问技术,它具有十大功能,其中智能推测、拼音使用等功能可以帮助我们搜索那些名称不确切的网址。 • 例如,如果没有实名系统,要访问北京大学只能打网址:www.pku.edu.cn,有了实名系统后,直接在地址栏中输入“北京大学”就可以访问到。 • 例如:要访问新浪网,只要在地址栏打入“新浪”或“xinlang”即可
有关搜索引擎的常见问题 • 有的网页可以浏览到,但搜索不到,原因有三点: • 网上有,但是搜索引擎的机器人程序因为某种原因没有将它抓取到搜索引擎的数据库里 • 搜索引擎数据库里有该网页的信息,但是未能正确索引网页中信息 • 搜索引擎正确索引了网页中信息,但你使用的关键词太偏
正确搜索和提高效率的方法 • 初学者搜索时容易犯的6个错误和解决方法 • 常见错误1:错别字 • 经常发生的一种错误是,你输入的关键词含有错别字,改正了就好。 • 常见错误2:关健词太常见 • 搜索引擎对常见词的搜索存在缺陷,因为这些词曝光率太高了,以至于出现在成百万网页中,使得它们事实上不能被用来帮你找到什么有用的内容。比如说搜索“电话”。 • 常见错误3:多义词 • 要小心使用多义词,比如搜索“java”,你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言。
常见错误4:不会输关键词,想要什么输什么 • 类似这样的搜索:“张三与李四合作的有关红楼梦的论文”,没有使用搜索引擎的规则将自己的要求分解。 • 张三&李四 红楼梦 • 常见错误5:在错误的地方搜索 • 有些信息不适合搜索,应该直接到网站浏览,如论坛的内容。 • 常见错误6:停用词 • 停用词主要见于英文搜索引擎中,指的是使用过于频繁的单词,如“is”、“i”、“what”、“it”等。一些搜索引擎在它的网页库里碰到这些词时会忽略
网上的图书资源 • 电子图书的常见格式 • EXE、CHM、HLP、PDF、WDL、LIT • 不同格式的电子图书都配有自己的阅读器,所以要阅读某种图书格式之前,要下载、安装阅读器。它通常可以在图书提供者的主页上找到。 • 查找论文等,不需要使用普通的搜索引擎了。有很多专门的电子图书网站。 • 中国期刊网(CNKI):佛大镜像202.192.172.21 • 万方数据:http://www.wanfangdata.com.cn/ • 各个专业都有专业信息资源,如中文的新闻类: • 中新社 www.chinanews.com.cn • 新华社 www.xinhua.net • 各大学图书馆:如 www.lib.tsinghua.edu.cn
中国期刊网(CNKI):佛大镜像202.192.172.21 • 万方数据:http://www.wanfangdata.com.cn/ • 各个专业都有自己的专业信息资源 • 如中文的新闻类: • 中新社 www.chinanews.com.cn • 新华社www.xinhua.net 外交部各国资料:www.fmprc.gov.cn