1 / 30

信息检索一般技术: 搜索引擎高级检索技术

信息检索一般技术: 搜索引擎高级检索技术. nbwangjt@gmail.com. 信息检索工具 —— 搜索引擎. 简单、快捷 浅网搜索 因特网上约 90% 的信息搜索引擎 搜不到. 浅网搜索. 信息检索工具 —— 数据库. 只针对成群的深海“鱼”和特定种类的鱼(如“期刊论文”)一次撒一网 漏掉:机构资源、学位论文、研究手稿、报告等零散的、数据规模有限、文献类型特殊的信息. 深网搜索. 搜索引擎. http://lib.nit.net.cn/google.swf 信息泛滥 难点:是如何找到更少的结果,而不是更多 目标:花最少的时间,获得最精确的信息.

baird
Download Presentation

信息检索一般技术: 搜索引擎高级检索技术

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 信息检索一般技术:搜索引擎高级检索技术 nbwangjt@gmail.com

  2. 信息检索工具——搜索引擎 • 简单、快捷 • 浅网搜索 • 因特网上约90%的信息搜索引擎搜不到 浅网搜索

  3. 信息检索工具——数据库 • 只针对成群的深海“鱼”和特定种类的鱼(如“期刊论文”)一次撒一网 • 漏掉:机构资源、学位论文、研究手稿、报告等零散的、数据规模有限、文献类型特殊的信息 深网搜索

  4. 搜索引擎 • http://lib.nit.net.cn/google.swf • 信息泛滥 • 难点:是如何找到更少的结果,而不是更多 • 目标:花最少的时间,获得最精确的信息

  5. 1 多个词前后顺序敏感 • 适用:百度、谷歌(谷歌网页搜索) • )

  6. 2 默认模糊搜索、自动拆分短语 • 适用:百度、谷歌

  7. 3 短语精确搜索[百度可用《》“”] • 适用:谷歌、百度

  8. 4 通配符 • 适用:谷歌 • 仅和精确搜索一起用。

  9. 5 点号匹配任意符号 • 适用:谷歌

  10. 6 布尔逻辑 • 适用:谷歌、百度 • 与:空格、AND • 或:OR、| • 非:-(减号)

  11. 6 布尔逻辑

  12. 7 约束条件 • 适用:谷歌、百度

  13. 8 同义词 • 适用:谷歌 • 仅英文词实用

  14. 9 数字范围 • 适用:谷歌

  15. 9 数字范围 • 适用:谷歌

  16. 10 标题中搜索:intitle • 适用:谷歌、百度

  17. 11 正文中搜索:intext • 适用:谷歌

  18. 12 网址中搜索:inurl • 适用:谷歌、百度

  19. 13 文档类型限定:filetype • 实用:谷歌、百度 • doc/pdf/ppt/xls/rtf • All(仅百度 )

  20. 14 定义搜索:define • 适用:谷歌

  21. 15 限定站点搜索:site • 适用:谷歌、百度

  22. 16 网站相关信息:info • 适用:谷歌 cache related link site "lib.nit.net.cn"

  23. 17 其它应用 • 计算:150磅in公斤 • inanchor:限制在页面的链接锚链描述文本

  24. 18 混合使用搜索技术(一) • 缩小搜索范围最好的选择:混合使用intitle、site【intitle:自动化 site:edu.cn】 • 限定搜索特定类别的信息:inurl限定【等爱的玫瑰 inurl:mp3】 • 搜索网站内的文档(一网打尽!):【 filetype:ppt site:lib.nit.net.cn】

  25. 18 混合使用搜索技术(二) • 什么情况下不混合使用 • 不混合使用有抵消的搜索【知识管理 site:edu.cn -inurl:edu】 • 不要重复使用同一语法结构【知识管理 site:cn site:com】,但是这样可以【知识管理 (site:cn | site:com)】 • 在混合使用语法时,不要用别名如allinurl、allintitle • 不要使用过多的语法将搜索结果限制得特别狭窄,采取逐步增加限制的方法,一般不要一步到位做很多限制。

  26. 小结:谷歌/百度一般搜索技术 • 默认模糊搜索、默认拆分语句和过长的短语 • 如何精确搜索(短语搜索) • 通配符*用法 • 点号匹配任意字符:. • 布尔逻辑 • 与:空格、AND • 或:OR、| • 非:-(减号) • 约束条件:+ • 同义词:~ • 数字范围:.. • 括号:() • 单位换算:in • 计算器

  27. 小结:谷歌高级搜索语法 • intitle、allintitle:搜索范围限制在网页的标题 • intext,allintext:搜索范围限制在网页中的正文中搜索 • inurl、allinurl:搜索范围限制在URL • inanchor、allinanchor :搜索范围限制在页面的链接锚点描述文本进行搜索。 • info:进入某URL更多信息的引导页面 • cache:搜索谷歌缓存的页面 • related:相关网页 • link:搜索所有链接到某个特定 URL上的页面列表 • site:搜索范围限制在某网站或域名中。 • filetype:根据文件后缀搜索特定文件类型 • define:搜索定义 • insubject :主题搜索

  28. 各类搜索引擎 • 综合搜索引擎 • 百度、谷歌、必应、搜狗、360搜索 • 网页、图片、视频、地图 • 专门搜索引擎 • 找工作的搜索引擎(在线招聘) • http://www.818.cn/ • http://reed.co.uk/(英国) • http://ecruit.net(全球) • http://www.simplyhired.com (全球) • 比价购物搜索引擎 • 比一比价:http://www.b1bj.com/ • 搜物狗:http://www.sowugo.com • 比比买:http://www.bibimai.com/

  29. 以图找图(百度、谷歌、搜狗等) • http://tineye.com/(国外) • http://www.pictriev.com/(专门的人脸搜索) • 问答搜索引擎 • 百度知道、爱问知识人、雅虎知识堂 • 学术搜索引擎 • 读秀学术搜索 http://www.duxiu.com/ • 谷歌学术搜索 http://scholar.google.com.hk/ • 微软学术搜索 http://libra.msra.cn/ • 人脉搜索引擎 • 人立方: http://renlifang.msra.cn/ • Wink: http://wink.com/ (世界上最大的搜人引擎) • Linkedin https://www.linkedin.com/

  30. 哼唱搜索 • SOSO哼唱:http://h.soso.com/ • http://www.midomi.com/ • 论坛搜索 • RSS搜索 • 图书搜索 • ……

More Related