1.53k likes | 1.7k Views
基于关键词的基本查询方法 基于 Web 目录的分类查询方法. 第二章 搜索引擎的查询方法. 按照查询方式的不同,现代搜索引擎所提供的信息查询方法可以分为四种,分别为 布尔查询 词组查询 模糊查询 字段查询. 2.1 基于关键词的基本查询方法. 布尔查询是一种最为常见的查询方式。说的专业一些,布尔查询就是一种利用诸如“ AND” 、“ OR” 和“ NOT” 等布尔操作符表达的查询 布尔查询就是一般用户自觉不自觉都在使用的方式,通过该种查询我们可以告诉搜索引擎我们希望找到什么,不希望找到什么等等. 2.1.1 布尔查询.
E N D
基于关键词的基本查询方法 基于Web目录的分类查询方法 第二章 搜索引擎的查询方法
按照查询方式的不同,现代搜索引擎所提供的信息查询方法可以分为四种,分别为按照查询方式的不同,现代搜索引擎所提供的信息查询方法可以分为四种,分别为 布尔查询 词组查询 模糊查询 字段查询 2.1 基于关键词的基本查询方法
布尔查询是一种最为常见的查询方式。说的专业一些,布尔查询就是一种利用诸如“AND”、“OR”和“NOT”等布尔操作符表达的查询布尔查询是一种最为常见的查询方式。说的专业一些,布尔查询就是一种利用诸如“AND”、“OR”和“NOT”等布尔操作符表达的查询 布尔查询就是一般用户自觉不自觉都在使用的方式,通过该种查询我们可以告诉搜索引擎我们希望找到什么,不希望找到什么等等 2.1.1布尔查询
此时Google搜索引擎展示的结果非常多,高达约2.3千万篇命中网页此时Google搜索引擎展示的结果非常多,高达约2.3千万篇命中网页 仔细观察一下结果,连百度都没有排在前三,甚至连Google自己也没有 奇怪的结果
用户的查询太模糊 工欲善其事,必先利其器 如何解决
为了清楚表明用户的查询需求,采用多个查询关键词十分必要为了清楚表明用户的查询需求,采用多个查询关键词十分必要 选择关键词需要技巧和经验,有时可能需要多次尝试才能找到最为合适的关键词 比如对于查询“搜索引擎 首页”的练习而言,如果采用“搜索引擎 站点”来查询,效果就不理想。但是这种现象可能会因时因地而变化 注意之一
大多数搜索引擎中,“AND”是通过空格来表示的大多数搜索引擎中,“AND”是通过空格来表示的 也许读者可以使用诸如“搜索引擎介绍”来查询,发现实际效果区别不大 因为现代中文搜索引擎通常都具有自动分词的能力,也就是说,将较长的词组自动拆分为多个关键词并且自动扩展为“AND”布尔查询 注意之二
由于搜索引擎经常更新网页的索引信息,而且不同的搜索引擎都会采用不同的相关度排序算法,所以实际的查询结果可能会因时因地而变化,这种现象很正常由于搜索引擎经常更新网页的索引信息,而且不同的搜索引擎都会采用不同的相关度排序算法,所以实际的查询结果可能会因时因地而变化,这种现象很正常 注意之三
“AND”查询其实是一种缩小查询范围的查询方法,说的专业一些,就是该方法可以提高查准率“AND”查询其实是一种缩小查询范围的查询方法,说的专业一些,就是该方法可以提高查准率 当然在减少返回结果的同时,一般也会不可避免的丢失一些其实有价值的结果,因此会减少查全率 注意之四
这种方法显然增加了无关网页被命中的概率,特别是在选择的关键词不甚合理时尤为如此这种方法显然增加了无关网页被命中的概率,特别是在选择的关键词不甚合理时尤为如此 和“AND”查询相比,使用“OR”可以说是一种增加查全率但会降低查准率的方法 注意之一
增加关键词需要用户了解相关背景知识,否则如何知道“银杏果”也可以称之为“白果”呢?增加关键词需要用户了解相关背景知识,否则如何知道“银杏果”也可以称之为“白果”呢? 特别对于较为专业的知识而言,只有熟悉该领域知识的用户才能更容易找到更多的相关查询词 注意之二
既要找到中文搜索引擎的介绍网页,也要找到英文搜索引擎的介绍网页既要找到中文搜索引擎的介绍网页,也要找到英文搜索引擎的介绍网页 练习
对于“搜索引擎 OR search engine 介绍”的正确理解是查询“含有搜索引擎或者search engine,并一定含有介绍”的网页 值得注意的是,不同的搜索引擎可能会有一些差别和注意事项 如Google就要求“OR”大写,并且前后空格分隔,还可以“|” 来代替“OR” 说明
由于中文不象英文,本身没有天然的分隔符,对于一些较为模棱两可的词语,有时连我们自己都难以正确解析和分词,除非了解用户的查询背景,而对于搜索引擎而言,这显然更不可能由于中文不象英文,本身没有天然的分隔符,对于一些较为模棱两可的词语,有时连我们自己都难以正确解析和分词,除非了解用户的查询背景,而对于搜索引擎而言,这显然更不可能 中文分词技术难度较大,如“发展中国家兔的饲养”就可以理解为两种形式:一是“发展 中国 家兔 的饲养”,另一个是“发展中国家 兔 的 饲养” 更为奇妙的是在百度的商业广告中那句“我知道你不知道我知道你不知道我知道你不知道” 为什么
查询“李四”的信息但是一定不要“李四光”的信息,正确的查询关键词为“李四 —李四光” 注意两个问题: 那条横线前面有个空格,后面没有空格,横线自身为减号,表示“NOT(不)”的意思 横线为英文半角的减号,作为不表示语义概念的布尔操作符,所有的这些布尔操作符号都应该是英文半角符号 如何解决
有时候,我们可能并不十分清楚被查询的内容,很难构造准确的查询关键词,那么我们就可以首先利用一般的关键词来查询,然后对其结果不断的利用“NOT”查询去排除无用信息,间接的找到所需的内容有时候,我们可能并不十分清楚被查询的内容,很难构造准确的查询关键词,那么我们就可以首先利用一般的关键词来查询,然后对其结果不断的利用“NOT”查询去排除无用信息,间接的找到所需的内容 一种新的查询思路
毕竟相对于全部网页而言,满足关键词的网页数量一般总是少数,因此,直接使用或者过多的使用“NOT”查询都是不足取的毕竟相对于全部网页而言,满足关键词的网页数量一般总是少数,因此,直接使用或者过多的使用“NOT”查询都是不足取的 如在Google中使用“—a”来查询,由于命中的结果网页将会很大,所以干脆返回一个无法找到的提示信息 NOT的副作用
第一条结果内容为“world war i”,似乎全是小写,这个问题不大,因为搜索引擎通常都会将全部查询词语转换为小写在进行匹配 而第三条结果就明显不对了,它是介绍第二次世界大战(World War II)的网页 问题之一
早期的Google搜索引擎还有一个提示“I太常用,没有被列入搜索范围”早期的Google搜索引擎还有一个提示“I太常用,没有被列入搜索范围” 搜索引擎其实并没有查询“World War I”,而只是将这个查询理解为查询含有“World”和“War”的网页,显然,这些结果都满足要求 问题之一
“I”字符具有多种语义,既可以看成是罗马数字“1”,也可以看成英文中“我”的意思,事实上,“我”的含义更为常见和普遍,此时可以想象,作为如此常见的一个词语,哪个网页不会含有“I”这个词语呢?既然是几乎所有的网页都含有这个词语,所以这个词语就不应该作为查询词语“I”字符具有多种语义,既可以看成是罗马数字“1”,也可以看成英文中“我”的意思,事实上,“我”的含义更为常见和普遍,此时可以想象,作为如此常见的一个词语,哪个网页不会含有“I”这个词语呢?既然是几乎所有的网页都含有这个词语,所以这个词语就不应该作为查询词语 为什么忽略
我们把这种没有区分度的词语称之为“停用词(Stop Term)” 不过,如果非要在一般的查询中查询这些停用词,也是可以的 正确的做法是在停用词前使用强制查询操作符“+”(仍然是英文半角的加号字符 如查询“World War I”同时不允许忽略停用词“I”,正确的语法是“world war +I” 停用词
近几年来,随着搜索引擎技术的不断进步,现代搜索引擎更多的是采取不再忽略停用词,或者是把忽略停用词和不忽略停用词的结果合并处理近几年来,随着搜索引擎技术的不断进步,现代搜索引擎更多的是采取不再忽略停用词,或者是把忽略停用词和不忽略停用词的结果合并处理 当然,并非所有的停用词都能这样处理,如大部分诸如问号、句号、逗号等常用英文符号,即便是加上强制查询操作符,也不能获得结果 补充说明
为什么搜索引擎把“World War”理解为“World”和“War”? 两者并非总是一致,事实上,在随后的几页结果中我们能够看到更为奇怪的结果 问题之二
造成这种现象的主要原因在于搜索引擎一般默认认为空格为布尔查询的“AND”操作,所以它不认为这是真正的词语分隔符造成这种现象的主要原因在于搜索引擎一般默认认为空格为布尔查询的“AND”操作,所以它不认为这是真正的词语分隔符 原因
正确的查询方法是使用词组查询,此时的关键词为“”World War I“”,注意外面的双引号是为了在书中给出关键词内容,里面的双引号才是用户需要在查询关键词中增加的内容 这个输入的双引号将用户查询关键词括了起来,从而表明希望搜索引擎返回完整的匹配内容,既不去除停用词,也不要随意拆分查询词语,更不要调换词语的位置 双引号应该是英文半角字符 如何解决
在Google中也可以使用诸如“world-war-I”的查询关键词来获得同样的效果,此时无需前后的双引号,而使用“-”连字符连接就可以表达一个整体查询词在Google中也可以使用诸如“world-war-I”的查询关键词来获得同样的效果,此时无需前后的双引号,而使用“-”连字符连接就可以表达一个整体查询词 另外一种语法
随着技术的发展,特别是对用户使用满意度的不断适应,现代搜索引擎通常不再刻意的强调自动去除停用词等操作随着技术的发展,特别是对用户使用满意度的不断适应,现代搜索引擎通常不再刻意的强调自动去除停用词等操作 在很多情况下,有时我们不使用带双引号的查询关键词似乎也能得到正确的结果 但是这并不总是有效,有时就需要我们采用正确的词组查询方式来获取准确的结果 补充说明
词组查询有着非常广的应用,有时甚至可以实现一些其他方法难以实现的查询效果,如查询和下载电子书或者论文等电子文档词组查询有着非常广的应用,有时甚至可以实现一些其他方法难以实现的查询效果,如查询和下载电子书或者论文等电子文档 常见的方式就是使用诸如文档名称,或者再加上诸如“全文”和“下载”之类关键词来进一步限定结果内容 然而,往往实际效果都不理想 一种有效的查询方法