970 likes | 1.11k Views
第三章 搜索引擎与网络营销调研. 营销正日益成为一场基于信息而非销售力量的较量。 ——科特勒 知己知彼,百战不殆。 —— 孙子. 一、间接网络市场调查. 间接网络市场调查的工具 搜索引擎 网上专业数据库 互联网上的重要信息资源 个人信息 宏观环境信息 竞争情报 国际市场信息. 主流搜索引擎. 1 、搜索引擎的分类. 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
E N D
第三章 搜索引擎与网络营销调研 营销正日益成为一场基于信息而非销售力量的较量。 ——科特勒 知己知彼,百战不殆。——孙子
一、间接网络市场调查 • 间接网络市场调查的工具 • 搜索引擎 • 网上专业数据库 • 互联网上的重要信息资源 • 个人信息 • 宏观环境信息 • 竞争情报 • 国际市场信息
1、搜索引擎的分类 • 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: • 1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。
2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:"天网"、悠游、OpenFind等。
3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。
2、搜索引擎原理-基本要求 • 接受用户提交的关键字(q) • 在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表(L) • 可以接受的时间: • 匹配: • 列表:
搜索引擎原理-三段式工作流程 • 网页搜集: • 预处理: • 提供服务:
搜索引擎原理-网页搜集 • 网页数据库的基本策略: • 1)定期搜集: • 2)增量搜集: • 网页的抓取策略: • 1)“爬取”策略: • 2)维护URL:
搜索引擎原理-定期搜索 • 定期搜索,隔一段时间后对整个网页重新搜集一遍,替换以前的内容。 • 优点:实现起来较简单 • 缺点:开销较大,两次搜集的时间间隔不会很短,“时新性(freshness)”不高
搜索引擎原理-增量搜索 • 开始时搜集一遍,然后: • 1.搜集新出现的网页 • 2.搜集更新了的网页 • 3.发现有网页已经不存在,则从库中删除
搜索引擎原理- “爬取”策略 • 将Web看作是一个有向图,搜集过程从给定的起始url集合S开始,沿着网页中的链接,按照一定的策略遍历。 • 这个过程象蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl)
搜索引擎原理-维护URL • 系统进行第一次全面的网页搜集之后,维护相应的URL集合,以后的搜索基于此集合。
搜索引擎原理-存储网页 • 搜集到的网页将存储到知识库(repository)中。 • 知识库包含每个网页的docID,长度,URL以及网页的全部HTML。 • 由于网页数量会很多,所以,网页在存入知识库时要进行压缩处理。
搜索引擎原理-预处理 • 链接分析 • 网页重要程度计算 • 关键词提取
搜索引擎原理-链接分析 • 链接是分析网页重要的信息 • 1.链接描述文字准确的反映了网页的内容 • 2.网页之间的链接关系,反映了网页的重要程度(PageRank Google)
搜索引擎原理-网页重要程度计算 • PageRank(Google) • 指向一个网页的链接越多,说明这个网页越重要。 • 把整个web结构看作一个矩阵。N个网页就形成一个n×n的矩阵。
搜索引擎原理-关键词提取 • 建立倒排索引 • 英文的分词 • 中文的分词
搜索引擎原理-中文分词技术 • 中文分词是中文搜索引擎的核心 • 中文分词技术 • 基于字符串匹配的分词方法 • 基于统计的分词方法
搜索引擎原理-基于字符串匹配的分词算法 • 正向减字最大匹配法(MM) • 逆向减字最大匹配法(RMM) • 将上述两种方法结合起来
搜索引擎原理-预处理部分 • 读取网页 • 英文按照空格切开 • 中文按照正/逆向最大匹配的方法切词 • 将词编入索引文件
搜索引擎原理-查询服务 • 对用户输入进行切分 • 查找结果 • 对结果进行合并
3、搜索引擎的一般查询规则 • 利用搜索引擎既可以检索出Internet 上的文献信息,还可以查找到公司和个人的信息;既可以通过输入单词、词组或短语进行检索,还可以使用逻辑算符及位置算符等对多个词进行组合检索;既可以以词语查询有关主题的页面信息(网页),也可以以特定的域名、主机名、URL 等查找有关的网站信息。搜索引擎是基于一些基本的查询规则来实现这些查询的,但各个搜索引擎所采用的查询规则又不尽相同。下面介绍的是常用的一般查询规则。
搜索引擎的一般查询规则 • 1. 布尔逻辑算符 (1) 逻辑“与”:一般用“AND”表示,有的搜索引擎还可以用“&”表示。使用逻辑“与”是为了要求检索结果的Web 页面中同时出现所有输入的检索词,提高查准率。 (2) 逻辑“或”:一般用“OR”表示,有的搜索引擎还可以用“|”表示。使用逻辑“或”是为了提高查全率。 (3) 逻辑“非”:一般用“NOT”表示,有的搜索引擎还可用“!”表示。使用逻辑“非”是为了缩小检索范围。
搜索引擎的一般查询规则 • 2. 连接符 连接符有加号(+)和减号(-)。 (1) 在检索词前使用“+”时,表示所有检索结果的页面中都必须包含该词。 (2) 检索词前使用“-”时,表示任何检索结果的页面中都不能包含该词。例如:检索式“microwave-ceramic”,则表示查找关于microwave 的页面,但排除那些和ceramic 有关的页面。
搜索引擎的一般查询规则 • 3. 截词符 截词符一般用星号(*)表示。当“*”置于一个词的末尾时,表示将相同词干的词全部检索出来。例如;检索式“compu*”,则表示可以检索到computer、computing、compulsion 等词。有一些搜索引擎支持自动截词,用户不需要专门输入截词符,系统自动将相同词干的词全部找出来。
搜索引擎的一般查询规则 • 4. 空格、逗号、括号、引号的作用 (1) 空格 空格的作用与逻辑“与”(AND)相同。在汉字作为关键词输入时,切记不要在构成关键词的两个字之间插入空格,否则,就会发生两个字之间进行逻辑“与”的检索错误,比较: “飞机” “飞 机”
搜索引擎的一般查询规则 (2) 逗号 逗号(,)的作用类似于逻辑“或”(OR),也是查找那些至少含有一个指定关键词的页面,区别是,检索结果输出时,包含指定关键词越多的页面,其排列的位置越靠前。 例如,检索式“计算机,网络,多媒体”,可查出包含三个关键词中的任何一个或几个的页面,而同时含有“计算机”、“网络”和“多媒体”的页面输出时排在前面。
搜索引擎的一般查询规则 (3) 括号 括号“( )”的作用是使括在其中的运算符优先执行,用于改变复杂检索式中固有逻辑运算符优先级的次序。 例如,检索式“多媒体and (计算机 or 网络)”,表示要求先执行括号中的“OR”运算,再执行括号外的“AND”运算。
搜索引擎的一般查询规则 (4) 引号 引号( “ ” )的作用是,括在其中的多个词被当作一个短语来检索。绝大部分主要搜索引擎都支持短语检索,找到含有与短语词序和意义完全相同的页面。 例如,检索式“electronic magazine” ,表示把electronic magazine 当作一个短语来搜索。如果不加引号,搜索引擎就会把两词之间的空格按“与”处理,查出包含electronic 和magazine 的页面,结果应与用户要求的主题内容相去甚远。
搜索引擎的一般查询规则 • 6. 限定字段检索 限定字段检索,即限定检索词在搜索引擎数据库中某个字段范围进行查找,如网页标题、站点、网址、链接等。 (1) 标题检索 标题检索就是在网页的标题中查找输入的检索词,使用的命令一般是“title”,其格式为: title:检索式, 例如: title:mars title:mars landings title:“mars landings”
搜索引擎的一般查询规则 (2) 站点检索 • 站点检索就是在网站地址域名中检索输入的词,以查找用户指定站点上的所有页面。使用的命令一般是“site”,其格式为:site:域名中的词,例如,检索式“site:digital.com”,表示可以检索出WWW 服务器中主机名为“digital.com”的网页。 • 假如想要查找关于火星着陆方面的资料,并且只想在教育网站(后缀为.edu)中查找,可以输入这样的检索式:“mars landings” site:edu。
搜索引擎的一般查询规则 (3) URL 检索 • 有些搜索引擎提供在URL 的文本中进行检索的功能,这和站点检索非常相似。使用的命令一般是“url”,其格式为:url:URL 中的词 • 例如,检索式“url:home.html”可以检索出在网页地址中含有“home.html”的页面
搜索引擎的一般查询规则 (4) 链接检索 • 链接检索就是在与特定网页或域有链接的所有网页中进行检索。使用的命令一般是“link”,其格式为:link:特定网页或域中的词 • 例如,检索式“link:thomas.gov”可以检索出与“thomas.gov”至少有一次链接的页面。
怎样成为搜索高手——选择适当的查询词 • 表述准确 查询词表述准确是获得良好搜索结果的必要前提。 • 一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。 • 例如,要查找2004年国内十大新闻,查询词可以是“2004年国内十大新闻”;但如果把查询词换成“2004年国内十大事件”,搜索结果就没有能满足需求的了。
怎样成为搜索高手——选择适当的查询词 • 另一类典型的表述不准确,是查询词中包含错别字。 • 例如,要查找林心如的写真图片,用“林心如写真”,当然是没什么问题;但如果写错了字,变成“林心茹写真”,搜索结果质量就差得远了。不过好在,有的搜索引擎对于用户常见的错别字输入,有纠错提示。你若输入“林心茹写真”,在搜索结果上方,会提示“您要找的是不是: 林心如写真”。
例如百度的错别字改正软件系统会对输入的关键词进行自动扫描, 检查有没有错别字。如果发现用其他字词搜索可能会有更好的结果,它能提供相应提示来帮助纠正可能有的错别字。 • 例如,搜索“互连网”,会自动提示 “您要找的是不是:互联网”。如果您点击 “互联网”,百度将以“互联网”作为关键词进行搜索。 • 因为百度的错别字改正软件系统是建立在互联网上所能找到的所有词条之上,它能够提示常用人名及地名的最常见的书写方式。
怎样成为搜索高手——选择适当的查询词 • 查询词的主题关联与简练 目前的搜索引擎并不能很好的处理自然语言。因此,在提交搜索请求时,你最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的查询词。 • 例如:某三年级小学生,想查一些关于时间的名人名言,他的查询词是“小学三年级关于时间的名人名言”。 • 这个查询词很完整的体现了搜索者的搜索意图,但效果并不好。绝大多数名人名言,并不规定是针对几年级的,因此,“小学三年级”事实上和主题无关,会使得搜索引擎丢掉大量不含“小学三年级”、但非常有价值的信息;“关于”也是一个与名人名言本身没有关系的词,多一个这样的词,又会减少很多有价值信息;“时间的名人名言”,其中的“的”也不是一个必要的词,会对搜索结果产生干扰;“名人名言”,名言通常就是名人留下来的,在名言前加上名人,是一种不必要的重复。 • 因此,最好的查询词,应该是“时间 名言”。
怎样成为搜索高手——选择适当的查询词 试着找出下述查询词的问题,并想出更好的能满足搜索需求的查询词: 所得税会计处理问题探讨周星驰个人档案和所拍的电影
怎样成为搜索高手——选择适当的查询词 • 根据网页特征选择查询词 很多类型的网页都有某种相似的特征。例如,软件下载页,通常软件名称在网页标题中,网页正文有下载链接,并且会出现“下载”这个词。经常搜索,并且总结各类网页的特征现象,并应用查询词的选择中,就会使得搜索变得准确而高效。 • 例如,找明星的个人资料页。一般来说,明星资料页的标题,通常是明星的名字,而在页面上,会有“姓名”、“身高”等词语出现。比如找林青霞的个人资料,就可以用“林青霞 姓名 身高”来查询。而由于明星的名字一般在网页标题中出现,因此,更精确的查询方式,可以是身高 intitle:林青霞”。Intitle,表示后接的词限制在网页标题范围内。 • 这类主题词加上特征词的查询构造方法,适用于搜索具有某种共性的网页。前提是,你必须了解这种共性(或者通过试验性搜索预先发现共性)。
有关问题? • 按照给出的链接进入一个网站,页面上却显示出错误讯息,这是为什么? 当您看到“拒绝访问”(Permission Denied),或“未找到该档案”(Document Not Found),这样的错误讯息可能是因为以下原因: • 当时该网站的服务器可能太过繁忙,或是因为维修而暂时停止提供服务,您可以稍待一会再试,也许就能连上了。 • 这个网站可能有许可才能进入,如果您一定要进入该网站,可以发电子邮件给这个网站的管理员查询。 • 该网站可能已经不复存在。搜索引擎应尽快将它从数据库中删除。 • 可以尝试使用搜索结果中提供的“网页快照”功能查看该网页。
怎样成为搜索高手——了解各个搜索引擎特点 • 了解搜索引擎搜索的范围、特性及适用的规则,对于提高搜索效率至关重要。
4、主要搜索引擎——Google • Google Inc. 创建于 1998 年 9 月,创始人为 Larry Page 和 Sergey Brin,他们开发的 Google 搜索引擎屡获殊荣,是一个用 来在互联网上搜索信息的简单快捷的工具。 • Google 是万维网上最大的搜索引擎,使用户能够访问一个包含超 过 80 亿个网址的索引。 • 搜索的网页:80 亿+ • 图片:88,000 万+ • Usenet 信息:84,500 万+ • Google 界面的可用语言:100 多种 • Google 搜索结果所采用的语言:35 • 国际域名:100 多个 • 员工:全球 2,500 多人
主要英文搜索引擎——Google 查找 特定格式的文件 • Google支持13种非HTML文件的搜索。Google现在还 可以搜索Microsoft Office (doc, ppt, xls, rtf)、pdf、 Shockwave Flash (swf)、PostScript (ps)和其它类型 文档。新的文档类型只要与用户的搜索相关,就会自 动显示在搜索结果中。 • 例如:若想查找 PDF或Flash 文件,而不要其他网 页,只需搜索“关键词 filetype:pdf” 或“关键词 filetype:swf”就可以了。
手气不错 • 按下“手气不错™”按钮将自动进入Google 查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。例如,要查找Stanford 大学的主页,只需在搜索字段中输入“Stanford”,然后单击“手气不错”按钮。Google 将直接带您进入Stanford 大学的官方主页www.stanford.edu。
网页快照 • Google 在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”时,将看到Google 将该网页编入索引时的页面。 • Google 依据这些快照来分析网页是否符合用户的需求。在显示网页快照时,其顶部有一个标题,用来提醒这不是实际的网页。符合搜索条件的词语在网页快照上突出显示,便于快速查找所需的相关资料。 • 现在大多搜索引擎都提供网页缓存,打开搜索引擎的网页缓存要比直接打开这个网页要快,而且快照上关键词被颜色标出,很容易找到.
主要英文搜索引擎——Google 计算器 • Google 为用户提供了一个内置计算器。只需要在搜 索字段中输入算式,按一下回车键或者搜索就可以 了。这个计算器可以用来做所有简单的计算,一些复 杂的科学计算,单位换算,以及提供各种物理常数。 • 下面的例子可以展示这个计算器的功能: 5+2*2 2^20 sqrt(-4) 一磅=?克 光速乘以二秒等于多少公里