250 likes | 402 Views
通识卓越课程 http://en.tjcities.com/index.php/works. 计算机科学前沿技术 Frontier Technologies in Computer Science. 课程网站: http://en.tjcities.com/index.php/works 联系方式: FrontiersCS@gmail.com 微博: http://weibo.com/willtongji. 课程内容. 第 9 章 人工智能前沿 第 10 章 机器学习的研究 第 11 章 搜索引擎技术 第 12 章 集体智慧与 Web 2.0 第 13 章 云计算
E N D
通识卓越课程 http://en.tjcities.com/index.php/works • 计算机科学前沿技术 • Frontier Technologies in Computer Science 课程网站:http://en.tjcities.com/index.php/works 联系方式:FrontiersCS@gmail.com 微博:http://weibo.com/willtongji
课程内容 • 第9章人工智能前沿 • 第10章机器学习的研究 • 第11章搜索引擎技术 • 第12章集体智慧与Web 2.0 • 第13章云计算 • 第14章物联网技术 • 第15章服务科学与服务计算 • 第16章智慧地球 第1章概述 第2章计算机硬件的发展 第3章高性能计算 第4章现代操作系统 第5章计算机网络新技术 第6章可信系统和可信软件 第7章数据库技术的发展 第8章数据挖掘及其应用
有人说三个苹果改变了世界,一个诱惑了夏娃,一个砸醒了牛顿,一个握在乔布斯手中。这三个苹果分别象征着欲望、知识和激情,或者说分别代表着诱惑力、求知力和创新力。有人说三个苹果改变了世界,一个诱惑了夏娃,一个砸醒了牛顿,一个握在乔布斯手中。这三个苹果分别象征着欲望、知识和激情,或者说分别代表着诱惑力、求知力和创新力。 ——互联网搜索结果
本章内容 • 互联网搜索引擎 • 互联网搜索引擎的发展现状 • 互联网搜索引擎的体系结构 • 搜索引擎面临的挑战 • Web的发展 • 搜索需求的发展 • 网络的发展 • 来自非技术方面的挑战
本章内容(续) • 搜索引擎应对方略 • 多元化 • 搜索质量提高 • 搜索能力加强 • 其他 • 搜索引擎相关研究组 • 国外搜索引擎研究组 • 国内搜索引擎研究组
互联网信息海洋 • 互联网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎则为用户绘制一幅一目了然的信息地图,供用户随时查阅。
搜索引擎技术 • 值得中国人骄傲的是,中国在搜索引擎技术上处于世界领先地位。全世界只有四个国家拥有搜索引擎关键技术,另三个国家是美国、俄罗斯和韩国。 • 根据中科院《搜索引擎经济拉动作用研究》的调研报告显示,搜索引擎已超过汽车、金融和房地产,成为对实体经济最强有力的拉动者。
互联网搜索引擎的发展现状 • 搜索引擎已逐渐成为网民使用最多的互联网服务,取代门户网站成为真正意义上的互联网入口。
互联网搜索引擎的发展现状 • 搜索引擎伴随着互联网的发展而发展.
互联网搜索引擎的发展现状 • 第一代搜索引擎出现于1994年前后,以Infoseek、Alta Vista和Yahoo! 为代表. • 研究表明,1999年8月全球11个主要的搜索引擎中,每个搜索引擎仅能搜索到互联网上全部页面的16%,甚至更低。 • 上世纪末、本世纪初,第二代搜索引擎出现在互联网上. • 使用一种叫做“超链分析”的技术。这个技术的发明人是百度创始人李彦宏。本质上是一种“投票”机制,一个链接可以看作一个网页对另一个网页的投票,票数决定排序。 • 随后,Google借鉴了“超链分析”技术并发明了PageRank,其核心思想是根据页面链接关系,计算页面本身的重要性。 • 第三代搜索引擎技术近年来得到蓬勃发展,以开放平台为载体,以语义搜索、推荐搜索、社区搜索为基本特征.
互联网搜索引擎的体系结构 • 从用户在搜索框输入查询,到得到搜索引擎的返回结果,所需时间在亚秒以内,其背后过程和结构却很复杂。 • 一个互联网搜索引擎系统主要由网页抓取、网页内容分析和索引、连接结构分析、检索服务四个子系统组成。
互联网搜索引擎的体系结构 • 搜索引擎所采用的核心技术涉及计算机科学技术的许多前沿领域,如信息检索、高性能分布式网络计算、数据挖掘、自然语言处理、机器学习、超大规模数据分布式存储和处理、用户行为分析以及人机界面技术。 • 近年来,热门研究课题包括:网页抓取、内容索引、查询检索、超链分析、相关性评估、作弊网页识别、网页文本挖掘、信息检索中的语言模型、命名实体识别和基于社区的搜索引擎等。
互联网搜索引擎的工作原理 • 搜集信息 • 整理信息 • 接受查询
互联网搜索引擎的工作原理 • 搜集信息 • 搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来连上每一个网页上的超链接。理论上,若网页上有适当的超链接,机器人便可以遍历绝大部分网页。 • 整理信息 • 搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。 • 接受查询 • 搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。
搜索引擎面临的挑战 • 一个实用搜索引擎的服务质量和技术,可以从“准、全、新、快”四个方面来衡量 • 准:搜索结果应该与用户查询词高度相关,具有较高的点击率 • 全:搜索结果应该尽可能是整个互联网中最相关的结果 • 新:搜索引擎索引库要尽可能地反映当前互联网的现状 • 快:搜索引擎应该在亚秒时间内返回搜索结果
Web信息发展的挑战 信息仍在大量增加 信息更新加快 信息表现形式多种多样 SEO正在蓬勃发展
搜索需求发展的挑战 更准、更全、更新、更快 使用更加方便和容易 搜索个性化
网络发展的挑战 网络终端形式更加丰富 网络速度的提高 无线网络的发展
非技术方面的挑战 知识产权问题 所在国法律 网络诚信问题
搜索引擎应对方略 多元化 通用系统:其定位是一个好的推荐系统 专业系统:要求非常精准,有专业特色 搜索质量提高 过滤垃圾页面 提高查询准确度
搜索引擎应对方略 搜索能力加强 对多媒体搜索的支持 对Deep Web的搜索 Archive Search 搜索引擎速度的提高 其他 搜索个性化 桌面搜索 移动搜索
搜索引擎相关研究组 国外搜索引擎研究组 Google Microsoft Yahoo! Stanford大学(Standford InfoLab,http://infolab.stanford.edu/) Carriage Mellon大学(CMU LTI,http://www.lti.cs.cmu.edu/) MIT(麻省理工学院)(Massachusetts CIIR,http://ciir.cs.umass.edu/)
搜索引擎相关研究组 国内搜索引擎研究组 科研机构 清华大学智能技术与系统国家重点实验室(http://www.csai.tsinghua.edu.cn/) 北京大学计算语言学研究所(http://icl.pku.edu.cn/) 北大天网组(http://sewm.pku.edu.cn/) 哈尔滨工业大学信息检索组(http://ir.hit.edu.cn/) 复旦大学信息检索和自然语言处理组 中科院大规模内容计算组 百度公司
Thanks! 通识卓越课程 http://en.tjcities.com/index.php/works