410 likes | 542 Views
可扩展 Web 信息搜集系统的 设计、实现与应用初探. 闫宏飞 北京大学网络与分布式实验室 2002 年6月14日. 提纲. 问题的提出 网页搜集系统的可扩展性研究 网页搜集系统的动态可配置性 海量网页应用研究初步 工作总结和展望. 工作的背景和意义. Web 发展 1989年提出->1993 Mosaic->1997 年底(3亿2000万) ->2000年1月(超过10亿) -> 2002年5月(超过20亿) , … 中国的 Web 发展 1995年底(10万到100万之间) 每年以指数形式增长 2002年1月(超过5000万),. 搜索引擎工作流程.
E N D
可扩展Web信息搜集系统的设计、实现与应用初探可扩展Web信息搜集系统的设计、实现与应用初探 闫宏飞 北京大学网络与分布式实验室 2002年6月14日
提纲 • 问题的提出 • 网页搜集系统的可扩展性研究 • 网页搜集系统的动态可配置性 • 海量网页应用研究初步 • 工作总结和展望 2
工作的背景和意义 • Web发展 • 1989年提出->1993Mosaic->1997年底(3亿2000万) ->2000年1月(超过10亿) -> 2002年5月(超过20亿) ,… • 中国的Web 发展 • 1995年底(10万到100万之间) • 每年以指数形式增长 • 2002年1月(超过5000万),... 3
搜索引擎工作流程 • 起源于传统的信息全文检索理论 • 包括如下3个工作过程 www 建立索引库 搜集Web信息 检索查询 用户 4
搜集Web信息 • 应用到下列方面: • 搜索引擎 • 网页存档 • 其它方面 • 确认网页的有效性,站点结构分析,更新通知,镜像,个人Web助理 • 搜集方式 • 目标 • 尽快高效地获取网页 5
提纲 • 问题提出 • 可扩展网页搜集系统 • 分布式系统 • 搜集策略 • 增量式搜集 • 网页搜集系统的动态配置 • 海量网页应用研究初步 • 工作总结与展望 6
天网系统体系结构 WWW 搜集器 控制器 原始数据库 制定搜集策略 过滤IP地址 执行Robot协议 存储所抓取得网页 索引器 索引数据库 检索器 用户接口 用户 7
集中式搜集系统 8
高效搜集尽可能多的网页 目标 系统具有如下特点 主控2 • 尽可能减少主控之间网络通信量 • 各节点负载均衡 • 具有可扩展性 • 系统可以动态变化 主控1 主控3 调度 • 分布式策略 • 物理上分散 • IP分段 • 主控通信策略 • 环形通信 • 网状通信 主控N 搜集器 搜集器 搜集器 搜集器 分布式搜集系统 分布式并行 9
模拟系统实验 • 模拟数据:大小为507MB->761,129个网页的模拟Web数据 • 模拟实验机器配置:一台PC机,配有双Intel550 CPU,内存为512MB,硬盘36GB,运行的操作系统为Solaris 8.0 • 基于上述实验环境,分别模拟实验了主控数n为2,4,8,16时四种情况 10
负载平衡参照序列 11
模拟系统负载平衡 Hash函数:H ( URL ) = ( DNS ( URL中主机部分 ) ) MOD n 参考序列 12 可扩展搜集系统负载方差
模拟系统可扩展性 13
实际系统实验 • 机器配置:四台PC机,配有双Intel550 CPU,内存为512MB,硬盘36GB,运行的操作系统为Solaris 8.0 • 基于上述实验环境,分别实验了主控数n为1,2,3,4时四种情况 14
实际系统负载平衡 模拟实验方差 实际实验方差 15
实际系统可扩展性 16
表面 深层 搜集策略 17
增量式搜集 • 为什么要增量式搜集 • 设计目标 • 消除已经搜集到的网页中已经失效的网页 • 重新搜集更新过的网页 • 搜集没有访问过的网页 • 以多快好省的方式完成增量搜集过程 18
实现增量式搜集的两种策略 • 检查全部网页 • 重新访问的网页数量不大 • 检查中与服务器建立连接 • 网页平均生命周期1.43年,同一时间存在的网页总体的半衰期大约0.99年 • 有选择性的检查网页 19
搜集部分相关研究 • Harvest搜索引擎 • Google搜索引擎 • Internet Archive • Inktomi搜索引擎 20
提纲 • 问题提出 • 可扩展网页搜集系统 • 网页搜集系统的动态配置 • 海量网页应用研究初步 • 工作总结与展望 21
实现动态可配置的三种方法 • 采用全局Hash函数在所有运行节点间动态分配未访问URL。 • 基于第一种方法,同时每个主控记录着一张Web主机表,这张表在各个主控中是相同的,其中每一条记录包含一个Web主机及其所对应主控信息。 • 采用两阶段映射的方法 22
两阶段映射模型 已知:H : hosts on the web ; N : main-controllers; M : elements in the Array A. 则有:{ (h , n) | m =f1(h), n=f2(m), h∈H, m∈M, n∈N } 要求:(Ui ∩ Uj) = Ø ;(Hi ∩ Hj) = Ø ;(Ni ∩ Nj) = Ø • 负载平衡 • 通信量低 • 各主控之间不重复工作 • 有利于后续工作 23
Array A URLs 1 … 1 2 … 2 … … 9 … 9 1 … 1 2 … 2 … … 9 … 9 1 … 1 11 … 11 2 … 2 11 … 11 … … 10 … 10 11 … 11 1 … 1 2 … 2 … … 10 … 10 N1 shift (4546..5000) N9(40001..45000) N2(5001..10000) N1(1..5000) N2(5001..10000) N2(5001..9545) N1(1..5000) N1(1..4545) N2 shift (9546..10000) N10(45001..50000) N10(45001..49545) N11 N2 (45556..46110) N9 (49440..50000) N1 (45001..45555) N10 shift (49546..50000) a) 稳定状态 b)增加节点 c) 减少节点 两阶段映射举例 设 N = 10 and M = 50000 24
提纲 • 问题提出 • 可扩展网页搜集系统 • 网页搜集系统的动态配置 • 海量网页应用研究初步 • 中国Web大小、形状和结构 • 工作总结与展望 25
术语介绍 http://www.search163.net/catalog/html/20/20582539.htm http://202.112.78.100/laddernet/hotlink/other.htm http://www.shxi.cetin.net.cn/导航/国内/jywh-ky.htm http://www.daqing.gov.cn/wldh/kj.html http://ftp.gliet.edu.cn/daohang/zhongkebu.htm http://www.dalian.edu.cn/new.htm http://www.dalian.edu.cn/ http://www.synet.edu.cn/ http://www.njnet.edu.cn/ http://www.shnet.edu.cn/ http://www.gznet.edu.cn/ • Web直径 • 网站 • 网页出度,网页入度 • 存在于导航功能中的称为导航影响入度 • 存在于认可功能中的称为认可影响入度 • 有效入度 • 权威型网页,目录型网页 26
天网搜集记录 第三次搜集数据具有代表性 覆盖了中国89.6%的网站,45.2%的网页。 类似于宽度优先搜索的策略 覆盖了93.2%有影响力的网站 27
基本统计数据 • 2002年1月WebGather系统搜集网页数为24,158,849,涉及44,028个网站。 • 平均每个网站有网页548.72个。 • 网页文字平均为12.92KB,网站在各省之间的分布方差为24.18。 • 其中教育网有8144个网站,网站分布方差为16.14; • 科技网有732个网站,网站分布方差为27.68。 28
Web页面链接 实验数据是2,278,524 网页,58,625,283 个链接 网页的平均出度为25.7。 在58,625,283 个链接中指向国外的链接数只有1%。 29
中国Web的形状 30
Web结构 31
网页有效入度/出度分布 网页的度的分布(尤其是有效入度/入度分布)符合幂级数定律:拥有度为i的网页数与1/ix成正比,其中x>1 x=1.95 x=2.37 32
网页入度分布 网页的度的分布(尤其是有效入度/入度分布)符合幂级数定律:拥有度为i的网页数与1/ix成正比,其中x>1 x=1.86 33
热门站点分类 34
Web社区 • 网络社区 C= P∪I • 二分图定义 • 完全二分图 • 网络核心社区对应于完全二分图Ccore=Pcore∪Icore。 35
找出Web核心社区的方法 实验数据是2,278,524 网页,58,625,283 个链接,2.5GB。即Ppotential分布于2,278,524 网页根URL中, Ipotential分布于58,625,283个URL中 一个Ppotential相当于一个好的目录型网页(Hub), 至少包含6个不同域名的超链接 剩下1/8左右的网页(数据文件的大小减少到313MB) 过滤掉后,得到118MB的链接文件 36
找出Web核心社区的方法(续1) 去掉网页中有效入度大于9的链接 得到71MB的链接文件数据 去掉链接中重复的部分 数据文件变成14.5MB大小 将链接数据中的根URL和超链接URL编码成整数 生成Ipotential列表和Ppotential列表以及URL和整数的对应关系表。得到Ppotential集合包含20,160个URL, Ipotential集合包含201,603个URL,Ppotential与Ipotential的元素个数比是1:10 用i表示Web核心社区中Pcore的元素数,用j表示Icore的元素数。在Web核心社区参数i>=3,j=3和i>=3,j=4的情况下,从Ipotential集合中分别随机抽取100个,200个,…,1000,结合全部的Ppotential,利用倒排表方法找出Web核心社区 37
相关研究 • PageRank • HITS(Hyperlink-Induced Topic Search ) • 权威型网页 • 目录型网页 所有网页的编号集{1,2,…,n}。令相邻矩阵A 为一个n*n的矩阵,如果存在一个从网页i链接到网页j 的超链,就令矩阵中的第(i,j)项置为1,其它各项置为0。同时,我们将所有网页的权威型权值x和目录型权值y都表示成向量形式x = (x1, x2, … xn),y = (y1, y2, … yn) Web使用日志的挖掘 39
总结 • 已发表 • Hongfei YAN, Jianyong WANG, Xiaoming LI, and Lin GUO, “Architectural Design and Evaluation of an Efficient Web-crawling System, ” Journal of System and Software, Vol. 60 No. 3, March 2002. pp.185-193. • YAN Hongfei, WANG Jianyong, LI Xiaoming, “A Dynamic Reconfiguration Model for a Distributed Web Crawling System”, Proceedings of ICCNMC’01, Beijing, Oct.16-19,2001, pp.157-164. • 待刊 • 闫宏飞, 李晓明. 中国Web大小、形状和结构.“计算机研究与发展”. No. 6, 2002年6月. 1. 设计和实现了一种可扩展海量Web信息搜集系统体系结构 2. 设计实现了动态可配置方案 3. 提出了一种分析海量数据的方法,并由此得到了2002年初中国Web的大小、形状和结构 4.增量式搜集策略和网页搜集策略 40
工作展望 • 动态页面支持 • 多语言支持 • 简化系统操作与维护 • 提供更多的副产品 • 网页消重策略的改进,搜集策略的进一步改进 • 增量式存储Web全文网页 • 基于网页内容进行数据挖掘 • 扩大搜集的范围 • 存储非文本信息 • 压缩存储与回放 • 随着Web的迅猛发展,可以考虑物理上分布多个可扩展Web搜集系统,在更广泛意义下进行并行分布式的工作 41