可扩展 Web 信息搜集系统的设计、实现与应用初探

可扩展Web信息搜集系统的设计、实现与应用初探可扩展Web信息搜集系统的设计、实现与应用初探闫宏飞北京大学网络与分布式实验室 2002年6月14日

提纲 • 问题的提出 • 网页搜集系统的可扩展性研究 • 网页搜集系统的动态可配置性 • 海量网页应用研究初步 • 工作总结和展望 2

工作的背景和意义 • Web发展 • 1989年提出->1993Mosaic->1997年底(3亿2000万） ->2000年1月(超过10亿) -> 2002年5月(超过20亿) ，… • 中国的Web 发展 • 1995年底(10万到100万之间) • 每年以指数形式增长 • 2002年1月(超过5000万)，... 3

搜索引擎工作流程 • 起源于传统的信息全文检索理论 • 包括如下3个工作过程 www 建立索引库搜集Web信息检索查询用户 4

搜集Web信息 • 应用到下列方面： • 搜索引擎 • 网页存档 • 其它方面 • 确认网页的有效性，站点结构分析，更新通知，镜像，个人Web助理 • 搜集方式 • 目标 • 尽快高效地获取网页 5

提纲 • 问题提出 • 可扩展网页搜集系统 • 分布式系统 • 搜集策略 • 增量式搜集 • 网页搜集系统的动态配置 • 海量网页应用研究初步 • 工作总结与展望 6

天网系统体系结构 WWW 搜集器控制器原始数据库制定搜集策略过滤IP地址执行Robot协议存储所抓取得网页索引器索引数据库检索器用户接口用户 7

集中式搜集系统 8

高效搜集尽可能多的网页 目标系统具有如下特点主控2 • 尽可能减少主控之间网络通信量 • 各节点负载均衡 • 具有可扩展性 • 系统可以动态变化主控1 主控3 调度 • 分布式策略 • 物理上分散 • IP分段 • 主控通信策略 • 环形通信 • 网状通信主控N 搜集器搜集器搜集器搜集器分布式搜集系统分布式并行 9

模拟系统实验 • 模拟数据：大小为507MB->761,129个网页的模拟Web数据 • 模拟实验机器配置：一台PC机，配有双Intel550 CPU，内存为512MB，硬盘36GB，运行的操作系统为Solaris 8.0 • 基于上述实验环境，分别模拟实验了主控数n为2，4，8，16时四种情况 10

负载平衡参照序列 11

模拟系统负载平衡 Hash函数：H ( URL ) = ( DNS ( URL中主机部分 ) ) MOD n 参考序列 12 可扩展搜集系统负载方差

模拟系统可扩展性 13

实际系统实验 • 机器配置：四台PC机，配有双Intel550 CPU，内存为512MB，硬盘36GB，运行的操作系统为Solaris 8.0 • 基于上述实验环境，分别实验了主控数n为1，2，3，4时四种情况 14

实际系统负载平衡 模拟实验方差实际实验方差 15

实际系统可扩展性 16

表面深层搜集策略 17

增量式搜集 • 为什么要增量式搜集 • 设计目标 • 消除已经搜集到的网页中已经失效的网页 • 重新搜集更新过的网页 • 搜集没有访问过的网页 • 以多快好省的方式完成增量搜集过程 18

实现增量式搜集的两种策略 • 检查全部网页 • 重新访问的网页数量不大 • 检查中与服务器建立连接 • 网页平均生命周期1.43年，同一时间存在的网页总体的半衰期大约0.99年 • 有选择性的检查网页 19

搜集部分相关研究 • Harvest搜索引擎 • Google搜索引擎 • Internet Archive • Inktomi搜索引擎 20

提纲 • 问题提出 • 可扩展网页搜集系统 • 网页搜集系统的动态配置 • 海量网页应用研究初步 • 工作总结与展望 21

实现动态可配置的三种方法 • 采用全局Hash函数在所有运行节点间动态分配未访问URL。 • 基于第一种方法，同时每个主控记录着一张Web主机表，这张表在各个主控中是相同的，其中每一条记录包含一个Web主机及其所对应主控信息。 • 采用两阶段映射的方法 22

两阶段映射模型 已知：H : hosts on the web ; N : main-controllers; M : elements in the Array A. 则有：{ (h , n) | m =f1(h), n=f2(m), h∈H, m∈M, n∈N } 要求：(Ui ∩ Uj) = Ø ；(Hi ∩ Hj) = Ø ；(Ni ∩ Nj) = Ø • 负载平衡 • 通信量低 • 各主控之间不重复工作 • 有利于后续工作 23

Array A URLs 1 … 1 2 … 2 … … 9 … 9 1 … 1 2 … 2 … … 9 … 9 1 … 1 11 … 11 2 … 2 11 … 11 … … 10 … 10 11 … 11 1 … 1 2 … 2 … … 10 … 10 N1 shift (4546..5000) N9(40001..45000) N2(5001..10000) N1(1..5000) N2(5001..10000) N2(5001..9545) N1(1..5000) N1(1..4545) N2 shift (9546..10000) N10(45001..50000) N10(45001..49545) N11 N2 (45556..46110) N9 (49440..50000) N1 (45001..45555) N10 shift (49546..50000) a) 稳定状态 b)增加节点 c) 减少节点两阶段映射举例设 N = 10 and M = 50000 24

提纲 • 问题提出 • 可扩展网页搜集系统 • 网页搜集系统的动态配置 • 海量网页应用研究初步 • 中国Web大小、形状和结构 • 工作总结与展望 25

术语介绍 http://www.search163.net/catalog/html/20/20582539.htm http://202.112.78.100/laddernet/hotlink/other.htm http://www.shxi.cetin.net.cn/导航/国内/jywh-ky.htm http://www.daqing.gov.cn/wldh/kj.html http://ftp.gliet.edu.cn/daohang/zhongkebu.htm http://www.dalian.edu.cn/new.htm http://www.dalian.edu.cn/ http://www.synet.edu.cn/ http://www.njnet.edu.cn/ http://www.shnet.edu.cn/ http://www.gznet.edu.cn/ • Web直径 • 网站 • 网页出度，网页入度 • 存在于导航功能中的称为导航影响入度 • 存在于认可功能中的称为认可影响入度 • 有效入度 • 权威型网页，目录型网页 26

天网搜集记录 第三次搜集数据具有代表性覆盖了中国89.6%的网站，45.2%的网页。类似于宽度优先搜索的策略覆盖了93.2%有影响力的网站 27

基本统计数据 • 2002年1月WebGather系统搜集网页数为24,158,849，涉及44,028个网站。 • 平均每个网站有网页548.72个。 • 网页文字平均为12.92KB，网站在各省之间的分布方差为24.18。 • 其中教育网有8144个网站，网站分布方差为16.14； • 科技网有732个网站，网站分布方差为27.68。 28

Web页面链接 实验数据是2,278,524 网页，58,625,283 个链接网页的平均出度为25.7。在58,625,283 个链接中指向国外的链接数只有1%。 29

中国Web的形状 30

Web结构 31

网页有效入度/出度分布 网页的度的分布（尤其是有效入度/入度分布）符合幂级数定律：拥有度为i的网页数与1/ix成正比，其中x>1 x=1.95 x=2.37 32

网页入度分布 网页的度的分布（尤其是有效入度/入度分布）符合幂级数定律：拥有度为i的网页数与1/ix成正比，其中x>1 x=1.86 33

热门站点分类 34

Web社区 • 网络社区 C= P∪I • 二分图定义 • 完全二分图 • 网络核心社区对应于完全二分图Ccore=Pcore∪Icore。 35

找出Web核心社区的方法 实验数据是2,278,524 网页，58,625,283 个链接，2.5GB。即Ppotential分布于2,278,524 网页根URL中， Ipotential分布于58,625,283个URL中一个Ppotential相当于一个好的目录型网页（Hub），至少包含6个不同域名的超链接剩下1/8左右的网页（数据文件的大小减少到313MB）过滤掉后，得到118MB的链接文件 36

找出Web核心社区的方法(续1) 去掉网页中有效入度大于9的链接得到71MB的链接文件数据去掉链接中重复的部分数据文件变成14.5MB大小将链接数据中的根URL和超链接URL编码成整数生成Ipotential列表和Ppotential列表以及URL和整数的对应关系表。得到Ppotential集合包含20,160个URL， Ipotential集合包含201,603个URL，Ppotential与Ipotential的元素个数比是1：10 用i表示Web核心社区中Pcore的元素数，用j表示Icore的元素数。在Web核心社区参数i>=3,j=3和i>=3,j=4的情况下，从Ipotential集合中分别随机抽取100个，200个，…，1000，结合全部的Ppotential，利用倒排表方法找出Web核心社区 37

找出Web核心社区的方法(续2) 38

相关研究 • PageRank • HITS(Hyperlink-Induced Topic Search ) • 权威型网页 • 目录型网页所有网页的编号集{1,2,…,n}。令相邻矩阵A 为一个n*n的矩阵，如果存在一个从网页i链接到网页j 的超链，就令矩阵中的第（i,j）项置为1，其它各项置为0。同时，我们将所有网页的权威型权值x和目录型权值y都表示成向量形式x = (x1, x2, … xn)，y = (y1, y2, … yn) Web使用日志的挖掘 39

总结 • 已发表 • Hongfei YAN, Jianyong WANG, Xiaoming LI, and Lin GUO, “Architectural Design and Evaluation of an Efficient Web-crawling System, ” Journal of System and Software, Vol. 60 No. 3, March 2002. pp.185-193. • YAN Hongfei, WANG Jianyong, LI Xiaoming, “A Dynamic Reconfiguration Model for a Distributed Web Crawling System”, Proceedings of ICCNMC’01, Beijing, Oct.16-19，2001, pp.157-164. • 待刊 • 闫宏飞, 李晓明. 中国Web大小、形状和结构.“计算机研究与发展”. No. 6, 2002年6月. 1. 设计和实现了一种可扩展海量Web信息搜集系统体系结构 2. 设计实现了动态可配置方案 3. 提出了一种分析海量数据的方法，并由此得到了2002年初中国Web的大小、形状和结构 4.增量式搜集策略和网页搜集策略 40

工作展望 • 动态页面支持 • 多语言支持 • 简化系统操作与维护 • 提供更多的副产品 • 网页消重策略的改进，搜集策略的进一步改进 • 增量式存储Web全文网页 • 基于网页内容进行数据挖掘 • 扩大搜集的范围 • 存储非文本信息 • 压缩存储与回放 • 随着Web的迅猛发展，可以考虑物理上分布多个可扩展Web搜集系统，在更广泛意义下进行并行分布式的工作 41

可扩展 Web 信息搜集系统的 设计、实现与应用初探