760 likes | 962 Views
基于分布式哈希表的对等系统关键技术研究. 博士生:邹福泰 指导教师:马范援 答辩日期:200 5 年 1 月 25 日. 大纲. 研究背景 路由问题及解决方案 拓扑问题及解决方案 查询问题及解决方案 进一步的研究方向. 研究背景. 对等 (peer-to-peer ,简称 P2P) 系统在如下领域已得到广泛应用: (1) 文件共享 eDonkey 、 BitTorrent( 超级下载速度 ) (2) 即时通讯 Jabber( 更强能力 ) (3) 信息搜索 PeerSearch( 实时搜索 ) (4) 内容分发 Coral( 网页按需就近获得 )
E N D
基于分布式哈希表的对等系统关键技术研究 博士生:邹福泰 指导教师:马范援 答辩日期:2005年1月25日
大纲 • 研究背景 • 路由问题及解决方案 • 拓扑问题及解决方案 • 查询问题及解决方案 • 进一步的研究方向
研究背景 • 对等(peer-to-peer,简称P2P)系统在如下领域已得到广泛应用: (1)文件共享 eDonkey、 BitTorrent(超级下载速度) (2)即时通讯 Jabber(更强能力) (3)信息搜索 PeerSearch(实时搜索) (4)内容分发 Coral(网页按需就近获得) (5)协同工作 Groove(visual office) (6)广域存储 OceanStore(无尽存储) (7)网络计算 SETI@Home(超级计算力) (8)组通信 Scribe(应用级组播) 新兴应用领域仍不断增长中。。。
P2P系统构造及发展 • P2P系统将分布于Internet的众多计算机构造一个自组织的利益群体,其中每个计算机的功能都是对等的。 • 构造过程是一个由简单到复杂的发展史 • 1999 Napster(集中式,central index server) • 2000 Gnutella(分散不收敛,flooding) • 2001 Chord/CAN/Pastry/Tapestry(分散且收敛,DHT)
2001 DHTs • DHTs展现了良好的结构性,greeding routing • Chord[STOI 2001] • CAN[RATN 2001] • Pastry[ROWS 2001] • Tapestry [ZHAO 2001]
Chord Succ. Table Items 7 i id+2i succ 0 1 1 1 2 2 2 4 0 0 Succ. Table Items 1 1 i id+2i succ 0 2 2 1 3 6 2 5 6 7 query(7) 6 2 Succ. Table i id+2i succ 0 7 0 1 0 0 2 2 2 Succ. Table i id+2i succ 0 3 6 1 4 6 2 6 6 5 3 4
CAN • n1 query f4 7 6 n5 n4 n3 f4 5 4 f1 3 n2 n1 2 f3 1 f2 0 0 2 3 4 6 7 5 1
DHT技术在P2P系统中的作用 • 提供分散且收敛特性 • 提供动态加入与离开时的容错特性 • 因而,基于DHT技术的P2P系统能够高的可扩展性、自组织性及确定性等优良特性,非常适合广域分布计算,受到高度重视。
DHT技术引导的变革 • 分布式哈希表技术密切相关于P2P系统的设计,主要是拓扑、路由和查询此三个紧密相关的关键设计技术,并由此深刻影响着P2P系统的资源定位和查找的这一系统应用的核心问题。
引入DHT技术带来的新挑战 • (一)路由:高扩展性带来的路由跳数问题 • (二)拓扑:结构化带来的高维护开销问题 • (三)查询:单关键字哈希定位带来的应用 局限问题
大纲 • 研究背景 • 路由问题及解决方案 • 拓扑问题及解决方案 • 查询问题及解决方案 • 进一步的研究方向
问题的提出 • Ratnasmy等2002年在第一届P2P系统的国际会议(IPTPS02)提出著名的15问题[RATN 2002a]中论述到:如何在低状态空间下达到高路由效率,即为“状态与效率问题”。 • 一系列的研究展开: • (1)新颖拓扑:Koorde [KAAS 2003] • (2)随机化拓扑:Viceroy [DAHL 2002]
本文的新方法 • 概率缓存链技术 • 基于理论 • (1) 小世界模型 • (2) 马氏随机过程 • 选取CAN为例,基于此概率缓存链技术构造了PCCAN系统,展示本文方法可行性及在性能上的优越性。
PCCAN拓扑示意 节点n4的路由表
概率缓存+蠕虫置换 • 概率缓存:节点S应答来自节点T的查询请求时,将以概率P将节点S已缓存节点K置换为T,其中P=||S-K||d / (||S-K||d + ||S-T||d) • 蠕虫置换:置换依附于查询消息上,在查询虫径过程中均发生置换。从而,使得置换在系统内均匀,加快马氏过程收敛。
两大定理 • 定理3-1 概率缓存长链符合小世界分布 • PCCAN系统中重复执行概率缓存置换过程,任意一节点s将在有限步内以与||s-t||-d成比例的概率缓存节点t。 • 定理3-2PCCAN路径长度 • 采用概率缓存模式的小世界网络构造,PCCAN的路由平均路径跳数为O(log2(n1/d)),其中n是节点总数。
仿真实验 • 静态:假设没有节点加入与离开的理想环境,以验证PCCAN的理想性能参数。 • 动态:以泊松率加入和离开的模拟真实环境,以观察PCCAN的动态适用性及性能参数。
静态实验 • (1)概率缓存的收敛性 • (2)单链下的路径长度 • (3)多链下的收敛比较 • (4)多链下的路径长度 • (5)三种缓存置换策略的比较 • (6)维度影响
(1)概率缓存的收敛性 约50置换步趋于收敛
(2)单链下的路径长度 路径长度得到优化
(3)多链下的收敛比较 多链下收敛且速度稍快
(4)多链下的路径长度 多链下路径长度不断优化但趋于平缓
(5)三种缓存置换策略的比较 Kleinberg Shceme为最佳
(6)维度影响 维度加大减缓了缓存链的作用,故缓存链技术更适于低维
动态下的问题 • 前面讨论的理想状态,在动态下,收敛性是否可行? • 基本思想:倘若静态情况下马氏链稳定所需要的步数即需要查询置换次数为m,则动态收敛应期望在节点的生存时间s内至少能有m次置换发生。也就是如果节点发生的查询置换率足够大,也能够达到静态时的收敛效果。 • 考虑到查询置换率受应用系统影响的不定性,从而引入主动查询机制。
动态实验 • (1) PCCAN的动态收敛性 • (2) 动态环境的自适应性
(1) PCCAN的动态收敛 动态下以一种波动方式趋于收敛
能够随着网络动荡变化而自适应调整 (2)动态环境自适应性
小结 • 1、技术创新性 • (1)采用概率缓存节点不同以往确定性缓存数据项 • (2)利用小世界模型的新理论重构DHT路由结构 • 2、应用特色 • (1)低维护和管理开销 • (2)适应新老系统
大纲 • 研究背景 • 路由问题及解决方案 • 拓扑问题及解决方案 • 查询问题及解决方案 • 进一步的研究方向
问题的提出 • 由于将节点和数据文件紧密布置在一个结构化拓扑中,DHT-P2P系统敏感于结构的动态变化。每次节点的加入或者离开都要相对于非结构化有更多的开销。 • P2P系统中节点的有组织无纪律的行为加剧了这种开销的增长。 • 如何减少这些拓扑维护开销?
本文的新方法 • 减少维护开销的根源:减缓拓扑的变化程度 • 如何减少拓扑的变化程度? • 节点的会话异构性:将参与DHT-P2P系统的节点区分成两类,一类节点具有足够稳定性,称为稳定节点,另一类节点并不是很稳定,具有较强波动性,称为自由节点。 • 仅由稳定节点构造结构化的DHT拓扑,自由节点依附于稳定节点,不参与DHT拓扑构造。
SHT模型设计思想 • (1)DHT拓扑仅由簇中父节点组成 • (2)新节点加入到一随机簇,成为子节点 • (3)通过簇的分裂来保证簇大小不越过m • (4)每次分裂或者父节点失效时进行父节点的竞选,以保证簇中最稳定的子节点成为新的父节点。 • 期望: • (1)任何一簇中的父节点比子节点更稳定,从而最大程度控制了DHT环的动荡性。 • (2)簇大小m值适当小,以便具有低维护开销和广泛适用性
分裂算法 • (1) 节点与一个已知的引导节点I (introducer)联系。然后通过节点I发送加入请求以把自己加入到一随机簇C中。 • (2) 如果簇C的大小超过m,那么簇C就分裂成两个簇,并对于新簇选出新的父节点。 • <a> 从簇C的所有子节点中选出会话时间最长节点b作为新簇父节点加入DHT环,命名此新簇名为C’,此时它的子节点数为0,并从簇C中删除节点b。 • <b> 从簇C中随机移动(m/2-1)个子节点到簇 C’。
渐近的DHT环稳定性 • 为了形成一个稳定的DHT环需回答以下两个问题: • (1)怎样使得父节点的选择既可行又可靠? • (2)这些父节点是否能够使得DHT能达到想要的稳定状态?
问题(1)的方案 • 簇中父节点维护参与簇的子节点列表,考虑到动态性,要周期性进行更新。每次父节点竞选时利用此子节点列表。 • 通过此种方案,父节点选择得到保障。
问题(2)的方案 • DHT环的稳定时,簇中父节点不仅是本簇内子节点稳定(由竞选规则而得到),而且应比DHT环外的所有子节点要稳定。 • 为了实现这点,采用了随机调整算法,以达到渐近的稳定化。
实验 • (1) DHT环稳定性 vs. 簇的大小 • (2) SHT的性能 • 1.维护开销 • 2.查询失败率
(1) DHT环稳定性 vs. 簇的大小 • 会话时间的分布采用实验trace[SARO 2002] m存在近似小值,符合定理2的论断
(2)SHT性能实验 • 1.维护开销 • 2.查询失败率
1、维护开销 20000个节点持续以每秒一个速率加入到网络中,run 24 hours. 维护开销被降低到仅为Chord 中的2.5%
2、查询失败率 • 点线是拟合曲线 SH-Chord失败率比Chord小了一个数量级,因而有更好的数据可用性
小结 • 技术创新性 • (1)会话异构用于拓扑组织 • (2)渐近稳定性及理论分析 • 应用特色 • (1) 簇的管理方式简单自然,可以直接应用于现有的DHT系统的拓扑改进。 • (2) 簇的大小与布置的P2P系统动态性相适应,当高动态时,一个较小簇也能达到较理想效果。
大纲 • 研究背景 • 路由问题及解决方案 • 拓扑问题及解决方案 • 查询问题及解决方案 • 进一步的研究方向