1 / 76

基于分布式哈希表的对等系统关键技术研究

基于分布式哈希表的对等系统关键技术研究. 博士生:邹福泰 指导教师:马范援 答辩日期:200 5 年 1 月 25 日. 大纲. 研究背景 路由问题及解决方案 拓扑问题及解决方案 查询问题及解决方案 进一步的研究方向. 研究背景. 对等 (peer-to-peer ,简称 P2P) 系统在如下领域已得到广泛应用: (1) 文件共享 eDonkey 、 BitTorrent( 超级下载速度 ) (2) 即时通讯 Jabber( 更强能力 ) (3) 信息搜索 PeerSearch( 实时搜索 ) (4) 内容分发 Coral( 网页按需就近获得 )

mandell
Download Presentation

基于分布式哈希表的对等系统关键技术研究

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于分布式哈希表的对等系统关键技术研究 博士生:邹福泰 指导教师:马范援 答辩日期:2005年1月25日

  2. 大纲 • 研究背景 • 路由问题及解决方案 • 拓扑问题及解决方案 • 查询问题及解决方案 • 进一步的研究方向

  3. 研究背景 • 对等(peer-to-peer,简称P2P)系统在如下领域已得到广泛应用: (1)文件共享 eDonkey、 BitTorrent(超级下载速度) (2)即时通讯 Jabber(更强能力) (3)信息搜索 PeerSearch(实时搜索) (4)内容分发 Coral(网页按需就近获得) (5)协同工作 Groove(visual office) (6)广域存储 OceanStore(无尽存储) (7)网络计算 SETI@Home(超级计算力) (8)组通信 Scribe(应用级组播) 新兴应用领域仍不断增长中。。。

  4. P2P系统构造及发展 • P2P系统将分布于Internet的众多计算机构造一个自组织的利益群体,其中每个计算机的功能都是对等的。 • 构造过程是一个由简单到复杂的发展史 • 1999 Napster(集中式,central index server) • 2000 Gnutella(分散不收敛,flooding) • 2001 Chord/CAN/Pastry/Tapestry(分散且收敛,DHT)

  5. 1999 Napster

  6. 2000 Gnutella

  7. 2001 DHTs • DHTs展现了良好的结构性,greeding routing • Chord[STOI 2001] • CAN[RATN 2001] • Pastry[ROWS 2001] • Tapestry [ZHAO 2001]

  8. Chord Succ. Table Items 7 i id+2i succ 0 1 1 1 2 2 2 4 0 0 Succ. Table Items 1 1 i id+2i succ 0 2 2 1 3 6 2 5 6 7 query(7) 6 2 Succ. Table i id+2i succ 0 7 0 1 0 0 2 2 2 Succ. Table i id+2i succ 0 3 6 1 4 6 2 6 6 5 3 4

  9. CAN • n1 query f4 7 6 n5 n4 n3 f4 5 4 f1 3 n2 n1 2 f3 1 f2 0 0 2 3 4 6 7 5 1

  10. DHT技术在P2P系统中的作用 • 提供分散且收敛特性 • 提供动态加入与离开时的容错特性 • 因而,基于DHT技术的P2P系统能够高的可扩展性、自组织性及确定性等优良特性,非常适合广域分布计算,受到高度重视。

  11. DHT技术引导的变革 • 分布式哈希表技术密切相关于P2P系统的设计,主要是拓扑、路由和查询此三个紧密相关的关键设计技术,并由此深刻影响着P2P系统的资源定位和查找的这一系统应用的核心问题。

  12. 引入DHT技术带来的新挑战 • (一)路由:高扩展性带来的路由跳数问题 • (二)拓扑:结构化带来的高维护开销问题 • (三)查询:单关键字哈希定位带来的应用 局限问题

  13. 大纲 • 研究背景 • 路由问题及解决方案 • 拓扑问题及解决方案 • 查询问题及解决方案 • 进一步的研究方向

  14. 问题的提出 • Ratnasmy等2002年在第一届P2P系统的国际会议(IPTPS02)提出著名的15问题[RATN 2002a]中论述到:如何在低状态空间下达到高路由效率,即为“状态与效率问题”。 • 一系列的研究展开: • (1)新颖拓扑:Koorde [KAAS 2003] • (2)随机化拓扑:Viceroy [DAHL 2002]

  15. 本文的新方法 • 概率缓存链技术 • 基于理论 • (1) 小世界模型 • (2) 马氏随机过程 • 选取CAN为例,基于此概率缓存链技术构造了PCCAN系统,展示本文方法可行性及在性能上的优越性。

  16. PCCAN(Probabilistic Cache-based CAN)

  17. PCCAN拓扑示意 节点n4的路由表

  18. 概率缓存+蠕虫置换 • 概率缓存:节点S应答来自节点T的查询请求时,将以概率P将节点S已缓存节点K置换为T,其中P=||S-K||d / (||S-K||d + ||S-T||d) • 蠕虫置换:置换依附于查询消息上,在查询虫径过程中均发生置换。从而,使得置换在系统内均匀,加快马氏过程收敛。

  19. 两大定理 • 定理3-1 概率缓存长链符合小世界分布 • PCCAN系统中重复执行概率缓存置换过程,任意一节点s将在有限步内以与||s-t||-d成比例的概率缓存节点t。 • 定理3-2PCCAN路径长度 • 采用概率缓存模式的小世界网络构造,PCCAN的路由平均路径跳数为O(log2(n1/d)),其中n是节点总数。

  20. 仿真实验 • 静态:假设没有节点加入与离开的理想环境,以验证PCCAN的理想性能参数。 • 动态:以泊松率加入和离开的模拟真实环境,以观察PCCAN的动态适用性及性能参数。

  21. 静态实验 • (1)概率缓存的收敛性 • (2)单链下的路径长度 • (3)多链下的收敛比较 • (4)多链下的路径长度 • (5)三种缓存置换策略的比较 • (6)维度影响

  22. (1)概率缓存的收敛性 约50置换步趋于收敛

  23. (2)单链下的路径长度 路径长度得到优化

  24. (3)多链下的收敛比较 多链下收敛且速度稍快

  25. (4)多链下的路径长度 多链下路径长度不断优化但趋于平缓

  26. (5)三种缓存置换策略的比较 Kleinberg Shceme为最佳

  27. (6)维度影响 维度加大减缓了缓存链的作用,故缓存链技术更适于低维

  28. 动态下的问题 • 前面讨论的理想状态,在动态下,收敛性是否可行? • 基本思想:倘若静态情况下马氏链稳定所需要的步数即需要查询置换次数为m,则动态收敛应期望在节点的生存时间s内至少能有m次置换发生。也就是如果节点发生的查询置换率足够大,也能够达到静态时的收敛效果。 • 考虑到查询置换率受应用系统影响的不定性,从而引入主动查询机制。

  29. 主动查询算法(查询率补偿算法)

  30. 动态实验 • (1) PCCAN的动态收敛性 • (2) 动态环境的自适应性

  31. (1) PCCAN的动态收敛 动态下以一种波动方式趋于收敛

  32. 能够随着网络动荡变化而自适应调整 (2)动态环境自适应性

  33. 小结 • 1、技术创新性 • (1)采用概率缓存节点不同以往确定性缓存数据项 • (2)利用小世界模型的新理论重构DHT路由结构 • 2、应用特色 • (1)低维护和管理开销 • (2)适应新老系统

  34. 大纲 • 研究背景 • 路由问题及解决方案 • 拓扑问题及解决方案 • 查询问题及解决方案 • 进一步的研究方向

  35. 问题的提出 • 由于将节点和数据文件紧密布置在一个结构化拓扑中,DHT-P2P系统敏感于结构的动态变化。每次节点的加入或者离开都要相对于非结构化有更多的开销。 • P2P系统中节点的有组织无纪律的行为加剧了这种开销的增长。 • 如何减少这些拓扑维护开销?

  36. 本文的新方法 • 减少维护开销的根源:减缓拓扑的变化程度 • 如何减少拓扑的变化程度? • 节点的会话异构性:将参与DHT-P2P系统的节点区分成两类,一类节点具有足够稳定性,称为稳定节点,另一类节点并不是很稳定,具有较强波动性,称为自由节点。 • 仅由稳定节点构造结构化的DHT拓扑,自由节点依附于稳定节点,不参与DHT拓扑构造。

  37. SHT(Session Heterogeneity Topology)模型

  38. SHT模型设计思想 • (1)DHT拓扑仅由簇中父节点组成 • (2)新节点加入到一随机簇,成为子节点 • (3)通过簇的分裂来保证簇大小不越过m • (4)每次分裂或者父节点失效时进行父节点的竞选,以保证簇中最稳定的子节点成为新的父节点。 • 期望: • (1)任何一簇中的父节点比子节点更稳定,从而最大程度控制了DHT环的动荡性。 • (2)簇大小m值适当小,以便具有低维护开销和广泛适用性

  39. 分裂算法 • (1) 节点与一个已知的引导节点I (introducer)联系。然后通过节点I发送加入请求以把自己加入到一随机簇C中。 • (2) 如果簇C的大小超过m,那么簇C就分裂成两个簇,并对于新簇选出新的父节点。 • <a> 从簇C的所有子节点中选出会话时间最长节点b作为新簇父节点加入DHT环,命名此新簇名为C’,此时它的子节点数为0,并从簇C中删除节点b。 • <b> 从簇C中随机移动(m/2-1)个子节点到簇 C’。

  40. 渐近的DHT环稳定性 • 为了形成一个稳定的DHT环需回答以下两个问题: • (1)怎样使得父节点的选择既可行又可靠? • (2)这些父节点是否能够使得DHT能达到想要的稳定状态?

  41. 问题(1)的方案 • 簇中父节点维护参与簇的子节点列表,考虑到动态性,要周期性进行更新。每次父节点竞选时利用此子节点列表。 • 通过此种方案,父节点选择得到保障。

  42. 问题(2)的方案 • DHT环的稳定时,簇中父节点不仅是本簇内子节点稳定(由竞选规则而得到),而且应比DHT环外的所有子节点要稳定。 • 为了实现这点,采用了随机调整算法,以达到渐近的稳定化。

  43. 两大定理

  44. 实验 • (1) DHT环稳定性 vs. 簇的大小 • (2) SHT的性能 • 1.维护开销 • 2.查询失败率

  45. (1) DHT环稳定性 vs. 簇的大小 • 会话时间的分布采用实验trace[SARO 2002] m存在近似小值,符合定理2的论断

  46. (2)SHT性能实验 • 1.维护开销 • 2.查询失败率

  47. 1、维护开销 20000个节点持续以每秒一个速率加入到网络中,run 24 hours. 维护开销被降低到仅为Chord 中的2.5%

  48. 2、查询失败率 • 点线是拟合曲线 SH-Chord失败率比Chord小了一个数量级,因而有更好的数据可用性

  49. 小结 • 技术创新性 • (1)会话异构用于拓扑组织 • (2)渐近稳定性及理论分析 • 应用特色 • (1) 簇的管理方式简单自然,可以直接应用于现有的DHT系统的拓扑改进。 • (2) 簇的大小与布置的P2P系统动态性相适应,当高动态时,一个较小簇也能达到较理想效果。

  50. 大纲 • 研究背景 • 路由问题及解决方案 • 拓扑问题及解决方案 • 查询问题及解决方案 • 进一步的研究方向

More Related