SC’10, SC’11 並列・分散グラフ処理特集

2011/12/16　石川研研究隣人部 SC’10, SC’11並列・分散グラフ処理特集秋葉拓哉 (今井研 M1)

背景 • 大きいグラフ • ソーシャルネットワーク，Web グラフ : 10^9 • 国土安全保障省 : 10^15 [2] • グラフの処理の並列・分散は難しい • ランダムなアクセスパターン • プロジェクトなど • JST CREST : ポストペタスケールシステムにおける超大規模グラフ最適化基盤 • Graph500 • 大規模グラフへの世間の関心も高い • GraphDB勉強会：120 人参加

論文

(1) Scalable Graph Exploration on Multicore Processors Virat Agarwal1 Fabrizio Petrini1 Davide Pasetto2 David A. Bader3 1IBM TJ Watson, Yorktown Heights, NY 10598, USA 2IBM Computational Science Center, Dublin, Ireland 3College of Computing, Georgia Tech, Atlanta, GA 30332, USA

概要 • 問題・環境 • BFS • SMP 1 台 • Nehhalem-EX 8 コア × 4 ソケット (= 32 コア) • アプローチ • 並列 BFS を最適化する． • 結果 • 1.3B edges / sec • すごい速そう (主観．でも，その辺の分散より速いし．) • てか 1 スレッドですら元より高速 • 既存のライブラリと比較してほしかった

BFS の最適化 • 到達したかのフラグをビットセットに • ロックする前に値みてからロック • ソケットごとにキューを別に • ソケット内での push とソケット外への push を別に • ソケット外から push されたのは後でまとめて処理 • 良い感じの lock-free queue • Inter-socket キューの処理の batching • 何個か頂点まとめて push/pop

実験結果 (性能向上)

(2) Multithreaded AsynchronousGraph Traversal forIn-Memory and Semi-External Memory Roger Pearceyz, Maya Gokhalez, and Nancy M. Amatoy y Parasol Laboratory Department of Computer Science and Engineering Texas A&M University z Lawrence Livermore National Laboratory

概要 • 問題・環境 • BFS, SSSP, CC • SMP 1 台, AMD 16 core • アプローチ • BSP っぽいことを SMP でやる (僕の主観) • 非同期でよくなる • 結果 • 42 M edges / sec (BFS) • 一応，ナイーブな BFSより 7 倍ぐらい速い • 1 スレッドだと 2 倍ぐらい遅くなる • 既存のライブラリより微妙に (10% とか…) はやい

実験結果

(3) Fast PGAS Implementation of Distributed Graph Algorithms Guojing Cong, George Almasi, Vijay Saraswat IBM TJ Watson Research Center

これを見よう • http://web.yl.is.s.u-tokyo.ac.jp/~akiyama/talks/20110126-pgas-graph.pdf

SC’10, SC’11 並列・分散グラフ処理特集

SC’10, SC’11 並列・分散グラフ処理特集

Presentation Transcript