160 likes | 206 Views
2011/12/16 石川研 研究隣人部. SC’10, SC’11 並列・分散グラフ処理特集. 秋葉 拓哉 ( 今井研 M1). 背景. 大きい グラフ ソーシャルネットワーク, Web グラフ : 10^9 国土 安全 保障省 : 10^15 [2] グラフの処理の並列・分散は難しい ランダムなアクセスパターン プロジェクトなど JST CREST : ポストペタスケールシステムにおける超大規模グラフ最適化 基盤 Graph500 大規模グラフへの世間の関心も高い GraphDB 勉強会: 120 人参加. 論文.
E N D
2011/12/16 石川研研究隣人部 SC’10, SC’11並列・分散グラフ処理特集 秋葉拓哉 (今井研 M1)
背景 • 大きいグラフ • ソーシャルネットワーク,Web グラフ : 10^9 • 国土安全保障省 : 10^15 [2] • グラフの処理の並列・分散は難しい • ランダムなアクセスパターン • プロジェクトなど • JST CREST : ポストペタスケールシステムにおける超大規模グラフ最適化基盤 • Graph500 • 大規模グラフへの世間の関心も高い • GraphDB勉強会:120 人参加
(1) Scalable Graph Exploration on Multicore Processors Virat Agarwal1 Fabrizio Petrini1 Davide Pasetto2 David A. Bader3 1IBM TJ Watson, Yorktown Heights, NY 10598, USA 2IBM Computational Science Center, Dublin, Ireland 3College of Computing, Georgia Tech, Atlanta, GA 30332, USA
概要 • 問題・環境 • BFS • SMP 1 台 • Nehhalem-EX 8 コア × 4 ソケット (= 32 コア) • アプローチ • 並列 BFS を最適化する. • 結果 • 1.3B edges / sec • すごい速そう (主観. でも,その辺の分散より速いし.) • てか 1 スレッドですら元より高速 • 既存のライブラリと比較してほしかった
BFS の最適化 • 到達したかのフラグをビットセットに • ロックする前に値みてからロック • ソケットごとにキューを別に • ソケット内での push とソケット外への push を別に • ソケット外から push されたのは後でまとめて処理 • 良い感じの lock-free queue • Inter-socket キューの処理の batching • 何個か頂点まとめて push/pop
(2) Multithreaded AsynchronousGraph Traversal forIn-Memory and Semi-External Memory Roger Pearceyz, Maya Gokhalez, and Nancy M. Amatoy y Parasol Laboratory Department of Computer Science and Engineering Texas A&M University z Lawrence Livermore National Laboratory
概要 • 問題・環境 • BFS, SSSP, CC • SMP 1 台, AMD 16 core • アプローチ • BSP っぽいことを SMP でやる (僕の主観) • 非同期でよくなる • 結果 • 42 M edges / sec (BFS) • 一応,ナイーブな BFSより 7 倍ぐらい速い • 1 スレッドだと 2 倍ぐらい遅くなる • 既存のライブラリより微妙に (10% とか…) はやい
(3) Fast PGAS Implementation of Distributed Graph Algorithms Guojing Cong, George Almasi, Vijay Saraswat IBM TJ Watson Research Center
これを見よう • http://web.yl.is.s.u-tokyo.ac.jp/~akiyama/talks/20110126-pgas-graph.pdf