1 / 16

SC’10, SC’11 並列・分散グラフ処理特集

2011/12/16  石川研 研究隣人部. SC’10, SC’11 並列・分散グラフ処理特集. 秋葉 拓哉 ( 今井研 M1). 背景. 大きい グラフ ソーシャルネットワーク, Web グラフ : 10^9 国土 安全 保障省 : 10^15 [2] グラフの処理の並列・分散は難しい ランダムなアクセスパターン プロジェクトなど JST CREST : ポストペタスケールシステムにおける超大規模グラフ最適化 基盤 Graph500 大規模グラフへの世間の関心も高い GraphDB 勉強会: 120 人参加. 論文.

Download Presentation

SC’10, SC’11 並列・分散グラフ処理特集

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2011/12/16 石川研研究隣人部 SC’10, SC’11並列・分散グラフ処理特集 秋葉拓哉 (今井研 M1)

  2. 背景 • 大きいグラフ • ソーシャルネットワーク,Web グラフ : 10^9 • 国土安全保障省 : 10^15 [2] • グラフの処理の並列・分散は難しい • ランダムなアクセスパターン • プロジェクトなど • JST CREST : ポストペタスケールシステムにおける超大規模グラフ最適化基盤 • Graph500 • 大規模グラフへの世間の関心も高い • GraphDB勉強会:120 人参加

  3. 論文

  4. (1) Scalable Graph Exploration on Multicore Processors Virat Agarwal1 Fabrizio Petrini1 Davide Pasetto2 David A. Bader3 1IBM TJ Watson, Yorktown Heights, NY 10598, USA 2IBM Computational Science Center, Dublin, Ireland 3College of Computing, Georgia Tech, Atlanta, GA 30332, USA

  5. 概要 • 問題・環境 • BFS • SMP 1 台 • Nehhalem-EX 8 コア × 4 ソケット (= 32 コア) • アプローチ • 並列 BFS を最適化する. • 結果 • 1.3B edges / sec • すごい速そう (主観. でも,その辺の分散より速いし.) • てか 1 スレッドですら元より高速 • 既存のライブラリと比較してほしかった

  6. BFS の最適化 • 到達したかのフラグをビットセットに • ロックする前に値みてからロック • ソケットごとにキューを別に • ソケット内での push とソケット外への push を別に • ソケット外から push されたのは後でまとめて処理 • 良い感じの lock-free queue • Inter-socket キューの処理の batching • 何個か頂点まとめて push/pop

  7. 実験結果 (性能向上)

  8. (2) Multithreaded AsynchronousGraph Traversal forIn-Memory and Semi-External Memory Roger Pearceyz, Maya Gokhalez, and Nancy M. Amatoy y Parasol Laboratory Department of Computer Science and Engineering Texas A&M University z Lawrence Livermore National Laboratory

  9. 概要 • 問題・環境 • BFS, SSSP, CC • SMP 1 台, AMD 16 core • アプローチ • BSP っぽいことを SMP でやる (僕の主観) • 非同期でよくなる • 結果 • 42 M edges / sec (BFS) • 一応,ナイーブな BFSより 7 倍ぐらい速い • 1 スレッドだと 2 倍ぐらい遅くなる • 既存のライブラリより微妙に (10% とか…) はやい

  10. 実験結果

  11. (3) Fast PGAS Implementation of Distributed Graph Algorithms Guojing Cong, George Almasi, Vijay Saraswat IBM TJ Watson Research Center

  12. これを見よう • http://web.yl.is.s.u-tokyo.ac.jp/~akiyama/talks/20110126-pgas-graph.pdf

More Related