60 likes | 240 Views
並列計算から見た SAN. 遠藤 敏夫 ( 東工大 ). ISR9288 switch. ISR9288 switch. ISR9288 switch. ISR9288 switch. ISR9288 switch. ISR9288 switch. ISR9288 switch. ISR9288 switch. TSUBAME のネットワーク. 10GB InfiniBand ノードあたり Voltaire HCA x 2 上流のバンド幅は,全体全の 1/5. MPO(fiber) x24. IB(InfiniBand) x24.
E N D
並列計算から見たSAN 遠藤 敏夫 (東工大)
ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch TSUBAMEのネットワーク • 10GB InfiniBand • ノードあたりVoltaire HCA x 2 • 上流のバンド幅は,全体全の1/5 MPO(fiber) x24 IB(InfiniBand) x24 10GB Voltaire InfiniBand 120 nodes 55 nodes 120 nodes 120 nodes 120 nodes 120 nodes
Voltaire MPI • TCP/IPを介さずに高性能通信 • MVAPICHベースの実装 • 多様なチューニングパラメータ VIADEV_HCA_DISTRIBUTE VIADEV_EXIT_ON_ASYNC_PORT_ERROR BLOCKING_SUPPORT VIADEV_MAX_BLOCK_COUNT VIADEV_USE_PEER_TO_PEER VIADEV_RDMA_LIMIT VIADEV_CQ_SIZE VIADEV_NUM_RDMA_BUFFER VIADEV_ENABLE_ADAPTIVE_FAST_PATH ほか,60以上のパラメータ
ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch Linpack測定時のデータマッピング MPO(fiber) x24 IB(InfiniBand) x24 10GB Voltaire InfiniBand 120 nodes 55 nodes 120 nodes 120 nodes 120 nodes 120 nodes 92 行列の担当を, なるべく上流の通信量を減らすように設定 36
シミュレーショングループの遭遇した問題 • 多数のCPUによる,MPI並列流体計算 • 800CPUまでは通常通り動く • 1000CPUになると,「プログラムが途中で止まる」 • 利用ノードがスイッチ間にまたがることが判明 • 上流スイッチでパケット落ちが頻発 • 「遅くなる」ではなく「止まる」のは厳しい…
SAN(というか通信ソフトウェア)はこうなってほしいSAN(というか通信ソフトウェア)はこうなってほしい • 高バンド幅かつ公平なトランスポート層 • (半)自動チューニング • 約60のパラメータはきつい • 異常理由の一般ユーザへの開示 • トポロジーの一般ユーザへの開示,MPIとの連携 • アクセラレータ直結?