CMC スーパーコンピューティング環境現状と将来

CMCスーパーコンピューティング環境現状と将来CMCスーパーコンピューティング環境現状と将来 Manabu Higashida manabu@cmc.osaka-u.ac.jp 2004/11/10

Our Activities@2001

Our Activities • 非常に高いユーザ利用率を維持 • FLOPS値が減少傾向

今だから明かせる導入経緯 • 何がなんでも“Over 1TFLOPS” • 借料期間が4年から6年に • US DoEのASCIプロジェクトと地球シミュレータ計画による“Top500 List”の盛り上がり • 8ノード導入に際しての損得勘定 • 片方のメモリバンクを省く • メモリ転送帯域を犠牲 • Full-Rate: 1w ld/st for 1-flop  8GB/s for 1GFLOPS • Half-Rate: 0.5w ld/st for 1-flop  4GB/s for 1GFLOPS • 1.25倍のクロックアップ耐性によるピーク性能増 • 低消費電力化 • 設置場所 • ILEとRCNPへのノード設置 • 電気代節約に加えて運営負担金収入増も

“TOP500 Supercomputer Sites” • http://www.top500.org/ • 導入当時の2001/06/21 付けプレス・リリースにて • “The list now indicates 12 systems exceeding the 1 teraflop/s level using the Linpack benchmark. The number eight system is an NEC SX5 at Osaka University and is the first classical vector system to break the 1 teraflop/s (Tflop/s) barrier.” • 2001年6月付けのリストで8位 • 2004年6月付けのリストで184位

17th Edition of TOP500 List of Worlds Fastest Supercomputers (June 21, 2001)

MMU 装置部 • ハーフレート・モデルにつきメモリは片側バンクのみ 1 2 1 2

STREAM ベンチマークによる検証 • http://www.cs.virginia.edu/stream/ • Triad: a(j) = b(j) + scalar * c(j) • 3 words (3×8-bytes) data transfer for 2 floating operations • 古典的な Linpack ベンチマーク(DGEFA routine of BLAS1)と同じ • x MB/s x/8×2/3 MFLOPS

SX-4: 16 GB/s 1.3 GFLOPS Peak 16 GB/s  1.3 GFLOPS Peak比 100% SX-5Af: 28 GB/s 2.3 GFLOPS Peak 40 GB/s  3.3 GFLOPS Peak比 70% (SX-5A比 58%) (参考) SX-5A: 48 GB/s 4.0 GFLOPS Peak (64 GB/s) 比 75% 単体プロセッサの性能比較

マルチプロセッサ性能 • SX-5/16Af: 340 GB/s 28 GFLOPS • Peak 640 GB/s 53 GFLOPS • Peak比 53% (SX-5/16A比 59%) • (参考) SX-5/16A: 580 GB/s 49 GFLOPS • Peak (1024 GB/s) 比 57%

STREAM ベンチマークによる共有メモリノードのメモリ転送帯域 SX-5@Osaka Univ. 340GB/s SX-7@Tohoku Univ. 492GB/s (出典HPCC)

２飛びアクセスとバンク競合 ２飛びアクセス複素数データの実部のみ（または虚部のみ）の参照 STREAM Triadに見られたスパイク状のドロップ 16並列時にメモリ転送ポートの利用効率が半減するメモリアクセスパターンがある SX-8から改善バンク競合 SDRAMの機種では顕著に目立つもちろんハーフバンク機ではさらに目立つ FCRAM (Fast Cycle RAM) の機種では半減

バンク競合の実際 学内某所で運用中のSX-6 (仮名sx58) との比較 SX-5Af: 312.5MHz, 160GFLOPS, 128GB SDR-SDRAM, Half-Rate 640GB/s SX-6: 500.0MHz, 64GFLOPS, 64GB DDR-SDRAM, Full-Rate 512GB/s ベクトル命令実行時間中バンク競合が発生している割合vs. ピーク性能に対する実効演算効率 SX-5Af: 30〜40% vs. 17〜18% SX-6: 6〜7% vs. 15〜20%

システム効率向上 • ユーザチューニングの励行 • システム運用状況の改善ではFLOPS値漸減に歯止めをかけることは難しい • F_PROGINF出力による演算状況の検証 • ベクトル化率が高かったり平均ベクトル長が長くてもオペレーションの絶対数が小さければ効率が落ちる • とにかくMOPS値を上げるようチューニングされたい • 経験則上1CPUにつき最高10,000MOPSは出るはず • (SX-5では) バンクコンフリクトは致命的な効率低下をもたらさない • システム側では、総サイクル中のベクトル命令が実行されている割合を落とさないよう監視する

次期システムへの期待 • 機種更新 • 2年後、2007年1月予定 • 次いで2007年3月には汎用機更新 • 次期重点項目 • More Computational Power • Vector + PC Cluster • Optimized Storage Management • Campus-wide Storage Area Network • User Friendly Front-end Service • VPN for Easy Exploring • Grid-aware

SX-5/16Af 160GF@ 312.5MHz 128GB Memory SX Home@RCNP 3TB - FC/RAID3 SX-5/16Af 160GF@ 312.5MHz 128GB Memory SX Home@ILE 3TB - FC/RAID3 ×6 SX Home@CMC 4TB - FC/RAID3 Front-end for SecureLogin by Linux PC SX-5/16Af 160GF@ 312.5MHz 128GB Memory SX-5/16f 160GF@ 312.5MHz 128GB ssh/scp SX-5/16f 160GF@ 312.5MHz 128GB SX-5/16f 160GF@ 312.5MHz 128GB SX-5/16f 160GF@ 312.5MHz 128GB SX-5/16f 160GF@ 312.5MHz 128GB SX Short 8TB - FC/RAID3 16-stripes, 1.6GB/s ×4 Front-end for Cross Development by Linux PC Front-end for Cross Development by Linux PC Front-end for Cross Development by Linux PC Front-end for Cross Development by Linux PC App. Server Quad Itanium/700MHz 4GB Memory Front-end for Secure FTP by Linux PC sftp/scp Generic Home 2TB - mirror and/or 4TB - RAID5 File Server for NFS 現行システムの構成

CMC スーパーコンピューティング環境現状と将来