エクサスケール計算とその要素技術としてのメモリアーキテクチャ

エクサスケール計算とその要素技術としてのメモリアーキテクチャエクサスケール計算とその要素技術としてのメモリアーキテクチャ東京大学情報理工学系研究科石井康雄

本日の発表内容 • 2018年のスーパーコンピュータ • 予測性能とアーキテクチャを紹介 • アプリケーションとアーキテクチャ • メモリ性能と演算性能のバランスに関して • 要素技術としてのメモリアーキテクチャ • DRAMの制御に関する研究

エクサスケール計算に向けてアーキテクチャ検討エクサスケール計算に向けてアーキテクチャ検討 2011/10からのアップデート

エクサマシンの検討の前提(2011/10) • 稼働時期: 2018年ごろ • 目標: Linpackで1EFLOPS • 「京」の100倍の実効性能を目指す • Linpackは定量的議論の土台として活用 • 電力: 20MW～30MW • 総床面積: 50m x 50m (ラックで1000本) • 価格: ～500億円

エクサマシンの検討の前提(2012/03) • 稼働時期: 2018年ごろ • 目標: サイエンスロードマップの達成 • 2020年のロードマップから達成すべき目標を定義 • おおよそ「京」の100倍の実効性能を目指す • 電力: 20MW～30MW • 総床面積: 50m x 50m (ラックで1000本) • 価格: ～500億円

2018年のPCクラスタ性能予想(2011/10) 電力20MWでの最大構成例プロセッサ+メモリ / ノード (1プロセッサ, 150W) 8プロセッサ+ネットワーク / カード (8プロセッサ, 1.5KW) 8カード/シャーシ, 4シャーシ/ラック (256プロセッサ, 50KW) 400ラック / システム (10万プロセッサ, 20MW) • プロセッサ性能 • 演算: 3.0 TFLOPS • メモリ: 96 GB, 300 GB/s • B/F = 0.1 • ネットワーク: 25 GB/s • B/F = 0.01 • 電力: 200W • 価格: 25万円 • システム性能 • 演算: 300 PFLOPS (10万CPU) • メモリ: 9.6 PB, 30.0 PB/s • Bisection BW: 5.0 PB/s • ラック数: 400 • 電力: 20MW(1EFで80MW) • 価格: 250億円 (1EFで1000億円)

2018年のPCクラスタ性能予想(2012/03) 電力20MWでの最大構成例プロセッサ+メモリ / ノード (1プロセッサ, 150W) 8プロセッサ+ネットワーク / カード (8プロセッサ, 1.5KW) 8カード/シャーシ, 4シャーシ/ラック (256プロセッサ, 50KW) 400ラック / システム (10万プロセッサ, 20MW) • プロセッサ性能 • 演算: 3.0 TFLOPS • メモリ: 96300 GB, 300 GB/s • B/F = 0.1 • ネットワーク: 2532 GB/s • B/F = 0.01 • 電力: 200W • 価格: 25万円 • システム性能 • 演算: 300 PFLOPS(10万CPU) • メモリ: 9.630.0 PB, 30.0 PB/s • Bisection BW: 5.02.0 PB/s • ラック数: 400 • 電力: 20MW(1EFで80MW) • 価格: 250億円 (1EFで1000億円)

エクサスケール計算に向けてアプリケーションとアーキテクチャエクサスケール計算に向けてアプリケーションとアーキテクチャメモリと演算のバランスの観点から

メモリシステムとスーパーコンピュータ • メモリシステムは主要課題の１つ • 多様なメモリシステムが存在する • 大容量・高帯域、小容量・低帯域 • メモリ性能と演算性能・電力・コストがトレードオフ GRAPE-DR NEC SX-9 Fujitsu FX10

アプリケーションとメモリシステム • メモリシステムはアプリにあわせて設計される • アプリケーションが多様な特性を持つ • 容量・帯域・アクセスパターン（連続・ストライド） SX-9 高気象・地震 FX10 x86 メモリ帯域第一原理計算 GDR N体問題低メモリ容量小大

エクサの検討でのシステムの分類 • メモリのバランス別に4つのシステムを検討容量・帯域重視汎用型演算重視メモリ容量削減演算器・コアキャッシュメモリI/F メモリ容量・帯域を増やしメモリ重視アプリを高速化バランスをとって多目的に利用メモリを減らして演算器を増やすオンチップメモリ(約100MB/chip)を主記憶に利用 DRAM NEC SX-9 PCクラスタ・京・ BG/Q など GRAPE-DR ClearSpeed 該当計算機なし

システム性能予測（演算・メモリに関して） • 各構成でのシステム性能を予測 • 20MW・2500m2の制約下での予測

アプリケーションの要求性能との相関 10,000倍の差 • 各アプリケーション毎に向いている計算機が存在していることがわかる容量・帯域容量削減汎用型演算重視 1,000倍の差

何故、バランスが変化したか • Weak Scaling（より細かいメッシュでの計算) • メモリ容量: 増加する • １ステップあたりの計算時間: 変わらない • Nノードで計算する場合、各ノードのメモリ帯域は同じ • Strong Scaling （より長い時間の計算） • メモリ容量: 変化なし • １ステップあたりの計算時間: 短縮する • 各計算ノードは同じデータ量を短時間で読み書き

Strong Scalingのボトルネックと対策 • メモリ帯域 ← 本日紹介の例 • 巨大なオンチップメモリの採用 • 集合演算(集約演算・同期など) • 専用HWで10倍以上の高速化の可能性 • 通信レイテンシ • 強スケールのために<1usの通信が必要なアプリ • 通信方式の工夫で1/10までは短縮可能 • 改善可能な点が多く、研究開発が必要

エクサスケール計算に関してまとめ • 2018年の計算機構成を検討 • アプリ毎のメモリ帯域・メモリ容量に関して調査 • 調査結果に基づいて4つのアーキテクチャを検討 • 各アーキテクチャとアプリをマッピング • 従来と異なる特性を示すアプリ • スケーリングから最適な構成が変化することもある • 「やりたい計算」が具体的ならば計算機は工夫が出来る可能性が高まる • 2012年度には要素技術研究の予算がつく見込み

エクサに向けたアーキテクチャ研究メモリシステムエクサに向けたアーキテクチャ研究メモリシステム

将来のスパコンに向けたメモリシステムの課題将来のスパコンに向けたメモリシステムの課題 • 課題 • 性能: 演算性能に対するメモリ帯域の低下 • 電力: DRAM/キャッシュの電力が全体の約30% • 解決方法 ← 私の研究課題 • データプリフェッチによるレイテンシ隠蔽 • キャッシュ置換の改善による効率化 • DRAM制御の改善による性能向上と電力削減

Dynamic Random Access Memory • スパコンの主記憶はDRAMで構成される • 性能・電力・スケーラビリティの多くに関与 • 特徴 • 単純な機能(指定した場所のデータの読み書き) • 高速化のための複雑な制御プロセッサ Addr Data ＤＲＡＭ #0 Data 0 #1 Data 1 #2 Data 2 #3 Data 3 #4 Data 4 #5 Data 5 #6 Data 6 #7 Data 7

DDR3メモリのアーキテクチャ • メモリの記憶素子は行列の構造をとる • 行アクセスと列アクセスの2段階アクセス • 行・列のペア(Bank)を持ち独立に動作する DRAM chip DRAM cells プロセッサはRow bufferのデータにのみアクセス可能プロセッサ Row buffer Addr Data Bank #0

DDR3のメモリアクセス(Read)の例 • 3フェーズでのリード処理 • Activate(ACT) → Read(RD) → Precharge(PRE) • 複数バンクを切り替えながらメモリアクセス • ACT/RD/PREの各操作が電力を消費 • コマンドの回数を減らすことで電力削減が可能コマンド競合で次のコマンドが遅延 ACT→RD RD→PRE PRE→ACT アドレス ACT ACT ACT RD RD PRE RD ACT PRE RD ACT PRE 隙間が残る RD→DATA データ DATA DATA DATA DATA

DRAM-Aware Prefetching • 3フェーズでのリード処理 • ACT→RDの後に積極的にプリフェッチを出力 • 効果 • データパスの利用率改善による性能向上 • ACT/PREの回数削減による電力改善 • データプリフェッチによる性能改善すぐにPREしないプリフェッチを出力アドレス ACT ACT ACT RD RD PRE RD PRE RD ACT PRE RD データ DATA DATA DATA DATA

メモリスケジューリングの効果 • 帯域の改善などで性能が13%向上 • 電力は3.1%の削減 • データ転送が増加したためRD/WRが25%増加 • ACT/PREの回数は28%削減

要素技術研究の成果 • 特に性能競争の激しい分野 • JILP Computer Architecture Competitions (JWAC) • テーマ • メモリ(キャッシュ置換・プリフェッチ) • パイプライン制御(分岐予測) • DRAM制御 ← 今年開催予定 • 過去優勝者 • Andre Seznec (Alpha architect) • GaoHonliang (Intel x86 architect)

まとめ • エクサスケールシステムの検討 • 2011年10月から継続検討 • ターゲットアプリケーションの解析 • 検討のベースとする4つのアーキテクチャを提示 • スケーリングと最適アーキテクチャの変化 • 要素技術としてメモリアーキテクチャの研究 • 低下するB/Fの性能への影響をDRAM制御の改善で最小限に抑える

ご清聴ありがとうございました • 明日、ポスター発表も行います • 本発表はメモリにフォーカスしていますが、ネットワーク・ストレージの話もWelcomeです

エクサスケール計算と その要素技術としてのメモリアーキテクチャ