1 / 26

エクサスケール計算と その要素技術としてのメモリアーキテクチャ

エクサスケール計算と その要素技術としてのメモリアーキテクチャ. 東京大学 情報理工学系研究科 石井康雄. 本日の発表内容. 2018 年のスーパーコンピュータ 予測性能とアーキテクチャを紹介 アプリケーション とアーキテクチャ メモリ性能と演算性能のバランスに関して 要素技術としてのメモリアーキテクチャ DRAM の制御に関する研究. エクサ スケール計算に向けて アーキテクチャ 検討. 2011/10 からのアップデート. エクサマシンの検討の前提 (2011 / 10). 稼働時期 : 2018 年ごろ 目標 : Linpack で 1EFLOPS

Download Presentation

エクサスケール計算と その要素技術としてのメモリアーキテクチャ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. エクサスケール計算とその要素技術としてのメモリアーキテクチャエクサスケール計算とその要素技術としてのメモリアーキテクチャ 東京大学 情報理工学系研究科 石井康雄

  2. 本日の発表内容 • 2018年のスーパーコンピュータ • 予測性能とアーキテクチャを紹介 • アプリケーションとアーキテクチャ • メモリ性能と演算性能のバランスに関して • 要素技術としてのメモリアーキテクチャ • DRAMの制御に関する研究

  3. エクサスケール計算に向けてアーキテクチャ検討エクサスケール計算に向けてアーキテクチャ検討 2011/10からのアップデート

  4. エクサマシンの検討の前提(2011/10) • 稼働時期: 2018年ごろ • 目標: Linpackで1EFLOPS • 「京」の100倍の実効性能を目指す • Linpackは定量的議論の土台として活用 • 電力: 20MW~30MW • 総床面積: 50m x 50m (ラックで1000本) • 価格: ~500億円

  5. エクサマシンの検討の前提(2012/03) • 稼働時期: 2018年ごろ • 目標: サイエンスロードマップの達成 • 2020年のロードマップから達成すべき目標を定義 • おおよそ「京」の100倍の実効性能を目指す • 電力: 20MW~30MW • 総床面積: 50m x 50m (ラックで1000本) • 価格: ~500億円

  6. 2018年のPCクラスタ性能予想(2011/10) 電力20MWでの最大構成例 プロセッサ+メモリ / ノード (1プロセッサ, 150W) 8プロセッサ+ネットワーク / カード (8プロセッサ, 1.5KW) 8カード/シャーシ, 4シャーシ/ラック (256プロセッサ, 50KW) 400ラック / システム (10万プロセッサ, 20MW) • プロセッサ性能 • 演算: 3.0 TFLOPS • メモリ: 96 GB, 300 GB/s • B/F = 0.1 • ネットワーク: 25 GB/s • B/F = 0.01 • 電力: 200W • 価格: 25万円 • システム性能 • 演算: 300 PFLOPS (10万CPU) • メモリ: 9.6 PB, 30.0 PB/s • Bisection BW: 5.0 PB/s • ラック数: 400 • 電力: 20MW(1EFで80MW) • 価格: 250億円 (1EFで1000億円)

  7. 2018年のPCクラスタ性能予想(2012/03) 電力20MWでの最大構成例 プロセッサ+メモリ / ノード (1プロセッサ, 150W) 8プロセッサ+ネットワーク / カード (8プロセッサ, 1.5KW) 8カード/シャーシ, 4シャーシ/ラック (256プロセッサ, 50KW) 400ラック / システム (10万プロセッサ, 20MW) • プロセッサ性能 • 演算: 3.0 TFLOPS • メモリ: 96300 GB, 300 GB/s • B/F = 0.1 • ネットワーク: 2532 GB/s • B/F = 0.01 • 電力: 200W • 価格: 25万円 • システム性能 • 演算: 300 PFLOPS(10万CPU) • メモリ: 9.630.0 PB, 30.0 PB/s • Bisection BW: 5.02.0 PB/s • ラック数: 400 • 電力: 20MW(1EFで80MW) • 価格: 250億円 (1EFで1000億円)

  8. エクサスケール計算に向けてアプリケーションとアーキテクチャエクサスケール計算に向けてアプリケーションとアーキテクチャ メモリと演算のバランスの観点から

  9. メモリシステムとスーパーコンピュータ • メモリシステムは主要課題の1つ • 多様なメモリシステムが存在する • 大容量・高帯域、小容量・低帯域 • メモリ性能と演算性能・電力・コストがトレードオフ GRAPE-DR NEC SX-9 Fujitsu FX10

  10. アプリケーションとメモリシステム • メモリシステムはアプリにあわせて設計される • アプリケーションが多様な特性を持つ • 容量・帯域・アクセスパターン(連続・ストライド) SX-9 高 気象・地震 FX10 x86 メモリ帯域 第一原理計算 GDR N体問題 低 メモリ容量 小 大

  11. エクサの検討でのシステムの分類 • メモリのバランス別に4つのシステムを検討 容量・帯域重視 汎用型 演算重視 メモリ容量削減 演算器・コア キャッシュ メモリI/F メモリ容量・帯域を増やしメモリ重視アプリを高速化 バランスをとって多目的に利用 メモリを減らして演算器を増やす オンチップメモリ(約100MB/chip)を主記憶に利用 DRAM NEC SX-9 PCクラスタ・京・ BG/Q など GRAPE-DR ClearSpeed 該当計算機なし

  12. システム性能予測(演算・メモリに関して) • 各構成でのシステム性能を予測 • 20MW・2500m2の制約下での予測

  13. アプリケーションの要求性能との相関 10,000倍の差 • 各アプリケーション毎に向いている計算機が存在していることがわかる 容量・帯域 容量削減 汎用型 演算重視 1,000倍の差

  14. 何故、バランスが変化したか • Weak Scaling(より細かいメッシュでの計算) • メモリ容量: 増加する • 1ステップあたりの計算時間: 変わらない • Nノードで計算する場合、各ノードのメモリ帯域は同じ • Strong Scaling (より長い時間の計算) • メモリ容量: 変化なし • 1ステップあたりの計算時間: 短縮する • 各計算ノードは同じデータ量を短時間で読み書き

  15. Strong Scalingのボトルネックと対策 • メモリ帯域 ← 本日紹介の例 • 巨大なオンチップメモリの採用 • 集合演算(集約演算・同期など) • 専用HWで10倍以上の高速化の可能性 • 通信レイテンシ • 強スケールのために<1usの通信が必要なアプリ • 通信方式の工夫で1/10までは短縮可能 • 改善可能な点が多く、研究開発が必要

  16. エクサスケール計算に関してまとめ • 2018年の計算機構成を検討 • アプリ毎のメモリ帯域・メモリ容量に関して調査 • 調査結果に基づいて4つのアーキテクチャを検討 • 各アーキテクチャとアプリをマッピング • 従来と異なる特性を示すアプリ • スケーリングから最適な構成が変化することもある • 「やりたい計算」が具体的ならば計算機は工夫が出来る可能性が高まる • 2012年度には要素技術研究の予算がつく見込み

  17. エクサに向けたアーキテクチャ研究メモリシステムエクサに向けたアーキテクチャ研究メモリシステム

  18. 将来のスパコンに向けたメモリシステムの課題将来のスパコンに向けたメモリシステムの課題 • 課題 • 性能: 演算性能に対するメモリ帯域の低下 • 電力: DRAM/キャッシュの電力が全体の約30% • 解決方法 ← 私の研究課題 • データプリフェッチによるレイテンシ隠蔽 • キャッシュ置換の改善による効率化 • DRAM制御の改善による性能向上と電力削減

  19. Dynamic Random Access Memory • スパコンの主記憶はDRAMで構成される • 性能・電力・スケーラビリティの多くに関与 • 特徴 • 単純な機能(指定した場所のデータの読み書き) • 高速化のための複雑な制御 プロセッサ Addr Data DRAM #0 Data 0 #1 Data 1 #2 Data 2 #3 Data 3 #4 Data 4 #5 Data 5 #6 Data 6 #7 Data 7

  20. DDR3メモリのアーキテクチャ • メモリの記憶素子は行列の構造をとる • 行アクセスと列アクセスの2段階アクセス • 行・列のペア(Bank)を持ち独立に動作する DRAM chip DRAM cells プロセッサはRow bufferのデータにのみアクセス可能 プロセッサ Row buffer Addr Data Bank #0

  21. DDR3のメモリアクセス(Read)の例 • 3フェーズでのリード処理 • Activate(ACT) → Read(RD) → Precharge(PRE) • 複数バンクを切り替えながらメモリアクセス • ACT/RD/PREの各操作が電力を消費 • コマンドの回数を減らすことで電力削減が可能 コマンド競合で次のコマンドが遅延 ACT→RD RD→PRE PRE→ACT アドレス ACT ACT ACT RD RD PRE RD ACT PRE RD ACT PRE 隙間が残る RD→DATA データ DATA DATA DATA DATA

  22. DRAM-Aware Prefetching • 3フェーズでのリード処理 • ACT→RDの後に積極的にプリフェッチを出力 • 効果 • データパスの利用率改善による性能向上 • ACT/PREの回数削減による電力改善 • データプリフェッチによる性能改善 すぐにPREしない プリフェッチを出力 アドレス ACT ACT ACT RD RD PRE RD PRE RD ACT PRE RD データ DATA DATA DATA DATA

  23. メモリスケジューリングの効果 • 帯域の改善などで性能が13%向上 • 電力は3.1%の削減 • データ転送が増加したためRD/WRが25%増加 • ACT/PREの回数は28%削減

  24. 要素技術研究の成果 • 特に性能競争の激しい分野 • JILP Computer Architecture Competitions (JWAC) • テーマ • メモリ(キャッシュ置換・プリフェッチ) • パイプライン制御(分岐予測) • DRAM制御 ← 今年開催予定 • 過去優勝者 • Andre Seznec (Alpha architect) • GaoHonliang (Intel x86 architect)

  25. まとめ • エクサスケールシステムの検討 • 2011年10月から継続検討 • ターゲットアプリケーションの解析 • 検討のベースとする4つのアーキテクチャを提示 • スケーリングと最適アーキテクチャの変化 • 要素技術としてメモリアーキテクチャの研究 • 低下するB/Fの性能への影響をDRAM制御の改善で最小限に抑える

  26. ご清聴ありがとうございました • 明日、ポスター発表も行います • 本発表はメモリにフォーカスしていますが、ネットワーク・ストレージの話もWelcomeです

More Related