1 / 17

並列処理プロセッサのスケーラビリティの検証 ~ PSO アルゴリズムを中心として~

並列処理プロセッサのスケーラビリティの検証 ~ PSO アルゴリズムを中心として~. 数理情報科学専攻 福永研究室 大井 謙. 研究背景 並列処理とスケーラビリティ TPCORE の開発 研究の動機 検証方法 PSO アルゴリズムと その並列化 TPCORE ネットワークの構成 検証結果 まとめと今後の展望. 目次. 2. :計算時間. :スケジューリング. 研究背景 - 並列処理とスケーラビリティ. 並列処理 1 つの処理を複数に分割して同時に行うこと ( ⇔逐次処理 ) 処理内容を共有するため互いが通信する必要がある. 時間. 1.

ebony-blake
Download Presentation

並列処理プロセッサのスケーラビリティの検証 ~ PSO アルゴリズムを中心として~

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 並列処理プロセッサのスケーラビリティの検証~PSOアルゴリズムを中心として~並列処理プロセッサのスケーラビリティの検証~PSOアルゴリズムを中心として~ 数理情報科学専攻 福永研究室 大井 謙 首都大学東京 修士論文発表会 Y.Oi

  2. 研究背景 並列処理とスケーラビリティ TPCOREの開発 研究の動機 検証方法 PSOアルゴリズムと その並列化 TPCOREネットワークの構成 検証結果 まとめと今後の展望 目次 首都大学東京 修士論文発表会 Y.Oi 2

  3. :計算時間 :スケジューリング 研究背景-並列処理とスケーラビリティ • 並列処理 • 1つの処理を複数に分割して同時に行うこと(⇔逐次処理) • 処理内容を共有するため互いが通信する必要がある 時間 1 逐次処理では必要ない(オーバーヘッド) 1/2 1/4 並列処理(4分割) 並列処理(2分割) 逐次処理 首都大学東京 修士論文発表会 Y.Oi

  4. :計算時間 :スケジューリング 研究背景-並列処理とスケーラビリティ • 並列処理 • 1つの処理を複数に分割して同時に行うこと(⇔逐次処理) • 処理内容を共有するため互いが通信する必要がある • 分割した中で最も遅いものが性能を決めるので 均等に分割した方が良い 逐次処理では必要ない(オーバーヘッド) 時間 この幅が性能の差になる 均等でない並列処理(4分割) 均等な並列処理(4分割) 首都大学東京 修士論文発表会 Y.Oi

  5. 研究背景-並列処理とスケーラビリティ • スケーラビリティ • ネットワークやアルゴリズムが持つ拡張性のこと • 並列処理におけるスケーラビリティ • 前述のオーバーヘッドにより分割する数を増やしすぎると処理効率が落ちる • 「いくつまでの拡張ならば効率的なのか」を検証する • 検証するもの • 並列処理プロセッサTPCORE 首都大学東京 修士論文発表会 Y.Oi

  6. TP TP TP TP TP TPCORE TP TP TP TP TP TP TP TP TP 研究背景-TPCOREの開発 • 当研究室で開発している並列処理プロセッサ • Inmos社のTransputer-T425互換を目指し作成(2005) • 並列プログラミング言語Occamを実行可能 • 言語自体が並列処理の仕組みを持っておりOSが必要ない • TPCOREは4本のLinkを持っておりこれを用いることで様々なネットワークを構成できる Pipeline構造 Star構造 Tree構造 TPCOREとLink 首都大学東京 修士論文発表会 Y.Oi

  7. TP TP TP TP TP TP TP TP TP TP TP Router TP TP TP TP TP TP TP 研究背景-TPCORE • VirtualChannel&Routerによりネットワークトポロジの制限から開放(2009) • T425 の次世代プロセッサT800 と互換性をもたせたハードウェアによる実数演算が実現(2010) Star構造 Routerの開発によってすべての TPCOREを1対1で接続できるようになった Fully Connected構造 首都大学東京 修士論文発表会 Y.Oi

  8. 研究背景-動機 • これまでの研究方針からの課題 • ハードウェア実装の優先により複雑なソフトウェア実装による検証が検討課題となっていた • 「電動車椅子危険探知および回避システム」の開発 • これは当研究室で現在推し進めているプロジェクトである • 危険感知・回避という性質から高速処理が求められるため ハード・ソフト両面からの処理能力に焦点を当てたい • しかしこのシステムはまだ構想段階にある 並列処理研究でよく用いられるアルゴリズムをOccamにて実装TPCOREのネットワークごとに処理効率を検証した 首都大学東京 修士論文発表会 Y.Oi

  9. 検証方法-PSOアルゴリズム • PSO(Particle Swarm Optimization) • James Kennedy と Russell C. Eberhart による(1995) • 自然界で群れを成す動物に見られる一匹が経路を発見すると残りが素早くそれに倣う性質をparticle(粒子)の群でモデル化したアルゴリズム • 解が点や面で表される問題の最適解を探索する 首都大学東京 修士論文発表会 Y.Oi

  10. それらの計算は独立しているため並列性があるそれらの計算は独立しているため並列性がある 「良い位置」=中央その評価基準は? 検証方法-PSOアルゴリズム • ランダムに配置された各particleは規定回数移動し「良い位置」についての情報を交換しながら収束する 一つ一つのparticleが自発性を持って移動している particleは中央に収束した 首都大学東京 修士論文発表会 Y.Oi

  11. 検証方法-PSOアルゴリズム • particleの位置評価方法 • 評価用の関数(フィットネス関数:f)を用いる • 各particleの位置情報 を f に入力 • 評価値 f(X) の中で最小となるものを最適値としこのときの位置情報を「最も良い位置」とする • 検証に使うフィットネス関数 • ベンチマーク関数としてよく使われているものを選択した • Ridge関数 • Ackley関数 • ともに X = (0, 0, … , 0) にて f(X) = 0 (最小値) となる 首都大学東京 修士論文発表会 Y.Oi

  12. Ridge関数 Ackley関数 検証方法-PSOアルゴリズム 図はともに2次元の場合である 首都大学東京 修士論文発表会 Y.Oi

  13. 検証方法-並列化 • どのように並列化するのか(負荷分割) • PSOの計算負荷はparticle数にほぼ比例するので各TPCOREの扱うparticle数が均等になるように分割する • particleが持つ「良い位置」についての情報は各TPCOREが通信する事によって交換される TPCORE 1, 2, 3 2 1 3 TPCORE 4, 5, 6 4 6 5 7 12 TPCORE 7, 8, 9 9 8 11 10 TPCORE 10, 11, 12 首都大学東京 修士論文発表会 Y.Oi

  14. TP TP TP TP TP TP TP Router TP TP TP Router TP TP TP TP ・・・ TP TP TP TP TP TP 検証方法-TPCOREのネットワーク構成 • TPCOREのみを用いた並列化 • 1台での逐次処理にかかる時間を基準とする • ネットワークに制限があるため, 2台, 3台, 7台のみ • Routerを用いた並列化 • 2台~6台のFully Connected構造 首都大学東京 修士論文発表会 Y.Oi

  15. 検証結果 • Ridge関数の実行結果 8.9 5.9 4.7 5.0 4.1 2.6 3.4 1.8 2.6 2.17 1.9 1.0 1.5 3.4 首都大学東京 修士論文発表会 Y.Oi

  16. 検証結果 • Ackley関数 5.5 29.0 4.8 3.6 4.0 2.9 2.8 16.5 15.0 10.4 10.1 8.1 1.9 7.3 1.0 6.1 1.8 5.3 首都大学東京 修士論文発表会 Y.Oi

  17. まとめと今後の展望 • 今回の検証の結果 • TPCOREのみを用いた並列化では7台のTree構造で最大5.9倍の効率 • VirtualChannel&Routerを用いた並列化では6台のFully Connected構造で最大4.8倍の効率 • 台数効率は直線を維持している • 今後の展望 • 現在の開発環境は容量の関係上これが限界の台数なので将来はこれ以上のネットワークを構築できる余地がある • 「電動車椅子危険探知および回避システム」においても並列化の効率はこの結果を参考に開発する事ができる 首都大学東京 修士論文発表会 Y.Oi

More Related