λコンピューティング環境構築のための 共有メモリシステムの評価 大阪大学 基礎工学部情報科学科 ソフトウェア科学コース4年 宮原研究室 谷口英二 [email protected] 2015/10/1 特別研究報告発表会 1 研究の背景 ネットワークを用いた分散計算環境 としてグリッド技術がある TCP/IPによるパケット交換を用いている 転送確認処理のオーバヘッド 損失処理の転送レートの劣化 λコンピューティング環境 2015/10/1 計算機と接続しているネットワークを仮想 的な光リングネットワークとして利用 光リングを利用して高速・高品質通信の実 現の可能性 特別研究報告発表会 2 λコンピューティング環境における 分散計算システム 共有メモリ型システム 高速チャネル型システム 光リングを各ノードの共有メモリとして 用いる 光リングを高速伝送路として用いる 各ノードにデータを共有する領域を設 ける 光リングに適合する共有メモリ方式 が必要となる 2015/10/1 特別研究報告発表会 3 研究の目的 高速チャネル型システムを対象とした共有メモ リ方式の評価 具体的なシステムとしてAWG-STARを使用する 共有メモリ 2015/10/1 特別研究報告発表会 4 AWG-STAR システム構成 各ノードを光ファイバを用いて波長ルータ (AWG) に接続し 光リングを構成 各ノードの共有メモリを光リングを通じて共有 共有メモリを分散計算に必要なデータ共有手段として用 いる AWGルータ 共有メモリ 論理的にリングトポロジ 物理的にスタートポロジ 2015/10/1 特別研究報告発表会 5 AWG-STAR データ共有手法 共有メモリ トークンフレーム 1周したので自分の Addr data 最大1KB Node 0 データは消去 0番地を1に更新 リングを流れ続ける 2 5 共有メモリを更新 トークンが到着 トークンに 更新データを付加 1 0 0 0 5 0 0 1 光リングを1周すれば 1周したので自分の トークンに 更新したデータ データは共有される データは消去 共有メモリ 共有メモリを更新 更新データを付加 3番地を5に更新 共有メモリの更新 がないのでその 1 0 まま転送 0 0 1 2 5 2015/10/1 1 0 0 0 5 0 共有メモリ 0 1 2 5 Node 2 Node 1 特別研究報告発表会 0 5 0 6 AWG-STAR 処理遅延 AWG-STARにおける処理遅延 光ファイバによる伝播遅延: 5 ns/m 各ノードにおける処理遅延: 500 ns 送信フレームの削除と追加、共有メモリへの反映 リング長を40 m、ノード数を4とすると 1周に要する時間は 500×4 + 5×40 =2200 ns 2015/10/1 特別研究報告発表会 7 実験環境 (システム構成) ノード数1 リング長 10m 遅延 550ns ノード数2 リング長 20m 遅延 1100 ns ノード数3 リング長 30m 遅延 1650ns 2015/10/1 特別研究報告発表会 8 実験環境(アプリケーション) SPLASH2 (分散計算用ベンチマーク集) LU分解 共有メモリへのアクセスが多い MPI (Message Passing Interface)による TCP/IPとの比較 2015/10/1 特別研究報告発表会 9 LU分解による実行結果 50 AWG P=1 Processing Time [s] 45 AWG P=2 40 AWG P=3 35 30 25 20 MPI P=1 15 MPI P=2 MPI P=3 10 5 0 • • 0 100 200 300 400 500 Matrix Size 600 700 800 900 AWG-STARの性能がよくない MPI•共有の必要のないデータの共有メモリへの書き込み におけるデータ共有のための通信に関しては並列化ができない さらにノードが増えるため通信量が増加し、実行時間が増加する •全共有メモリへの書き込み回数の90%以上 •この書き込みによる遅延が影響 2015/10/1 特別研究報告発表会 10 共有メモリアクセス方式の改善 共有メモリへの書き込み回数が性能に影響 書き込み回数に応じて周回数が増えるため実行時間が増大 AWG-STARではトークンを利用するためにトークンの待ち時 間が必要 改善方法 ローカルメモリを活用し共有の必要のないデータの共有メモリ への書き込みは行わない データをまとめて書き込むことで書き込み回数を削減する 書き込み後、即座にデータの周回を開始するようにする 2015/10/1 AWG-STAR ではハードウェアにより制約される 特別研究報告発表会 11 共有メモリへの書き込み回数を削減した場合 300 Original LU Improved LU ノード数3 1成分毎の書き込み 250 Processing Time [s] 200 1ブロック毎の書き込み 150 100 50 実行時間を 約20%に短縮 0 0 100 200 300 400 500 600 700 800 900 Matrix Size 2015/10/1 特別研究報告発表会 12 まとめと今後の課題 共有メモリ方式の性能評価 共有メモリへの書き込み回数 光リングの周回時間 性能改善方法を検討 今後の課題 2015/10/1 効率のよい共有メモリアクセス手法の考案 他のアプリケーションによる比較 特別研究報告発表会 13
© Copyright 2024 ExpyDoc