λコンピューティング 環境構築のための 共有メモリシ

λコンピューティング環境構築のための
共有メモリシステムの評価
大阪大学 基礎工学部情報科学科
ソフトウェア科学コース4年 宮原研究室
谷口英二
[email protected]
2015/10/1
特別研究報告発表会
1
研究の背景

ネットワークを用いた分散計算環境
としてグリッド技術がある

TCP/IPによるパケット交換を用いている



転送確認処理のオーバヘッド
損失処理の転送レートの劣化
λコンピューティング環境


2015/10/1
計算機と接続しているネットワークを仮想
的な光リングネットワークとして利用
光リングを利用して高速・高品質通信の実
現の可能性
特別研究報告発表会
2
λコンピューティング環境における
分散計算システム

共有メモリ型システム


高速チャネル型システム



光リングを各ノードの共有メモリとして
用いる
光リングを高速伝送路として用いる
各ノードにデータを共有する領域を設
ける
光リングに適合する共有メモリ方式
が必要となる
2015/10/1
特別研究報告発表会
3
研究の目的

高速チャネル型システムを対象とした共有メモ
リ方式の評価

具体的なシステムとしてAWG-STARを使用する
共有メモリ
2015/10/1
特別研究報告発表会
4
AWG-STAR システム構成


各ノードを光ファイバを用いて波長ルータ (AWG) に接続し
光リングを構成
各ノードの共有メモリを光リングを通じて共有
 共有メモリを分散計算に必要なデータ共有手段として用
いる
AWGルータ
共有メモリ
論理的にリングトポロジ
物理的にスタートポロジ
2015/10/1
特別研究報告発表会
5
AWG-STAR データ共有手法
共有メモリ
トークンフレーム 1周したので自分の
Addr data 最大1KB
Node 0
データは消去
0番地を1に更新
リングを流れ続ける
2 5
共有メモリを更新
トークンが到着
トークンに
更新データを付加
1
0
0
0
5
0
0 1
光リングを1周すれば
1周したので自分の
トークンに
更新したデータ
データは共有される
データは消去
共有メモリ
共有メモリを更新
更新データを付加 3番地を5に更新
共有メモリの更新
がないのでその
1
0
まま転送
0
0 1
2 5
2015/10/1
1
0
0
0
5
0
共有メモリ
0 1
2 5
Node 2
Node 1
特別研究報告発表会
0
5
0
6
AWG-STAR 処理遅延

AWG-STARにおける処理遅延


光ファイバによる伝播遅延: 5 ns/m
各ノードにおける処理遅延: 500 ns
送信フレームの削除と追加、共有メモリへの反映
リング長を40 m、ノード数を4とすると
1周に要する時間は
500×4 + 5×40 =2200 ns
2015/10/1
特別研究報告発表会
7
実験環境 (システム構成)
ノード数1 リング長 10m 遅延 550ns
ノード数2 リング長 20m 遅延 1100 ns
ノード数3 リング長 30m 遅延 1650ns
2015/10/1
特別研究報告発表会
8
実験環境(アプリケーション)

SPLASH2 (分散計算用ベンチマーク集)

LU分解


共有メモリへのアクセスが多い
MPI (Message Passing Interface)による
TCP/IPとの比較
2015/10/1
特別研究報告発表会
9
LU分解による実行結果
50
AWG P=1
Processing Time [s]
45
AWG P=2
40
AWG P=3
35
30
25
20
MPI P=1
15
MPI P=2
MPI P=3
10
5
0
•
•
0
100
200
300
400
500
Matrix Size
600
700
800
900
AWG-STARの性能がよくない
MPI•共有の必要のないデータの共有メモリへの書き込み
におけるデータ共有のための通信に関しては並列化ができない
さらにノードが増えるため通信量が増加し、実行時間が増加する
•全共有メモリへの書き込み回数の90%以上
•この書き込みによる遅延が影響
2015/10/1
特別研究報告発表会
10
共有メモリアクセス方式の改善

共有メモリへの書き込み回数が性能に影響



書き込み回数に応じて周回数が増えるため実行時間が増大
AWG-STARではトークンを利用するためにトークンの待ち時
間が必要
改善方法



ローカルメモリを活用し共有の必要のないデータの共有メモリ
への書き込みは行わない
データをまとめて書き込むことで書き込み回数を削減する
書き込み後、即座にデータの周回を開始するようにする

2015/10/1
AWG-STAR ではハードウェアにより制約される
特別研究報告発表会
11
共有メモリへの書き込み回数を削減した場合
300
Original LU
Improved LU
ノード数3
1成分毎の書き込み
250
Processing Time [s]
200
1ブロック毎の書き込み
150
100
50
実行時間を
約20%に短縮
0
0
100
200
300
400
500
600
700
800
900
Matrix Size
2015/10/1
特別研究報告発表会
12
まとめと今後の課題

共有メモリ方式の性能評価


共有メモリへの書き込み回数
光リングの周回時間
性能改善方法を検討
 今後の課題



2015/10/1
効率のよい共有メモリアクセス手法の考案
他のアプリケーションによる比較
特別研究報告発表会
13