分散メモリ型スパースソルバの開発と評価

応用数理工学特論
線形計算と
ハイパフォーマンスコンピューティング
第4回
計算理工学専攻 張研究室
山本有作
前回の概要
「並列計算機による高性能計算」
3. 分散メモリ型並列計算機
– プログラミングモデル
– 高性能化の技法
「連立一次方程式の高性能解法 (密行列の場合)」
1. LU分解
今回の概要
「連立一次方程式の高性能解法 (密行列の場合)」
1. LU分解
2. LU分解のブロック化
3. LU分解の並列化(共有メモリ型並列計算機)
4. LU分解の並列化(分散メモリ型並列計算機)
ガウスの消去法の性能
• n=1000のときの性能は250MFLOPS程度
3500
3000
2500
2000
1500
Gaussian elimination
peak performance
1000
500
0
100
200
300
400
500
600
700
800
900
1000
行列乗算を用いたガウスの消去法の性能
• n=1000のとき,ピークの65%以上の性能を達成
3500
3000
2500
2000
Gaussian elimination
1500
peak performance
1000
blocked Gaussian +
ATLAS
500
0
100
200
300
400
500
600
700
800
900
1000
分散メモリ型並列計算機上でのガウス消去法の性能
• 計算機: 日立SR8000/モデルF1
• 並列化方式
– ブロックサイクリック列分割
– ピボット列の通信時間を隠蔽
1000
ガウス消去法
ピーク性能
100
性能
(GFLOPS)
10
1
1
2
4
8
16
32
プロセッサ台数