PSI SIMD計算ノードの 実行時間評価

2008年2月19日
PSI研究者全体会議
SIMD拡張プロセッサの
計算エネルギー評価
富士通/九大
安藤
1
計算エネルギー評価
• 回路の消費エネルギー
– 半導体設計ルールに基づき,ゲートやRAM
を設計
– 回路シミュレーション等で消費エネルギーを
計算
• パイプライン動作エネルギー
半導体
テクノロジ
マイクロ
アーキ
ゲート,RAM
回路設計
パイプライン
分解
– 各パイプラインステージのリソース把握
• ラッチ,ゲート,RAM数
PSIM
– 動作エネルギー
• 回路消費エネルギー x リソース量
• パイプライン動作情報
パイプライン
エネルギー表
– PSIMから各サイクルで動作するパイプライン
ステージの情報を出力
パイプライン
動作情報
• エネルギー計算 (ECV)
– 計算エネルギー = ∑(動作エネルギー x
動作パイプラインステージ)
ECV
• テクノロジ簡易補正
– テクノロジの違いにより,ECVの計算結果を
補正
– 半導体テクノロジの影響を簡易に評価
テクノロジ
簡易補正
簡易評価
計算エネルギー
2
dgemm計算エネルギー
• Activeエネルギー: 20%~30%減少
• 性能向上にともなう定常消費エネルギーの減少効果大
– SIMD:サイクルあたりの定常消費エネルギー 1.55倍で3.56倍の性能
– Leak: スカラコア 14.5nJ/Cycle,+SIMD 21.9nJ/Cycle (65℃,2GHzクロック)
– Const Active (Ideal): スカラコア 2.8nJ/cycle,+SIMD 4.9nJ/cycle
128元行列積
計算エネルギー [mJ]
Ideal
Case-1
非動作ラッチ
消費電力ゼロ
Inhibit時電力 通常電力
非動作SRAM
消費電力ゼロ
Inhibit時電力 通常電力*1
スカラコア
Case-3
Active
2.77
2.23
2.01
Const Active
4.10
21.17
28.19
1.45M Cycle
Leak
+16SIMD
Active
2.24
1.76
1.39
Const Active
1.99
9.06
12.95
0.41M Cycle
Leak
20.99
8.91
*1 L2$ Data RAMはInhibit時電力
3
zgemm計算エネルギー
• Activeエネルギー: 20%~25%減少
• 性能向上にともなう定常消費エネルギーの減少効果大
– SIMD:サイクルあたりの定常消費エネルギー 1.55倍で4.68倍の性能
– Leak, Const Active (Ideal)/cycleはdgemmと同じ
128元行列積
計算エネルギー [mJ]
Ideal
Case-1
非動作ラッチ
消費電力ゼロ
Inhibit時電力 通常電力
非動作SRAM
消費電力ゼロ
Inhibit時電力 通常電力*1
スカラコア
Active
Const Active
Case-3
8.97
7.23
6.49
13.41
69.26
92.22
4.75M Cycle
Leak
+16SIMD
Active
7.22
5.74
4.84
Const Active
4.96
22.55
32.25
1.01M Cycle
Leak
68.69
22.17
*1 L2$ Data RAMはInhibit時電力
4
fft計算エネルギー
• Activeエネルギー: 10%~20%減少
• 性能向上にともなう定常消費エネルギーの減少効果大
– SIMD:サイクルあたりの定常消費エネルギー 1.55倍で3.14倍の性能
– Leak, Const Active (Ideal)/cycleはdgemmと同じ
1024点fft x 8本
計算エネルギー [mJ]
Ideal
Case-1
非動作ラッチ
消費電力ゼロ
Inhibit時電力 通常電力
非動作SRAM
消費電力ゼロ
Inhibit時電力 通常電力*1
スカラコア
Case-3
Active
0.535
0.432
0.387
Const Active
1.211
6.258
8.332
4.75M Cycle
Leak
+16SIMD
Active
0.483
0.381
0.309
Const Active
0.668
3.039
4.346
1.01M Cycle
Leak
6.205
2.99
*1 L2$ Data RAMはInhibit時電力
5
テクノロジ簡易補正(低電力プロセス)
• 90nm高性能→90nm低電力半導体プロセス
– チップ特性 (ITRS2004)
• Leak電流 0.06倍
• 電源電圧 1.2V→0.9V
• クロック周波数 0.64倍 (Vdd/Idsat比)
– 計算エネルギー
• Active,Const Activeエネルギー
– 0.563倍 (電源電圧の2乗に逆比例)
• Leakエネルギー
– 0.06(電流)x (0.9/1.2)(電圧比)x 1/0.64(時間) = 0.070倍
– 128元dgemm計算エネルギー (+16SIMD)
• 高性能プロセス→低電力プロセス:計算エネルギー 0.25~0.37倍
– 但し,計算時間は1.56倍必要
計算エネルギー[mJ] Ideal
Case-1
Case-3
内Leak
高性能プロセス
13.1
19.37
23.25
8.91
低電力プロセス
3.13
6.71
8.69
0.62
6
テクノロジ簡易補正(32nmプロセス)
• 2004年高性能プロセス→2010年高性能プロセス
ITRS2004,ITRS2006
2004年
2010年
Metal Pitch
107nm
45nm
Vdd
1.2V
1.0V
Idsat
1.11mA/um
2.05mA/um
Ileak
0.05uA/um
0.28uA/um
C [pF/um]
0.9倍
Clock(Idsat/(C*Vdd))
2.46倍
Active Energy (C*MP*Vdd2)
0.263倍
Leak Energy (MP*Ileak*Vdd/Clock)
0.80倍
• クロックは2.46倍に向上,エネルギーは47%~63%に低下
計算エネルギー[mJ]
Ideal
Case-1
Case-3
内Leak
2004年高性能プロセス
13.1
19.37
23.25
8.91
2010年高性能プロセス
8.24
9.98
10.90
7.13
7
計算エネルギー評価のまとめ
• SIMDコアでは,Active Energyは10%~30%減少
– 浮動小数点演算器のエネルギーは同じ筈。
– 制御オーバヘッドの減少により,10%~30%の消費エネルギーが
減少
• 計算エネルギー低減の主因は,サイクル数の短縮
– 90nm高性能半導体テクノロジでは,クロック分配やリークによる
コンスタントに消費するエネルギー大半を占める
– このエネルギーは,計算サイクル数に比例
• PSI SIMDアーキテクチャ
– 1.55倍のコンスタント消費エネルギーで性能 2.6(fft)~
6.9(dgemm)倍を達成
– 計算エネルギーは,0.23倍~0.54倍に低減
• PSIM-ECVにより,設計トレードオフが可能
– アーキテクチャ性能と消費電力トレードオフ
– 使用半導体テクノロジと性能,消費電力のトレードオフ
8