演算器配列型アクセラレータの 温度解析

演算器配列型アクセラレータの
温度解析
九州大学大学院 システム情報科学府
花田高彬
九州大学大学院 システム情報科学研究院
井上弘士,村上和彰
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
1
発表手順
• 組込み携帯機器向けプロセッサへの要求
• 高性能化と低消費エネルギー化を
実現するプロセッサADEXOR
• 研究目的
• 温度解析実験
• まとめ
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
2
組込み携帯機器向けプロセッサへの要求
• 高性能
– 高機能・負荷の大きい様々なアプリケーション
• 低消費エネルギー
– 長時間使用の要求
(バッテリー駆動のため、エネルギーは有限)
二つの要求を満たす技術
カスタム命令実行
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
3
基本命令実行とカスタム命令実行
命令実行順序
プロセッサが
実行する命令群
…
C = A + B;
D = A + C;
B = B - 1;
Z = X + Y;
C = A + B;
D = A + C;
B = B + 1;
X = X - 1;
…
C=A+B
1サイクル後
D=A+C
1サイクル後
B=B-1
1サイクル後
Z=X+Y
C = A + B;
プロセッサ
メモリ
実行する命令を伝える
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
4
基本命令実行とカスタム命令実行
命令実行順序
プロセッサが
実行する命令群
…
C = A + B;
D = A + C;
B = B - 1;
Z = X + Y;
C = A + B;
D = A + C;
B = B + 1;
X = X - 1;
…
頻発する同じ命令列
⇒一纏めにして実行
C = A + B;
D = A + C;
B = B - 1;
CI#1(A,B,C,D)
カスタム命令
メモリ
CI : Custom Instruction
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
5
基本命令実行とカスタム命令実行
プロセッサが
実行する命令群
CI#1(A,B,C,D)
1サイクル後
…
Z=X+Y
命令実行順序
CI#1(A,B,C,D,)
1サイクル後
Z = X + Y;
CI#1(A,B,C,D)
CI#1(A,B,C,D,)
X = X - 1;
…
CI#1(A, B; C, D)
1サイクル後
カスタム命令CI#1を
実行可能なプロセッサ
X = X - 1;
メモリ
実行する命令を伝える
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
6
カスタム命令実行の利点
• 高性能化 及び 低消費エネルギー化
– 実行命令数削減による総実行クロックサイクル削減
• 実行時間の削減を狙える
• 総消費エネルギー削減が狙える
– メモリ等の構成要素へのアクセス回数削減
• アクセスによって消費されるエネルギーの削減が狙える
これらの利点は
実行可能なカスタム命令数が多いほど効果が大きい
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
7
カスタム命令実行を可能とするプロセッサ
~ADaptive EXtensible processOR(ADEXOR)~
実行可能命令
+,-,&,etc…
構成情報
保持メモリ
レジスタファイル
FU
FU
FU
FU
FU
FU
FU
FU
FU
FU
パイプライン・レジスタ
RISC命令実行部
FU
RFU
FU
FU
MUX
カウンタ
FU
FU
FU
CRFU
パイプライン・レジスタ
汎用プロセッサ部
データの流れ
制御信号の流れ
カスタム命令実行部 (RFU)
動的消費エネルギーの評価結果:16%の消費エネルギー削減を達成
CRFU : Coarse-grain Reconfigurable Functional Unit, RFU : Reconfigurable Functional Unit
H. Noori, F. Mehdipour, K. Inoue and K. Murakami “Enhancing Energy Efficiency of Processor-Based Embedded
Systems through Post-Fabrication ISA Extension”. ISLPED, 2008.
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
8
研究動機と研究目的
• ADEXORの静的消費エネルギーは未評価
– 消費エネルギーの評価には動的&静的評価が必要
• 静的消費エネルギー評価には温度解析が必要
– 静的消費エネルギーの原因となるリーク電流は
温度に強く依存するため
• 演算器配列型アクセラレータRFUに着目
– ADEXORの内で最も消費電力が多い
– カスタム命令の高頻度実行時は発熱量が大きい
研究目的
演算器配列型アクセラレータRFUの温度解析
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
9
実験環境とプロセッサモデル
プロセッサモデル図
• 実験環境
ヒートスプレッダ
2.6x2.6.1.0 [mm 3]
– シミュレータ:
温度解析シミュレータ “HotSpot”
– ベンチマークプログラム:
“MiBench” より15種類
– 可変パラメータ:動作周波数
• 消費電力は動作周波数に比例
• 可変幅:130MHz ~ 650MHz
– 大気の温度:45℃と想定
[HotSpot] K. Skadron, et al
. ``Temperature-aware Microarchitecture,’’ ISCA, 2003.
2015/9/30
ヒートシンク
5.2x5.2x6.9 [mm3 ]
プリント基板
RFU 1.7x1.7x0.15 [mm 3]
FU FU FU FU
FU FU FU FU
FU FU FU FU
FU FU FU FU
RFUのフロアプラン
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
10
カスタム命令実行頻度
及び RFU定常温度分析結果
260MHz
390MHz
520MHz
48
650MHz
CI頻度
温度:+3.03℃
↓
リーク電流:1.26倍
47.5
47
多くのプログラムは
温度上昇僅少
46.5
46
45.5
gs
m
cr
c
fft
sh
a
ad
pc
m
qs
or
t
su
sa
n
cjp
eg
djp
eg
la
m
di e
jk
st
ra
pa
tr
st
ri n ici a
gs
ea
rc
bl h
ow
fis
h
ba
sic
m
at
h
45
100.00%
90.00%
80.00%
70.00%
60.00%
50.00%
40.00%
30.00%
20.00%
10.00%
0.00%
CI実行頻度(%)
RFU温度 (℃) HOT!!
130MHz
ベンチマーク・プログラム
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
11
まとめ と 今後の課題
• 研究目的:RFUの温度解析
– リーク電流への影響を考慮
• 解析実験結果
– 多くのプログラム:温度上昇幅 1℃以下
– 最悪ケース
:温度上昇幅 3.03℃
→リーク電流 1.26倍( 外気温度45℃ )
• 今後の課題
– ADEXORの静的消費エネルギー評価
• 温度上昇とリーク電流増加による相互状態悪化を考慮
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
12
• 関係式
IleakRFU   IleakG ATE
リーク電流増加の割合
リーク電流の温度依存性
2.60
2.20
1.80
1.40
1.00
45 47 49 51 53 55 57
RFU温度(℃)
IleakG ATE  nN  kN  Ileakn MO S  nP  kP  Ileakp MO S
W
 Vth 
2
I leakMOS  I O   T  exp  k 
L
T


[2] D. Parikh, Y. Zhang, K. Sankaranarayanan, K. Skadron and M. Stan “Comparison of State-Preserving
vs. Nonstate-Preserving Leakage Control”. WDDD, June 2003.
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
13
RFU温度と動作周波数およびCI実行頻度の関係性
45-47
47-49
49-51
51-53
53-55
55-57
57
55
53
51
2.60
1170
2.40
49
910
2.20
2.00
1.60
390
1.40
動作周波数 (MHz)
1.20
45
130
10%
1.00
45 46
2015/9/30
47
650
1.80
47 48 49 50
51 52 53 54 55
RFU 定常温度 (℃)
静的消費エネルギー増加の割合
– 高温になる条件
• CI実行頻度100%
• 動作周波数1.3GHz
⇒56.7℃まで上昇
– 45℃から56.7℃まで上昇
するとリーク電流は約
2.4倍
30%
50%
56 57
RFU温度(℃)
C-12-32
演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
70%
90%
CI 実行頻度
14
各FUの温度上昇要因
温度変動
モデル式
PFU (t )
TFU (t )  Tamb
TFU (t ) 
dt 
dt
Cthermal
Rthermal Cthermal
TFU (t ) :FUの温度
Tamb :外気温
PFU (t ) :時刻tにおけるFUの消費電力
Rthermal :FUの熱抵抗(熱の伝わりにくさ)
Cthermal :FUの熱容量(温度の変動しにくさ)
FU
消費電力
PFU  CI exe_ freq  fCLVdd
2
放熱要素
発熱要素
CI exe_ freq :CI実行頻度
 :スイッチング確率
f :動作周波数
CL :負荷容量
Vdd :電源電圧
RFUの温度は カスタム命令実行頻度,動作周波数 に影響を受ける
W. Huang, K. Sankaranarayanan, K. Skadron, R. J. Ribando, M. R. Stan ‘’Accurate, Pre-RTL Temperature-Aware Design Using a
Parameterized, Geometric Thermal Model’’.IEEE Transactions on Computers, Sept. ‘08.
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
15
結果1’:RFU定常温度解析実験
130MHz
260MHz
390MHz
520MHz
650MHz
CI化命令率
47.5
47
46.5
46
45.5
cr
c
gs
m
-d
gs
m
-e
fft
qs
or
t
su
sa
n
cjp
eg
djp
eg
la
m
di e
jk
st
ra
pa
t
st
ri n rici a
gs
ea
rc
bl h
ow
fis
h
sh
a
ad
pc
m
ba
sic
m
at
h
45
CI実行頻度(△) CI
に含まれた実効命令率(◇)
100.00%
90.00%
80.00%
70.00%
60.00%
50.00%
40.00%
30.00%
20.00%
10.00%
0.00%
48
RFU定常温度 (℃)
CI頻度
ベンチマーク・プログラム
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
16
RCモデルについて
• 2次元実装チップ熱伝導モデル“RCモデル”
–
–
–
–
熱伝導性と電気電流の双極性
チップの消費電力から温度の見積りが可能
複雑な熱伝導問題を電気回路問題として扱う
熱伝導と電流の類似性を反映
温度 T
熱抵抗 Rt
)))
電位 V
電気抵抗
R
(((((
Hot
熱の流れ
2015/9/30
静電容量
C
Cool
熱容量 Ct
電流
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
17
ADEXORの特徴
• 主な構成
– 汎用プロセッサ(ホストプロセッサ)
– 演算器配列型アクセラレータ(RFU)
• 消費エネルギー削減効果
クロック信号による
消費エネルギー
プロセッサ内の各構成要素アクセス
による消費エネルギー
RFUでのカスタム命令実行
による消費エネルギー
EAD  Eclock Nexe_ cc   Ecomp accesscomp   ECRFU
comp
総実行命令数と構成要素へのアクセス回数を削減
2015/9/30
C-12-32 演算器配列型アクセラレータの温度解析 (電気情報通信学会総合大会)
18