Slides

トランスペアレントラッチを用いた
NoC向け分散ルータアーキテクチャ
安戸僚汰,松谷宏紀,鯉渕道紘,天野英晴,中村維男
慶應義塾大学
国立情報学研究所
November 28, 2014
Design Gaia 2014 -New Field of VLSI Design-
Outline
–
I.  研究背景・目的
II.  ルータ・アーキテクチャ∼非分散型と分散型∼
III. トランスペアレント・ラッチの導入
IV.  評価
V.  まとめ
November 28, 2014
Design Gaia 2014
1
Nework-on-Chips (NoC)
–
IP Core
Router
Ÿ
™ a
November 28, 2014
Design Gaia 2014
2
Interconnect bottleneck
(特に配線遅延)
遅延(Normalized)
100
Global interconnect(リピータなし)
–
エネルギー(Normalized)
遅延
Global interconnect(リピータ有)
10
Local interconnect(M1, 2)
Gate delay(FO4)
1
1.2
エネルギー
Interconnect Energy
1
Compute Energy
0.8
0.6
x 1/1.6
0.4
0.2
x 1/6
0
0.1
32
22 14
10
7
プロセスルール[nm]
プロセスルール[nm]
From Mark Anders, “High-performance Energy-efficient NoC Fabrics”, NOCS2014(Keynote). 250
130
65
32
Core Interconnection
November 28, 2014
Design Gaia 2014
45
Core
3
NoCにおける配線遅延
–
™ NoCの遅延 = (ルータ遅延 + 配線遅延) × ホップ数
※パケット衝突がない場合 RC: 経路計算
LT: リンク通過
VSA: アービトレーション
ST: スイッチ通過
パイプライン処理をする
1
2
クロックサイクル
3
4
ST
LT
ヘッダ RC
VSA
データ1
RC VSA
ST
RC VSA
データ2
5
6
or
LT
ST
…
LT
1
クロックサイクル
2
3
4
LT
VSA ST
RC
LT
VSA ST
RC
LT
VSA
RC
5
…
ST
…
1ステージ割当てる→遅延増加
(Link Traversal)
November 28, 2014
Design Gaia 2014
RCステージに吸収させる
→クリティカルパスになり得る
4
高性能トポロジへの足枷
–
™ Flattened butterfly, ランダムトポロジ, etc.
Ø  High-radix NW向けトポロジ全般
長い配線(延べ3ホップ分)
長い配線(延べ2ホップ分)
→微細化により実装困難
例)
™ 論理的な距離(ホップ数)
November 28, 2014
2D Flattened butterfly(4x4)
物理的な距離(配線長)
Design Gaia 2014
5
以上より,配線遅延の隠蔽が必要
–
ü  微細化による配線遅延の影響の増加
ü  配線遅延によるNoCの性能低下
ü  高性能トポロジへの足枷
Ø 配線遅延の影響を抑える新しいルータ・アーキテ
クチャを提案
November 28, 2014
Design Gaia 2014
6
Outline
–
I.  研究背景・目的
II.  ルータ・アーキテクチャ∼非分散型と分散型∼
III. トランスペアレント・ラッチの導入
IV.  評価
V.  まとめ
November 28, 2014
Design Gaia 2014
7
a
非分散(集中型)ルータ
アーキテクチャ
long wire
November 28, 2014
–
Design Gaia 2014
8
分 散 ル ー タ ・ ア ー キ テ ク チ ャ
short wires
–
 a
先行研究
・H. Matsutani, et al. “Rearrangeable NoC:配線遅延を考慮した分散ルータアーキテクチャ”,
情報処理学会研究報告(ARC) 08. 世界初の提案
・A. Roca, et al. “A Distributed Switch Architecture for On-Chip Networks,” ICPP’11
・I. Seitanidis, et al. “ElastiNoC: A Self-Testable Distributed VC-based Network-on-Chip
Architecture”, NOCS’14
November 28, 2014
Design Gaia 2014
9
分散アーキテクチャの研究課題
–
™ バッファリングが増加
Ø  解決方法の例(今後要検討)
•  バッファのバイパス
•  パワーゲーティング
•  バッファの共有
™ リクエスト・グラントの問題
request
grant
Ø  今回,トランスペアレントラッチを用いてバッファの軽量化,
制御とデータの分離を提案
November 28, 2014
Design Gaia 2014
10
Outline
–
I.  研究背景・目的
II.  ルータ・アーキテクチャ∼非分散型と分散型∼
III. トランスペアレント・ラッチの導入
IV.  評価
V.  まとめ
November 28, 2014
Design Gaia 2014
11
トランスペアレントラッチ(Dラッチ)
活性化信号/クロック E
–
入力 D
Q
出力
™ FFに比べ遅延・面積・電力が有利
™ 制御が難しい→どうやってバッファを作るか?
™ 過去の例: Marching Memory Through Type (MMTH)
Ø  R.Yasudo, et al., “Design of a Low Power NoC Router using
Marching Memory Through type”, NOCS2014
Ø  42.4%電力削減
November 28, 2014
Design Gaia 2014
12
バッファの設計
–
1 packet = 5 flits
1 flit
言わば,遅延線� 2 Cycles
RC
November 28, 2014
VSA
ST
Design Gaia 2014
VSAに失敗したとき,
どうやって止めるのか?
13
Stop信号
–
™ a
2 Cycles
RC
November 28, 2014
VSA
ST
VSA失敗後,(2クロック後)
Stop信号をアサート
Design Gaia 2014
14
™ a
バッファの波形
RC
VSA
Q1
Q2
ストール
–
ST (ヘッダーからテイルまで)
Q3
Q4
Q5 クロック 入�力データ 出力データ Read Enable 2クロック Stop信号1 Stop信号2 Stop信号3 Stop信号4 Stop信号5 Write Enable November 28, 2014
Design Gaia 2014
15
トランスペアレントラッチ
を用いた分散ルータ
–
™ a
November 28, 2014
Design Gaia 2014
16
Outline
–
I.  研究背景・目的
II.  ルータ・アーキテクチャ∼非分散型と分散型∼
III. トランスペアレント・ラッチの導入
IV.  評価
V.  まとめ
November 28, 2014
Design Gaia 2014
17
評価方法
–
™ 三つのルータをRTL設計し,遅延と面積を比較
Ø  非分散,ナイーブ分散(FF),提案分散(ラッチ)
NoCの構成
評価環境
NoC構成
パラメータ
トポロジ
3x3メッシュ
項目
環境
プロセス
ST Microelectronics 28nm
フロー制御
論理シミュレーション
Virtual cut-through
Cadence NC-Verilog
パケット長
論理合成
5flits
Synopsys Design Compiler
フリット長
配置配線
16-bit
Synopsys IC Compiler
# of VC / port
2
アービタ
ラウンドロビン
ルーティング
次元順
November 28, 2014
Design Gaia 2014
18
™ a
遅延評価(1/6)
–
rc
0.26
vsa
0.94
fifo(wr)
0.73
fifo(rd)
この結果に基づき
各ステージの遅延を
求める
配線遅延(link)
0.24
cb
0.57
link
0.41
0
November 28, 2014
0.2
0.4
0.6
遅延[ns]
0.8
Design Gaia 2014
1
19
遅延評価(2/6)
–
™ LTステージの有る非分散ルータ
RC
VSA
LT
ST
クリティカルパス=VSA
周波数: 1064MHz
fifo(wr)
vsa
cb
fifo(rd)
link
November 28, 2014
0
0.2
Design Gaia 2014
0.4
0.6
0.8
20
1
遅延評価(3/6)
–
™ LTステージの無い非分散ルータ
LT
VSA
RC
ST
クリティカルパス=RC
周波数: 877MHz
fifo(wr)
link
vsa
fifo(rd)
November 28, 2014
Design Gaia 2014
cb
21
遅延評価(4/6)
–
™ ナイーブな分散ルータ
Lc
La
Lb
Lc
三等分した場合(それぞれ0.14ns)
TRC= 1.01ns, TVSA=1.22ns, TCB=1.09ns
明らかにVSAがボトルネック
November 28, 2014
Design Gaia 2014
22
遅延評価(5/6)
–
™ 提案する分散ルータ(トランスペアレントラッチ使用)
リクエスト・グラント問題の解決!
データの分離
Lc
La
Lc
Lb
三等分した場合(それぞれ0.14ns)
TRC= 0.54ns, TVSA=1.08ns, TCB=0.85ns, Tdata=0.39ns
これでもLT無し非分散(1.14ns)より速い!
November 28, 2014
Design Gaia 2014
23
遅延評価(6/6)
–
™ 提案する分散ルータ(トランスペアレントラッチ使用)
0.41
T_link
0.26
T_rc
T_vsa
0.94
T_st
0.57
0
0.5
1
遅延[ns]
・LT有り非分散ルータのLTを
削除できる(同じ周波数)
TRCが極端に短くなったため,
RCステージに配線遅延がすっぽり入る
November 28, 2014
Design Gaia 2014
・LT無し非分散ルータに比べて
周波数21.3%向上
24
面積評価
–
120
1.6%増加
46.0%削減
Naïve distributed
Proposed distributed
100
面積[%]
80
60
40
20
0
Non-distributed
バッファがルータの60.9%を占めることが影響
November 28, 2014
Design Gaia 2014
25
Outline
–
I.  研究背景・目的
II.  ルータ・アーキテクチャ∼非分散型と分散型∼
III. トランスペアレント・ラッチの導入
IV.  評価
V.  まとめ
November 28, 2014
Design Gaia 2014
26
まとめ
–
™ トランスペアレントラッチを用いた分散ルータを
提案,評価(2次元メッシュ)
Ø  LTステージのあるルータからLTステージを削除
Ø  LTステージのないルータの動作周波数を21.3%向上
Ø  面積を46.0%削減
Ø  高性能トポロジではさらに良い結果が期待できる
™ 今後の研究の余地は大きい
Ø  ルータ・パイプライン,アーキテクチャ,トポロジ, アナログシミュレーション, etc.
November 28, 2014
Design Gaia 2014
27