トランスペアレントラッチを用いた NoC向け分散ルータアーキテクチャ 安戸僚汰,松谷宏紀,鯉渕道紘,天野英晴,中村維男 慶應義塾大学 国立情報学研究所 November 28, 2014 Design Gaia 2014 -New Field of VLSI Design- Outline I. 研究背景・目的 II. ルータ・アーキテクチャ∼非分散型と分散型∼ III. トランスペアレント・ラッチの導入 IV. 評価 V. まとめ November 28, 2014 Design Gaia 2014 1 Nework-on-Chips (NoC) IP Core Router a November 28, 2014 Design Gaia 2014 2 Interconnect bottleneck (特に配線遅延) 遅延(Normalized) 100 Global interconnect(リピータなし) エネルギー(Normalized) 遅延 Global interconnect(リピータ有) 10 Local interconnect(M1, 2) Gate delay(FO4) 1 1.2 エネルギー Interconnect Energy 1 Compute Energy 0.8 0.6 x 1/1.6 0.4 0.2 x 1/6 0 0.1 32 22 14 10 7 プロセスルール[nm] プロセスルール[nm] From Mark Anders, “High-performance Energy-efficient NoC Fabrics”, NOCS2014(Keynote). 250 130 65 32 Core Interconnection November 28, 2014 Design Gaia 2014 45 Core 3 NoCにおける配線遅延 NoCの遅延 = (ルータ遅延 + 配線遅延) × ホップ数 ※パケット衝突がない場合 RC: 経路計算 LT: リンク通過 VSA: アービトレーション ST: スイッチ通過 パイプライン処理をする 1 2 クロックサイクル 3 4 ST LT ヘッダ RC VSA データ1 RC VSA ST RC VSA データ2 5 6 or LT ST … LT 1 クロックサイクル 2 3 4 LT VSA ST RC LT VSA ST RC LT VSA RC 5 … ST … 1ステージ割当てる→遅延増加 (Link Traversal) November 28, 2014 Design Gaia 2014 RCステージに吸収させる →クリティカルパスになり得る 4 高性能トポロジへの足枷 Flattened butterfly, ランダムトポロジ, etc. Ø High-radix NW向けトポロジ全般 長い配線(延べ3ホップ分) 長い配線(延べ2ホップ分) →微細化により実装困難 例) 論理的な距離(ホップ数) November 28, 2014 2D Flattened butterfly(4x4) 物理的な距離(配線長) Design Gaia 2014 5 以上より,配線遅延の隠蔽が必要 ü 微細化による配線遅延の影響の増加 ü 配線遅延によるNoCの性能低下 ü 高性能トポロジへの足枷 Ø 配線遅延の影響を抑える新しいルータ・アーキテ クチャを提案 November 28, 2014 Design Gaia 2014 6 Outline I. 研究背景・目的 II. ルータ・アーキテクチャ∼非分散型と分散型∼ III. トランスペアレント・ラッチの導入 IV. 評価 V. まとめ November 28, 2014 Design Gaia 2014 7 a 非分散(集中型)ルータ アーキテクチャ long wire November 28, 2014 Design Gaia 2014 8 分 散 ル ー タ ・ ア ー キ テ ク チ ャ short wires a 先行研究 ・H. Matsutani, et al. “Rearrangeable NoC:配線遅延を考慮した分散ルータアーキテクチャ”, 情報処理学会研究報告(ARC) 08. 世界初の提案 ・A. Roca, et al. “A Distributed Switch Architecture for On-Chip Networks,” ICPP’11 ・I. Seitanidis, et al. “ElastiNoC: A Self-Testable Distributed VC-based Network-on-Chip Architecture”, NOCS’14 November 28, 2014 Design Gaia 2014 9 分散アーキテクチャの研究課題 バッファリングが増加 Ø 解決方法の例(今後要検討) • バッファのバイパス • パワーゲーティング • バッファの共有 リクエスト・グラントの問題 request grant Ø 今回,トランスペアレントラッチを用いてバッファの軽量化, 制御とデータの分離を提案 November 28, 2014 Design Gaia 2014 10 Outline I. 研究背景・目的 II. ルータ・アーキテクチャ∼非分散型と分散型∼ III. トランスペアレント・ラッチの導入 IV. 評価 V. まとめ November 28, 2014 Design Gaia 2014 11 トランスペアレントラッチ(Dラッチ) 活性化信号/クロック E 入力 D Q 出力 FFに比べ遅延・面積・電力が有利 制御が難しい→どうやってバッファを作るか? 過去の例: Marching Memory Through Type (MMTH) Ø R.Yasudo, et al., “Design of a Low Power NoC Router using Marching Memory Through type”, NOCS2014 Ø 42.4%電力削減 November 28, 2014 Design Gaia 2014 12 バッファの設計 1 packet = 5 flits 1 flit 言わば,遅延線� 2 Cycles RC November 28, 2014 VSA ST Design Gaia 2014 VSAに失敗したとき, どうやって止めるのか? 13 Stop信号 a 2 Cycles RC November 28, 2014 VSA ST VSA失敗後,(2クロック後) Stop信号をアサート Design Gaia 2014 14 a バッファの波形 RC VSA Q1 Q2 ストール ST (ヘッダーからテイルまで) Q3 Q4 Q5 クロック 入�力データ 出力データ Read Enable 2クロック Stop信号1 Stop信号2 Stop信号3 Stop信号4 Stop信号5 Write Enable November 28, 2014 Design Gaia 2014 15 トランスペアレントラッチ を用いた分散ルータ a November 28, 2014 Design Gaia 2014 16 Outline I. 研究背景・目的 II. ルータ・アーキテクチャ∼非分散型と分散型∼ III. トランスペアレント・ラッチの導入 IV. 評価 V. まとめ November 28, 2014 Design Gaia 2014 17 評価方法 三つのルータをRTL設計し,遅延と面積を比較 Ø 非分散,ナイーブ分散(FF),提案分散(ラッチ) NoCの構成 評価環境 NoC構成 パラメータ トポロジ 3x3メッシュ 項目 環境 プロセス ST Microelectronics 28nm フロー制御 論理シミュレーション Virtual cut-through Cadence NC-Verilog パケット長 論理合成 5flits Synopsys Design Compiler フリット長 配置配線 16-bit Synopsys IC Compiler # of VC / port 2 アービタ ラウンドロビン ルーティング 次元順 November 28, 2014 Design Gaia 2014 18 a 遅延評価(1/6) rc 0.26 vsa 0.94 fifo(wr) 0.73 fifo(rd) この結果に基づき 各ステージの遅延を 求める 配線遅延(link) 0.24 cb 0.57 link 0.41 0 November 28, 2014 0.2 0.4 0.6 遅延[ns] 0.8 Design Gaia 2014 1 19 遅延評価(2/6) LTステージの有る非分散ルータ RC VSA LT ST クリティカルパス=VSA 周波数: 1064MHz fifo(wr) vsa cb fifo(rd) link November 28, 2014 0 0.2 Design Gaia 2014 0.4 0.6 0.8 20 1 遅延評価(3/6) LTステージの無い非分散ルータ LT VSA RC ST クリティカルパス=RC 周波数: 877MHz fifo(wr) link vsa fifo(rd) November 28, 2014 Design Gaia 2014 cb 21 遅延評価(4/6) ナイーブな分散ルータ Lc La Lb Lc 三等分した場合(それぞれ0.14ns) TRC= 1.01ns, TVSA=1.22ns, TCB=1.09ns 明らかにVSAがボトルネック November 28, 2014 Design Gaia 2014 22 遅延評価(5/6) 提案する分散ルータ(トランスペアレントラッチ使用) リクエスト・グラント問題の解決! データの分離 Lc La Lc Lb 三等分した場合(それぞれ0.14ns) TRC= 0.54ns, TVSA=1.08ns, TCB=0.85ns, Tdata=0.39ns これでもLT無し非分散(1.14ns)より速い! November 28, 2014 Design Gaia 2014 23 遅延評価(6/6) 提案する分散ルータ(トランスペアレントラッチ使用) 0.41 T_link 0.26 T_rc T_vsa 0.94 T_st 0.57 0 0.5 1 遅延[ns] ・LT有り非分散ルータのLTを 削除できる(同じ周波数) TRCが極端に短くなったため, RCステージに配線遅延がすっぽり入る November 28, 2014 Design Gaia 2014 ・LT無し非分散ルータに比べて 周波数21.3%向上 24 面積評価 120 1.6%増加 46.0%削減 Naïve distributed Proposed distributed 100 面積[%] 80 60 40 20 0 Non-distributed バッファがルータの60.9%を占めることが影響 November 28, 2014 Design Gaia 2014 25 Outline I. 研究背景・目的 II. ルータ・アーキテクチャ∼非分散型と分散型∼ III. トランスペアレント・ラッチの導入 IV. 評価 V. まとめ November 28, 2014 Design Gaia 2014 26 まとめ トランスペアレントラッチを用いた分散ルータを 提案,評価(2次元メッシュ) Ø LTステージのあるルータからLTステージを削除 Ø LTステージのないルータの動作周波数を21.3%向上 Ø 面積を46.0%削減 Ø 高性能トポロジではさらに良い結果が期待できる 今後の研究の余地は大きい Ø ルータ・パイプライン,アーキテクチャ,トポロジ, アナログシミュレーション, etc. November 28, 2014 Design Gaia 2014 27
© Copyright 2024 ExpyDoc