3 次元積層チップ LSI のための HW/SW 協調システム設計手法 HW/SW

第 27 回マイクロエレクトロニクス研究会 2015 年 11 月 14 日 会場:仙台市戦災復興記念館 記念ホール
The 27th International Microelectronics Conference, Nov. 14, 2015, Place: The Sendai City War Reconstruction Memorial Hall
3 次元積層チップ LSI のための HW/SW 協調システム設計手法
大川猛† 大津金光†
横田隆史† 菊地克弥‡
青柳昌宏‡
†宇都宮大学大学院工学研究科 〒321-8585 栃木県宇都宮市陽東 7-1-2
‡産業技術総合研究所 〒305-8568 茨城県つくば市梅園 1-1-1
E-mail: †[email protected], ‡[email protected]
HW/SW Cooperative System Design Method for 3D Chip Stacking LSI
Takeshi OHKAWA† Kanemitsu Ootsu† Takashi YOKOTA† Katsuya KIKUCHI‡ Masahiro AOYAGI‡
†Graduate School of Engineering, Utsunomiya University, 7-1-2 Yoto, Utsunomiya, Tochigi, 321-8585 Japan
‡National Institute of Advanced Industrial Science and Technology 1-1-1 Umezono, Tsukuba, Ibaraki, 305-8568, Japan
E-mail: †[email protected], ‡[email protected]
あらまし 様々な機能を持った複数の LSI チップを在庫しておき、必要に応じて容易に組み合わせて積層するこ
とで、高度な低消費電力の 3D-SCSS(Three-Dimensional Standard-Chip Stacked System:3 次元標準チップ積層システ
ム)を極めて短期間・低コストで構築可能となることが期待される。この際、チップの再利用による設計コスト削減
の為にはチップ間信号接続・電源供給方式の標準化が必須である。本研究の目的は、3D-SCSS を構成する為のチッ
プ間標準バスによる信号接続・電源供給方式と、対応したハードウェア・ソフトウェア設計方式の創出である。本
稿では、HW/SW の協調により 3 次元 LSI チップ積層システムの設計を行う手法について、画像認識処理の一部を
3D-SSCS にマッピングする設計事例を通じて議論する。
キーワード 3 次元積層チップ LSI,HW/SW 協調設計,プロセスネットワーク,モデル駆動,コンポーネント
1. は じ め に
一 方 、 設 計 技 術 の 観 点 で は 、 既 存 の シ リ コ ン LSI チ
ス マ ー ト フ ォ ン・タ ブ レ ッ ト 、情 報 家 電 、IoT( モ ノ
ップ向けのシステム設計技術はチップ単位のシステム
のインターネット:インターネットにつながる小型機
設計技術であり、チップの枠を超えてシステム全体を
器・セ ン サ 等 )、M2M( 機 器 間 通 信 に よ る シ ス テ ム 構 築 )、
統合・最適化することを想定しておらず、チップ積層
などにおいては、一層の小型化、低消費電力化、高機
のメリットを十分に活かせない問題があった。また、
能化、低価格化が求められている。特に消費電力は、
現状の様にチップ積層システムを個別に設計構築して
社会全体において全電力消費に占める割合が急激に増
いたのでは設計コストは下がらないため、標準的な接
大すると予測されており,素材・デバイス・システム
続規格を用意し、標準規格に準拠した製造済みのチッ
融合による技術革新が強く求められている。
プを必要に応じて貼り合わせてシステムを瞬時に構築
こ う し た 社 会 的 な 要 求 に 対 し て 、 LSI 実 装 技 術 の 観
する技術が、今後、新規アプリケーション開拓のため
点では従来の平面方向のシリコン半導体集積技術に加
に必須のコア技術となると予想される。すならち、チ
えて、垂直方向に積層することで、更に高度な機能を
ップ間接続のための通信バス規格・回路方式の標準化
1 つの小さなチップに統合する技術開発が進んでいる。
と そ れ を 活 用 す る た め の 技 術 が 重 要 で あ り 、 LSI チ ッ
半導体集積回路はチップの表面にのみ作りこまれるた
プ間接続のための通信バス仕様を標準化することが、
め、チップ背面までの垂直方向の電気信号・電力供給
複 数 異 種 チ ッ プ に よ る チ ッ プ 積 層 シ ス テ ム ( 図 1) を
配 線 接 続 に は 、 シ リ コ ン チ ッ プ を 貫 通 す る 穴 (ビ ア )を
実現するための重要なカギとなる。
開 け る TSV( シ リ コ ン 貫 通 ビ ア )技 術 が 検 討 さ れ て き
た。一方、穴あけコストと信頼性の問題を回避するこ
とが可能な、インターポーザ(チップ間配線のための
専用チップ)技術は高集積度製品には既に採用され、
更にはチップ間無線通信・無線給電技術も検討されて
いる。チップ間信号通信の消費エネルギーは、現状の
プリント配線基板をベースとした方式からは大幅に削
減可能であり、いずれも、集積度・性能・消費電力・
コストのトレードオフに応じて選択する必要がある。
図 1
3 次 元 LSI チ ッ プ 積 層 の 概 念 図
This article is a technical report without peer review, and its polished and/or extended version may be published elsewhere.
本研究は、将来の複数異種チップによるチップ積層
2.2. プロセスネットワーク処 理 モデルと
モデル と 3D-SCSS
システムに対応した、ヘテロジニアスな情報システム
本 研 究 の 3D-SCSS シ ス テ ム の 狙 い は 、現 状 の マ イ ク
の設計を行うための構築設計する技術を創出すること
ロ プ ロ セ ッ サ ・ シ ス テ ム が 数 10W~ 数 100W の 消 費 電
を 目 的 と す る 。本 稿 で は 、HW/SW の 協 調 に よ り 、低 消
力で処理しているアプリケーション、例えば画像認識
費 電 力 で 高 性 能 な 3 次 元 LSI チ ッ プ 積 層 シ ス テ ム の 設
を数 W の消費電力で処理する、ということである。
計 を 行 う 手 法 に つ い て 、 画 像 認 識 処 理 の 一 部 を 3D-
通常、逐次的なソフトウェアとして記述されている
SSCS に マ ッ ピ ン グ す る 設 計 事 例 を 通 じ て 議 論 す る 。
も の を 数 10 倍 ~ 数 100 倍 の 電 力 効 率 で 処 理 し よ う と
2. 3D-SCSS 設 計 手 法
すると、アプリケーションに内在する並列性を極限ま
3 次 元 LSI チ ッ プ 積 層 シ ス テ ム 設 計 の た め の 手 法 に
で 活 用 す る 必 要 が あ る 。従 来 の C 言 語 に 代 表 さ れ る 逐
ついて、ターゲットシステムモデルおよび処理モデル
次型のソフトウェアから並列性を抽出する自動並列化
を 定 義 し 、モ デ ル 駆 動 で 性 能 向 上 す る 道 筋 を 説 明 す る 。
コンパイラ等のアプローチでは、微視的な命令レベル
2.1. ターゲット 3D-SCSS システムのモデル
並 列 性 や 、 For ル ー プ で の デ ー タ 並 列 性 を 活 用 す る ア
タ ー ゲ ッ ト と な る 3D-SCSS (Three-Dimensional
プローチが取られてきた。しかし巨視的な並列性は自
Standard-Chip Stacked System:3 次 元 標 準 チ ッ プ 積 層 シ
動並列化分析が難しい問題があった。これに対し、ソ
ス テ ム )は 、複 数 の LSI チ ッ プ を 積 層 し て 構 成 す る 。こ
フトウェア開発者が、並列処理モデルでアプリケーシ
の際、チップ間の信号接続および電源接続には、文献
ョンを記述するモデル駆動アプローチが考えられる。
[1] [2]に お い て 試 作 評 価 し た TSV/バ ン プ を 用 い た 標 準
プロセスネットワークは、並列プロセスの計算モデ
バ ス を 用 い る こ と を 想 定 す る 。こ の 3D-SCSS 標 準 バ ス
ル ( 処 理 モ デ ル ) で あ る 。 そ の 中 で 、 Kahn Process
の概要を表 1 に示す。
Network (KPN)[3]は 、 よ く 知 ら れ た プ ロ セ ス ネ ッ ト ワ
こ の 標 準 バ ス の 特 徴 は 、数 千 の TSV/バ ン プ に よ る 信
ークの一種であり、独立した複数のプロセス間を無限
号バスを、チップの中心部に配置することである。チ
深 さ の FIFO バ ッ フ ァ で 結 合 し た も の で あ る 。図 2 に 、
ップ周辺部に配置するのに比べて、チップ間のドライ
KPN 処 理 モ デ ル の 例 を 示 す 。こ の 例 で 、デ ー タ は 左 側
バ・レシーバの間が短い距離で接続可能となるメリッ
の FIFO か ら 入 力 さ れ 、 右 側 に 向 か っ て い く つ か の プ
ト が あ る 。TSV/バ ン プ 信 号 バ ス の 周 辺 に は 、信 号 送 受
ロセスにて順次処理される。中央部では 3 つ程度に分
信のためのドライバ・レシーバトランジスタを配置す
岐するが、これは 3 つ程度で並列に処理されるという
る 。電 源 用 の TSV/バ ン プ は 、チ ッ プ 最 外 周 部 分 に 配 置
ことに相当する。また、その後右側のプロセスにデー
する。電源授受のための回路はこの周辺に配置する。
タが流れる際に、並列に処理した結果を集約処理し、
ターゲットシステムの外部接続に関して、将来的に
結 果 を 出 力 す る と い う こ と が 示 さ れ る 。こ の 際 、FIFO
は無線による信号通信や電源供給も想定する。外部接
バッファ介してデータがやり取りされる。重要なこと
続 が 無 線 化 さ れ る と 、TSV/バ ン プ に よ る 積 層 チ ッ プ の
は、各プロセスは独立して並列動作するということで
みで全ての電源供給・入出力・データ通信が完結し、
ある。このモデルで処理の並列度は中央部での分岐の
超小型のシステム構築が可能となる。ただし、この場
数(3 つ程度)による負荷分散並列だけではない。デ
合 で も TSV/バ ン プ に よ る 省 エ ネ ル ギ ー か つ 高 信 頼 の
ータは左から順次右の方向に流れていくため、左・中
通信・電源供給が、構築技術の基盤となる。
央・右のプロセスがそれぞれ同時に並列に処理するこ
標準バスを搭載した各チップに搭載される機能は、
とから、3 段のパイプライン並列処理も行われる。
マ イ ク ロ プ ロ セ ッ サ・メ モ リ・ハ ー ド ウ ェ ア エ ン ジ ン・
本 研 究 の 3D-SCSS シ ス テ ム に お い て は 、プ ロ セ ス ネ
センサ・入出力・通信といったものである。これらの
ットワークの形で記述されたアプケーションをマッピ
チップを在庫しておき、システムへの要求に応じて組
ングすることで、様々な並列処理による処理効率の向
み合わせてシステムを構築することを想定する。
上を図ることが可能となる。
表 1
3D-SCSS 標 準 バ ス の 概 要 [1]
項目
寸法
バス位置
TSV+バ ン プ の 数
[TSV デ ー タ 信 号 用 ]
信号周波数
通信容量
電力消費
フリップチップ実験
値
2 mm x 2 mm
Center of the chip
1600 (40x40)
[1024]
50 MHz
51.2 Gbps
97mW
@ 50% toggle rate
図 2 プロセスネットワーク処理モデルと
3D-SCSS シ ス テ ム へ の マ ッ ピ ン グ
前述のプロセスネットワークモデルで、各プロセス
3. 設 計 事 例:3D-SCSS
への画像認識処理マッピ
例:
ングによる性能評価
は基本的にソフトウェア処理が対応する。しかし、本
3 次 元 積 層 チ ッ プ LSI の TSV/バ ン プ に よ る チ ッ プ 間
研 究 の 3D-SCSS に お い て は 、各 チ ッ プ は 多 種 多 様 で あ
標 準 バ ス を 活 用 し た HW/SW 協 調 シ ス テ ム の 設 計 事 例
る。すなわち、ソフトウェアが動作可能なマイクロプ
として画像認識処理を取り上げる。
ロセッサが搭載されたチップもあれば、ハードワイヤ
3.1. 画 像 認 識 のアルゴリズム
2.3. HW/SW 混 在 プロセスネットワークモデル
プロセスネットワーク モデル
ードな画像処理専用チップ、もしくはイメージセンサ
画 像 認 識 ア ル ゴ リ ズ ム の 計 算 量 は 膨 大 と な る [8]。例
や無線通信チップが接続される可能性もある。プロセ
え ば 1999 年 に 発 表 さ れ た SIFT(Scale Invariant Feature
ス ネ ッ ト ワ ー ク に お い て は 各 プ ロ セ ス が FIFO バ ッ フ
Transform)[9][10]は 、画 像 中 の 特 徴 的 な 点( 特 徴 点 )を
ァに読み書きするデータの形式があっていれば、各プ
抽出し、特徴点がどのようなものであるかを特徴量ベ
ロセスはソフトウェア処理でもハードウェア処理であ
クトルで記述し、それをテンプレートと比較すること
っても、全く問題なく等価的に動作する。そのため、
で 認 識 性 能 の 大 幅 な 飛 躍 を も た ら し た 。SIFT に お い て
HW/SW 混 在 プ ロ セ ス ネ ッ ト ワ ー ク モ デ ル の 形 で 3D-
は 画 像 中 の 物 体 の 大 き さ・向 き (角 度 )が 異 な っ て も 、同
SCSS の シ ス テ ム 全 体 を 表 現 す る こ と が 可 能 で あ る 。
じ特徴量となるよう処理するため、拡大縮小・座標変
2.4. HW/SW 協 調 処 理 による電 力 性 能 比 向 上
換 処 理 を 多 く 行 う 。SIFT 以 降 、多 く の 局 所 特 徴 量 ア ル
プロセスネットワークの形でアプリケーションを
ゴ リ ズ ム が 提 案 さ れ た 。 SURF(Speeded Up Robust
記述することで、巨視的な並列性を明示的に示すこと
Features)[11]は 、高 速 化 の 工 夫 が 施 さ れ た 特 徴 抽 出 ア ル
が出来るようになる。しかしながら、アプリケーショ
ゴリズムである。ただし、依然計算量は多い。これに
ンの制約条件(例えば、入力から出力までの遅延時間
対 し 、ORB 特 徴 量 [12]は 、SIFT や SURF の 特 徴 量 が 実
が 100ms、 入 力 画 像 の フ レ ー ム レ ー ト は 10fps な ど )
数 の 128 も し く は 64 次 元 ベ ク ト ル で あ る の に 対 し 、
を 満 た し つ つ 数 10 倍 ~ 数 100 倍 の 電 力 性 能 比 を 達 成
0/1 の バ イ ナ リ 特 徴 量 で 特 徴 点 を 記 述 す る た め 計 算 量
す る た め に は 、そ れ だ け で は 不 十 分 で あ る こ と が 多 い 。
が少ないという利点がある。
そのため各プロセスにおいて、ソフトだけではなく
図 4 に は 、局 所 特 徴 量 に よ る 画 像 認 識 処 理 の フ ロ ー
ハードの並列性を活用した処理を行うことが必要とな
と 並 列 化 の ポ イ ン ト を 示 し た 。SIFT/SURF/ORB と い っ
る 。 い く つ か の 研 究 に お い て 、 FPGA 等 を 用 い て プ ロ
た局所特徴量を用いた画像認識処理は一般的にこのよ
セ ス を ハ ー ド (HW)・ソ フ ト( SW)に 切 り 分 け て 割 り 当
う な 流 れ で 行 わ れ る 。画 像 入 力・前 処 理・特 徴 点 抽 出・
て る こ と で 、 HW/SW が 混 在 し た 並 列 処 理 シ ス テ ム 設
局所特徴量計算・マッチング・データベース参照・機
計 を 行 う 提 案 が な さ れ て い る [4][5][6][7]。
械学習・結果出力は、順次行われるため、処理のパイ
2.5. モデル駆 動 開 発 による 3D-SCSS 設 計 環 境
プライン並列化が効果的である。また、前処理は画像
以上をまとめると、本研究が目標とする設計環境は、
分割によるデータ並列化・命令レベル並列化が効果的
アプリケーションの処理モデルを入力とし、要求性能
であり、特徴点抽出・局所特徴量計算は特徴点ごとの
を 満 た す タ ー ゲ ッ ト シ ス テ ム 構 成 モ デ ル と HW/SW の
並列化が可能である。これはタスクレベルの並列化に
設 計 デ ー タ を 出 力 す る こ と で あ る 。図 3 に モ デ ル 駆 動
分類できる。また、マッチング・データベース参照に
開発による自動並列化設計フローを示す。プラットフ
ついても、特徴点毎・データベースの並列化が可能で
ォ ー ム 依 存 モ デ ル (PSM)に お い て 3D-SCSS の チ ッ プ 構
あ り 、処 理 ご と の 特 色 を 活 用 し た 並 列 化 が 求 め ら れ る 。
成 モ デ ル を 探 索 す る こ と で 、 最 適 な チ ッ プ 構 成 の 3DSCSS が 構 築 可 能 と な る と 考 え ら れ る 。
図 3
モデル駆動開発による自動並列化
図 4 局所特徴量による画像認識処理のフ
ローと並列化のポイント
3.4. ス ケールピラミッド生 成 処 理 の処 理 性 能 (従 来 )
3.2. ORB 特 徴 量 を用 いた画 像 認 識 処 理
本 設 計 事 例 に お い て 検 討 を 行 っ た 、ORB 特 徴 量 を 用
(a)逐 次 反 復 は 、こ の 例 で は 1.2 倍 の 縮 小 倍 率 で 、原
いた画像認識のプロセスネットワークモデルを構成し
画 像 (1 倍 )か ら 順 次 縮 小 画 像 を 生 成 す る 並 列 処 理 方 式
た ( 図 5)。 各 プ ロ セ ス の 内 容 は 以 下 の 通 り で あ る 。
で あ る 。 画 像 サ イ ズ は 、 1.2 倍 、 1.44= (1.2) 2 倍 、・ ・ ・
・プロセス1:入力画像前処理
と 順 次 小 さ く な っ て い く 。一 方 、(b)個 別 倍 率 は 、全 て
・プロセス2:スケールピラミッド生成処理
の プ ロ セ ス が 原 画 像 (1 倍 )を 入 力 と し て 、 1.2 倍 、 1.44
・プロセス3:特徴点抽出処理
倍・・・の 画 像 を 個 別 に 生 成 す る 並 列 処 理 方 式 で あ る 。
・ プ ロ セ ス 4 : ORB 特 徴 量 計 算 処 理
通 常 の PC 環 境 に お い て 2 つ の 並 列 処 理 の 処 理 時 間
・プロセス5:特徴量マッチング処理/機械学習
・プロセス6:結果出力
を比較した結果を図 7 に示す。入力画像の解像度は
4096x 2380、 OpenCV2.4.6.1 を 用 い て 画 像 リ サ イ ズ を
線 形 補 完 ア ル ゴ リ ズ ム で 行 っ た 。 実 行 環 境 は 、 CPU:
3.3. スケールピラミッド生 成 処 理 の並 列 化 検 討
3D-SCSS の 特 長 は 、複 数 チ ッ プ を 用 い る こ と に よ る
並列処理である。この際、チップ間標準バスは従来の
AMD Phenom II 905e (2.5GHz)で あ る 。 結 果 を 見 る と 、
(a)逐 次 反 復 (Iterative Image Resize)の ほ う が 、(b)個 別 倍
プ リ ン ト 配 線 基 板 に よ る チ ッ プ 間 接 続 ( 例 : 256 本 程
率 (Independent Image Resize)と 比 較 し て 、処 理 時 間 が 短
度 )か ら は 遥 か に 多 い 1024 本 の 信 号 線 で あ る 。そ の た
い こ と が 分 か る 。 そ の た め 、 通 常 の PC 環 境 で の ス ケ
め、並列処理による性能向上と、チップ間通信に関す
ー ル ピ ラ ミ ッ ド 生 成 処 理 は 、 (a) 逐 次 反 復 で 行 わ れ る
る消費電力削減効果が期待できる。そのため、特に並
ことが一般的である。
列化とメモリアクセスが多い、
「 プ ロ セ ス 2:ス ケ ー ル
3.5. 3D-SCSS におけるスケールピラミッド生 成 処 理
の処 理 性 能
ピラミッド生成処理」に注目して検討を行った。
スケールピラミッド生成処理は、画像中の物体のサ
3D-SCSS に お い て 同 様 の ス ケ ー ル ピ ラ ミ ッ ド 処 理 を
イズが変化しても同じ物体として認識可能なように、
行 う 際 の 処 理 性 能 見 積 も り を 行 っ た [13]。 図 8 に 逐 次
少しずつ倍率を変えた縮小画像を複数生成する処理で
反 復 に お け る KPN と 3D-SCSS へ の マ ッ ピ ン グ 、 図 9
あ る 。図 6 は 、ス ケ ー ル ピ ラ ミ ッ ド 処 理 プ ロ セ ス の 内
に個別倍率におけるマッピング例を示す。プロセッサ
部 構 成 で あ る 。2 通 り の 並 列 処 理 方 式 (a)逐 次 反 復 、(b)
チップを 7 枚、メモリチップを 1 枚積層するシステム
個別倍率、を比較検討した。
を想定した。プロセスはプロセッサチップに割り当て
た 。ま た 、FIFO は メ モ リ チ ッ プ も し く は プ ロ セ ッ サ チ
ップ上のローカルメモリに割り当てることを想定した。
チップ間標準バスを通じてメモリチップへのアクセス
もしくはプロセッサチップへのアクセスを行うことと
し て 、チ ッ プ 間 の デ ー タ 転 送 量 (MB)と 転 送 に か か る 時
間 を 算 出 し た 。入 力 画 像 は 解 像 度 4096x2304 の 8bit グ
図 5 画像認識におけるプロセスネットワ
ーク全体構成の例
レ ー ス ケ ー ル 、 画 像 レ ー ト は 10 フ レ ー ム 毎 秒 で あ る 。
チ ッ プ 間 バ ス の 動 作 周 波 数 は 50MHz と し た 。
35
1
1/1.2
(a)
縮小
変換
1/1.2
(b)個別倍率
1/1.44
(b)
縮小
変換
1/1.2
1
1/2.99
1/3.58
(g)
縮小
変換
1/1.2
1/1.2
(A)
縮小
変換
1/1.2
(B)
縮小
変換
1/1.44
1/1.44
Processing Time (ms)
(a)逐次反復
Iterative Image Resize
(1/1.2 x 8 times)
Independent Image
Resize (1/1.2)^n
30
25
20
15
10
5
0
1
(G)
縮小
変換
1/3.58
1/3.58
図 6 ス ケ ー ル ピ ラ ミ ッ ド 処 理( 複 数 倍 率 で
の 画 像 縮 小 ) の 例 (a)逐
逐 次 反 復 、 (b)個
個別倍率
2
3
4
5
6
The level of the Scale Pyramid
7
図 7 PC 環 境 に お け る ス ケ ー ル ピ ラ ミ ッ ド
生成処理時間の比較
2.5
3.0
(a1) Iterative, 3D stacking
Total 7.4(ms)
2.0
Write
Read
1.5
1.0
0.5
Data Transfer Time (ms)
Data Transfer Time (ms)
3.0
0.0
2.5
Total 7.3(ms)
2.0
b
c
d
e
f
Sub Process Name
Read
1.5
1.0
0.5
g
a
3.0
b
c
d
e
f
Sub Process Name
g
3.0
2.5
Total 4.5(ms)
2.0
Write
Read
1.5
1.0
0.5
0.0
(b2) Independent, conventional
Data Transfer Time (ms)
(b1) Independent, 3D stacking
Data Transfer Time (ms)
Write
0.0
a
2.5
Total 13.2(ms)
2.0
Write
Read
1.5
1.0
0.5
0.0
A
図 8 逐 次 反 復 (a)に
に よ る 縮 小 処 理 の KPN と
3D-SCSS へ の マ ッ ピ ン グ
(a2) Iterative, conventional
B
C
D
E
F
Sub Process Name
G
a
b
c
d
e
f
Sub Process Name
g
図 10 チ ッ プ 間 通 信 の た め の デ ー タ 転 送 時
間 見 積 も り 結 果(
), (a1)(b1)
果( 画 像 レ ー ト:10fps)
ト:
3D-SCSS 標 準 バ ス , (a2)(b2)従
従来メモリバス
3.6. 性 能 に関 する考
する 考 察
見 積 も り 結 果 (図 10)に よ る と 、3D-SCSS に お い て は 、
(b) 個 別 倍 率 に よ る ス ケ ー ル ピ ラ ミ ッ ド 生 成 処 理 の ほ
う が 、(a)逐 次 反 復 と 比 べ て 、デ ー タ 転 送 時 間 が 大 幅 に
削減可能である可能性が示唆された。これは、通常の
PC 環 境 の 結 果 ( 図 7)と は 異 な る 設 計 が 最 適 に な る と
い う こ と で あ る 。 す な わ ち 、 通 常 の PC 環 境 に お い て
は 、(a)逐 次 反 復 の 処 理 時 間 が 比 較 的 短 く な る こ と が 常
識 で あ っ た 。 し か し 、 3D-SCSS に お い て チ ッ プ 間 の
1024 本 の 信 号 線 接 続 を 用 い る こ と で 、異 な る 並 列 処 理
方式の採用により、性能向上が見込めるという事を示
している。
なお、現在の見積もりはデータ転送時間のみである
ため、今後は各プロセッサチップでの画像縮小処理時
間を含めたシミュレーションを行うことで、性能の見
図 9 個 別 倍 率 (b)に
に よ る 縮 小 処 理 の KPN と
3D-SCSS へ の マ ッ ピ ン グ
積もり精度を向上する必要がある。
3.7. 消 費 電 力 の試 算 (参 考 データ)
図 10 に 、 チ ッ プ 間 通 信 に か か る デ ー タ 転 送 時 間 の
こ れ ま で 見 積 も っ た デ ー タ 転 送 量 を 基 に し て 、 3D-
見 積 も り 結 果 を 示 す 。(a1)と (b1)は 、3D-SCSS 標 準 バ ス
SCSS の 標 準 バ ス に お け る 消 費 電 力 の 試 算 を 、 ご く 大
に お け る デ ー タ 転 送 時 間 で あ り 、(a1)は 逐 次 反 復 、(b1)
雑 把 に 行 っ た 。 試 算 の 前 提 と し て 、 TSV 1 つ あ た り の
は 個 別 倍 率 で あ る 。大 き く 違 う の は 、(b1)個 別 倍 率 に お
電 気 容 量 を 0.3pF、 信 号 電 圧 を 1.0V と す る と 、 1 ビ ッ
いては全てのプロセスが同時に原画像データをメモリ
ト の 転 送 に 0.3pJ の エ ネ ル ギ ー が 必 要 と な る 。10fps の
チップから読み出すことが可能である点である。これ
入力画像を処理することを想定した試算の結果を図
に よ り 、ト ー タ ル の デ ー タ 転 送 時 間 が 、(a1)で 7.4ms で
11 に 示 す 。消 費 エ ネ ル ギ ー は デ ー タ 転 送 量 に 比 例 す る
あ る の に 対 し て 、 (b1)で は 4.5ms と 大 幅 に 削 減 可 能 と
こととなる。これまでの試算で、最もデータ転送量が
な っ た 。一 方 、(a2)と (b2)は メ モ リ チ ッ プ か ら 各 チ ッ プ
少 な い 、 (b’)チ ッ プ 間 の 同 時 配 信 可 能 な 場 合 の 逐 次 反
へ同時に原画像データを読み出し不可能な従来メモリ
復の並列処理方式が最も消費エネルギーが少なく、約
バ ス に お け る 見 積 も り 結 果 で あ る 。こ の 場 合 、(b2)で は
691.2uW と な っ た 。
13.2ms の デ ー タ 転 送 時 間 と な る 。
Power consumption @ 10fps (µW)
2,500
2,000
Write [µW]
Read [µW]
1,500
1,000
500
0
図 11
(a) Iterative
(b) Independent (b') Independent,
broadcast
Network Mapping
3D-SCSS の 消 費 電 力 試 算 結 果
4. お わ り に
本 稿 は 、3D-SCSS( 3 次 元 標 準 チ ッ プ 積 層 シ ス テ ム )
のハード・ソフト協調システムの性能設計をモデル駆
動で行う手法について説明した。ターゲットシステム
と し て 、 TSV/ バ ン プ を 用 い た 標 準 バ ス を 用 い た 3DSSCS を 想 定 し 、 画 像 認 識 処 理 の 一 部 で あ る ス ケ ー ル
ピラミッド生成処理をターゲットシステムにマッピン
グする設計事例を通じ、性能設計について議論した。
結 果 と し て 、 3D-SCSS に お い て は 、 通 常 の PC 環 境 と
は異なった並列処理方式により最適設計となる可能性
が示唆された。
今後、プロセスネットワークの形でアプリケーショ
ン処理の並列処理モデル化を行い、モデル駆動により
性能の最適設計を行う手法により、多くのアプリケー
シ ョ ン で 低 消 費 電 力 ・ 高 性 能 な シ ス テ ム を 、 3D-SCSS
によって構築可能となることが期待される。
文
献
[1] Aoyagi, M.; Imura, F.; Nemoto, S.; Watanabe, N.;
Kato, F.; Kikuchi, K.; Nakagawa, H.; Hagimoto, M.;
Uchida, H.; Matsumoto, Y., "Wide bus chip-to-chip
interconnection technology using fine pitch bump
joint array for 3D LSI chip stacking," CPMT
Symposium Japan, 2012 2nd IEEE , vol., no., pp.1,4,
10-12 Dec. 2012
[2] Chacin, M.; Uchida, H.; Hagimoto, M.; Miyazaki, T.;
Ohkawa, T.; Ikeno, R.; Matsumoto, Y.; Imura, F.;
Suzuki, M.; Kikuchi, K.; Nakagawa, H.; Aoyagi, M.,
"COOL interconnect low power interconnection
technology for scalable 3D LSI design," Cool Chips
XIV, 2011 IEEE , vol., no., pp.1,3, 20-22 April 2011
[3] G. Kahn, “The semantics of a simple language for
parallel programming,” Proc. of the IFIP Congress 74.
North-Holland Publishing Co., 1974
[4] Lee, Edward A., and Thomas M. Parks. "Dataflow
process networks." Proceedings of the IEEE 83.5,
773-801, 1995
[5] Stefanov, Todor, et al. "System design using Khan
process networks: the Compaan/Laura approach."
Design, Automation and Test in Europe Conference
and Exhibition, 2004. Proceedings. Vol. 1. IEEE, 2004
[6] Nikolov, Hristo, Todor Stefanov, and Ed Deprettere.
"Modeling and FPGA implementation of applications
using parameterized process networks with non-static
parameters." Field-Programmable Custom Computing
Machines, 2005. FCCM 2005. 13th Annual IEEE
Symposium on. IEEE, 2005
[7] Nejad, Ashkan Beyranvand, et al. "Mapping kpn
models of streaming applications on a network-onchip platform." ProRISC 2009: Proceedings of the
Workshop on Signal Processing, Integrated Systems
and Circuits, 2009
[8] 柳 井 啓 司「 一 般 物 体 認 識 の 現 状 と 今 後 」情 報 処 理
学会論文誌. コンピュータビジョンとイメージメ
デ ィ ア 48(SIG_16(CVIM_19)), 1-24, 2007-11-15
[9] David G. Lowe, "Object recognition from local scaleinvariant features," International Conference on
Computer Vision, Corfu, Greece (September 1999),
pp. 1150-1157, 1999
[10] David G. Lowe, "Distinctive image features from
scale-invariant keypoints," International Journal of
Computer Vision, 60, 2 (2004), pp. 91-110. 2004
[11] BAY, Herbert; TUYTELAARS, Tinne; VAN
GOOL, Luc. Surf: Speeded up robust features. In:
Computer vision–ECCV 2006. Springer Berlin
Heidelberg, p. 404-417, 2006
[12] Ethan Rublee, Vincent Rabaud, Kurt Konolige, Gary
Bradski “ORB:an efficient alternative to SIFT or
SURF,” International Conference on Computer Vision
2011, pp.2564-2571, 2011
[13] Takeshi Ohkawa, Takashi Yokota, Kanemitsu
Ootsu, Masahiro Aoyagi, Katsuya Kikuchi and
Hiroshi Nakagawa, "HW/SW Hybrid Processes
Network with Application Layer Communication for
3D Chip Stacking Systems," 16th International
Workshop on Innovative Architecture for Future
Generation
High-Performance
Processors
and
Systems 2014 (IWIA2014), Mar 2014