第 27 回マイクロエレクトロニクス研究会 2015 年 11 月 14 日 会場:仙台市戦災復興記念館 記念ホール The 27th International Microelectronics Conference, Nov. 14, 2015, Place: The Sendai City War Reconstruction Memorial Hall 3 次元積層チップ LSI のための HW/SW 協調システム設計手法 大川猛† 大津金光† 横田隆史† 菊地克弥‡ 青柳昌宏‡ †宇都宮大学大学院工学研究科 〒321-8585 栃木県宇都宮市陽東 7-1-2 ‡産業技術総合研究所 〒305-8568 茨城県つくば市梅園 1-1-1 E-mail: †[email protected], ‡[email protected] HW/SW Cooperative System Design Method for 3D Chip Stacking LSI Takeshi OHKAWA† Kanemitsu Ootsu† Takashi YOKOTA† Katsuya KIKUCHI‡ Masahiro AOYAGI‡ †Graduate School of Engineering, Utsunomiya University, 7-1-2 Yoto, Utsunomiya, Tochigi, 321-8585 Japan ‡National Institute of Advanced Industrial Science and Technology 1-1-1 Umezono, Tsukuba, Ibaraki, 305-8568, Japan E-mail: †[email protected], ‡[email protected] あらまし 様々な機能を持った複数の LSI チップを在庫しておき、必要に応じて容易に組み合わせて積層するこ とで、高度な低消費電力の 3D-SCSS(Three-Dimensional Standard-Chip Stacked System:3 次元標準チップ積層システ ム)を極めて短期間・低コストで構築可能となることが期待される。この際、チップの再利用による設計コスト削減 の為にはチップ間信号接続・電源供給方式の標準化が必須である。本研究の目的は、3D-SCSS を構成する為のチッ プ間標準バスによる信号接続・電源供給方式と、対応したハードウェア・ソフトウェア設計方式の創出である。本 稿では、HW/SW の協調により 3 次元 LSI チップ積層システムの設計を行う手法について、画像認識処理の一部を 3D-SSCS にマッピングする設計事例を通じて議論する。 キーワード 3 次元積層チップ LSI,HW/SW 協調設計,プロセスネットワーク,モデル駆動,コンポーネント 1. は じ め に 一 方 、 設 計 技 術 の 観 点 で は 、 既 存 の シ リ コ ン LSI チ ス マ ー ト フ ォ ン・タ ブ レ ッ ト 、情 報 家 電 、IoT( モ ノ ップ向けのシステム設計技術はチップ単位のシステム のインターネット:インターネットにつながる小型機 設計技術であり、チップの枠を超えてシステム全体を 器・セ ン サ 等 )、M2M( 機 器 間 通 信 に よ る シ ス テ ム 構 築 )、 統合・最適化することを想定しておらず、チップ積層 などにおいては、一層の小型化、低消費電力化、高機 のメリットを十分に活かせない問題があった。また、 能化、低価格化が求められている。特に消費電力は、 現状の様にチップ積層システムを個別に設計構築して 社会全体において全電力消費に占める割合が急激に増 いたのでは設計コストは下がらないため、標準的な接 大すると予測されており,素材・デバイス・システム 続規格を用意し、標準規格に準拠した製造済みのチッ 融合による技術革新が強く求められている。 プを必要に応じて貼り合わせてシステムを瞬時に構築 こ う し た 社 会 的 な 要 求 に 対 し て 、 LSI 実 装 技 術 の 観 する技術が、今後、新規アプリケーション開拓のため 点では従来の平面方向のシリコン半導体集積技術に加 に必須のコア技術となると予想される。すならち、チ えて、垂直方向に積層することで、更に高度な機能を ップ間接続のための通信バス規格・回路方式の標準化 1 つの小さなチップに統合する技術開発が進んでいる。 と そ れ を 活 用 す る た め の 技 術 が 重 要 で あ り 、 LSI チ ッ 半導体集積回路はチップの表面にのみ作りこまれるた プ間接続のための通信バス仕様を標準化することが、 め、チップ背面までの垂直方向の電気信号・電力供給 複 数 異 種 チ ッ プ に よ る チ ッ プ 積 層 シ ス テ ム ( 図 1) を 配 線 接 続 に は 、 シ リ コ ン チ ッ プ を 貫 通 す る 穴 (ビ ア )を 実現するための重要なカギとなる。 開 け る TSV( シ リ コ ン 貫 通 ビ ア )技 術 が 検 討 さ れ て き た。一方、穴あけコストと信頼性の問題を回避するこ とが可能な、インターポーザ(チップ間配線のための 専用チップ)技術は高集積度製品には既に採用され、 更にはチップ間無線通信・無線給電技術も検討されて いる。チップ間信号通信の消費エネルギーは、現状の プリント配線基板をベースとした方式からは大幅に削 減可能であり、いずれも、集積度・性能・消費電力・ コストのトレードオフに応じて選択する必要がある。 図 1 3 次 元 LSI チ ッ プ 積 層 の 概 念 図 This article is a technical report without peer review, and its polished and/or extended version may be published elsewhere. 本研究は、将来の複数異種チップによるチップ積層 2.2. プロセスネットワーク処 理 モデルと モデル と 3D-SCSS システムに対応した、ヘテロジニアスな情報システム 本 研 究 の 3D-SCSS シ ス テ ム の 狙 い は 、現 状 の マ イ ク の設計を行うための構築設計する技術を創出すること ロ プ ロ セ ッ サ ・ シ ス テ ム が 数 10W~ 数 100W の 消 費 電 を 目 的 と す る 。本 稿 で は 、HW/SW の 協 調 に よ り 、低 消 力で処理しているアプリケーション、例えば画像認識 費 電 力 で 高 性 能 な 3 次 元 LSI チ ッ プ 積 層 シ ス テ ム の 設 を数 W の消費電力で処理する、ということである。 計 を 行 う 手 法 に つ い て 、 画 像 認 識 処 理 の 一 部 を 3D- 通常、逐次的なソフトウェアとして記述されている SSCS に マ ッ ピ ン グ す る 設 計 事 例 を 通 じ て 議 論 す る 。 も の を 数 10 倍 ~ 数 100 倍 の 電 力 効 率 で 処 理 し よ う と 2. 3D-SCSS 設 計 手 法 すると、アプリケーションに内在する並列性を極限ま 3 次 元 LSI チ ッ プ 積 層 シ ス テ ム 設 計 の た め の 手 法 に で 活 用 す る 必 要 が あ る 。従 来 の C 言 語 に 代 表 さ れ る 逐 ついて、ターゲットシステムモデルおよび処理モデル 次型のソフトウェアから並列性を抽出する自動並列化 を 定 義 し 、モ デ ル 駆 動 で 性 能 向 上 す る 道 筋 を 説 明 す る 。 コンパイラ等のアプローチでは、微視的な命令レベル 2.1. ターゲット 3D-SCSS システムのモデル 並 列 性 や 、 For ル ー プ で の デ ー タ 並 列 性 を 活 用 す る ア タ ー ゲ ッ ト と な る 3D-SCSS (Three-Dimensional プローチが取られてきた。しかし巨視的な並列性は自 Standard-Chip Stacked System:3 次 元 標 準 チ ッ プ 積 層 シ 動並列化分析が難しい問題があった。これに対し、ソ ス テ ム )は 、複 数 の LSI チ ッ プ を 積 層 し て 構 成 す る 。こ フトウェア開発者が、並列処理モデルでアプリケーシ の際、チップ間の信号接続および電源接続には、文献 ョンを記述するモデル駆動アプローチが考えられる。 [1] [2]に お い て 試 作 評 価 し た TSV/バ ン プ を 用 い た 標 準 プロセスネットワークは、並列プロセスの計算モデ バ ス を 用 い る こ と を 想 定 す る 。こ の 3D-SCSS 標 準 バ ス ル ( 処 理 モ デ ル ) で あ る 。 そ の 中 で 、 Kahn Process の概要を表 1 に示す。 Network (KPN)[3]は 、 よ く 知 ら れ た プ ロ セ ス ネ ッ ト ワ こ の 標 準 バ ス の 特 徴 は 、数 千 の TSV/バ ン プ に よ る 信 ークの一種であり、独立した複数のプロセス間を無限 号バスを、チップの中心部に配置することである。チ 深 さ の FIFO バ ッ フ ァ で 結 合 し た も の で あ る 。図 2 に 、 ップ周辺部に配置するのに比べて、チップ間のドライ KPN 処 理 モ デ ル の 例 を 示 す 。こ の 例 で 、デ ー タ は 左 側 バ・レシーバの間が短い距離で接続可能となるメリッ の FIFO か ら 入 力 さ れ 、 右 側 に 向 か っ て い く つ か の プ ト が あ る 。TSV/バ ン プ 信 号 バ ス の 周 辺 に は 、信 号 送 受 ロセスにて順次処理される。中央部では 3 つ程度に分 信のためのドライバ・レシーバトランジスタを配置す 岐するが、これは 3 つ程度で並列に処理されるという る 。電 源 用 の TSV/バ ン プ は 、チ ッ プ 最 外 周 部 分 に 配 置 ことに相当する。また、その後右側のプロセスにデー する。電源授受のための回路はこの周辺に配置する。 タが流れる際に、並列に処理した結果を集約処理し、 ターゲットシステムの外部接続に関して、将来的に 結 果 を 出 力 す る と い う こ と が 示 さ れ る 。こ の 際 、FIFO は無線による信号通信や電源供給も想定する。外部接 バッファ介してデータがやり取りされる。重要なこと 続 が 無 線 化 さ れ る と 、TSV/バ ン プ に よ る 積 層 チ ッ プ の は、各プロセスは独立して並列動作するということで みで全ての電源供給・入出力・データ通信が完結し、 ある。このモデルで処理の並列度は中央部での分岐の 超小型のシステム構築が可能となる。ただし、この場 数(3 つ程度)による負荷分散並列だけではない。デ 合 で も TSV/バ ン プ に よ る 省 エ ネ ル ギ ー か つ 高 信 頼 の ータは左から順次右の方向に流れていくため、左・中 通信・電源供給が、構築技術の基盤となる。 央・右のプロセスがそれぞれ同時に並列に処理するこ 標準バスを搭載した各チップに搭載される機能は、 とから、3 段のパイプライン並列処理も行われる。 マ イ ク ロ プ ロ セ ッ サ・メ モ リ・ハ ー ド ウ ェ ア エ ン ジ ン・ 本 研 究 の 3D-SCSS シ ス テ ム に お い て は 、プ ロ セ ス ネ センサ・入出力・通信といったものである。これらの ットワークの形で記述されたアプケーションをマッピ チップを在庫しておき、システムへの要求に応じて組 ングすることで、様々な並列処理による処理効率の向 み合わせてシステムを構築することを想定する。 上を図ることが可能となる。 表 1 3D-SCSS 標 準 バ ス の 概 要 [1] 項目 寸法 バス位置 TSV+バ ン プ の 数 [TSV デ ー タ 信 号 用 ] 信号周波数 通信容量 電力消費 フリップチップ実験 値 2 mm x 2 mm Center of the chip 1600 (40x40) [1024] 50 MHz 51.2 Gbps 97mW @ 50% toggle rate 図 2 プロセスネットワーク処理モデルと 3D-SCSS シ ス テ ム へ の マ ッ ピ ン グ 前述のプロセスネットワークモデルで、各プロセス 3. 設 計 事 例:3D-SCSS への画像認識処理マッピ 例: ングによる性能評価 は基本的にソフトウェア処理が対応する。しかし、本 3 次 元 積 層 チ ッ プ LSI の TSV/バ ン プ に よ る チ ッ プ 間 研 究 の 3D-SCSS に お い て は 、各 チ ッ プ は 多 種 多 様 で あ 標 準 バ ス を 活 用 し た HW/SW 協 調 シ ス テ ム の 設 計 事 例 る。すなわち、ソフトウェアが動作可能なマイクロプ として画像認識処理を取り上げる。 ロセッサが搭載されたチップもあれば、ハードワイヤ 3.1. 画 像 認 識 のアルゴリズム 2.3. HW/SW 混 在 プロセスネットワークモデル プロセスネットワーク モデル ードな画像処理専用チップ、もしくはイメージセンサ 画 像 認 識 ア ル ゴ リ ズ ム の 計 算 量 は 膨 大 と な る [8]。例 や無線通信チップが接続される可能性もある。プロセ え ば 1999 年 に 発 表 さ れ た SIFT(Scale Invariant Feature ス ネ ッ ト ワ ー ク に お い て は 各 プ ロ セ ス が FIFO バ ッ フ Transform)[9][10]は 、画 像 中 の 特 徴 的 な 点( 特 徴 点 )を ァに読み書きするデータの形式があっていれば、各プ 抽出し、特徴点がどのようなものであるかを特徴量ベ ロセスはソフトウェア処理でもハードウェア処理であ クトルで記述し、それをテンプレートと比較すること っても、全く問題なく等価的に動作する。そのため、 で 認 識 性 能 の 大 幅 な 飛 躍 を も た ら し た 。SIFT に お い て HW/SW 混 在 プ ロ セ ス ネ ッ ト ワ ー ク モ デ ル の 形 で 3D- は 画 像 中 の 物 体 の 大 き さ・向 き (角 度 )が 異 な っ て も 、同 SCSS の シ ス テ ム 全 体 を 表 現 す る こ と が 可 能 で あ る 。 じ特徴量となるよう処理するため、拡大縮小・座標変 2.4. HW/SW 協 調 処 理 による電 力 性 能 比 向 上 換 処 理 を 多 く 行 う 。SIFT 以 降 、多 く の 局 所 特 徴 量 ア ル プロセスネットワークの形でアプリケーションを ゴ リ ズ ム が 提 案 さ れ た 。 SURF(Speeded Up Robust 記述することで、巨視的な並列性を明示的に示すこと Features)[11]は 、高 速 化 の 工 夫 が 施 さ れ た 特 徴 抽 出 ア ル が出来るようになる。しかしながら、アプリケーショ ゴリズムである。ただし、依然計算量は多い。これに ンの制約条件(例えば、入力から出力までの遅延時間 対 し 、ORB 特 徴 量 [12]は 、SIFT や SURF の 特 徴 量 が 実 が 100ms、 入 力 画 像 の フ レ ー ム レ ー ト は 10fps な ど ) 数 の 128 も し く は 64 次 元 ベ ク ト ル で あ る の に 対 し 、 を 満 た し つ つ 数 10 倍 ~ 数 100 倍 の 電 力 性 能 比 を 達 成 0/1 の バ イ ナ リ 特 徴 量 で 特 徴 点 を 記 述 す る た め 計 算 量 す る た め に は 、そ れ だ け で は 不 十 分 で あ る こ と が 多 い 。 が少ないという利点がある。 そのため各プロセスにおいて、ソフトだけではなく 図 4 に は 、局 所 特 徴 量 に よ る 画 像 認 識 処 理 の フ ロ ー ハードの並列性を活用した処理を行うことが必要とな と 並 列 化 の ポ イ ン ト を 示 し た 。SIFT/SURF/ORB と い っ る 。 い く つ か の 研 究 に お い て 、 FPGA 等 を 用 い て プ ロ た局所特徴量を用いた画像認識処理は一般的にこのよ セ ス を ハ ー ド (HW)・ソ フ ト( SW)に 切 り 分 け て 割 り 当 う な 流 れ で 行 わ れ る 。画 像 入 力・前 処 理・特 徴 点 抽 出・ て る こ と で 、 HW/SW が 混 在 し た 並 列 処 理 シ ス テ ム 設 局所特徴量計算・マッチング・データベース参照・機 計 を 行 う 提 案 が な さ れ て い る [4][5][6][7]。 械学習・結果出力は、順次行われるため、処理のパイ 2.5. モデル駆 動 開 発 による 3D-SCSS 設 計 環 境 プライン並列化が効果的である。また、前処理は画像 以上をまとめると、本研究が目標とする設計環境は、 分割によるデータ並列化・命令レベル並列化が効果的 アプリケーションの処理モデルを入力とし、要求性能 であり、特徴点抽出・局所特徴量計算は特徴点ごとの を 満 た す タ ー ゲ ッ ト シ ス テ ム 構 成 モ デ ル と HW/SW の 並列化が可能である。これはタスクレベルの並列化に 設 計 デ ー タ を 出 力 す る こ と で あ る 。図 3 に モ デ ル 駆 動 分類できる。また、マッチング・データベース参照に 開発による自動並列化設計フローを示す。プラットフ ついても、特徴点毎・データベースの並列化が可能で ォ ー ム 依 存 モ デ ル (PSM)に お い て 3D-SCSS の チ ッ プ 構 あ り 、処 理 ご と の 特 色 を 活 用 し た 並 列 化 が 求 め ら れ る 。 成 モ デ ル を 探 索 す る こ と で 、 最 適 な チ ッ プ 構 成 の 3DSCSS が 構 築 可 能 と な る と 考 え ら れ る 。 図 3 モデル駆動開発による自動並列化 図 4 局所特徴量による画像認識処理のフ ローと並列化のポイント 3.4. ス ケールピラミッド生 成 処 理 の処 理 性 能 (従 来 ) 3.2. ORB 特 徴 量 を用 いた画 像 認 識 処 理 本 設 計 事 例 に お い て 検 討 を 行 っ た 、ORB 特 徴 量 を 用 (a)逐 次 反 復 は 、こ の 例 で は 1.2 倍 の 縮 小 倍 率 で 、原 いた画像認識のプロセスネットワークモデルを構成し 画 像 (1 倍 )か ら 順 次 縮 小 画 像 を 生 成 す る 並 列 処 理 方 式 た ( 図 5)。 各 プ ロ セ ス の 内 容 は 以 下 の 通 り で あ る 。 で あ る 。 画 像 サ イ ズ は 、 1.2 倍 、 1.44= (1.2) 2 倍 、・ ・ ・ ・プロセス1:入力画像前処理 と 順 次 小 さ く な っ て い く 。一 方 、(b)個 別 倍 率 は 、全 て ・プロセス2:スケールピラミッド生成処理 の プ ロ セ ス が 原 画 像 (1 倍 )を 入 力 と し て 、 1.2 倍 、 1.44 ・プロセス3:特徴点抽出処理 倍・・・の 画 像 を 個 別 に 生 成 す る 並 列 処 理 方 式 で あ る 。 ・ プ ロ セ ス 4 : ORB 特 徴 量 計 算 処 理 通 常 の PC 環 境 に お い て 2 つ の 並 列 処 理 の 処 理 時 間 ・プロセス5:特徴量マッチング処理/機械学習 ・プロセス6:結果出力 を比較した結果を図 7 に示す。入力画像の解像度は 4096x 2380、 OpenCV2.4.6.1 を 用 い て 画 像 リ サ イ ズ を 線 形 補 完 ア ル ゴ リ ズ ム で 行 っ た 。 実 行 環 境 は 、 CPU: 3.3. スケールピラミッド生 成 処 理 の並 列 化 検 討 3D-SCSS の 特 長 は 、複 数 チ ッ プ を 用 い る こ と に よ る 並列処理である。この際、チップ間標準バスは従来の AMD Phenom II 905e (2.5GHz)で あ る 。 結 果 を 見 る と 、 (a)逐 次 反 復 (Iterative Image Resize)の ほ う が 、(b)個 別 倍 プ リ ン ト 配 線 基 板 に よ る チ ッ プ 間 接 続 ( 例 : 256 本 程 率 (Independent Image Resize)と 比 較 し て 、処 理 時 間 が 短 度 )か ら は 遥 か に 多 い 1024 本 の 信 号 線 で あ る 。そ の た い こ と が 分 か る 。 そ の た め 、 通 常 の PC 環 境 で の ス ケ め、並列処理による性能向上と、チップ間通信に関す ー ル ピ ラ ミ ッ ド 生 成 処 理 は 、 (a) 逐 次 反 復 で 行 わ れ る る消費電力削減効果が期待できる。そのため、特に並 ことが一般的である。 列化とメモリアクセスが多い、 「 プ ロ セ ス 2:ス ケ ー ル 3.5. 3D-SCSS におけるスケールピラミッド生 成 処 理 の処 理 性 能 ピラミッド生成処理」に注目して検討を行った。 スケールピラミッド生成処理は、画像中の物体のサ 3D-SCSS に お い て 同 様 の ス ケ ー ル ピ ラ ミ ッ ド 処 理 を イズが変化しても同じ物体として認識可能なように、 行 う 際 の 処 理 性 能 見 積 も り を 行 っ た [13]。 図 8 に 逐 次 少しずつ倍率を変えた縮小画像を複数生成する処理で 反 復 に お け る KPN と 3D-SCSS へ の マ ッ ピ ン グ 、 図 9 あ る 。図 6 は 、ス ケ ー ル ピ ラ ミ ッ ド 処 理 プ ロ セ ス の 内 に個別倍率におけるマッピング例を示す。プロセッサ 部 構 成 で あ る 。2 通 り の 並 列 処 理 方 式 (a)逐 次 反 復 、(b) チップを 7 枚、メモリチップを 1 枚積層するシステム 個別倍率、を比較検討した。 を想定した。プロセスはプロセッサチップに割り当て た 。ま た 、FIFO は メ モ リ チ ッ プ も し く は プ ロ セ ッ サ チ ップ上のローカルメモリに割り当てることを想定した。 チップ間標準バスを通じてメモリチップへのアクセス もしくはプロセッサチップへのアクセスを行うことと し て 、チ ッ プ 間 の デ ー タ 転 送 量 (MB)と 転 送 に か か る 時 間 を 算 出 し た 。入 力 画 像 は 解 像 度 4096x2304 の 8bit グ 図 5 画像認識におけるプロセスネットワ ーク全体構成の例 レ ー ス ケ ー ル 、 画 像 レ ー ト は 10 フ レ ー ム 毎 秒 で あ る 。 チ ッ プ 間 バ ス の 動 作 周 波 数 は 50MHz と し た 。 35 1 1/1.2 (a) 縮小 変換 1/1.2 (b)個別倍率 1/1.44 (b) 縮小 変換 1/1.2 1 1/2.99 1/3.58 (g) 縮小 変換 1/1.2 1/1.2 (A) 縮小 変換 1/1.2 (B) 縮小 変換 1/1.44 1/1.44 Processing Time (ms) (a)逐次反復 Iterative Image Resize (1/1.2 x 8 times) Independent Image Resize (1/1.2)^n 30 25 20 15 10 5 0 1 (G) 縮小 変換 1/3.58 1/3.58 図 6 ス ケ ー ル ピ ラ ミ ッ ド 処 理( 複 数 倍 率 で の 画 像 縮 小 ) の 例 (a)逐 逐 次 反 復 、 (b)個 個別倍率 2 3 4 5 6 The level of the Scale Pyramid 7 図 7 PC 環 境 に お け る ス ケ ー ル ピ ラ ミ ッ ド 生成処理時間の比較 2.5 3.0 (a1) Iterative, 3D stacking Total 7.4(ms) 2.0 Write Read 1.5 1.0 0.5 Data Transfer Time (ms) Data Transfer Time (ms) 3.0 0.0 2.5 Total 7.3(ms) 2.0 b c d e f Sub Process Name Read 1.5 1.0 0.5 g a 3.0 b c d e f Sub Process Name g 3.0 2.5 Total 4.5(ms) 2.0 Write Read 1.5 1.0 0.5 0.0 (b2) Independent, conventional Data Transfer Time (ms) (b1) Independent, 3D stacking Data Transfer Time (ms) Write 0.0 a 2.5 Total 13.2(ms) 2.0 Write Read 1.5 1.0 0.5 0.0 A 図 8 逐 次 反 復 (a)に に よ る 縮 小 処 理 の KPN と 3D-SCSS へ の マ ッ ピ ン グ (a2) Iterative, conventional B C D E F Sub Process Name G a b c d e f Sub Process Name g 図 10 チ ッ プ 間 通 信 の た め の デ ー タ 転 送 時 間 見 積 も り 結 果( ), (a1)(b1) 果( 画 像 レ ー ト:10fps) ト: 3D-SCSS 標 準 バ ス , (a2)(b2)従 従来メモリバス 3.6. 性 能 に関 する考 する 考 察 見 積 も り 結 果 (図 10)に よ る と 、3D-SCSS に お い て は 、 (b) 個 別 倍 率 に よ る ス ケ ー ル ピ ラ ミ ッ ド 生 成 処 理 の ほ う が 、(a)逐 次 反 復 と 比 べ て 、デ ー タ 転 送 時 間 が 大 幅 に 削減可能である可能性が示唆された。これは、通常の PC 環 境 の 結 果 ( 図 7)と は 異 な る 設 計 が 最 適 に な る と い う こ と で あ る 。 す な わ ち 、 通 常 の PC 環 境 に お い て は 、(a)逐 次 反 復 の 処 理 時 間 が 比 較 的 短 く な る こ と が 常 識 で あ っ た 。 し か し 、 3D-SCSS に お い て チ ッ プ 間 の 1024 本 の 信 号 線 接 続 を 用 い る こ と で 、異 な る 並 列 処 理 方式の採用により、性能向上が見込めるという事を示 している。 なお、現在の見積もりはデータ転送時間のみである ため、今後は各プロセッサチップでの画像縮小処理時 間を含めたシミュレーションを行うことで、性能の見 図 9 個 別 倍 率 (b)に に よ る 縮 小 処 理 の KPN と 3D-SCSS へ の マ ッ ピ ン グ 積もり精度を向上する必要がある。 3.7. 消 費 電 力 の試 算 (参 考 データ) 図 10 に 、 チ ッ プ 間 通 信 に か か る デ ー タ 転 送 時 間 の こ れ ま で 見 積 も っ た デ ー タ 転 送 量 を 基 に し て 、 3D- 見 積 も り 結 果 を 示 す 。(a1)と (b1)は 、3D-SCSS 標 準 バ ス SCSS の 標 準 バ ス に お け る 消 費 電 力 の 試 算 を 、 ご く 大 に お け る デ ー タ 転 送 時 間 で あ り 、(a1)は 逐 次 反 復 、(b1) 雑 把 に 行 っ た 。 試 算 の 前 提 と し て 、 TSV 1 つ あ た り の は 個 別 倍 率 で あ る 。大 き く 違 う の は 、(b1)個 別 倍 率 に お 電 気 容 量 を 0.3pF、 信 号 電 圧 を 1.0V と す る と 、 1 ビ ッ いては全てのプロセスが同時に原画像データをメモリ ト の 転 送 に 0.3pJ の エ ネ ル ギ ー が 必 要 と な る 。10fps の チップから読み出すことが可能である点である。これ 入力画像を処理することを想定した試算の結果を図 に よ り 、ト ー タ ル の デ ー タ 転 送 時 間 が 、(a1)で 7.4ms で 11 に 示 す 。消 費 エ ネ ル ギ ー は デ ー タ 転 送 量 に 比 例 す る あ る の に 対 し て 、 (b1)で は 4.5ms と 大 幅 に 削 減 可 能 と こととなる。これまでの試算で、最もデータ転送量が な っ た 。一 方 、(a2)と (b2)は メ モ リ チ ッ プ か ら 各 チ ッ プ 少 な い 、 (b’)チ ッ プ 間 の 同 時 配 信 可 能 な 場 合 の 逐 次 反 へ同時に原画像データを読み出し不可能な従来メモリ 復の並列処理方式が最も消費エネルギーが少なく、約 バ ス に お け る 見 積 も り 結 果 で あ る 。こ の 場 合 、(b2)で は 691.2uW と な っ た 。 13.2ms の デ ー タ 転 送 時 間 と な る 。 Power consumption @ 10fps (µW) 2,500 2,000 Write [µW] Read [µW] 1,500 1,000 500 0 図 11 (a) Iterative (b) Independent (b') Independent, broadcast Network Mapping 3D-SCSS の 消 費 電 力 試 算 結 果 4. お わ り に 本 稿 は 、3D-SCSS( 3 次 元 標 準 チ ッ プ 積 層 シ ス テ ム ) のハード・ソフト協調システムの性能設計をモデル駆 動で行う手法について説明した。ターゲットシステム と し て 、 TSV/ バ ン プ を 用 い た 標 準 バ ス を 用 い た 3DSSCS を 想 定 し 、 画 像 認 識 処 理 の 一 部 で あ る ス ケ ー ル ピラミッド生成処理をターゲットシステムにマッピン グする設計事例を通じ、性能設計について議論した。 結 果 と し て 、 3D-SCSS に お い て は 、 通 常 の PC 環 境 と は異なった並列処理方式により最適設計となる可能性 が示唆された。 今後、プロセスネットワークの形でアプリケーショ ン処理の並列処理モデル化を行い、モデル駆動により 性能の最適設計を行う手法により、多くのアプリケー シ ョ ン で 低 消 費 電 力 ・ 高 性 能 な シ ス テ ム を 、 3D-SCSS によって構築可能となることが期待される。 文 献 [1] Aoyagi, M.; Imura, F.; Nemoto, S.; Watanabe, N.; Kato, F.; Kikuchi, K.; Nakagawa, H.; Hagimoto, M.; Uchida, H.; Matsumoto, Y., "Wide bus chip-to-chip interconnection technology using fine pitch bump joint array for 3D LSI chip stacking," CPMT Symposium Japan, 2012 2nd IEEE , vol., no., pp.1,4, 10-12 Dec. 2012 [2] Chacin, M.; Uchida, H.; Hagimoto, M.; Miyazaki, T.; Ohkawa, T.; Ikeno, R.; Matsumoto, Y.; Imura, F.; Suzuki, M.; Kikuchi, K.; Nakagawa, H.; Aoyagi, M., "COOL interconnect low power interconnection technology for scalable 3D LSI design," Cool Chips XIV, 2011 IEEE , vol., no., pp.1,3, 20-22 April 2011 [3] G. Kahn, “The semantics of a simple language for parallel programming,” Proc. of the IFIP Congress 74. North-Holland Publishing Co., 1974 [4] Lee, Edward A., and Thomas M. Parks. "Dataflow process networks." Proceedings of the IEEE 83.5, 773-801, 1995 [5] Stefanov, Todor, et al. "System design using Khan process networks: the Compaan/Laura approach." Design, Automation and Test in Europe Conference and Exhibition, 2004. Proceedings. Vol. 1. IEEE, 2004 [6] Nikolov, Hristo, Todor Stefanov, and Ed Deprettere. "Modeling and FPGA implementation of applications using parameterized process networks with non-static parameters." Field-Programmable Custom Computing Machines, 2005. FCCM 2005. 13th Annual IEEE Symposium on. IEEE, 2005 [7] Nejad, Ashkan Beyranvand, et al. "Mapping kpn models of streaming applications on a network-onchip platform." ProRISC 2009: Proceedings of the Workshop on Signal Processing, Integrated Systems and Circuits, 2009 [8] 柳 井 啓 司「 一 般 物 体 認 識 の 現 状 と 今 後 」情 報 処 理 学会論文誌. コンピュータビジョンとイメージメ デ ィ ア 48(SIG_16(CVIM_19)), 1-24, 2007-11-15 [9] David G. Lowe, "Object recognition from local scaleinvariant features," International Conference on Computer Vision, Corfu, Greece (September 1999), pp. 1150-1157, 1999 [10] David G. Lowe, "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision, 60, 2 (2004), pp. 91-110. 2004 [11] BAY, Herbert; TUYTELAARS, Tinne; VAN GOOL, Luc. Surf: Speeded up robust features. In: Computer vision–ECCV 2006. Springer Berlin Heidelberg, p. 404-417, 2006 [12] Ethan Rublee, Vincent Rabaud, Kurt Konolige, Gary Bradski “ORB:an efficient alternative to SIFT or SURF,” International Conference on Computer Vision 2011, pp.2564-2571, 2011 [13] Takeshi Ohkawa, Takashi Yokota, Kanemitsu Ootsu, Masahiro Aoyagi, Katsuya Kikuchi and Hiroshi Nakagawa, "HW/SW Hybrid Processes Network with Application Layer Communication for 3D Chip Stacking Systems," 16th International Workshop on Innovative Architecture for Future Generation High-Performance Processors and Systems 2014 (IWIA2014), Mar 2014
© Copyright 2025 ExpyDoc