3 次元積層チップ LSI のための HW/SW 協調システム設計手法 HW/SW

第 27 回マイクロエレクトロニクス研究会 2015 年 11 月 14 日会場：仙台市戦災復興記念館記念ホール
The 27th International Microelectronics Conference, Nov. 14, 2015, Place: The Sendai City War Reconstruction Memorial Hall
3 次元積層チップ LSI のための HW/SW 協調システム設計手法
大川猛† 大津金光†
横田隆史† 菊地克弥‡
青柳昌宏‡
†宇都宮大学大学院工学研究科〒321-8585 栃木県宇都宮市陽東 7-1-2
‡産業技術総合研究所〒305-8568 茨城県つくば市梅園 1-1-1
E-mail: †[email protected], ‡[email protected]
HW/SW Cooperative System Design Method for 3D Chip Stacking LSI
Takeshi OHKAWA† Kanemitsu Ootsu† Takashi YOKOTA† Katsuya KIKUCHI‡ Masahiro AOYAGI‡
†Graduate School of Engineering, Utsunomiya University, 7-1-2 Yoto, Utsunomiya, Tochigi, 321-8585 Japan
‡National Institute of Advanced Industrial Science and Technology 1-1-1 Umezono, Tsukuba, Ibaraki, 305-8568, Japan
E-mail: †[email protected], ‡[email protected]
あらまし様々な機能を持った複数の LSI チップを在庫しておき、必要に応じて容易に組み合わせて積層するこ
とで、高度な低消費電力の 3D-SCSS(Three-Dimensional Standard-Chip Stacked System：3 次元標準チップ積層システ
ム)を極めて短期間・低コストで構築可能となることが期待される。この際、チップの再利用による設計コスト削減
の為にはチップ間信号接続・電源供給方式の標準化が必須である。本研究の目的は、3D-SCSS を構成する為のチッ
プ間標準バスによる信号接続・電源供給方式と、対応したハードウェア・ソフトウェア設計方式の創出である。本
稿では、HW/SW の協調により 3 次元 LSI チップ積層システムの設計を行う手法について、画像認識処理の一部を
3D-SSCS にマッピングする設計事例を通じて議論する。
キーワード 3 次元積層チップ LSI，HW/SW 協調設計，プロセスネットワーク，モデル駆動，コンポーネント
1. はじめに
一方、設計技術の観点では、既存のシリコン LSI チ
スマートフォン・タブレット、情報家電、IoT（モノ
ップ向けのシステム設計技術はチップ単位のシステム
のインターネット：インターネットにつながる小型機
設計技術であり、チップの枠を超えてシステム全体を
器・センサ等）、M2M（機器間通信によるシステム構築）、
統合・最適化することを想定しておらず、チップ積層
などにおいては、一層の小型化、低消費電力化、高機
のメリットを十分に活かせない問題があった。また、
能化、低価格化が求められている。特に消費電力は、
現状の様にチップ積層システムを個別に設計構築して
社会全体において全電力消費に占める割合が急激に増
いたのでは設計コストは下がらないため、標準的な接
大すると予測されており，素材・デバイス・システム
続規格を用意し、標準規格に準拠した製造済みのチッ
融合による技術革新が強く求められている。
プを必要に応じて貼り合わせてシステムを瞬時に構築
こうした社会的な要求に対して、 LSI 実装技術の観
する技術が、今後、新規アプリケーション開拓のため
点では従来の平面方向のシリコン半導体集積技術に加
に必須のコア技術となると予想される。すならち、チ
えて、垂直方向に積層することで、更に高度な機能を
ップ間接続のための通信バス規格・回路方式の標準化
1 つの小さなチップに統合する技術開発が進んでいる。
とそれを活用するための技術が重要であり、 LSI チッ
半導体集積回路はチップの表面にのみ作りこまれるた
プ間接続のための通信バス仕様を標準化することが、
め、チップ背面までの垂直方向の電気信号・電力供給
複数異種チップによるチップ積層システム（図 1）を
配線接続には、シリコンチップを貫通する穴 (ビア )を
実現するための重要なカギとなる。
開ける TSV（シリコン貫通ビア）技術が検討されてき
た。一方、穴あけコストと信頼性の問題を回避するこ
とが可能な、インターポーザ（チップ間配線のための
専用チップ）技術は高集積度製品には既に採用され、
更にはチップ間無線通信・無線給電技術も検討されて
いる。チップ間信号通信の消費エネルギーは、現状の
プリント配線基板をベースとした方式からは大幅に削
減可能であり、いずれも、集積度・性能・消費電力・
コストのトレードオフに応じて選択する必要がある。
図 1
3 次元 LSI チップ積層の概念図
This article is a technical report without peer review, and its polished and/or extended version may be published elsewhere.
本研究は、将来の複数異種チップによるチップ積層
2.2. プロセスネットワーク処理モデルと
モデルと 3D-SCSS
システムに対応した、ヘテロジニアスな情報システム
本研究の 3D-SCSS システムの狙いは、現状のマイク
の設計を行うための構築設計する技術を創出すること
ロプロセッサ・システムが数 10W～数 100W の消費電
を目的とする。本稿では、HW/SW の協調により、低消
力で処理しているアプリケーション、例えば画像認識
費電力で高性能な 3 次元 LSI チップ積層システムの設
を数 W の消費電力で処理する、ということである。
計を行う手法について、画像認識処理の一部を 3D-
通常、逐次的なソフトウェアとして記述されている
SSCS にマッピングする設計事例を通じて議論する。
ものを数 10 倍～数 100 倍の電力効率で処理しようと
2. 3D-SCSS 設計手法
すると、アプリケーションに内在する並列性を極限ま
3 次元 LSI チップ積層システム設計のための手法に
で活用する必要がある。従来の C 言語に代表される逐
ついて、ターゲットシステムモデルおよび処理モデル
次型のソフトウェアから並列性を抽出する自動並列化
を定義し、モデル駆動で性能向上する道筋を説明する。
コンパイラ等のアプローチでは、微視的な命令レベル
2.1. ターゲット 3D-SCSS システムのモデル
並列性や、 For ループでのデータ並列性を活用するア
ターゲットとなる 3D-SCSS (Three-Dimensional
プローチが取られてきた。しかし巨視的な並列性は自
Standard-Chip Stacked System：3 次元標準チップ積層シ
動並列化分析が難しい問題があった。これに対し、ソ
ステム )は、複数の LSI チップを積層して構成する。こ
フトウェア開発者が、並列処理モデルでアプリケーシ
の際、チップ間の信号接続および電源接続には、文献
ョンを記述するモデル駆動アプローチが考えられる。
[1] [2]において試作評価した TSV/バンプを用いた標準
プロセスネットワークは、並列プロセスの計算モデ
バスを用いることを想定する。この 3D-SCSS 標準バス
ル（処理モデル）である。その中で、 Kahn Process
の概要を表 1 に示す。
Network (KPN)[3]は、よく知られたプロセスネットワ
この標準バスの特徴は、数千の TSV/バンプによる信
ークの一種であり、独立した複数のプロセス間を無限
号バスを、チップの中心部に配置することである。チ
深さの FIFO バッファで結合したものである。図 2 に、
ップ周辺部に配置するのに比べて、チップ間のドライ
KPN 処理モデルの例を示す。この例で、データは左側
バ・レシーバの間が短い距離で接続可能となるメリッ
の FIFO から入力され、右側に向かっていくつかのプ
トがある。TSV/バンプ信号バスの周辺には、信号送受
ロセスにて順次処理される。中央部では 3 つ程度に分
信のためのドライバ・レシーバトランジスタを配置す
岐するが、これは 3 つ程度で並列に処理されるという
る。電源用の TSV/バンプは、チップ最外周部分に配置
ことに相当する。また、その後右側のプロセスにデー
する。電源授受のための回路はこの周辺に配置する。
タが流れる際に、並列に処理した結果を集約処理し、
ターゲットシステムの外部接続に関して、将来的に
結果を出力するということが示される。この際、FIFO
は無線による信号通信や電源供給も想定する。外部接
バッファ介してデータがやり取りされる。重要なこと
続が無線化されると、TSV/バンプによる積層チップの
は、各プロセスは独立して並列動作するということで
みで全ての電源供給・入出力・データ通信が完結し、
ある。このモデルで処理の並列度は中央部での分岐の
超小型のシステム構築が可能となる。ただし、この場
数（3 つ程度）による負荷分散並列だけではない。デ
合でも TSV/バンプによる省エネルギーかつ高信頼の
ータは左から順次右の方向に流れていくため、左・中
通信・電源供給が、構築技術の基盤となる。
央・右のプロセスがそれぞれ同時に並列に処理するこ
標準バスを搭載した各チップに搭載される機能は、
とから、3 段のパイプライン並列処理も行われる。
マイクロプロセッサ・メモリ・ハードウェアエンジン・
本研究の 3D-SCSS システムにおいては、プロセスネ
センサ・入出力・通信といったものである。これらの
ットワークの形で記述されたアプケーションをマッピ
チップを在庫しておき、システムへの要求に応じて組
ングすることで、様々な並列処理による処理効率の向
み合わせてシステムを構築することを想定する。
上を図ることが可能となる。
表 1
3D-SCSS 標準バスの概要 [1]
項目
寸法
バス位置
TSV+バンプの数
[TSV データ信号用 ]
信号周波数
通信容量
電力消費
フリップチップ実験
値
2 mm x 2 mm
Center of the chip
1600 (40x40)
[1024]
50 MHz
51.2 Gbps
97mW
@ 50% toggle rate
図 2 プロセスネットワーク処理モデルと
3D-SCSS システムへのマッピング
前述のプロセスネットワークモデルで、各プロセス
3. 設計事例：3D-SCSS
への画像認識処理マッピ
例：
ングによる性能評価
は基本的にソフトウェア処理が対応する。しかし、本
3 次元積層チップ LSI の TSV/バンプによるチップ間
研究の 3D-SCSS においては、各チップは多種多様であ
標準バスを活用した HW/SW 協調システムの設計事例
る。すなわち、ソフトウェアが動作可能なマイクロプ
として画像認識処理を取り上げる。
ロセッサが搭載されたチップもあれば、ハードワイヤ
3.1. 画像認識のアルゴリズム
2.3. HW/SW 混在プロセスネットワークモデル
プロセスネットワークモデル
ードな画像処理専用チップ、もしくはイメージセンサ
画像認識アルゴリズムの計算量は膨大となる [8]。例
や無線通信チップが接続される可能性もある。プロセ
えば 1999 年に発表された SIFT(Scale Invariant Feature
スネットワークにおいては各プロセスが FIFO バッフ
Transform)[9][10]は、画像中の特徴的な点（特徴点）を
ァに読み書きするデータの形式があっていれば、各プ
抽出し、特徴点がどのようなものであるかを特徴量ベ
ロセスはソフトウェア処理でもハードウェア処理であ
クトルで記述し、それをテンプレートと比較すること
っても、全く問題なく等価的に動作する。そのため、
で認識性能の大幅な飛躍をもたらした。SIFT において
HW/SW 混在プロセスネットワークモデルの形で 3D-
は画像中の物体の大きさ・向き (角度 )が異なっても、同
SCSS のシステム全体を表現することが可能である。
じ特徴量となるよう処理するため、拡大縮小・座標変
2.4. HW/SW 協調処理による電力性能比向上
換処理を多く行う。SIFT 以降、多くの局所特徴量アル
プロセスネットワークの形でアプリケーションを
ゴリズムが提案された。 SURF(Speeded Up Robust
記述することで、巨視的な並列性を明示的に示すこと
Features)[11]は、高速化の工夫が施された特徴抽出アル
が出来るようになる。しかしながら、アプリケーショ
ゴリズムである。ただし、依然計算量は多い。これに
ンの制約条件（例えば、入力から出力までの遅延時間
対し、ORB 特徴量 [12]は、SIFT や SURF の特徴量が実
が 100ms、入力画像のフレームレートは 10fps など）
数の 128 もしくは 64 次元ベクトルであるのに対し、
を満たしつつ数 10 倍～数 100 倍の電力性能比を達成
0/1 のバイナリ特徴量で特徴点を記述するため計算量
するためには、それだけでは不十分であることが多い。
が少ないという利点がある。
そのため各プロセスにおいて、ソフトだけではなく
図 4 には、局所特徴量による画像認識処理のフロー
ハードの並列性を活用した処理を行うことが必要とな
と並列化のポイントを示した。SIFT/SURF/ORB といっ
る。いくつかの研究において、 FPGA 等を用いてプロ
た局所特徴量を用いた画像認識処理は一般的にこのよ
セスをハード (HW)・ソフト（ SW）に切り分けて割り当
うな流れで行われる。画像入力・前処理・特徴点抽出・
てることで、 HW/SW が混在した並列処理システム設
局所特徴量計算・マッチング・データベース参照・機
計を行う提案がなされている [4][5][6][7]。
械学習・結果出力は、順次行われるため、処理のパイ
2.5. モデル駆動開発による 3D-SCSS 設計環境
プライン並列化が効果的である。また、前処理は画像
以上をまとめると、本研究が目標とする設計環境は、
分割によるデータ並列化・命令レベル並列化が効果的
アプリケーションの処理モデルを入力とし、要求性能
であり、特徴点抽出・局所特徴量計算は特徴点ごとの
を満たすターゲットシステム構成モデルと HW/SW の
並列化が可能である。これはタスクレベルの並列化に
設計データを出力することである。図 3 にモデル駆動
分類できる。また、マッチング・データベース参照に
開発による自動並列化設計フローを示す。プラットフ
ついても、特徴点毎・データベースの並列化が可能で
ォーム依存モデル (PSM)において 3D-SCSS のチップ構
あり、処理ごとの特色を活用した並列化が求められる。
成モデルを探索することで、最適なチップ構成の 3DSCSS が構築可能となると考えられる。
図 3
モデル駆動開発による自動並列化
図 4 局所特徴量による画像認識処理のフ
ローと並列化のポイント
3.4. スケールピラミッド生成処理の処理性能（従来）
3.2. ORB 特徴量を用いた画像認識処理
本設計事例において検討を行った、ORB 特徴量を用
(a)逐次反復は、この例では 1.2 倍の縮小倍率で、原
いた画像認識のプロセスネットワークモデルを構成し
画像 (1 倍 )から順次縮小画像を生成する並列処理方式
た（図 5）。各プロセスの内容は以下の通りである。
である。画像サイズは、 1.2 倍、 1.44＝ (1.2) 2 倍、・・・
・プロセス１：入力画像前処理
と順次小さくなっていく。一方、(b)個別倍率は、全て
・プロセス２：スケールピラミッド生成処理
のプロセスが原画像 (1 倍 )を入力として、 1.2 倍、 1.44
・プロセス３：特徴点抽出処理
倍・・・の画像を個別に生成する並列処理方式である。
・プロセス４： ORB 特徴量計算処理
通常の PC 環境において 2 つの並列処理の処理時間
・プロセス５：特徴量マッチング処理／機械学習
・プロセス６：結果出力
を比較した結果を図 7 に示す。入力画像の解像度は
4096ｘ 2380、 OpenCV2.4.6.1 を用いて画像リサイズを
線形補完アルゴリズムで行った。実行環境は、 CPU:
3.3. スケールピラミッド生成処理の並列化検討
3D-SCSS の特長は、複数チップを用いることによる
並列処理である。この際、チップ間標準バスは従来の
AMD Phenom II 905e (2.5GHz)である。結果を見ると、
(a)逐次反復 (Iterative Image Resize)のほうが、(b)個別倍
プリント配線基板によるチップ間接続（例： 256 本程
率 (Independent Image Resize)と比較して、処理時間が短
度）からは遥かに多い 1024 本の信号線である。そのた
いことが分かる。そのため、通常の PC 環境でのスケ
め、並列処理による性能向上と、チップ間通信に関す
ールピラミッド生成処理は、 (a) 逐次反復で行われる
る消費電力削減効果が期待できる。そのため、特に並
ことが一般的である。
列化とメモリアクセスが多い、
「プロセス２：スケール
3.5. 3D-SCSS におけるスケールピラミッド生成処理
の処理性能
ピラミッド生成処理」に注目して検討を行った。
スケールピラミッド生成処理は、画像中の物体のサ
3D-SCSS において同様のスケールピラミッド処理を
イズが変化しても同じ物体として認識可能なように、
行う際の処理性能見積もりを行った [13]。図 8 に逐次
少しずつ倍率を変えた縮小画像を複数生成する処理で
反復における KPN と 3D-SCSS へのマッピング、図 9
ある。図 6 は、スケールピラミッド処理プロセスの内
に個別倍率におけるマッピング例を示す。プロセッサ
部構成である。2 通りの並列処理方式 (a)逐次反復、(b)
チップを 7 枚、メモリチップを 1 枚積層するシステム
個別倍率、を比較検討した。
を想定した。プロセスはプロセッサチップに割り当て
た。また、FIFO はメモリチップもしくはプロセッサチ
ップ上のローカルメモリに割り当てることを想定した。
チップ間標準バスを通じてメモリチップへのアクセス
もしくはプロセッサチップへのアクセスを行うことと
して、チップ間のデータ転送量 (MB)と転送にかかる時
間を算出した。入力画像は解像度 4096x2304 の 8bit グ
図 5 画像認識におけるプロセスネットワ
ーク全体構成の例
レースケール、画像レートは 10 フレーム毎秒である。
チップ間バスの動作周波数は 50MHz とした。
35
1
1/1.2
(a)
縮小
変換
1/1.2
(b)個別倍率
1/1.44
(b)
縮小
変換
1/1.2
1
1/2.99
1/3.58
(g)
縮小
変換
1/1.2
1/1.2
(A)
縮小
変換
1/1.2
(B)
縮小
変換
1/1.44
1/1.44
Processing Time (ms)
(a)逐次反復
Iterative Image Resize
(1/1.2 x 8 times)
Independent Image
Resize (1/1.2)^n
30
25
20
15
10
5
0
1
(G)
縮小
変換
1/3.58
1/3.58
図 6 スケールピラミッド処理（複数倍率で
の画像縮小）の例 (a)逐
逐次反復、 (b)個
個別倍率
2
3
4
5
6
The level of the Scale Pyramid
7
図 7 PC 環境におけるスケールピラミッド
生成処理時間の比較
2.5
3.0
(a1) Iterative, 3D stacking
Total 7.4(ms)
2.0
Write
Read
1.5
1.0
0.5
Data Transfer Time (ms)
Data Transfer Time (ms)
3.0
0.0
2.5
Total 7.3(ms)
2.0
b
c
d
e
f
Sub Process Name
Read
1.5
1.0
0.5
g
a
3.0
b
c
d
e
f
Sub Process Name
g
3.0
2.5
Total 4.5(ms)
2.0
Write
Read
1.5
1.0
0.5
0.0
(b2) Independent, conventional
Data Transfer Time (ms)
(b1) Independent, 3D stacking
Data Transfer Time (ms)
Write
0.0
a
2.5
Total 13.2(ms)
2.0
Write
Read
1.5
1.0
0.5
0.0
A
図 8 逐次反復 (a)に
による縮小処理の KPN と
3D-SCSS へのマッピング
(a2) Iterative, conventional
B
C
D
E
F
Sub Process Name
G
a
b
c
d
e
f
Sub Process Name
g
図 10 チップ間通信のためのデータ転送時
間見積もり結果（
）, (a1)(b1)
果（画像レート：10fps）
ト：
3D-SCSS 標準バス , (a2)(b2)従
従来メモリバス
3.6. 性能に関する考
する考察
見積もり結果 (図 10)によると、3D-SCSS においては、
(b) 個別倍率によるスケールピラミッド生成処理のほ
うが、(a)逐次反復と比べて、データ転送時間が大幅に
削減可能である可能性が示唆された。これは、通常の
PC 環境の結果 ( 図 7)とは異なる設計が最適になると
いうことである。すなわち、通常の PC 環境において
は、(a)逐次反復の処理時間が比較的短くなることが常
識であった。しかし、 3D-SCSS においてチップ間の
1024 本の信号線接続を用いることで、異なる並列処理
方式の採用により、性能向上が見込めるという事を示
している。
なお、現在の見積もりはデータ転送時間のみである
ため、今後は各プロセッサチップでの画像縮小処理時
間を含めたシミュレーションを行うことで、性能の見
図 9 個別倍率 (b)に
による縮小処理の KPN と
3D-SCSS へのマッピング
積もり精度を向上する必要がある。
3.7. 消費電力の試算（参考データ）
図 10 に、チップ間通信にかかるデータ転送時間の
これまで見積もったデータ転送量を基にして、 3D-
見積もり結果を示す。(a1)と (b1)は、3D-SCSS 標準バス
SCSS の標準バスにおける消費電力の試算を、ごく大
におけるデータ転送時間であり、(a1)は逐次反復、(b1)
雑把に行った。試算の前提として、 TSV 1 つあたりの
は個別倍率である。大きく違うのは、(b1)個別倍率にお
電気容量を 0.3pF、信号電圧を 1.0V とすると、 1 ビッ
いては全てのプロセスが同時に原画像データをメモリ
トの転送に 0.3pJ のエネルギーが必要となる。10fps の
チップから読み出すことが可能である点である。これ
入力画像を処理することを想定した試算の結果を図
により、トータルのデータ転送時間が、(a1)で 7.4ms で
11 に示す。消費エネルギーはデータ転送量に比例する
あるのに対して、 (b1)では 4.5ms と大幅に削減可能と
こととなる。これまでの試算で、最もデータ転送量が
なった。一方、(a2)と (b2)はメモリチップから各チップ
少ない、 (b’)チップ間の同時配信可能な場合の逐次反
へ同時に原画像データを読み出し不可能な従来メモリ
復の並列処理方式が最も消費エネルギーが少なく、約
バスにおける見積もり結果である。この場合、(b2)では
691.2uW となった。
13.2ms のデータ転送時間となる。
Power consumption @ 10fps (µW)
2,500
2,000
Write [µW]
Read [µW]
1,500
1,000
500
0
図 11
(a) Iterative
(b) Independent (b') Independent,
broadcast
Network Mapping
3D-SCSS の消費電力試算結果
4. おわりに
本稿は、3D-SCSS（ 3 次元標準チップ積層システム）
のハード・ソフト協調システムの性能設計をモデル駆
動で行う手法について説明した。ターゲットシステム
として、 TSV/ バンプを用いた標準バスを用いた 3DSSCS を想定し、画像認識処理の一部であるスケール
ピラミッド生成処理をターゲットシステムにマッピン
グする設計事例を通じ、性能設計について議論した。
結果として、 3D-SCSS においては、通常の PC 環境と
は異なった並列処理方式により最適設計となる可能性
が示唆された。
今後、プロセスネットワークの形でアプリケーショ
ン処理の並列処理モデル化を行い、モデル駆動により
性能の最適設計を行う手法により、多くのアプリケー
ションで低消費電力・高性能なシステムを、 3D-SCSS
によって構築可能となることが期待される。
文
献
[1] Aoyagi, M.; Imura, F.; Nemoto, S.; Watanabe, N.;
Kato, F.; Kikuchi, K.; Nakagawa, H.; Hagimoto, M.;
Uchida, H.; Matsumoto, Y., "Wide bus chip-to-chip
interconnection technology using fine pitch bump
joint array for 3D LSI chip stacking," CPMT
Symposium Japan, 2012 2nd IEEE , vol., no., pp.1,4,
10-12 Dec. 2012
[2] Chacin, M.; Uchida, H.; Hagimoto, M.; Miyazaki, T.;
Ohkawa, T.; Ikeno, R.; Matsumoto, Y.; Imura, F.;
Suzuki, M.; Kikuchi, K.; Nakagawa, H.; Aoyagi, M.,
"COOL interconnect low power interconnection
technology for scalable 3D LSI design," Cool Chips
XIV, 2011 IEEE , vol., no., pp.1,3, 20-22 April 2011
[3] G. Kahn, “The semantics of a simple language for
parallel programming,” Proc. of the IFIP Congress 74.
North-Holland Publishing Co., 1974
[4] Lee, Edward A., and Thomas M. Parks. "Dataflow
process networks." Proceedings of the IEEE 83.5,
773-801, 1995
[5] Stefanov, Todor, et al. "System design using Khan
process networks: the Compaan/Laura approach."
Design, Automation and Test in Europe Conference
and Exhibition, 2004. Proceedings. Vol. 1. IEEE, 2004
[6] Nikolov, Hristo, Todor Stefanov, and Ed Deprettere.
"Modeling and FPGA implementation of applications
using parameterized process networks with non-static
parameters." Field-Programmable Custom Computing
Machines, 2005. FCCM 2005. 13th Annual IEEE
Symposium on. IEEE, 2005
[7] Nejad, Ashkan Beyranvand, et al. "Mapping kpn
models of streaming applications on a network-onchip platform." ProRISC 2009: Proceedings of the
Workshop on Signal Processing, Integrated Systems
and Circuits, 2009
[8] 柳井啓司「一般物体認識の現状と今後」情報処理
学会論文誌. コンピュータビジョンとイメージメ
ディア 48(SIG_16(CVIM_19)), 1-24, 2007-11-15
[9] David G. Lowe, "Object recognition from local scaleinvariant features," International Conference on
Computer Vision, Corfu, Greece (September 1999),
pp. 1150-1157, 1999
[10] David G. Lowe, "Distinctive image features from
scale-invariant keypoints," International Journal of
Computer Vision, 60, 2 (2004), pp. 91-110. 2004
[11] BAY, Herbert; TUYTELAARS, Tinne; VAN
GOOL, Luc. Surf: Speeded up robust features. In:
Computer vision–ECCV 2006. Springer Berlin
Heidelberg, p. 404-417, 2006
[12] Ethan Rublee, Vincent Rabaud, Kurt Konolige, Gary
Bradski “ORB:an efficient alternative to SIFT or
SURF,” International Conference on Computer Vision
2011, pp.2564-2571, 2011
[13] Takeshi Ohkawa, Takashi Yokota, Kanemitsu
Ootsu, Masahiro Aoyagi, Katsuya Kikuchi and
Hiroshi Nakagawa, "HW/SW Hybrid Processes
Network with Application Layer Communication for
3D Chip Stacking Systems," 16th International
Workshop on Innovative Architecture for Future
Generation
High-Performance
Processors
and
Systems 2014 (IWIA2014), Mar 2014

Download Report