スライド 1

距離空間ピラミッドを用いた
LLCによる3次元物体認識
神戸大学 システム情報学研究科
CS17 有木研究室
○堀 貴博 滝口哲也 有木康雄
研究背景・動機
 高品質な3次元情報(色,奥行き情報)を提供するRGB-Dカメラ
 ロボット視覚への導入
 仮想現実感,拡張現実感
計算機による
3次元世界の「理解」が必要
3次元情報 を用いた3次元物体認識
研究背景・動機
 物体認識とは,制約のない実世界シーンの画像に含まれる
物体の名称を計算機が認識することを指す
入力画像
認識
umbrella
認識
cup
出力結果
 大きく分けて,物体のカテゴリ名を認識する一般物体認識と
各物体ごとに認識する特定物体認識がある
従来手法の問題点
 3次元物体認識の従来研究
得られた奥行き情報を2次元距離画像に変換し,
従来の2次元物体認識の手法をそのまま適用している
カラー画像
奥行き情報
距離画像
 問題点
奥行き情報を取得することで物体の全体的な形状を把握することが
可能であるにも関わらず,それを一切用いていない
距離空間ピラミッドを提案し,全体形状を表現
特徴抽出にHONV,コード化処理にLLCを適用
提案手法の流れ
奥
行
き
情
報
・・・
・・・
距離画像
HONV
特
徴
抽
出
LLC
プ
ー
リ
ン
グ
コ
ー
ド
化
SP & D-SP
・・・
・・・
・・・
Input
RGB画像
SIFT
LLC
Spatial Pyramid
Image
Keypoints
&
Features
Coding
Pooling
特徴抽出
 特徴点
画像上に等間隔で格子上に点を配置し,このグリッド点を特徴点とする
RGB画像
距離画像
 RGB画像 ---- SIFT (Scale-Invariant Feature Transform)
2次元画像に用いられる局所特徴量
 特徴点
128次元特徴量
(輝度値の勾配情報)
特徴抽出
 距離画像 ---- HONV (Histogram of Oriented Normal Vectors)
 局所的3次元形状を表すために設計された局所特徴量
 HOG特徴量の3次元拡張
 物体の表面点での法線ベクトル方向の2次元ヒストグラム
(天頂角θと方位角φ を量子化,投票)
Z
300
250
200
150
100
θ
φ
50
Y
0
1
2
3
4
5
5
6
4
7
X
3
8
2
9
法線ベクトルと天頂角θ,方位角φの関係
1
HONV特徴量
6
提案手法の流れ
奥
行
き
情
報
・・・
・・・
距離画像
HONV
特
徴
抽
出
LLC
プ
ー
リ
ン
グ
コ
ー
ド
化
SP & D-SP
・・・
・・・
・・・
Input
RGB画像
SIFT
LLC
Spatial Pyramid
Image
Keypoints
&
Features
Coding
Pooling
コード化処理 (1/4)
コード化
 特徴量を性能の高い別の特徴量(コード)に変換する処理
 2 つのコード化手法と比較して,LLC を説明する
コードブックの作成
 画像から抽出されたN個の
D次元特徴量
 K-means法でクラスタリング
 M個のコードワード
コードブック
の集合
コード化処理 (2/4)
Bag of Features (BoF)
 入力は最近傍のコードワードに属する
 コードワードの出現頻度ヒストグラムに変換
はコードの集合
codebook: B  b j j 1,...,M
BoF
Frequency
input : xi
・・・・・・・
① ② ③ ④ ・・・・・・
Codebook
コード化処理 (3/4)
Sparse Coding(SC)
 入力特徴量
をM次元コード
input : xi
で表現する
input : xi
codebook
Bag of Features
codebook
Sparse Coding
BoFでは入力を一つのコードワードで表現していたのを,
少数のコードワードで表現可能にした
コード化処理 (4/4)
LLC ( Locality-constrained Linear Coding )
位置情報アダプタ:
input : xi
input : xi
 入力特徴量
M次元コード
で表現する
codebook
Sparse Coding
を
codebook
LLC
位置情報を用いて,入力の近傍のコードワードで,入力を表現する
提案手法の流れ
奥
行
き
情
報
・・・
・・・
距離画像
HONV
特
徴
抽
出
LLC
プ
ー
リ
ン
グ
コ
ー
ド
化
SP & D-SP
・・・
・・・
・・・
Input
RGB画像
SIFT
LLC
Spatial Pyramid
Image
Keypoints
&
Features
Coding
Pooling
プーリング処理 (2次元)
空間ピラミッド(SP)
Level 0
 画像を階層的に部分領域 2l  2l に区切って,
各部分領域で特徴量(コード)を統合する
 プーリング手法
特徴量の各次元の最大値を用いることで
統合する,最大プーリングを行う
Level 1
 画像ごとに特徴量を連結して正規化する
2階層
M × 5 次元
プーリング処理 (3次元)
距離空間ピラミッド(D-SP)
 奥行き値を座標として距離空間を作成し,部分領域に分割する
 空間ピラミッドの3次元拡張
ただし,通常の座標と異なり,奥行き値
は測定値なので,値にばらつきがある
座標による等分割ではなく,
各部分空間の特徴点の個数が等しくなるように分割を行う
Level 0
Level 1
Level 2
提案手法の流れ
奥
行
き
情
報
・・・
・・・
距離画像
HONV
特
徴
抽
出
LLC
プ
ー
リ
ン
グ
コ
ー
ド
化
SP & D-SP
・・・
・・・
・・・
Input
RGB画像
SIFT
LLC
Spatial Pyramid
Image
Keypoints
&
Features
Coding
Pooling
提案手法の流れ
特
徴
抽
出
SIFT
HONV
コ
ー
ド
化
LLC
プーリング
・
・
・
学習画像
特
徴
抽
出
SIFT
HONV
コ
ー
ド
化
LLC
識
別
器
認
識
結
果
Classifier
Output
プーリング
テスト画像
Input
Keypoints
&
Features
Coding
評価実験 (データセット)
RGB-Dオブジェクトデータセット(奥行き情報+色情報)[1]
 300物体,51カテゴリ,約42000 枚
 各物体の3つの高さの360度画像
 撮影距離 約1メートル
[1]K. Lai,L. Bo,X. Ren,and D. Fox,
"A Large-Scale Hierarchical Multi-View RGB-D Object Dataset," ICRA,2011.
評価実験 (実験内容)
 一般物体認識
 51カテゴリの分類実験
 テストデータとして各カテゴリから1物体選択し,残りを学習データとする
51カテゴリで学習画像 約35000枚,テスト画像 約7000枚
 選択はランダムで行い,10回の実験の平均認識率と標準偏差で評価
 特定物体認識
 300物体(インスタンス)の分類実験
 3つの撮影角度のうち,中間の角度をテスト画像,それ以外を学習画像
300物体 学習画像 約28000枚,テスト画像 約14000
 識別器
 SVM (Support Vector Machine) マルチクラス 線形カーネル
 実験内容
 色情報のみ(RGB),奥行き情報のみ(Depth),両方使用(RGB-D)
の3種類の実験を行い,実験結果を従来手法と比較する
実験結果と考察 (1/5)
実験結果(%)
RGBD
Methods
ICRA11
Kernel d
CKM D
HMP[2]
HMP2[3]
Proposed
RGB
74.3±3.3
80.7±2.1
N/A
74.7±2.5
82.4±3.1
85.3±1.6
Category
Depth
53.1±1.7
80.3±2.9
N/A
70.3±2.2
81.2±2.3
82.9±2.3
RGB-D
81.9±2.8
86.5±2.1
86.4±2.3
82.1±3.3
87.5±2.9
89.2±1.6
RGB
59.3
90.8
82.9
75.8
92.1
93.9
Instance
Depth
32.3
54.7
N/A
39.8
51.7
42.5
RGB-D
73.9
91.2
90.4
78.9
92.8
94.2
 考察
 提案手法を用いることで,従来手法よりも認識率が向上した
[2]L. Bo, X. Ren, and D. Fox, “Hierarchical Matching Pursuit for Image Classification:
Architecture and Fast Algorithms,” in NIPS, 2011.
[3]L. Bo, X. Ren, and D. Fox,
“Unsupervised Feature Learning for RGB-D Based Object Recognition,” In ISER, 2012.
実験結果と考察 (2/5)
RGB-Dオブジェクトデータセット
binder_1
food_box_6
food_box_7
binder_2
food_box_8
binder_3
food_box_9
food_box_10
 考察 (奥行き情報のみ特定物体認識)
 HONV特徴量
 距離空間ピラミッド
表面形状特化
全体形状特化
実験結果と考察 (3/5)
実験結果(%)
RGBD
Methods
ICRA11
Kernel d
CKM D
HMP
HMP2
Proposed
RGB
74.3±3.3
80.7±2.1
N/A
74.7±2.5
82.4±3.1
85.3±1.6
Category
Depth
53.1±1.7
80.3±2.9
N/A
70.3±2.2
81.2±2.3
82.9±2.3
RGB-D
81.9±2.8
86.5±2.1
86.4±2.3
82.1±3.3
87.5±2.9
89.2±1.6
RGB
59.3
90.8
82.9
75.8
92.1
93.9
 考察
 LLC,HONV,距離空間ピラミッド それぞれの有効性
Instance
Depth
32.3
54.7
N/A
39.8
51.7
42.5
RGB-D
73.9
91.2
90.4
78.9
92.8
94.2
実験結果と考察 (4/5)
HONVの有効性
 距離画像に対してSIFTを用いる場合と提案手法を比較
RGBD
Methods
D-SIFT
HONV
Category
Instance
Depth
RGB-D
Depth RGB-D
79.2±1.8 88.0±1.8 50.6
94.3
82.9±2.3 89.2±1.6 42.5
94.2
距離空間ピラミッドの有効性
 距離空間ピラミッドを用いない場合と提案手法を比較
RGBD
Methods
SP
D-SP
Category
Instance
Depth
RGB-D
Depth RGB-D
81.7±2.3 88.6±1.6 41.4
94.2
82.9±2.3 89.2±1.6 42.5
94.2
実験結果と考察 (5/5)
RGBD
Methods
ICRA11
Kernel d
CKM D
HMP
HMP2
Proposed
RGB
74.3±3.3
80.7±2.1
N/A
74.7±2.5
82.4±3.1
85.3±1.6
Category
Depth
53.1±1.7
80.3±2.9
N/A
70.3±2.2
81.2±2.3
82.9±2.3
実験結果(%)
RGB-D
81.9±2.8
86.5±2.1
86.4±2.3
82.1±3.3
87.5±2.9
89.2±1.6
RGB
59.3
90.8
82.9
75.8
92.1
93.9
Instance
Depth
32.3
54.7
N/A
39.8
51.7
42.5
RGB-D
73.9
91.2
90.4
78.9
92.8
94.2
 考察 (計算量)
 SIFTよりも特徴抽出が速いHONVを使用
 LLC は近似処理により,高速化が可能
 RGB-Dの特徴量の次元:HMP2は188,300次元,提案手法は25,600次元
よって,提案手法は計算量,計算時間,記憶コストの削減を達成している
結論
 局所特徴量のHONV,コード化手法のLLCを
3次元物体認識に適用
 奥行き情報に基づく距離空間ピラミッドによって,
全体的な物体形状を表す手法を提案
 提案手法は従来手法と比較して、認識率の向上,
計算量,計算時間,記憶コストの削減を実現
今後の課題
・距離空間ピラミッドの領域分割法の改良
・それに対応する新たなプーリング手法の作成
・部分領域間の関係性の利用
・ロボットビジョンへの実装・実世界での実験
ご清聴ありがとうございました
コード化処理 (3/3)
LLC ( Locality-constrained Linear Coding )
位置情報アダプタ:
input : xi
input : xi
codebook
Bag of Features
input : xi
codebook
Sparse Coding
codebook
LLC
位置情報はスパース性よりも有用なので,
位置情報に特化させて,入力の近傍の点で入力を表現する
誤認識の原因
mushroom_1 mushroom_2
binder_1
food_box_6
food_box_7
mushroom_3
binder_2
food_box_8
binder_3
food_box_9
food_box_10
実験結果と考察 (D-SIFT 込)
実験結果(%)
RGBD
Methods
ICRA11
Kernel d
HMP
HMP2
Proposed1
Proposed2
RGB
74.3±3.3
80.7±2.1
74.7±2.5
82.4±3.1
85.3±1.6
85.3±1.6
Category
Depth
53.1±1.7
80.3±2.9
70.3±2.2
81.2±2.3
79.2±1.8
82.9±2.3
RGB-D
81.9±2.8
86.5±2.1
82.1±3.3
87.5±2.9
88.0±1.8
89.2±1.6
RGB
59.3
90.8
75.8
92.1
93.9
93.9
Instance
Depth
32.3
54.7
39.8
51.7
50.6
42.5
RGB-D
73.9
91.2
78.9
92.8
94.3
94.2
 考察
 提案手法を用いることで,従来手法よりも認識率が向上した
 RGB-Dの特徴量の次元:HMP2は188,300次元,提案手法は25,600次元
よって,提案手法は計算量,計算時間,記憶コストの削減を達成している
空間ピラミッド (Spatial Pyramid)
Level 0
Level 1
Level 2
従来手法の問題点
5領域の内、4領域が無駄になる
3階層の場合は21領域のうち、20領域が無駄になる
従来手法の問題点
5領域の内、4領域が無駄になる
3階層の場合は21領域のうち、20領域が無駄になる