スライド 1

3次元特徴量を用いた
構造表現による一般物体認識
神戸大学 システム情報学研究科
◎堀 貴博 有木康雄
(株)ホンダ・リサーチ・インスティチュート・ジャパン
岩橋直人 中野幹生
研究背景
 色情報とデプス情報の両方を提供する高品質なセンシング技術
3次元情報として、デプス情報(距離情報)の取得
物体認識,物体検出,動作追跡,ロボット視覚など,様々な分野
での応用が期待されている.
研究背景
 一般物体認識とは、制約のない実世界シーンの画像に含まれ
る物体を計算機が一般的な名称で認識することを指す
入力画像
認識
umbrella
認識
cup
出力結果
人間の認知能力を計算機に実現させるための重要な研究分野
 ロボットの視覚への応用
 デジタル動画像の自動分類・検索
一般物体認識の従来研究
SIFT (Scale-Invariant Feature Transform)
 特徴点
スケール
128次元特徴量
(輝度値の勾配情報)
 クラスタリングにより局所特徴量の
出現頻度ヒストグラムに変換
Frequency
Bag of Features (BoF)
問題点
 画像全体を対象とするため
位置情報や特徴点間の関係性が失われる
・・・・・・・
・・・・・・
Codebook
提案手法
デプス情報を用いた3次元グラフ構造表現
デプス画像
3次元グラフ
グラフはベクトルと異なり統計処理が困難
グラフ編集距離を用いて
統計的学習が容易なベクトル表現に変換
提案手法の流れ
グラフ-ベクトル変換
特
徴
抽
出
トレーニング
グラフから
選択する
・
・
・
学習画像
テスト画像
Input
D-SIFT
グ
ラ
フ
化
特
徴
抽
出
D-SIFT
D-SIFT
keypoints
グ
ラ
フ
化
Training
Training
Training
Training
Graph
Graph
Graph
Graph
Training
Training
Prototype
Graph
Graph
Graph
グ
ラ
フ
編
集
距
離
Test
Graph
グ
ラ
フ
編
集
距
離
Graph
Vector
識
別
器
認
識
結
果
Classifier
Output
提案手法の流れ
グラフ-ベクトル変換
特
徴
抽
出
トレーニング
グラフから
選択する
・
・
・
学習画像
テスト画像
Input
D-SIFT
グ
ラ
フ
化
特
徴
抽
出
D-SIFT
D-SIFT
keypoints
グ
ラ
フ
化
Training
Training
Training
Training
Graph
Graph
Graph
Graph
Training
Training
Prototype
Graph
Graph
Graph
グ
ラ
フ
編
集
距
離
Test
Graph
グ
ラ
フ
編
集
距
離
Graph
Vector
識
別
器
認
識
結
果
Classifier
Output
提案手法 D-SIFT
D-SIFT
SIFT (特徴点と特徴量)
物体の3次元情報を用いるために、
画像を白黒濃淡画像に変換してSIFTを適用する
デプスから白黒濃淡画像を生成してSIFTを適用する
※RGB画像からSIFTを抽出し、
SIFT特徴点に3次元座標を与える3D-SIFTとは異なる
提案手法の流れ
グラフ-ベクトル変換
特
徴
抽
出
トレーニング
グラフから
選択する
・
・
・
学習画像
テスト画像
Input
D-SIFT
グ
ラ
フ
化
特
徴
抽
出
D-SIFT
D-SIFT
keypoints
グ
ラ
フ
化
Training
Training
Training
Training
Graph
Graph
Graph
Graph
Training
Training
Prototype
Graph
Graph
Graph
グ
ラ
フ
編
集
距
離
Test
Graph
グ
ラ
フ
編
集
距
離
Graph
Vector
識
別
器
認
識
結
果
Classifier
Output
3次元グラフ構造表現
近接グラフ
 スケールの小さいノード、関係性の
薄い遠いノードとは接続しない
擬似階層グラフ
 スケールの大きさでグラフを階層に分解
階層レベル1
階層レベル2
階層レベル3
階層レベル2
階層レベル1
階層レベル3
提案手法の流れ
グラフ-ベクトル変換
特
徴
抽
出
トレーニング
グラフから
選択する
・
・
・
学習画像
テスト画像
Input
D-SIFT
グ
ラ
フ
化
特
徴
抽
出
D-SIFT
D-SIFT
keypoints
グ
ラ
フ
化
Training
Training
Training
Training
Graph
Graph
Graph
Graph
Training
Training
Prototype
Graph
Graph
Graph
グ
ラ
フ
編
集
距
離
Test
Graph
グ
ラ
フ
編
集
距
離
Graph
Vector
識
別
器
認
識
結
果
Classifier
Output
グラフマッチング
グラフ編集距離(GED Graph Edit Distance)
 1つのグラフを他のグラフに変換するのに必要である最小
の編集数によって、2つのグラフの距離を定義
G1
G1
G2
編集コスト
ノードの挿入 : 1
C1
エッジの挿入 : 2
C2
ノードの削除 :
C3
エッジの削除 : 1
C4
C5
C6
ノードの置換 : 1
G2
C1  2C2  C4  C5
エッジの置換 :
GED
提案手法の流れ
グラフ-ベクトル変換
特
徴
抽
出
トレーニング
グラフから
選択する
・
・
・
学習画像
テスト画像
Input
D-SIFT
グ
ラ
フ
化
特
徴
抽
出
D-SIFT
D-SIFT
keypoints
グ
ラ
フ
化
Training
Training
Training
Training
Graph
Graph
Graph
Graph
Training
Training
Prototype
Graph
Graph
Graph
グ
ラ
フ
編
集
距
離
Test
Graph
グ
ラ
フ
編
集
距
離
Graph
Vector
識
別
器
認
識
結
果
Classifier
Output
ベクトル空間へのグラフの埋め込み
グラフ-ベクトル変換
入力画像
プロトタイプグラフ n個
・・・・
グラフ抽出
グラフ編集距離
によるベクトル化
n次元ベクトル空間
ベクトル空間
埋め込み
D { d1 d2 d3  dn }
提案手法の流れ
グラフ-ベクトル変換
特
徴
抽
出
トレーニング
グラフから
選択する
・
・
・
学習画像
テスト画像
Input
D-SIFT
グ
ラ
フ
化
特
徴
抽
出
D-SIFT
D-SIFT
keypoints
グ
ラ
フ
化
Training
Training
Training
Training
Graph
Graph
Graph
Graph
Training
Training
Prototype
Graph
Graph
Graph
グ
ラ
フ
編
集
距
離
Test
Graph
グ
ラ
フ
編
集
距
離
Graph
Vector
識
別
器
認
識
結
果
Classifier
Output
評価実験
2次元情報と3次元情報での実験を行う
(a)2次元実験
・SIFT + 2次元グラフ
・データセット:Caltech-101データセット
(b)3次元実験
・D-SIFT + 3次元グラフ
・データセット: RGB-Dオブジェクトデータセット
評価実験
2次元情報と3次元情報での実験を行う
(a)2次元実験
・SIFT + 2次元グラフ
・データセット:Caltech-101データセット
(b)3次元実験
・D-SIFT + 3次元グラフ
・データセット: RGB-Dオブジェクトデータセット
評価実験(a)2次元
実験データ
 Caltech-101 データセット
10クラス、841枚の画像データセット
各クラスで画像数が異なる
識別器
 k-NN法 (k=10)
 SVM (Support Vector Machine)
Caltech-101 データセット
線形カーネル(linear)と非線形カーネル(radial basis function (RBF))
の2つのマルチクラスSVMを用いる
実験内容
 3つの識別器について提案手法と従来手法(BoF)の認識率を比較する
 各クラス30枚を学習画像、それ以外をテスト画像とする。
 プロトタイプグラフはトレーニンググラフと同一とする(300次元ベクトル)
実験結果(a)2次元
認
識
率
(
%
)
100
90
80
70
60
50
40
30
20
10
0
81.44
79.72
65.64
68.06
57.78
49.76
従来手法 (BoF)
提案手法
k-NN
SVM (linear)
SVM (RBF)
Accuracy comparison
評価実験
2次元情報と3次元情報での実験を行う
(a)2次元実験
・SIFT + 2次元グラフ
・データセット:Caltech-101データセット
(b)3次元実験
・D-SIFT + 3次元グラフ
・データセット: RGB-Dオブジェクトデータセット
評価実験(b)3次元
RGB-Dオブジェクトデータセット(デプス情報+色情報)[1]
・ 300物体51カテゴリ
・ 各物体の3つの高さの360度動画像
・ 撮影距離 約1メートル
・ 物体のみ切り出し画像
[1]K. Lai,L. Bo,X. Ren,and D. Fox,
"A Large-Scale Hierarchical Multi-View RGB-D Object Dataset," ICRA,2011.
評価実験(b)3次元
実験データ RGB-D オブジェクトデータセット
各物体につき高さのことなる3つの動画像
・各動画を5フレームごと → 各物体-約130枚 計約40000枚
・テストデータとして各カテゴリから1物体選択し、残りを学習データとする
51カテゴリで学習画像34868枚、
テスト画像7019枚
識別器
 SVM (Support Vector Machine)
マルチクラス、非線形カーネル(radial basis function (RBF))
実験内容
 プロトタイプグラフは各カテゴリから3枚選択(153次元)
実験結果と考察(b)3次元
実験結果(%)
認識率
比較手法
提案手法
66.8
32.1
比較手法はRGB-Dデータセット論文
K. Lai,L. Bo,X. Ren,and D. Fox,
"A Large-Scale Hierarchical Multi-View
RGB-D Object Dataset," ICRA,2011.
のデプス情報のみ一般物体認識
提出時:26.2%
<考察>
提案手法の認識精度は比較手法よりも劣っている
理由
-D-SIFT特徴量が上手く機能していない → 別の特徴量の検討
-物体の360度の画像を学習しているので、
見え方によって形状が異なり、学習が破綻している
→ 3次元グラフ1つで1物体を表せるように改良
まとめ・今後の課題
まとめ
 画像をグラフ構造で表し、グラフからベクトル表現への変換を用
いた一般物体認識を提案した
今後の課題
 認識率の向上
 グラフ編集距離の計算時間
⇒グラフ編集距離の計算アルゴリズムの改良
 プロトタイプグラフの選択手法
⇒トレーニンググラフ内で画像の特徴を明確に表現できるもののみを選択
⇒次元削減、計算時間の短縮につながる
 複数物体の認識
 同一物体画像の単一グラフの表現
ご清聴ありがとうございました
SIFT (Scale-Invariant Feature Transform)
 回転・スケール変化・照明変
化に不変な局所特徴量
1. 拡大・縮小に対しての不変性
 画像間の高精度な局所的
マッチングが可能
 使用例: AIBOビジョンシステ
ム(SONY), イメージモザイキン
グetc…
Detection of extremum
2. 回転に対しての不変性
http://www.sony.jp/products/Consumer/aibo/
8 orientations
Bag of Features (BoF)
・・・
Input image
K個の
クラスタに分割
Training images
K-means
SIFT descriptor
SIFT descriptor
・・・
Visual word
Codebook
Classifier
・・・
・・・
・・・
Codebook
Vector
quantization
・・・・
Frequency
Frequency
Vector
quantization
Codebook
Output
SVM (Support Vector Machine)
SVM は線形入力素子を利用して2 クラスの
パターン識別器を構成する手法
マージン最大化
線形カーネル
X2
H1
k (xi , x j ) 
H2
xi  x j
|| xi || || x j ||
ガウスカーネル
k (xi , x j )  exp(
|| xi  x j ||2

2
)
カーネルは2つのデータの類似度を求める
類似度をとる空間が異なる
X1
実験結果2
提案手法
SVM(RBF) SVM(linear)
従来手法 (BoF)
k-NN
SVM(RBF) SVM(linear)
k-NN
accordion
72.8
72.8
43.2
80.8
80.4
63.2
car_side
87.96
83.98
40.32
79.78
76.45
75.27
dalmatian
71.08
70.27
31.35
65.68
62.97
65.68
dollar_bill
82.73
83.64
55
85.45
82.27
75
leopards
95.06
91.12
81.59
77.59
73.47
47.88
soccer_ball
67.94
68.82
52.35
41.47
39.12
22.65
stop_sign
83.53
84.12
63.24
43.53
45.29
19.41
sunflower
62.55
62.36
28.91
65.64
64.55
43.45
unbrella
62.89
65.78
63.33
30
30.67
8.89
windsor_chair
78.08
76.15
70
78.08
75.38
73.08