スライド 1

大域的特徴としてBoFを導入した
CRFによる一般物体認識
第12回 画像の認識・理解シンポジウム
Meeting on Image Recognition and Understanding 2009 (MIRU2009)
2009年7月20日(月)~7月22日(水) 島根県松江市 くにびきメッセ
神戸大学大学院工学研究科
奥村 健志
[email protected]
神戸大学自然科学系先端融合研究環
滝口 哲也, 有木 康雄
{takigu, ariki}@kobe-u.ac.jp
発表概要
 研究背景・動機
 提案手法
 評価実験と考察
 まとめと今後の方針
www.***.com
2
研究背景・動機
 一般物体認識とは
sky
認識
building
tree
grass
 コンピュータビジョンの分野で最もチャレンジングな課題の一つ
 画像検索やロボットビジョンにおいて特に実現が求められている
www.***.com
3
研究背景・動機
 画素単位のクラス認識(ラベル付け)手法がいくつか提案されている
 緩和法によるラベリング [1977, Tenenbaum], Photobook [1995, Minka],
Translation model [2001, Forsyth], multiscale Conditional Random Field (mCRF) [2004, He]
 Conditional Random Field [2001, Lafferty] の利点
 画像全体のエネルギー(ポテンシャル)関数を
最大化(または最小化)することで,大域最適な
ラベル付けが可能
→局所領域間の関係を考慮しての認識が可能
: ノード
: エッジ
: ポテンシャル関数
 同じグラフィカルモデルである生成モデルの
Markov Random Field (MRF) と違い,観測した
特徴間において強い独立性を仮定する必要が
ない
→異なる複数の特徴を容易に用いることが可能
www.***.com
4
研究背景・動機
 CRFによる画像の一般物体認識
road
car
pairwise potential
singleton potential
学習によって得られる
クラス共起情報
局所領域から抽出した特徴量
に基づくポテンシャル関数
3×4の入力画像
: メッセージ
認識結果
•ポテンシャル関数
•メッセージパッシング
•クラス共起情報
メッセージとは周辺ノードの情報を含んだクラス分布
学習によって得られたパラメータ(重み)と抽出した
隣接ノードのクラスは同じクラスになり易い(平滑化)
メッセージを元に各ノードのクラス分布を再計算
特徴量から計算されるクラス分布
“cow”と”grass”などは同時に存在し易い(共起)
www.***.com
5
研究背景・動機
 CRFによる一般物体認識における問題点
 多クラス認識
 グラフにおける多数のノードと多重ループ構造
→計算量などの面から厳密推定が不可能であり近似を行う必要がある
→局所最適な認識結果に陥る可能性が生じる
認識
airplane
tree
sky
局所最適な認識結果
提案手法
大域的な特徴として Bag of Features [2004, Csurka] をCRFによる認識に
導入することで局所最適な認識結果に陥ることを防ぎ認識精度の向上を図る
www.***.com
6
提案手法
Conditional
Random
Field
Super-pixel 表現
による領域分割
入力画像
低次特徴抽出
(色,テクスチャ,形,位置)
↓
各クラスごとの
Gentle Adaboost
のスコア
局所的特徴
グリッドサンプリングによる
SIFT記述子の抽出
Bag of Features
による特徴付け
メッセージパッシング
(Loopy Max-Product)
によるクラスラベル推定
出現頻度
(SIFT: Scale-Invariant Feature Transform)
road
car
: SIFT記述子
Visual Word
大域的特徴
認識結果
www.***.com
7
Bag of Features (BoF)
学習用画像
k-meansによる
ベクトル量子化
(W個のクラスタに分割)
※Wは手動で決定
: SIFT記述子(128次元の回転不変特徴)
128次元のSIFT記述子空間
出現頻度
Bag of Featuresによる
画像の表現
(W次元の正規化されたヒストグラム)
Codebook
(Visual Wordの辞書)
Visual Word
入力画像
クラスタの重心がVisual Word
(代表的な局所パターン)
•Bag of Featuresの利点
局所パターンの集合であるため,オクルージョンに強い
抽象化されたVisual Wordにより,見え方の変化にも強い
www.***.com
8
SIFT記述子のサンプリング
 元々,SIFT [1999, Lowe] 記述子はDifference of Gaussian (DoG)により検出
 特徴点の位置とスケールを自動検出し,スケール不変性を獲得できる反面
輝度勾配の変化が大きいところに特徴点が偏る
→画像全体の特徴付けを行うには不安定といえる
複数スケールを持たせたグリッドサンプリング
•格子状に一定間隔で特徴点を検出することで偏りのない特徴付けを行う
•スケールの自動検出の代わりとして複数の固定スケールを設定する
DoG
グリッドサンプリング
矢印の長さ: 特徴点のスケール, 矢印の向き: 特徴点のオリエンテーション
www.***.com
9
領域分割と局所的特徴
 super-pixel 表現 [2003, Malik]
 Normalized Cuts [1997, Malik] を利用
 過分割により分割時の誤りを低減
 画素と比べ,情報量増 + 冗長性減
 局所的特徴
•色特徴
RGB, HSV, YCrCb, Lab
•テクスチャ特徴
Gabor Filter, LoG Filter
•形特徴
super-pixelの面積,周囲長
•位置特徴
super-pixelの重心座標
各クラスごとに学習した
Gentle Adaboostから各スコアを算出
正規化したベクトル(次元数: クラス数)
約200個のsuper-pixel
www.***.com
10
Conditional Random Field (CRF)
CRFのモデル式
pairwise potential
singleton potential
p
i, j: super-pixel(ノード)
  11
S: 全ノード集合
 12  <ノード
 1C  j について>





N: 近傍ノード集合
22
2C 
 21
<ノード i について>
i
 
Z: 分配関数(正規化項)
 
ci
pi


c: クラス変数 C1
pij
j
cj
super-pixelに分割された画像
p
(説明のため領域数は実際と異なる)
j
 C2
 

  CC 
θ = {α, β, γ}: 学習パラメータ
・学習データから推定される(クラス数)×(クラス数)の行列
1 2
C
1 2
C
l: 局所的特徴(Gentle
Adaboostのスコアベクトル)
・対角要素:
平滑化,非対角要素:
共起 を表す
クラス
クラス
g: 大域的特徴(Bag of Features)
画像から抽出した全ての局所的・大域的特徴で条件付けられた
入力画像をsuper-pixelに領域分割後,局所的特徴と大域的特徴
この項の存在により,各ノードのクラス推定において周辺ノード
・各特徴と学習した重みパラメータによってクラス分布を計算
クラス分布としてエネルギー関数を定義
を抽出し,CRFのグラフを構築する
との関係を考慮することが可能(必要)になる
・大域的特徴に基づくクラス分布は全ノードにおいて共通
www.***.com
11
Conditional Random Field (CRF)
 CRFの学習
 MAP推定を基準に正解ラベル付きの学習データから学習
 L-BFGS法により解析的に求めるが,分配関数は擬似尤度で近似
 クラスの推定
 MPM推定を基準に各ノードにおいて周辺事後クラス分布を最大化するクラスを割り当てる
 Loopy Max-Productアルゴリズムにより,局所最適なメッセージ伝播に基づき近似的に推定
www.***.com
12
実験条件
 データセット
 MSRC 21 データセット (21クラス,591枚,画像サイズ 320×213)
 296枚を学習用,295枚をテスト用として利用
 Corel データセット (7クラス,100枚,画像サイズ 180×120)
 60枚を学習用,40枚をテスト用として利用
 評価尺度
 Class Average Accuracy(クラスごとの認識率を平均したもの)を用いた
sky
MSRC 21
データセット
building
(96.8%)
vegetation
Corel
データセット
polar bear
snow
入力画像
正解ラベル
(91.3%)
www.***.com
認識結果
13
実験条件
 比較手法
 TextonBoost
 mCRF
[2006, Shotton]
[2004, He]
(MSRC21における従来研究との精度比較)
(Corelにおける従来研究との精度比較)
CRFを用いた
従来手法
 No Global (局所的特徴のみを用いたCRFによる認識手法)
 Sparse-Gray (DoGを用いたBag of Featuresを導入した手法)
 Grid-Gray (グリッドサンプリングに変更した手法)
提案手法
 Grid-Color (SIFT記述子に色情報を取り入れた手法)
MSRC 21
Corel
10
5
SIFT記述子のスケール (pixel)
{4, 8, 12, 16}
{2, 4, 6, 8}
Visual Wordの単語数 (words)
100, 200, …, 1000
100, 200, …, 1000
サンプリング間隔 (pixel)
www.***.com
14
実験結果
Class Average Accuracy (%)
MSRC 21
Corel
57.7
-
-
80.9
59.0
73.0
Sparse-Gray
62.3 (600 words)
68.0 (800 words)
Grid-Gray
65.5 (500 words)
73.0 (400 words)
Grid-Color
64.6 (300 words)
74.3 (600 words)
TextonBoost
mCRF
No Global
従来手法
提案手法
 MSRC21 について
 大域的特徴の導入により,認識率が最大6.5%向上した
 グリッドサンプリングを用いた方が精度が良かったが,色情報を入れると精度が悪くなった
 Corel について
 大域的特徴の導入による認識率の向上は最大1.3%と小幅
 従来手法の方が精度が高かった
www.***.com
15
実験結果 (MSRC 21)
 局所最適な認識結果からの改善例
grass
bird
sheep
building
car
bicycle
road
cow
grass
bird
入力画像
正解クラス
dog
No Global
提案手法
www.***.com
16
実験結果 (Corel) に関する考察
 低解像度による問題
 輝度勾配情報を用いるSIFT記述子ベースのBoFでは特徴付けが難しい
 BoFの精度が落ちることにより,提案手法による改善効果が小さくなる
 クラス数による問題
 7クラスと少ないので局所的特徴に基づくクラス分布は単峰性になり易い
 大域的特徴に基づくクラス分布を足すことによる補正が効きにくい
1 2 3 4 5 6 7
class
www.***.com
17
まとめと今後の方針
 Bag of Featuresを大域的な特徴としてCRFによる認識に導入
 大域的な情報を加えることで局所最適な誤認識を軽減(認識率が最大6.5%向上)
 Bag of FeaturesにおいてSIFT記述子をグリッドサンプリングで抽出
 実験結果から,より安定した特徴付けが可能になったことを確認
 データセットによって提案手法による改善効果に差異が見られる
 低解像度・少数クラスのデータセットでは精度の改善幅が小さい
 今後の方針
 領域統合に基づく階層型CRFの構築により,さらに詳細な大域的情報の獲得
 コンテキスト情報(物体の位置関係やWord Netなどの辞書)の利用
www.***.com
18
ご清聴ありがとうございました
www.***.com
SIFT (Scale-Invariant Feature Transform) 記述子
 代表オリエンテーションの算出
 特徴量の記述
www.***.com
低次特徴について
次元数
色特徴とテクスチャ特徴について
 領域単位で特徴付けるため統計量を計算する
平均,標準偏差,歪度,尖度
www.***.com
Gabor Filter
Gabor Filter関数
使用したパラメータ値
サンプル
www.***.com
Gentle Adaboost
www.***.com
Normalized Cuts
www.***.com
クラス分布
www.***.com
CRFの学習
www.***.com
L-BFGS法
 準ニュートン法におけるヘッセ行列を逐次近似することにより
計算量を大幅に削減した手法
www.***.com
について
○学習データの真値とモデルからの期待値との差に
過学習を防ぐ項を加えた形になる
www.***.com
分配関数と擬似尤度
 分配関数(正規化項)
 擬似尤度
www.***.com
クラスの推定
www.***.com
メッセージパッシング
www.***.com
実験結果の補足
www.***.com
Confusion Matrix(MSRC 21)
www.***.com