大域的特徴としてBoFを導入した CRFによる一般物体認識第12回画像の認識・理解シンポジウム Meeting on Image Recognition and Understanding 2009 (MIRU2009) 2009年7月20日（月)～7月22日(水) 島根県松江市くにびきメッセ神戸大学大学院工学研究科奥村健志 [email protected] 神戸大学自然科学系先端融合研究環滝口哲也, 有木康雄 {takigu, ariki}@kobe-u.ac.jp 発表概要  研究背景・動機  提案手法  評価実験と考察  まとめと今後の方針 www.***.com 2 研究背景・動機  一般物体認識とは sky 認識 building tree grass  コンピュータビジョンの分野で最もチャレンジングな課題の一つ  画像検索やロボットビジョンにおいて特に実現が求められている www.***.com 3 研究背景・動機  画素単位のクラス認識（ラベル付け）手法がいくつか提案されている  緩和法によるラベリング [1977, Tenenbaum], Photobook [1995, Minka], Translation model [2001, Forsyth], multiscale Conditional Random Field (mCRF) [2004, He]  Conditional Random Field [2001, Lafferty] の利点  画像全体のエネルギー(ポテンシャル）関数を最大化（または最小化）することで，大域最適なラベル付けが可能 →局所領域間の関係を考慮しての認識が可能 : ノード : エッジ : ポテンシャル関数  同じグラフィカルモデルである生成モデルの Markov Random Field (MRF) と違い，観測した特徴間において強い独立性を仮定する必要がない →異なる複数の特徴を容易に用いることが可能 www.***.com 4 研究背景・動機  CRFによる画像の一般物体認識 road car pairwise potential singleton potential 学習によって得られるクラス共起情報局所領域から抽出した特徴量に基づくポテンシャル関数 3×4の入力画像 : メッセージ認識結果 •ポテンシャル関数 •メッセージパッシング •クラス共起情報 メッセージとは周辺ノードの情報を含んだクラス分布 学習によって得られたパラメータ（重み）と抽出した 隣接ノードのクラスは同じクラスになり易い（平滑化） メッセージを元に各ノードのクラス分布を再計算特徴量から計算されるクラス分布 “cow”と”grass”などは同時に存在し易い（共起） www.***.com 5 研究背景・動機  CRFによる一般物体認識における問題点  多クラス認識  グラフにおける多数のノードと多重ループ構造 →計算量などの面から厳密推定が不可能であり近似を行う必要がある →局所最適な認識結果に陥る可能性が生じる認識 airplane tree sky 局所最適な認識結果提案手法大域的な特徴として Bag of Features [2004, Csurka] をCRFによる認識に導入することで局所最適な認識結果に陥ることを防ぎ認識精度の向上を図る www.***.com 6 提案手法 Conditional Random Field Super-pixel 表現による領域分割入力画像低次特徴抽出 (色，テクスチャ，形，位置） ↓ 各クラスごとの Gentle Adaboost のスコア局所的特徴グリッドサンプリングによる SIFT記述子の抽出 Bag of Features による特徴付けメッセージパッシング (Loopy Max-Product) によるクラスラベル推定出現頻度 (SIFT: Scale-Invariant Feature Transform) road car : SIFT記述子 Visual Word 大域的特徴認識結果 www.***.com 7 Bag of Features (BoF) 学習用画像 k-meansによるベクトル量子化 (W個のクラスタに分割) ※Wは手動で決定 : SIFT記述子(128次元の回転不変特徴) 128次元のSIFT記述子空間出現頻度 Bag of Featuresによる画像の表現 (W次元の正規化されたヒストグラム) Codebook (Visual Wordの辞書) Visual Word 入力画像クラスタの重心がVisual Word (代表的な局所パターン) •Bag of Featuresの利点 局所パターンの集合であるため，オクルージョンに強い 抽象化されたVisual Wordにより，見え方の変化にも強い www.***.com 8 SIFT記述子のサンプリング  元々，SIFT [1999, Lowe] 記述子はDifference of Gaussian (DoG)により検出  特徴点の位置とスケールを自動検出し，スケール不変性を獲得できる反面輝度勾配の変化が大きいところに特徴点が偏る →画像全体の特徴付けを行うには不安定といえる複数スケールを持たせたグリッドサンプリング •格子状に一定間隔で特徴点を検出することで偏りのない特徴付けを行う •スケールの自動検出の代わりとして複数の固定スケールを設定する DoG グリッドサンプリング矢印の長さ: 特徴点のスケール, 矢印の向き: 特徴点のオリエンテーション www.***.com 9 領域分割と局所的特徴  super-pixel 表現 [2003, Malik]  Normalized Cuts [1997, Malik] を利用  過分割により分割時の誤りを低減  画素と比べ，情報量増 + 冗長性減  局所的特徴 •色特徴 RGB, HSV, YCrCb, Lab •テクスチャ特徴 Gabor Filter, LoG Filter •形特徴 super-pixelの面積，周囲長 •位置特徴 super-pixelの重心座標各クラスごとに学習した Gentle Adaboostから各スコアを算出正規化したベクトル（次元数: クラス数）約200個のsuper-pixel www.***.com 10 Conditional Random Field (CRF) CRFのモデル式 pairwise potential singleton potential p i, j: super-pixel（ノード）   11 S: 全ノード集合  12  ＜ノード  1C  ｊについて＞      N: 近傍ノード集合 22 2C   21 ＜ノード i について＞ i   Z: 分配関数（正規化項）   ci pi   c: クラス変数 C1 pij j cj super-pixelに分割された画像 p （説明のため領域数は実際と異なる） j  C2      CC  θ = {α, β, γ}: 学習パラメータ・学習データから推定される(クラス数)×(クラス数）の行列 1 2 C 1 2 C l: 局所的特徴（Gentle Adaboostのスコアベクトル）・対角要素: 平滑化，非対角要素: 共起を表すクラスクラス g: 大域的特徴（Bag of Features）画像から抽出した全ての局所的・大域的特徴で条件付けられた入力画像をsuper-pixelに領域分割後，局所的特徴と大域的特徴この項の存在により，各ノードのクラス推定において周辺ノード・各特徴と学習した重みパラメータによってクラス分布を計算クラス分布としてエネルギー関数を定義を抽出し，CRFのグラフを構築するとの関係を考慮することが可能（必要）になる・大域的特徴に基づくクラス分布は全ノードにおいて共通 www.***.com 11 Conditional Random Field (CRF)  CRFの学習  MAP推定を基準に正解ラベル付きの学習データから学習  L-BFGS法により解析的に求めるが，分配関数は擬似尤度で近似  クラスの推定  MPM推定を基準に各ノードにおいて周辺事後クラス分布を最大化するクラスを割り当てる  Loopy Max-Productアルゴリズムにより，局所最適なメッセージ伝播に基づき近似的に推定 www.***.com 12 実験条件  データセット  MSRC 21 データセット（21クラス，591枚，画像サイズ 320×213）  296枚を学習用，295枚をテスト用として利用  Corel データセット（7クラス，100枚，画像サイズ 180×120）  60枚を学習用，40枚をテスト用として利用  評価尺度  Class Average Accuracy（クラスごとの認識率を平均したもの）を用いた sky MSRC 21 データセット building (96.8%) vegetation Corel データセット polar bear snow 入力画像正解ラベル (91.3%) www.***.com 認識結果 13 実験条件  比較手法  TextonBoost  mCRF [2006, Shotton] [2004, He] （MSRC21における従来研究との精度比較）（Corelにおける従来研究との精度比較） CRFを用いた従来手法  No Global （局所的特徴のみを用いたCRFによる認識手法）  Sparse-Gray （DoGを用いたBag of Featuresを導入した手法）  Grid-Gray （グリッドサンプリングに変更した手法）提案手法  Grid-Color （SIFT記述子に色情報を取り入れた手法） MSRC 21 Corel 10 5 SIFT記述子のスケール (pixel) {4, 8, 12, 16} {2, 4, 6, 8} Visual Wordの単語数 (words) 100, 200, …, 1000 100, 200, …, 1000 サンプリング間隔 (pixel) www.***.com 14 実験結果 Class Average Accuracy (%) MSRC 21 Corel 57.7 - - 80.9 59.0 73.0 Sparse-Gray 62.3 (600 words) 68.0 (800 words) Grid-Gray 65.5 (500 words) 73.0 (400 words) Grid-Color 64.6 (300 words) 74.3 (600 words) TextonBoost mCRF No Global 従来手法提案手法  MSRC21 について  大域的特徴の導入により，認識率が最大6.5%向上した  グリッドサンプリングを用いた方が精度が良かったが，色情報を入れると精度が悪くなった  Corel について  大域的特徴の導入による認識率の向上は最大1.3%と小幅  従来手法の方が精度が高かった www.***.com 15 実験結果 (MSRC 21)  局所最適な認識結果からの改善例 grass bird sheep building car bicycle road cow grass bird 入力画像正解クラス dog No Global 提案手法 www.***.com 16 実験結果 (Corel) に関する考察  低解像度による問題  輝度勾配情報を用いるSIFT記述子ベースのBoFでは特徴付けが難しい  BoFの精度が落ちることにより，提案手法による改善効果が小さくなる  クラス数による問題  7クラスと少ないので局所的特徴に基づくクラス分布は単峰性になり易い  大域的特徴に基づくクラス分布を足すことによる補正が効きにくい 1 2 3 4 5 6 7 class www.***.com 17 まとめと今後の方針  Bag of Featuresを大域的な特徴としてCRFによる認識に導入  大域的な情報を加えることで局所最適な誤認識を軽減（認識率が最大6.5%向上）  Bag of FeaturesにおいてSIFT記述子をグリッドサンプリングで抽出  実験結果から，より安定した特徴付けが可能になったことを確認  データセットによって提案手法による改善効果に差異が見られる  低解像度・少数クラスのデータセットでは精度の改善幅が小さい  今後の方針  領域統合に基づく階層型CRFの構築により，さらに詳細な大域的情報の獲得  コンテキスト情報（物体の位置関係やWord Netなどの辞書）の利用 www.***.com 18 ご清聴ありがとうございました www.***.com SIFT (Scale-Invariant Feature Transform) 記述子  代表オリエンテーションの算出  特徴量の記述 www.***.com 低次特徴について 次元数 色特徴とテクスチャ特徴について  領域単位で特徴付けるため統計量を計算する 平均，標準偏差，歪度，尖度 www.***.com Gabor Filter Gabor Filter関数使用したパラメータ値サンプル www.***.com Gentle Adaboost www.***.com Normalized Cuts www.***.com クラス分布 www.***.com CRFの学習 www.***.com L-BFGS法  準ニュートン法におけるヘッセ行列を逐次近似することにより計算量を大幅に削減した手法 www.***.com について ○学習データの真値とモデルからの期待値との差に過学習を防ぐ項を加えた形になる www.***.com 分配関数と擬似尤度  分配関数（正規化項）  擬似尤度 www.***.com クラスの推定 www.***.com メッセージパッシング www.***.com 実験結果の補足 www.***.com Confusion Matrix（MSRC 21） www.***.com