研究の方針とHistograms of Oriented Gradients (HOG)

CV輪講
A Discriminatively Trained, Multiscale,
Deformable Part Model
三井 相和
はじめに
• 一般物体認識:一般的なカテゴリの対象の認識
– 位置
– スケールの変化
– 対象の変形
• マルチスケールに対応した変形可能なパートモデル
– A Discriminatively Trained, Multiscale, Deformable Part Model
[Pedro Felzenszwalb,CVPR, 2008.]
モデル
• グローバルなルートフィルタ
• ルートフィルタ内に存在するパートフィルタ
HOG特徴
• 特徴量
– Histograms of Oriented Gradients(HOG)[N.Dalal,CVPR 2005.]
•
•
•
•
0°~160°,20ずつ9方向算出
セル:8×8ピクセル
ブロック:2×2セル
RGBの各チャンネルから最も強度が高いものを採用
• 検出ウィンドウ=ルートフィルタ
– ルートフィルタ:大域的
→疎な特徴量
– パートフィルタ:局所的
→密な特徴量
フィルタ
• 入力特徴に対する重み: (
• セルの位置:
• 特徴量:
– 検出ウィンドウにおける
個)
のスコア=
• パートフィルタのセルサイズはルートフィルタの半分
– ルートフィルタ:大域的
→疎な特徴量
– パートフィルタ:局所的
→密な特徴量
例:顔の場合
可変パーツ
• 配置のスコア:
位置関係
– パートの数:
– パートモデル:
– オブジェクトモデル:
距離
配置のスコア
• 配置のスコア:
– モデルの配置:
配置のスコア=
最適な
を学習より算出
学習: Latent SVMs
• データセット:
• フィルタの有効な配置範囲:
,
– バウンディングボックスと最低50%重なるよう定義
• 学習用データ
– ネガティブ:検出対象が含まれないもの
– ポジティブ:対象そのものの位置(バウンディングボックス)
•
のスコア(識別関数):
–
と定義
配置のスコアの最大値
• 最適化:
最適化項
ヒンジ損失関数
ハードネガティブ抽出
• 大量の学習サンプル
– 特定のカテゴリを検出→対象以外はネガティブサンプル
ハードネガティブサンプルを作成
定理1:
定理2:
・1,
・2,
・3,
定理3:
は
の一部,
ならば
ならば
・
・
により
により追加
になるまで2を繰り返す→
に収束
実装の詳細:ルートフィルタ
• 初期化
– 学習よりルートフィルタのサイズを自動決定
– 潜在変数なしでのSVM学習
– 初期の を決定
• 更新
– 配置のスコアが最も高いルートフィルタの位置に更新
–
を再学習
実装の詳細:パートフィルタ
• パートフィルタ初期化
– ルートフィルタの80%を占めるように6つ選ぶ
– 特徴量がもっとも対象物体らしい位置から選ぶ
– 初期変形コストは係数
の初期値
• モデル更新
– 学習データを
とし、再構築
– バウンディングボックスに最低50%のオーバーラップ
– 対象物体以外で高いスコア→ハードネガティブ
から決定
結果
表1:PASCAL VOC 2007 での結果
学習モデル
検出結果1
検出結果2
評価
15
空間モデルと変形の影響
• ブロックサイズ
許容範囲
はパートフィルタ中心座標の移動できる
AP(Average Precision)が変動
• AP=1の時に最高のパフォーマンス
おわりに
• A Discriminatively Trained, Multiscale, Deformable Part
Modelについての報告を行った