CV輪講 A Discriminatively Trained, Multiscale, Deformable Part Model 三井 相和 はじめに • 一般物体認識:一般的なカテゴリの対象の認識 – 位置 – スケールの変化 – 対象の変形 • マルチスケールに対応した変形可能なパートモデル – A Discriminatively Trained, Multiscale, Deformable Part Model [Pedro Felzenszwalb,CVPR, 2008.] モデル • グローバルなルートフィルタ • ルートフィルタ内に存在するパートフィルタ HOG特徴 • 特徴量 – Histograms of Oriented Gradients(HOG)[N.Dalal,CVPR 2005.] • • • • 0°~160°,20ずつ9方向算出 セル:8×8ピクセル ブロック:2×2セル RGBの各チャンネルから最も強度が高いものを採用 • 検出ウィンドウ=ルートフィルタ – ルートフィルタ:大域的 →疎な特徴量 – パートフィルタ:局所的 →密な特徴量 フィルタ • 入力特徴に対する重み: ( • セルの位置: • 特徴量: – 検出ウィンドウにおける 個) のスコア= • パートフィルタのセルサイズはルートフィルタの半分 – ルートフィルタ:大域的 →疎な特徴量 – パートフィルタ:局所的 →密な特徴量 例:顔の場合 可変パーツ • 配置のスコア: 位置関係 – パートの数: – パートモデル: – オブジェクトモデル: 距離 配置のスコア • 配置のスコア: – モデルの配置: 配置のスコア= 最適な を学習より算出 学習: Latent SVMs • データセット: • フィルタの有効な配置範囲: , – バウンディングボックスと最低50%重なるよう定義 • 学習用データ – ネガティブ:検出対象が含まれないもの – ポジティブ:対象そのものの位置(バウンディングボックス) • のスコア(識別関数): – と定義 配置のスコアの最大値 • 最適化: 最適化項 ヒンジ損失関数 ハードネガティブ抽出 • 大量の学習サンプル – 特定のカテゴリを検出→対象以外はネガティブサンプル ハードネガティブサンプルを作成 定理1: 定理2: ・1, ・2, ・3, 定理3: は の一部, ならば ならば ・ ・ により により追加 になるまで2を繰り返す→ に収束 実装の詳細:ルートフィルタ • 初期化 – 学習よりルートフィルタのサイズを自動決定 – 潜在変数なしでのSVM学習 – 初期の を決定 • 更新 – 配置のスコアが最も高いルートフィルタの位置に更新 – を再学習 実装の詳細:パートフィルタ • パートフィルタ初期化 – ルートフィルタの80%を占めるように6つ選ぶ – 特徴量がもっとも対象物体らしい位置から選ぶ – 初期変形コストは係数 の初期値 • モデル更新 – 学習データを とし、再構築 – バウンディングボックスに最低50%のオーバーラップ – 対象物体以外で高いスコア→ハードネガティブ から決定 結果 表1:PASCAL VOC 2007 での結果 学習モデル 検出結果1 検出結果2 評価 15 空間モデルと変形の影響 • ブロックサイズ 許容範囲 はパートフィルタ中心座標の移動できる AP(Average Precision)が変動 • AP=1の時に最高のパフォーマンス おわりに • A Discriminatively Trained, Multiscale, Deformable Part Modelについての報告を行った
© Copyright 2025 ExpyDoc