3次元特徴量を用いた 構造表現による一般物体認識 神戸大学 システム情報学研究科 ◎堀 貴博 有木康雄 (株)ホンダ・リサーチ・インスティチュート・ジャパン 岩橋直人 中野幹生 研究背景 色情報とデプス情報の両方を提供する高品質なセンシング技術 3次元情報として、デプス情報(距離情報)の取得 物体認識,物体検出,動作追跡,ロボット視覚など,様々な分野 での応用が期待されている. 研究背景 一般物体認識とは、制約のない実世界シーンの画像に含まれ る物体を計算機が一般的な名称で認識することを指す 入力画像 認識 umbrella 認識 cup 出力結果 人間の認知能力を計算機に実現させるための重要な研究分野 ロボットの視覚への応用 デジタル動画像の自動分類・検索 一般物体認識の従来研究 SIFT (Scale-Invariant Feature Transform) 特徴点 スケール 128次元特徴量 (輝度値の勾配情報) クラスタリングにより局所特徴量の 出現頻度ヒストグラムに変換 Frequency Bag of Features (BoF) 問題点 画像全体を対象とするため 位置情報や特徴点間の関係性が失われる ・・・・・・・ ・・・・・・ Codebook 提案手法 デプス情報を用いた3次元グラフ構造表現 デプス画像 3次元グラフ グラフはベクトルと異なり統計処理が困難 グラフ編集距離を用いて 統計的学習が容易なベクトル表現に変換 提案手法の流れ グラフ-ベクトル変換 特 徴 抽 出 トレーニング グラフから 選択する ・ ・ ・ 学習画像 テスト画像 Input D-SIFT グ ラ フ 化 特 徴 抽 出 D-SIFT D-SIFT keypoints グ ラ フ 化 Training Training Training Training Graph Graph Graph Graph Training Training Prototype Graph Graph Graph グ ラ フ 編 集 距 離 Test Graph グ ラ フ 編 集 距 離 Graph Vector 識 別 器 認 識 結 果 Classifier Output 提案手法の流れ グラフ-ベクトル変換 特 徴 抽 出 トレーニング グラフから 選択する ・ ・ ・ 学習画像 テスト画像 Input D-SIFT グ ラ フ 化 特 徴 抽 出 D-SIFT D-SIFT keypoints グ ラ フ 化 Training Training Training Training Graph Graph Graph Graph Training Training Prototype Graph Graph Graph グ ラ フ 編 集 距 離 Test Graph グ ラ フ 編 集 距 離 Graph Vector 識 別 器 認 識 結 果 Classifier Output 提案手法 D-SIFT D-SIFT SIFT (特徴点と特徴量) 物体の3次元情報を用いるために、 画像を白黒濃淡画像に変換してSIFTを適用する デプスから白黒濃淡画像を生成してSIFTを適用する ※RGB画像からSIFTを抽出し、 SIFT特徴点に3次元座標を与える3D-SIFTとは異なる 提案手法の流れ グラフ-ベクトル変換 特 徴 抽 出 トレーニング グラフから 選択する ・ ・ ・ 学習画像 テスト画像 Input D-SIFT グ ラ フ 化 特 徴 抽 出 D-SIFT D-SIFT keypoints グ ラ フ 化 Training Training Training Training Graph Graph Graph Graph Training Training Prototype Graph Graph Graph グ ラ フ 編 集 距 離 Test Graph グ ラ フ 編 集 距 離 Graph Vector 識 別 器 認 識 結 果 Classifier Output 3次元グラフ構造表現 近接グラフ スケールの小さいノード、関係性の 薄い遠いノードとは接続しない 擬似階層グラフ スケールの大きさでグラフを階層に分解 階層レベル1 階層レベル2 階層レベル3 階層レベル2 階層レベル1 階層レベル3 提案手法の流れ グラフ-ベクトル変換 特 徴 抽 出 トレーニング グラフから 選択する ・ ・ ・ 学習画像 テスト画像 Input D-SIFT グ ラ フ 化 特 徴 抽 出 D-SIFT D-SIFT keypoints グ ラ フ 化 Training Training Training Training Graph Graph Graph Graph Training Training Prototype Graph Graph Graph グ ラ フ 編 集 距 離 Test Graph グ ラ フ 編 集 距 離 Graph Vector 識 別 器 認 識 結 果 Classifier Output グラフマッチング グラフ編集距離(GED Graph Edit Distance) 1つのグラフを他のグラフに変換するのに必要である最小 の編集数によって、2つのグラフの距離を定義 G1 G1 G2 編集コスト ノードの挿入 : 1 C1 エッジの挿入 : 2 C2 ノードの削除 : C3 エッジの削除 : 1 C4 C5 C6 ノードの置換 : 1 G2 C1 2C2 C4 C5 エッジの置換 : GED 提案手法の流れ グラフ-ベクトル変換 特 徴 抽 出 トレーニング グラフから 選択する ・ ・ ・ 学習画像 テスト画像 Input D-SIFT グ ラ フ 化 特 徴 抽 出 D-SIFT D-SIFT keypoints グ ラ フ 化 Training Training Training Training Graph Graph Graph Graph Training Training Prototype Graph Graph Graph グ ラ フ 編 集 距 離 Test Graph グ ラ フ 編 集 距 離 Graph Vector 識 別 器 認 識 結 果 Classifier Output ベクトル空間へのグラフの埋め込み グラフ-ベクトル変換 入力画像 プロトタイプグラフ n個 ・・・・ グラフ抽出 グラフ編集距離 によるベクトル化 n次元ベクトル空間 ベクトル空間 埋め込み D { d1 d2 d3 dn } 提案手法の流れ グラフ-ベクトル変換 特 徴 抽 出 トレーニング グラフから 選択する ・ ・ ・ 学習画像 テスト画像 Input D-SIFT グ ラ フ 化 特 徴 抽 出 D-SIFT D-SIFT keypoints グ ラ フ 化 Training Training Training Training Graph Graph Graph Graph Training Training Prototype Graph Graph Graph グ ラ フ 編 集 距 離 Test Graph グ ラ フ 編 集 距 離 Graph Vector 識 別 器 認 識 結 果 Classifier Output 評価実験 2次元情報と3次元情報での実験を行う (a)2次元実験 ・SIFT + 2次元グラフ ・データセット:Caltech-101データセット (b)3次元実験 ・D-SIFT + 3次元グラフ ・データセット: RGB-Dオブジェクトデータセット 評価実験 2次元情報と3次元情報での実験を行う (a)2次元実験 ・SIFT + 2次元グラフ ・データセット:Caltech-101データセット (b)3次元実験 ・D-SIFT + 3次元グラフ ・データセット: RGB-Dオブジェクトデータセット 評価実験(a)2次元 実験データ Caltech-101 データセット 10クラス、841枚の画像データセット 各クラスで画像数が異なる 識別器 k-NN法 (k=10) SVM (Support Vector Machine) Caltech-101 データセット 線形カーネル(linear)と非線形カーネル(radial basis function (RBF)) の2つのマルチクラスSVMを用いる 実験内容 3つの識別器について提案手法と従来手法(BoF)の認識率を比較する 各クラス30枚を学習画像、それ以外をテスト画像とする。 プロトタイプグラフはトレーニンググラフと同一とする(300次元ベクトル) 実験結果(a)2次元 認 識 率 ( % ) 100 90 80 70 60 50 40 30 20 10 0 81.44 79.72 65.64 68.06 57.78 49.76 従来手法 (BoF) 提案手法 k-NN SVM (linear) SVM (RBF) Accuracy comparison 評価実験 2次元情報と3次元情報での実験を行う (a)2次元実験 ・SIFT + 2次元グラフ ・データセット:Caltech-101データセット (b)3次元実験 ・D-SIFT + 3次元グラフ ・データセット: RGB-Dオブジェクトデータセット 評価実験(b)3次元 RGB-Dオブジェクトデータセット(デプス情報+色情報)[1] ・ 300物体51カテゴリ ・ 各物体の3つの高さの360度動画像 ・ 撮影距離 約1メートル ・ 物体のみ切り出し画像 [1]K. Lai,L. Bo,X. Ren,and D. Fox, "A Large-Scale Hierarchical Multi-View RGB-D Object Dataset," ICRA,2011. 評価実験(b)3次元 実験データ RGB-D オブジェクトデータセット 各物体につき高さのことなる3つの動画像 ・各動画を5フレームごと → 各物体-約130枚 計約40000枚 ・テストデータとして各カテゴリから1物体選択し、残りを学習データとする 51カテゴリで学習画像34868枚、 テスト画像7019枚 識別器 SVM (Support Vector Machine) マルチクラス、非線形カーネル(radial basis function (RBF)) 実験内容 プロトタイプグラフは各カテゴリから3枚選択(153次元) 実験結果と考察(b)3次元 実験結果(%) 認識率 比較手法 提案手法 66.8 32.1 比較手法はRGB-Dデータセット論文 K. Lai,L. Bo,X. Ren,and D. Fox, "A Large-Scale Hierarchical Multi-View RGB-D Object Dataset," ICRA,2011. のデプス情報のみ一般物体認識 提出時:26.2% <考察> 提案手法の認識精度は比較手法よりも劣っている 理由 -D-SIFT特徴量が上手く機能していない → 別の特徴量の検討 -物体の360度の画像を学習しているので、 見え方によって形状が異なり、学習が破綻している → 3次元グラフ1つで1物体を表せるように改良 まとめ・今後の課題 まとめ 画像をグラフ構造で表し、グラフからベクトル表現への変換を用 いた一般物体認識を提案した 今後の課題 認識率の向上 グラフ編集距離の計算時間 ⇒グラフ編集距離の計算アルゴリズムの改良 プロトタイプグラフの選択手法 ⇒トレーニンググラフ内で画像の特徴を明確に表現できるもののみを選択 ⇒次元削減、計算時間の短縮につながる 複数物体の認識 同一物体画像の単一グラフの表現 ご清聴ありがとうございました SIFT (Scale-Invariant Feature Transform) 回転・スケール変化・照明変 化に不変な局所特徴量 1. 拡大・縮小に対しての不変性 画像間の高精度な局所的 マッチングが可能 使用例: AIBOビジョンシステ ム(SONY), イメージモザイキン グetc… Detection of extremum 2. 回転に対しての不変性 http://www.sony.jp/products/Consumer/aibo/ 8 orientations Bag of Features (BoF) ・・・ Input image K個の クラスタに分割 Training images K-means SIFT descriptor SIFT descriptor ・・・ Visual word Codebook Classifier ・・・ ・・・ ・・・ Codebook Vector quantization ・・・・ Frequency Frequency Vector quantization Codebook Output SVM (Support Vector Machine) SVM は線形入力素子を利用して2 クラスの パターン識別器を構成する手法 マージン最大化 線形カーネル X2 H1 k (xi , x j ) H2 xi x j || xi || || x j || ガウスカーネル k (xi , x j ) exp( || xi x j ||2 2 ) カーネルは2つのデータの類似度を求める 類似度をとる空間が異なる X1 実験結果2 提案手法 SVM(RBF) SVM(linear) 従来手法 (BoF) k-NN SVM(RBF) SVM(linear) k-NN accordion 72.8 72.8 43.2 80.8 80.4 63.2 car_side 87.96 83.98 40.32 79.78 76.45 75.27 dalmatian 71.08 70.27 31.35 65.68 62.97 65.68 dollar_bill 82.73 83.64 55 85.45 82.27 75 leopards 95.06 91.12 81.59 77.59 73.47 47.88 soccer_ball 67.94 68.82 52.35 41.47 39.12 22.65 stop_sign 83.53 84.12 63.24 43.53 45.29 19.41 sunflower 62.55 62.36 28.91 65.64 64.55 43.45 unbrella 62.89 65.78 63.33 30 30.67 8.89 windsor_chair 78.08 76.15 70 78.08 75.38 73.08
© Copyright 2024 ExpyDoc