距離空間ピラミッドを用いた LLCによる3次元物体認識 神戸大学 システム情報学研究科 CS17 有木研究室 ○堀 貴博 滝口哲也 有木康雄 研究背景・動機 高品質な3次元情報(色,奥行き情報)を提供するRGB-Dカメラ ロボット視覚への導入 仮想現実感,拡張現実感 計算機による 3次元世界の「理解」が必要 3次元情報 を用いた3次元物体認識 研究背景・動機 物体認識とは,制約のない実世界シーンの画像に含まれる 物体の名称を計算機が認識することを指す 入力画像 認識 umbrella 認識 cup 出力結果 大きく分けて,物体のカテゴリ名を認識する一般物体認識と 各物体ごとに認識する特定物体認識がある 従来手法の問題点 3次元物体認識の従来研究 得られた奥行き情報を2次元距離画像に変換し, 従来の2次元物体認識の手法をそのまま適用している カラー画像 奥行き情報 距離画像 問題点 奥行き情報を取得することで物体の全体的な形状を把握することが 可能であるにも関わらず,それを一切用いていない 距離空間ピラミッドを提案し,全体形状を表現 特徴抽出にHONV,コード化処理にLLCを適用 提案手法の流れ 奥 行 き 情 報 ・・・ ・・・ 距離画像 HONV 特 徴 抽 出 LLC プ ー リ ン グ コ ー ド 化 SP & D-SP ・・・ ・・・ ・・・ Input RGB画像 SIFT LLC Spatial Pyramid Image Keypoints & Features Coding Pooling 特徴抽出 特徴点 画像上に等間隔で格子上に点を配置し,このグリッド点を特徴点とする RGB画像 距離画像 RGB画像 ---- SIFT (Scale-Invariant Feature Transform) 2次元画像に用いられる局所特徴量 特徴点 128次元特徴量 (輝度値の勾配情報) 特徴抽出 距離画像 ---- HONV (Histogram of Oriented Normal Vectors) 局所的3次元形状を表すために設計された局所特徴量 HOG特徴量の3次元拡張 物体の表面点での法線ベクトル方向の2次元ヒストグラム (天頂角θと方位角φ を量子化,投票) Z 300 250 200 150 100 θ φ 50 Y 0 1 2 3 4 5 5 6 4 7 X 3 8 2 9 法線ベクトルと天頂角θ,方位角φの関係 1 HONV特徴量 6 提案手法の流れ 奥 行 き 情 報 ・・・ ・・・ 距離画像 HONV 特 徴 抽 出 LLC プ ー リ ン グ コ ー ド 化 SP & D-SP ・・・ ・・・ ・・・ Input RGB画像 SIFT LLC Spatial Pyramid Image Keypoints & Features Coding Pooling コード化処理 (1/4) コード化 特徴量を性能の高い別の特徴量(コード)に変換する処理 2 つのコード化手法と比較して,LLC を説明する コードブックの作成 画像から抽出されたN個の D次元特徴量 K-means法でクラスタリング M個のコードワード コードブック の集合 コード化処理 (2/4) Bag of Features (BoF) 入力は最近傍のコードワードに属する コードワードの出現頻度ヒストグラムに変換 はコードの集合 codebook: B b j j 1,...,M BoF Frequency input : xi ・・・・・・・ ① ② ③ ④ ・・・・・・ Codebook コード化処理 (3/4) Sparse Coding(SC) 入力特徴量 をM次元コード input : xi で表現する input : xi codebook Bag of Features codebook Sparse Coding BoFでは入力を一つのコードワードで表現していたのを, 少数のコードワードで表現可能にした コード化処理 (4/4) LLC ( Locality-constrained Linear Coding ) 位置情報アダプタ: input : xi input : xi 入力特徴量 M次元コード で表現する codebook Sparse Coding を codebook LLC 位置情報を用いて,入力の近傍のコードワードで,入力を表現する 提案手法の流れ 奥 行 き 情 報 ・・・ ・・・ 距離画像 HONV 特 徴 抽 出 LLC プ ー リ ン グ コ ー ド 化 SP & D-SP ・・・ ・・・ ・・・ Input RGB画像 SIFT LLC Spatial Pyramid Image Keypoints & Features Coding Pooling プーリング処理 (2次元) 空間ピラミッド(SP) Level 0 画像を階層的に部分領域 2l 2l に区切って, 各部分領域で特徴量(コード)を統合する プーリング手法 特徴量の各次元の最大値を用いることで 統合する,最大プーリングを行う Level 1 画像ごとに特徴量を連結して正規化する 2階層 M × 5 次元 プーリング処理 (3次元) 距離空間ピラミッド(D-SP) 奥行き値を座標として距離空間を作成し,部分領域に分割する 空間ピラミッドの3次元拡張 ただし,通常の座標と異なり,奥行き値 は測定値なので,値にばらつきがある 座標による等分割ではなく, 各部分空間の特徴点の個数が等しくなるように分割を行う Level 0 Level 1 Level 2 提案手法の流れ 奥 行 き 情 報 ・・・ ・・・ 距離画像 HONV 特 徴 抽 出 LLC プ ー リ ン グ コ ー ド 化 SP & D-SP ・・・ ・・・ ・・・ Input RGB画像 SIFT LLC Spatial Pyramid Image Keypoints & Features Coding Pooling 提案手法の流れ 特 徴 抽 出 SIFT HONV コ ー ド 化 LLC プーリング ・ ・ ・ 学習画像 特 徴 抽 出 SIFT HONV コ ー ド 化 LLC 識 別 器 認 識 結 果 Classifier Output プーリング テスト画像 Input Keypoints & Features Coding 評価実験 (データセット) RGB-Dオブジェクトデータセット(奥行き情報+色情報)[1] 300物体,51カテゴリ,約42000 枚 各物体の3つの高さの360度画像 撮影距離 約1メートル [1]K. Lai,L. Bo,X. Ren,and D. Fox, "A Large-Scale Hierarchical Multi-View RGB-D Object Dataset," ICRA,2011. 評価実験 (実験内容) 一般物体認識 51カテゴリの分類実験 テストデータとして各カテゴリから1物体選択し,残りを学習データとする 51カテゴリで学習画像 約35000枚,テスト画像 約7000枚 選択はランダムで行い,10回の実験の平均認識率と標準偏差で評価 特定物体認識 300物体(インスタンス)の分類実験 3つの撮影角度のうち,中間の角度をテスト画像,それ以外を学習画像 300物体 学習画像 約28000枚,テスト画像 約14000 識別器 SVM (Support Vector Machine) マルチクラス 線形カーネル 実験内容 色情報のみ(RGB),奥行き情報のみ(Depth),両方使用(RGB-D) の3種類の実験を行い,実験結果を従来手法と比較する 実験結果と考察 (1/5) 実験結果(%) RGBD Methods ICRA11 Kernel d CKM D HMP[2] HMP2[3] Proposed RGB 74.3±3.3 80.7±2.1 N/A 74.7±2.5 82.4±3.1 85.3±1.6 Category Depth 53.1±1.7 80.3±2.9 N/A 70.3±2.2 81.2±2.3 82.9±2.3 RGB-D 81.9±2.8 86.5±2.1 86.4±2.3 82.1±3.3 87.5±2.9 89.2±1.6 RGB 59.3 90.8 82.9 75.8 92.1 93.9 Instance Depth 32.3 54.7 N/A 39.8 51.7 42.5 RGB-D 73.9 91.2 90.4 78.9 92.8 94.2 考察 提案手法を用いることで,従来手法よりも認識率が向上した [2]L. Bo, X. Ren, and D. Fox, “Hierarchical Matching Pursuit for Image Classification: Architecture and Fast Algorithms,” in NIPS, 2011. [3]L. Bo, X. Ren, and D. Fox, “Unsupervised Feature Learning for RGB-D Based Object Recognition,” In ISER, 2012. 実験結果と考察 (2/5) RGB-Dオブジェクトデータセット binder_1 food_box_6 food_box_7 binder_2 food_box_8 binder_3 food_box_9 food_box_10 考察 (奥行き情報のみ特定物体認識) HONV特徴量 距離空間ピラミッド 表面形状特化 全体形状特化 実験結果と考察 (3/5) 実験結果(%) RGBD Methods ICRA11 Kernel d CKM D HMP HMP2 Proposed RGB 74.3±3.3 80.7±2.1 N/A 74.7±2.5 82.4±3.1 85.3±1.6 Category Depth 53.1±1.7 80.3±2.9 N/A 70.3±2.2 81.2±2.3 82.9±2.3 RGB-D 81.9±2.8 86.5±2.1 86.4±2.3 82.1±3.3 87.5±2.9 89.2±1.6 RGB 59.3 90.8 82.9 75.8 92.1 93.9 考察 LLC,HONV,距離空間ピラミッド それぞれの有効性 Instance Depth 32.3 54.7 N/A 39.8 51.7 42.5 RGB-D 73.9 91.2 90.4 78.9 92.8 94.2 実験結果と考察 (4/5) HONVの有効性 距離画像に対してSIFTを用いる場合と提案手法を比較 RGBD Methods D-SIFT HONV Category Instance Depth RGB-D Depth RGB-D 79.2±1.8 88.0±1.8 50.6 94.3 82.9±2.3 89.2±1.6 42.5 94.2 距離空間ピラミッドの有効性 距離空間ピラミッドを用いない場合と提案手法を比較 RGBD Methods SP D-SP Category Instance Depth RGB-D Depth RGB-D 81.7±2.3 88.6±1.6 41.4 94.2 82.9±2.3 89.2±1.6 42.5 94.2 実験結果と考察 (5/5) RGBD Methods ICRA11 Kernel d CKM D HMP HMP2 Proposed RGB 74.3±3.3 80.7±2.1 N/A 74.7±2.5 82.4±3.1 85.3±1.6 Category Depth 53.1±1.7 80.3±2.9 N/A 70.3±2.2 81.2±2.3 82.9±2.3 実験結果(%) RGB-D 81.9±2.8 86.5±2.1 86.4±2.3 82.1±3.3 87.5±2.9 89.2±1.6 RGB 59.3 90.8 82.9 75.8 92.1 93.9 Instance Depth 32.3 54.7 N/A 39.8 51.7 42.5 RGB-D 73.9 91.2 90.4 78.9 92.8 94.2 考察 (計算量) SIFTよりも特徴抽出が速いHONVを使用 LLC は近似処理により,高速化が可能 RGB-Dの特徴量の次元:HMP2は188,300次元,提案手法は25,600次元 よって,提案手法は計算量,計算時間,記憶コストの削減を達成している 結論 局所特徴量のHONV,コード化手法のLLCを 3次元物体認識に適用 奥行き情報に基づく距離空間ピラミッドによって, 全体的な物体形状を表す手法を提案 提案手法は従来手法と比較して、認識率の向上, 計算量,計算時間,記憶コストの削減を実現 今後の課題 ・距離空間ピラミッドの領域分割法の改良 ・それに対応する新たなプーリング手法の作成 ・部分領域間の関係性の利用 ・ロボットビジョンへの実装・実世界での実験 ご清聴ありがとうございました コード化処理 (3/3) LLC ( Locality-constrained Linear Coding ) 位置情報アダプタ: input : xi input : xi codebook Bag of Features input : xi codebook Sparse Coding codebook LLC 位置情報はスパース性よりも有用なので, 位置情報に特化させて,入力の近傍の点で入力を表現する 誤認識の原因 mushroom_1 mushroom_2 binder_1 food_box_6 food_box_7 mushroom_3 binder_2 food_box_8 binder_3 food_box_9 food_box_10 実験結果と考察 (D-SIFT 込) 実験結果(%) RGBD Methods ICRA11 Kernel d HMP HMP2 Proposed1 Proposed2 RGB 74.3±3.3 80.7±2.1 74.7±2.5 82.4±3.1 85.3±1.6 85.3±1.6 Category Depth 53.1±1.7 80.3±2.9 70.3±2.2 81.2±2.3 79.2±1.8 82.9±2.3 RGB-D 81.9±2.8 86.5±2.1 82.1±3.3 87.5±2.9 88.0±1.8 89.2±1.6 RGB 59.3 90.8 75.8 92.1 93.9 93.9 Instance Depth 32.3 54.7 39.8 51.7 50.6 42.5 RGB-D 73.9 91.2 78.9 92.8 94.3 94.2 考察 提案手法を用いることで,従来手法よりも認識率が向上した RGB-Dの特徴量の次元:HMP2は188,300次元,提案手法は25,600次元 よって,提案手法は計算量,計算時間,記憶コストの削減を達成している 空間ピラミッド (Spatial Pyramid) Level 0 Level 1 Level 2 従来手法の問題点 5領域の内、4領域が無駄になる 3階層の場合は21領域のうち、20領域が無駄になる 従来手法の問題点 5領域の内、4領域が無駄になる 3階層の場合は21領域のうち、20領域が無駄になる
© Copyright 2025 ExpyDoc