距離空間ピラミッドを用いた LLCによる3次元物体認識神戸大学システム情報学研究科ＣＳ１７有木研究室 ○堀貴博滝口哲也有木康雄研究背景・動機  高品質な3次元情報（色，奥行き情報）を提供するRGB-Dカメラ  ロボット視覚への導入  仮想現実感，拡張現実感計算機による 3次元世界の「理解」が必要 3次元情報を用いた3次元物体認識研究背景・動機  物体認識とは，制約のない実世界シーンの画像に含まれる物体の名称を計算機が認識することを指す入力画像認識 umbrella 認識 cup 出力結果  大きく分けて，物体のカテゴリ名を認識する一般物体認識と各物体ごとに認識する特定物体認識がある従来手法の問題点  3次元物体認識の従来研究得られた奥行き情報を2次元距離画像に変換し，従来の2次元物体認識の手法をそのまま適用しているカラー画像奥行き情報距離画像  問題点奥行き情報を取得することで物体の全体的な形状を把握することが可能であるにも関わらず，それを一切用いていない距離空間ピラミッドを提案し，全体形状を表現特徴抽出にHONV，コード化処理にLLCを適用提案手法の流れ奥行き情報・・・・・・距離画像 HONV 特徴抽出 LLC プーリングコード化 SP & D-SP ・・・・・・・・・ Input RGB画像 SIFT LLC Spatial Pyramid Image Keypoints & Features Coding Pooling 特徴抽出  特徴点画像上に等間隔で格子上に点を配置し，このグリッド点を特徴点とする RGB画像距離画像  RGB画像 ---- SIFT (Scale-Invariant Feature Transform) 2次元画像に用いられる局所特徴量  特徴点 128次元特徴量（輝度値の勾配情報）特徴抽出  距離画像 ---- HONV (Histogram of Oriented Normal Vectors)  局所的3次元形状を表すために設計された局所特徴量  HOG特徴量の3次元拡張  物体の表面点での法線ベクトル方向の2次元ヒストグラム（天頂角θと方位角φ を量子化，投票） Z 300 250 200 150 100 θ φ 50 Y 0 1 2 3 4 5 5 6 4 7 X 3 8 2 9 法線ベクトルと天頂角θ，方位角φの関係 1 HONV特徴量 6 提案手法の流れ奥行き情報・・・・・・距離画像 HONV 特徴抽出 LLC プーリングコード化 SP & D-SP ・・・・・・・・・ Input RGB画像 SIFT LLC Spatial Pyramid Image Keypoints & Features Coding Pooling コード化処理（1/4） コード化  特徴量を性能の高い別の特徴量（コード）に変換する処理  2 つのコード化手法と比較して，LLC を説明する コードブックの作成  画像から抽出されたN個の D次元特徴量  K-means法でクラスタリング  M個のコードワードコードブックの集合コード化処理（2/4） Bag of Features (BoF)  入力は最近傍のコードワードに属する  コードワードの出現頻度ヒストグラムに変換はコードの集合 codebook: B  b j j 1,...,M BoF Frequency input : xi ・・・・・・・ ① ② ③ ④ ・・・・・・ Codebook コード化処理（3/4） Sparse Coding(SC)  入力特徴量をM次元コード input : xi で表現する input : xi codebook Bag of Features codebook Sparse Coding BoFでは入力を一つのコードワードで表現していたのを，少数のコードワードで表現可能にしたコード化処理（4/4） LLC （ Locality-constrained Linear Coding ）位置情報アダプタ： input : xi input : xi  入力特徴量 M次元コードで表現する codebook Sparse Coding を codebook LLC 位置情報を用いて，入力の近傍のコードワードで，入力を表現する提案手法の流れ奥行き情報・・・・・・距離画像 HONV 特徴抽出 LLC プーリングコード化 SP & D-SP ・・・・・・・・・ Input RGB画像 SIFT LLC Spatial Pyramid Image Keypoints & Features Coding Pooling プーリング処理（2次元） 空間ピラミッド（SP） Level 0  画像を階層的に部分領域 2l  2l に区切って，各部分領域で特徴量（コード）を統合する  プーリング手法特徴量の各次元の最大値を用いることで統合する，最大プーリングを行う Level 1  画像ごとに特徴量を連結して正規化する 2階層 M × 5 次元プーリング処理（3次元） 距離空間ピラミッド（D-SP）  奥行き値を座標として距離空間を作成し，部分領域に分割する  空間ピラミッドの3次元拡張ただし，通常の座標と異なり，奥行き値は測定値なので，値にばらつきがある座標による等分割ではなく，各部分空間の特徴点の個数が等しくなるように分割を行う Level 0 Level 1 Level 2 提案手法の流れ奥行き情報・・・・・・距離画像 HONV 特徴抽出 LLC プーリングコード化 SP & D-SP ・・・・・・・・・ Input RGB画像 SIFT LLC Spatial Pyramid Image Keypoints & Features Coding Pooling 提案手法の流れ特徴抽出 SIFT HONV コード化 LLC プーリング・・・学習画像特徴抽出 SIFT HONV コード化 LLC 識別器認識結果 Classifier Output プーリングテスト画像 Input Keypoints & Features Coding 評価実験（データセット） RGB-Dオブジェクトデータセット（奥行き情報＋色情報）[1]  300物体，51カテゴリ，約42000 枚  各物体の3つの高さの360度画像  撮影距離約1メートル [1]K. Lai，L. Bo，X. Ren，and D. Fox， "A Large-Scale Hierarchical Multi-View RGB-D Object Dataset，" ICRA，2011. 評価実験（実験内容）  一般物体認識  51カテゴリの分類実験  テストデータとして各カテゴリから1物体選択し，残りを学習データとする 51カテゴリで学習画像約35000枚，テスト画像約7000枚  選択はランダムで行い，10回の実験の平均認識率と標準偏差で評価  特定物体認識  300物体（インスタンス）の分類実験  3つの撮影角度のうち，中間の角度をテスト画像，それ以外を学習画像 300物体学習画像約28000枚，テスト画像約14000  識別器  SVM (Support Vector Machine) マルチクラス線形カーネル  実験内容  色情報のみ（RGB），奥行き情報のみ（Depth），両方使用（RGB-D）の3種類の実験を行い，実験結果を従来手法と比較する実験結果と考察（1/5）実験結果(%) RGBD Methods ICRA11 Kernel d CKM D HMP[2] HMP2[3] Proposed RGB 74.3±3.3 80.7±2.1 N/A 74.7±2.5 82.4±3.1 85.3±1.6 Category Depth 53.1±1.7 80.3±2.9 N/A 70.3±2.2 81.2±2.3 82.9±2.3 RGB-D 81.9±2.8 86.5±2.1 86.4±2.3 82.1±3.3 87.5±2.9 89.2±1.6 RGB 59.3 90.8 82.9 75.8 92.1 93.9 Instance Depth 32.3 54.7 N/A 39.8 51.7 42.5 RGB-D 73.9 91.2 90.4 78.9 92.8 94.2  考察  提案手法を用いることで，従来手法よりも認識率が向上した [2]L. Bo, X. Ren, and D. Fox, “Hierarchical Matching Pursuit for Image Classification: Architecture and Fast Algorithms，” in NIPS, 2011. [3]L. Bo, X. Ren, and D. Fox, “Unsupervised Feature Learning for RGB-D Based Object Recognition，” In ISER, 2012. 実験結果と考察（2/5） RGB-Dオブジェクトデータセット binder_1 food_box_6 food_box_7 binder_2 food_box_8 binder_3 food_box_9 food_box_10  考察（奥行き情報のみ特定物体認識）  HONV特徴量  距離空間ピラミッド表面形状特化全体形状特化実験結果と考察（3/5）実験結果(%) RGBD Methods ICRA11 Kernel d CKM D HMP HMP2 Proposed RGB 74.3±3.3 80.7±2.1 N/A 74.7±2.5 82.4±3.1 85.3±1.6 Category Depth 53.1±1.7 80.3±2.9 N/A 70.3±2.2 81.2±2.3 82.9±2.3 RGB-D 81.9±2.8 86.5±2.1 86.4±2.3 82.1±3.3 87.5±2.9 89.2±1.6 RGB 59.3 90.8 82.9 75.8 92.1 93.9  考察  LLC，HONV，距離空間ピラミッドそれぞれの有効性 Instance Depth 32.3 54.7 N/A 39.8 51.7 42.5 RGB-D 73.9 91.2 90.4 78.9 92.8 94.2 実験結果と考察（4/5） HONVの有効性  距離画像に対してSIFTを用いる場合と提案手法を比較 RGBD Methods D-SIFT HONV Category Instance Depth RGB-D Depth RGB-D 79.2±1.8 88.0±1.8 50.6 94.3 82.9±2.3 89.2±1.6 42.5 94.2 距離空間ピラミッドの有効性  距離空間ピラミッドを用いない場合と提案手法を比較 RGBD Methods SP D-SP Category Instance Depth RGB-D Depth RGB-D 81.7±2.3 88.6±1.6 41.4 94.2 82.9±2.3 89.2±1.6 42.5 94.2 実験結果と考察（5/5） RGBD Methods ICRA11 Kernel d CKM D HMP HMP2 Proposed RGB 74.3±3.3 80.7±2.1 N/A 74.7±2.5 82.4±3.1 85.3±1.6 Category Depth 53.1±1.7 80.3±2.9 N/A 70.3±2.2 81.2±2.3 82.9±2.3 実験結果(%) RGB-D 81.9±2.8 86.5±2.1 86.4±2.3 82.1±3.3 87.5±2.9 89.2±1.6 RGB 59.3 90.8 82.9 75.8 92.1 93.9 Instance Depth 32.3 54.7 N/A 39.8 51.7 42.5 RGB-D 73.9 91.2 90.4 78.9 92.8 94.2  考察（計算量）  SIFTよりも特徴抽出が速いHONVを使用  LLC は近似処理により，高速化が可能  RGB-Dの特徴量の次元：HMP2は188,300次元，提案手法は25,600次元よって，提案手法は計算量，計算時間，記憶コストの削減を達成している結論  局所特徴量のHONV，コード化手法のLLCを 3次元物体認識に適用  奥行き情報に基づく距離空間ピラミッドによって，全体的な物体形状を表す手法を提案  提案手法は従来手法と比較して、認識率の向上，計算量，計算時間，記憶コストの削減を実現今後の課題・距離空間ピラミッドの領域分割法の改良・それに対応する新たなプーリング手法の作成・部分領域間の関係性の利用・ロボットビジョンへの実装・実世界での実験ご清聴ありがとうございましたコード化処理（3/3） LLC （ Locality-constrained Linear Coding ）位置情報アダプタ： input : xi input : xi codebook Bag of Features input : xi codebook Sparse Coding codebook LLC 位置情報はスパース性よりも有用なので，位置情報に特化させて，入力の近傍の点で入力を表現する誤認識の原因 mushroom_1 mushroom_2 binder_1 food_box_6 food_box_7 mushroom_3 binder_2 food_box_8 binder_3 food_box_9 food_box_10 実験結果と考察（D-SIFT 込）実験結果(%) RGBD Methods ICRA11 Kernel d HMP HMP2 Proposed1 Proposed2 RGB 74.3±3.3 80.7±2.1 74.7±2.5 82.4±3.1 85.3±1.6 85.3±1.6 Category Depth 53.1±1.7 80.3±2.9 70.3±2.2 81.2±2.3 79.2±1.8 82.9±2.3 RGB-D 81.9±2.8 86.5±2.1 82.1±3.3 87.5±2.9 88.0±1.8 89.2±1.6 RGB 59.3 90.8 75.8 92.1 93.9 93.9 Instance Depth 32.3 54.7 39.8 51.7 50.6 42.5 RGB-D 73.9 91.2 78.9 92.8 94.3 94.2  考察  提案手法を用いることで，従来手法よりも認識率が向上した  RGB-Dの特徴量の次元：HMP2は188,300次元，提案手法は25,600次元よって，提案手法は計算量，計算時間，記憶コストの削減を達成している空間ピラミッド（Spatial Pyramid） Level 0 Level 1 Level 2 従来手法の問題点 5領域の内、4領域が無駄になる 3階層の場合は21領域のうち、20領域が無駄になる従来手法の問題点 5領域の内、4領域が無駄になる 3階層の場合は21領域のうち、20領域が無駄になる