アピアランスとモーションに基づく人検出

CV-Reading
Describing Objects by their Attributes
山内悠嗣
はじめに
٥ Describing Objects by their Attributes
٥ Ali Farhadi
٥ Ian Endres
٥ Derek Hoiem
٥ Photo Pop-up, Objects in Perspective
٥ David Forsyth
٥ Image annotation, Understanding Human Activity
٥ コンピュータビジョンの筆者
この物体は何か
わからない
٥ 4本の脚がある
٥ 毛に覆われている
٥ 2本の角がある
わからない
٥ 4本の脚がある
٥ 毛に覆われている
٥ 2本の角がある
属性(attribute)
カテゴリの認識よりも,属性の識別をメインとした手法
応用先
提案手法
意味のある属性
٥ 3種類の属性に分類
٥ パーツ
٥ 目,角,車輪,窓,…
٥ 形状
٥ 四角形,三角形,円形,水平,垂直,…
٥ 物質
٥ 金属,木材,布,…
属性の例
形状: 垂直の円筒形状
パーツ: 翼, プロペラ, 窓, 車輪
材質: 金属,ガラス
形状:
パーツ: 窓,車輪,ドア,ヘッドライト
材質: 金属,光沢がある
基本特徴量
٥ Bag of Wordsのアプローチが基本
٥ ベクトル量子化後にベクトル量子化ヒストグラムを作成
٥ パーツ:Visual Word
٥ 多重解像度画像からHOG特徴量を抽出
٥ K-meansにより1,000クラスタにベクトル量子化
٥ 形状:エッジ
٥ 各ピクセルに対して勾配強度と方向を算出し,8方向にベクトル量子化
٥ 材質:テクスチャ,カラー
٥ Texton特徴量
٥ LAB色空間に変換し,k-meansにより128クラスタにベクトル量子化
入力画像を2×3に分割し,各領域ごとにベクトル量子化ヒストグラムを作成
データセット
٥ 用意するデータ
٥ 画像
٥ 対象物体を囲う矩形
٥ 属性
٥ 作成したデータセット
٥ a-Pascal:PASCAL2008から主要な20カテゴリを使用
٥ people, bird, cat, cow, dog, horse, sheep aeroplane, bicycle,
boat, bus, car, motorbike,train, bottle, chair, dining table, potted
plant, sofa, and tv/monitor.
٥ a-Yahoo:Yahoo画像検索より12カテゴリを収集
٥ wolf, zebra, goat, donkey, monkey, statue of people, centaur,
bag, building, jet ski, carriage, and mug..
属性の付加
٥ Amazon Mechanical Turk
٥ 依頼主がコンピュータ処理できない仕事,人間が向いている仕事を小額
の報酬と共にWeb上に依頼し,人間が仕事を行うシステム
属性の学習
٥ 最もシンプルな学習方法
٥ 属性1個に対して,全ての基本特徴量を用いて学習
“車輪”がある
“車輪”がない
問題点
٥ 属性間の関係性が強い
٥ 多くのサンプルは,“車輪”の周りに“金属”が存在
“車輪”識別器を学習したいが, “金属”識別器になる可能性がある
(“車輪”を捉える特徴量よりも, “金属”を捉える特徴量の方が良い場合に発生)
問題点
٥ 属性間の関係性が強い
٥ 多くのサンプルは,“車輪”の周りに“金属”が存在
“車輪”識別器を学習したいが, “金属”識別器になる可能性がある
(“車輪”を捉える特徴量よりも, “金属”を捉える特徴量の方が良い場合に発生)
問題点
٥ 属性間の関係性が強い
٥ 多くのサンプルは,“車輪”の周りに“金属”が存在
“車輪”識別器を学習したいが, “金属”識別器になる可能性がある
(“車輪”を捉える特徴量よりも, “金属”を捉える特徴量の方が良い場合に発生)
“金属”がない
“車輪”がない
問題点
٥ 属性間の関係性が強い
٥ 多くのサンプルは,“車輪”の周りに“金属”が存在
“車輪”識別器を学習したいが, “金属”識別器になる可能性がある
(“車輪”を捉える特徴量よりも, “金属”を捉える特徴量の方が良い場合に発生)
“金属”がない
“車輪”がない
属性の誤識別 = カテゴリ分類が困難
誤識別する属性を用いたカテゴリ認識例
٥ 車,バイク,バス,電車のカテゴリ分類
٥ “車輪”があり, “金属”に覆われている
٥ 車,バイク,バス
٥ “車輪”がなく, “金属”に覆われている
٥ 電車
“車輪”という属性は,車,バイク,バスと電車を区別不可能
٥ 入力は画像と物体を囲う矩形
٥ セグメンテーションされていない
相関関係の影響を受けない学習
٥ 1クラスに着目した学習
٥ 1つのクラスにおける“車輪”のあるサンプルと“車輪”のないサンプルを使用
٥ L1-normを用いたロジスティック回帰による識別1)を利用した特徴選択
“車輪”あり
vs.
車両における
“車輪”識別器の特徴量
vs.
ボートにおける
“車輪”識別器の特徴量
vs.
飛行機における
“車輪”識別器の特徴量
“車輪”なし
全てのカテゴリにおける
“車輪”識別器の特徴量
1) Andrew Y. Ng, ``Feature selection, l1 vs. l2 regularization, and rotational invariance'‘, ICML, 2004
相関関係の影響を受けない学習
٥ 1クラスに着目した学習
٥ 1つのクラスにおける“車輪”のあるサンプルと“車輪”のないサンプルを使用
٥ L1-normを用いたロジスティック回帰による識別1)を利用した特徴選択
“車輪”あり
vs.
車両における
“車輪”識別器の特徴量
vs.
ボートにおける
“車輪”識別器の特徴量
vs.
飛行機における
“車輪”識別器の特徴量
“車輪”なし
全てのカテゴリにおける
“車輪”識別器の特徴量
SVM
1) Andrew Y. Ng, ``Feature selection, l1 vs. l2 regularization, and rotational invariance'‘, ICML, 2004
2手法における相関関係の比較
٥ “車輪”と“金属”の相関
٥ a-Pascal,a-Yahooの正解ラベルを使用
٥ a-Pascal:0.71
٥ a-Yahoo:0.17
٥ 全特徴量を使用する手法と特徴選択する提案手法の比較
٥ 学習はa-Pascal,評価はa-Yahoo
٥ 識別結果の属性を用いた相関値を比較
٥ 全特徴量:0.56
٥ 特徴選択:0.28
評価実験
٥ 属性の識別実験
٥ 珍しい属性識別パターンの識別結果
٥ 対象カテゴリにあるはずの属性
٥ 対象カテゴリにないはずの属性
٥ 上記の結果を用いた属性のローカライズ
٥ カテゴリ認識への応用
٥ 属性を用いたカテゴリ認識
٥ 少ない学習サンプルによる学習とその結果
٥ 記述された属性のみを用いたカテゴリ認識
属性の識別結果
3種類に分類した属性の識別結果
a-Pascal
a-Yahoo
パーツ
材質
形状
0.794
0.726
0.739
0.645
0.739
0.677
属性識別結果の例1
属性識別結果の例2
属性識別結果の例2
評価実験
٥ 属性の識別実験
٥ 珍しい属性識別パターンの識別結果
٥ 対象カテゴリにあるはずの属性
٥ 対象カテゴリにないはずの属性
٥ 上記の結果を用いた属性のローカライズ
٥ カテゴリ認識への応用
٥ 属性を用いたカテゴリ認識
٥ 少ない学習サンプルによる学習とその結果
٥ 記述された属性のみを用いたカテゴリ認識
珍しい属性識別パターンの識別結果
٥ カテゴリと属性は強い相関
٥ あるはずの属性が無い場合
٥ ないはずの属性がある場合
珍しい属性として識別し,出力することが可能
存在するはずの属性がないとして出力
存在しないはずの属性がないとして出力
属性識別結果の応用
٥ 鳥と“葉”の関係
٥ 鳥そのものには“葉”という属性は付加されない
鳥が“葉”の近くにいる
属性のローカライズが可能
属性のローカライズ
珍しい属性のローカライズ
評価実験
٥ 属性の識別実験
٥ 珍しい属性識別パターンの識別結果
٥ 対象カテゴリにあるはずの属性
٥ 対象カテゴリにないはずの属性
٥ 上記の結果を用いた属性のローカライズ
٥ カテゴリ認識への応用
٥ 属性を用いたカテゴリ認識
٥ 少ない学習サンプルによる学習とその結果
٥ 記述された属性のみを用いたカテゴリ認識
カテゴリ認識の流れ
属性
カテゴリ認識
٥ 識別した属性を特徴量として学習に利用
٥ SVMもしくはロジスティック回帰により学習(1対多)
٥ 識別結果
٥ ほぼ同等(ただし,属性を使用する手法は物体を囲う矩形も入力)
٥ 結果の傾向
٥ 提案手法が得意:バイクと人
٥ 提案手法が苦手:ソファと椅子
基本特徴量
意味ある
属性
全属性
クラス毎の識別精度の平均
58.5%
54.6%
59.4%
サンプル毎の識別精度の平均
35.5%
28.4%
37.7%
PASCAL 2008
少数サンプルと属性
٥ サンプルが少ない学習
٥ 判別モデル(SVM) → 生成モデル(ニアレストネイバー(NN))
おわりに
٥ 物体の属性を識別とその応用法を提案
٥ 属性を識別する手法自体はシンプル
٥ 特徴量→認識の中間表現として属性を利用
٥ 他にも多数の応用先がある
認知額からの観点
٥ 人間の記憶
٥ 人間の記憶は長期記憶と短期記憶に分類
٥ 長期記憶にはエピソード記憶と意味記憶に分類
٥ エピソード記憶:経験したエピソードに関する記憶
٥ 意味記憶:文脈が特定できない記憶,知識
٥ 意味を記憶する辞書:心内辞書
٥ 意味の検索:意味記憶階層ネットワークモデル[1969 Collins A.]
意味記憶の階層ネットワークモデル
٥ カテゴリと意味の検索にされている可能性がある
٥ 属性からカテゴリの検索 もしくは カテゴリから属性の検索
٥ 離れるほど検索に時間が必要であることが実験により証明
概念
レベル 2
動物
レベル 1
レベル 0
鳥
カナリヤ
さえずる 黄色
翼がある
飛ぶ
・・・
ダチョウ
・・・
皮膚がある
食べる
・・・
足長 背が高い ・・・ 凶暴
魚
サメ
かみつく ・・・
属性
ひれがある
泳ぐ
・・・
サケ
ピンク色 川をのぼる ・・・
認知額からの観点
٥ 人間の記憶
٥ 人間の記憶は長期記憶と短期記憶に分類
٥ 長期記憶にはエピソード記憶と意味記憶に分類
٥ エピソード記憶:経験したエピソードに関する記憶
٥ 意味記憶:文脈が特定できない記憶,知識
٥ 意味を記憶する辞書:心内辞書
٥ 意味の検索:意味記憶階層ネットワークモデル
視覚情報
単純な特徴量
カテゴリ
視覚情報
単純な特徴量
複合的な特徴量
カテゴリ
視覚情報
単純な特徴量
複合的な特徴量
意味
(属性)
カテゴリ
意味記憶階層ネットワークモデルに基づくカテゴリ認識
٥ カテゴリと意味(属性)の階層ネットワークの構築
٥ 自動構築:
٥ 追加サンプルによる再構築:人間と同じように対話型
٥ 進化(最適化):GA
٥ 意味記憶階層ネットワークモデルを用いたカテゴリ認識(検索)
٥ 意味という中間表現方法に適した認識(検索)方法
٥ 大量カテゴリの認識
٥ 従来の方法では表現不可能(メモリの使用量の点において)