CV-Reading Describing Objects by their Attributes 山内悠嗣 はじめに ٥ Describing Objects by their Attributes ٥ Ali Farhadi ٥ Ian Endres ٥ Derek Hoiem ٥ Photo Pop-up, Objects in Perspective ٥ David Forsyth ٥ Image annotation, Understanding Human Activity ٥ コンピュータビジョンの筆者 この物体は何か わからない ٥ 4本の脚がある ٥ 毛に覆われている ٥ 2本の角がある わからない ٥ 4本の脚がある ٥ 毛に覆われている ٥ 2本の角がある 属性(attribute) カテゴリの認識よりも,属性の識別をメインとした手法 応用先 提案手法 意味のある属性 ٥ 3種類の属性に分類 ٥ パーツ ٥ 目,角,車輪,窓,… ٥ 形状 ٥ 四角形,三角形,円形,水平,垂直,… ٥ 物質 ٥ 金属,木材,布,… 属性の例 形状: 垂直の円筒形状 パーツ: 翼, プロペラ, 窓, 車輪 材質: 金属,ガラス 形状: パーツ: 窓,車輪,ドア,ヘッドライト 材質: 金属,光沢がある 基本特徴量 ٥ Bag of Wordsのアプローチが基本 ٥ ベクトル量子化後にベクトル量子化ヒストグラムを作成 ٥ パーツ:Visual Word ٥ 多重解像度画像からHOG特徴量を抽出 ٥ K-meansにより1,000クラスタにベクトル量子化 ٥ 形状:エッジ ٥ 各ピクセルに対して勾配強度と方向を算出し,8方向にベクトル量子化 ٥ 材質:テクスチャ,カラー ٥ Texton特徴量 ٥ LAB色空間に変換し,k-meansにより128クラスタにベクトル量子化 入力画像を2×3に分割し,各領域ごとにベクトル量子化ヒストグラムを作成 データセット ٥ 用意するデータ ٥ 画像 ٥ 対象物体を囲う矩形 ٥ 属性 ٥ 作成したデータセット ٥ a-Pascal:PASCAL2008から主要な20カテゴリを使用 ٥ people, bird, cat, cow, dog, horse, sheep aeroplane, bicycle, boat, bus, car, motorbike,train, bottle, chair, dining table, potted plant, sofa, and tv/monitor. ٥ a-Yahoo:Yahoo画像検索より12カテゴリを収集 ٥ wolf, zebra, goat, donkey, monkey, statue of people, centaur, bag, building, jet ski, carriage, and mug.. 属性の付加 ٥ Amazon Mechanical Turk ٥ 依頼主がコンピュータ処理できない仕事,人間が向いている仕事を小額 の報酬と共にWeb上に依頼し,人間が仕事を行うシステム 属性の学習 ٥ 最もシンプルな学習方法 ٥ 属性1個に対して,全ての基本特徴量を用いて学習 “車輪”がある “車輪”がない 問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは,“車輪”の周りに“金属”が存在 “車輪”識別器を学習したいが, “金属”識別器になる可能性がある (“車輪”を捉える特徴量よりも, “金属”を捉える特徴量の方が良い場合に発生) 問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは,“車輪”の周りに“金属”が存在 “車輪”識別器を学習したいが, “金属”識別器になる可能性がある (“車輪”を捉える特徴量よりも, “金属”を捉える特徴量の方が良い場合に発生) 問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは,“車輪”の周りに“金属”が存在 “車輪”識別器を学習したいが, “金属”識別器になる可能性がある (“車輪”を捉える特徴量よりも, “金属”を捉える特徴量の方が良い場合に発生) “金属”がない “車輪”がない 問題点 ٥ 属性間の関係性が強い ٥ 多くのサンプルは,“車輪”の周りに“金属”が存在 “車輪”識別器を学習したいが, “金属”識別器になる可能性がある (“車輪”を捉える特徴量よりも, “金属”を捉える特徴量の方が良い場合に発生) “金属”がない “車輪”がない 属性の誤識別 = カテゴリ分類が困難 誤識別する属性を用いたカテゴリ認識例 ٥ 車,バイク,バス,電車のカテゴリ分類 ٥ “車輪”があり, “金属”に覆われている ٥ 車,バイク,バス ٥ “車輪”がなく, “金属”に覆われている ٥ 電車 “車輪”という属性は,車,バイク,バスと電車を区別不可能 ٥ 入力は画像と物体を囲う矩形 ٥ セグメンテーションされていない 相関関係の影響を受けない学習 ٥ 1クラスに着目した学習 ٥ 1つのクラスにおける“車輪”のあるサンプルと“車輪”のないサンプルを使用 ٥ L1-normを用いたロジスティック回帰による識別1)を利用した特徴選択 “車輪”あり vs. 車両における “車輪”識別器の特徴量 vs. ボートにおける “車輪”識別器の特徴量 vs. 飛行機における “車輪”識別器の特徴量 “車輪”なし 全てのカテゴリにおける “車輪”識別器の特徴量 1) Andrew Y. Ng, ``Feature selection, l1 vs. l2 regularization, and rotational invariance'‘, ICML, 2004 相関関係の影響を受けない学習 ٥ 1クラスに着目した学習 ٥ 1つのクラスにおける“車輪”のあるサンプルと“車輪”のないサンプルを使用 ٥ L1-normを用いたロジスティック回帰による識別1)を利用した特徴選択 “車輪”あり vs. 車両における “車輪”識別器の特徴量 vs. ボートにおける “車輪”識別器の特徴量 vs. 飛行機における “車輪”識別器の特徴量 “車輪”なし 全てのカテゴリにおける “車輪”識別器の特徴量 SVM 1) Andrew Y. Ng, ``Feature selection, l1 vs. l2 regularization, and rotational invariance'‘, ICML, 2004 2手法における相関関係の比較 ٥ “車輪”と“金属”の相関 ٥ a-Pascal,a-Yahooの正解ラベルを使用 ٥ a-Pascal:0.71 ٥ a-Yahoo:0.17 ٥ 全特徴量を使用する手法と特徴選択する提案手法の比較 ٥ 学習はa-Pascal,評価はa-Yahoo ٥ 識別結果の属性を用いた相関値を比較 ٥ 全特徴量:0.56 ٥ 特徴選択:0.28 評価実験 ٥ 属性の識別実験 ٥ 珍しい属性識別パターンの識別結果 ٥ 対象カテゴリにあるはずの属性 ٥ 対象カテゴリにないはずの属性 ٥ 上記の結果を用いた属性のローカライズ ٥ カテゴリ認識への応用 ٥ 属性を用いたカテゴリ認識 ٥ 少ない学習サンプルによる学習とその結果 ٥ 記述された属性のみを用いたカテゴリ認識 属性の識別結果 3種類に分類した属性の識別結果 a-Pascal a-Yahoo パーツ 材質 形状 0.794 0.726 0.739 0.645 0.739 0.677 属性識別結果の例1 属性識別結果の例2 属性識別結果の例2 評価実験 ٥ 属性の識別実験 ٥ 珍しい属性識別パターンの識別結果 ٥ 対象カテゴリにあるはずの属性 ٥ 対象カテゴリにないはずの属性 ٥ 上記の結果を用いた属性のローカライズ ٥ カテゴリ認識への応用 ٥ 属性を用いたカテゴリ認識 ٥ 少ない学習サンプルによる学習とその結果 ٥ 記述された属性のみを用いたカテゴリ認識 珍しい属性識別パターンの識別結果 ٥ カテゴリと属性は強い相関 ٥ あるはずの属性が無い場合 ٥ ないはずの属性がある場合 珍しい属性として識別し,出力することが可能 存在するはずの属性がないとして出力 存在しないはずの属性がないとして出力 属性識別結果の応用 ٥ 鳥と“葉”の関係 ٥ 鳥そのものには“葉”という属性は付加されない 鳥が“葉”の近くにいる 属性のローカライズが可能 属性のローカライズ 珍しい属性のローカライズ 評価実験 ٥ 属性の識別実験 ٥ 珍しい属性識別パターンの識別結果 ٥ 対象カテゴリにあるはずの属性 ٥ 対象カテゴリにないはずの属性 ٥ 上記の結果を用いた属性のローカライズ ٥ カテゴリ認識への応用 ٥ 属性を用いたカテゴリ認識 ٥ 少ない学習サンプルによる学習とその結果 ٥ 記述された属性のみを用いたカテゴリ認識 カテゴリ認識の流れ 属性 カテゴリ認識 ٥ 識別した属性を特徴量として学習に利用 ٥ SVMもしくはロジスティック回帰により学習(1対多) ٥ 識別結果 ٥ ほぼ同等(ただし,属性を使用する手法は物体を囲う矩形も入力) ٥ 結果の傾向 ٥ 提案手法が得意:バイクと人 ٥ 提案手法が苦手:ソファと椅子 基本特徴量 意味ある 属性 全属性 クラス毎の識別精度の平均 58.5% 54.6% 59.4% サンプル毎の識別精度の平均 35.5% 28.4% 37.7% PASCAL 2008 少数サンプルと属性 ٥ サンプルが少ない学習 ٥ 判別モデル(SVM) → 生成モデル(ニアレストネイバー(NN)) おわりに ٥ 物体の属性を識別とその応用法を提案 ٥ 属性を識別する手法自体はシンプル ٥ 特徴量→認識の中間表現として属性を利用 ٥ 他にも多数の応用先がある 認知額からの観点 ٥ 人間の記憶 ٥ 人間の記憶は長期記憶と短期記憶に分類 ٥ 長期記憶にはエピソード記憶と意味記憶に分類 ٥ エピソード記憶:経験したエピソードに関する記憶 ٥ 意味記憶:文脈が特定できない記憶,知識 ٥ 意味を記憶する辞書:心内辞書 ٥ 意味の検索:意味記憶階層ネットワークモデル[1969 Collins A.] 意味記憶の階層ネットワークモデル ٥ カテゴリと意味の検索にされている可能性がある ٥ 属性からカテゴリの検索 もしくは カテゴリから属性の検索 ٥ 離れるほど検索に時間が必要であることが実験により証明 概念 レベル 2 動物 レベル 1 レベル 0 鳥 カナリヤ さえずる 黄色 翼がある 飛ぶ ・・・ ダチョウ ・・・ 皮膚がある 食べる ・・・ 足長 背が高い ・・・ 凶暴 魚 サメ かみつく ・・・ 属性 ひれがある 泳ぐ ・・・ サケ ピンク色 川をのぼる ・・・ 認知額からの観点 ٥ 人間の記憶 ٥ 人間の記憶は長期記憶と短期記憶に分類 ٥ 長期記憶にはエピソード記憶と意味記憶に分類 ٥ エピソード記憶:経験したエピソードに関する記憶 ٥ 意味記憶:文脈が特定できない記憶,知識 ٥ 意味を記憶する辞書:心内辞書 ٥ 意味の検索:意味記憶階層ネットワークモデル 視覚情報 単純な特徴量 カテゴリ 視覚情報 単純な特徴量 複合的な特徴量 カテゴリ 視覚情報 単純な特徴量 複合的な特徴量 意味 (属性) カテゴリ 意味記憶階層ネットワークモデルに基づくカテゴリ認識 ٥ カテゴリと意味(属性)の階層ネットワークの構築 ٥ 自動構築: ٥ 追加サンプルによる再構築:人間と同じように対話型 ٥ 進化(最適化):GA ٥ 意味記憶階層ネットワークモデルを用いたカテゴリ認識(検索) ٥ 意味という中間表現方法に適した認識(検索)方法 ٥ 大量カテゴリの認識 ٥ 従来の方法では表現不可能(メモリの使用量の点において)
© Copyright 2025 ExpyDoc