Building text features for object image classification 福田考晃 はじめに • Wang, Hoiemらによって提案 [CVPR,2009] • なにをするものか? – 未知画像の既知カテゴリへの分類 • どのように? – 画像から得られる特徴 – テキストの特徴( flickr tag ) 組み合わせて利用 手法の流れ • 入力:未知画像 • 処理:2つの識別器を構築 – ビジュアル識別器 – テキスト識別器 • 出力:カテゴリ ビジュアル特徴 • 5つの特徴量を利用 – – – – – SIFT Gist カラーヒストグラム 勾配特徴 Unified特徴(上記4つをまとめたもの) Gist • 画像全体から得られる特徴量 強度 1. 画像を小領域に分割 2. 任意周波数,方向のGaborフィルタの応答算出 Gabor filter 周波数,方向 小領域に分割 Unified特徴の最適化 • 2枚を1組の画像対を利用 • Unified特徴 • 重みを変更し,以下の式を最小化 Si:画像対の関係を表す Si = 1 : 同じカテゴリの画像 Si = 0 : 異なるカテゴリの画像 :i番目の画像対のカイ2乗距離 手法の流れ • 入力:未知画像 • 処理:2つの識別器を構築 – ビジュアル識別器 – テキスト識別器 • 出力:カテゴリ インターネットから取得したデータセット • 画像テキスト間の関係 • 1,000,000枚のデータセット – 700,000枚 • 58カテゴリでflickrを検索 – PASCAL + Caltech 256カテゴリ – 300,000枚 • 以下からダウンロード 手法の流れ • 入力:未知画像 • 処理:2つの識別器を構築 – ビジュアル識別器 – テキスト識別器 • 出力:カテゴリ テキスト特徴 • Flickrデータセットから6000個 のタグとグループ名を抽出 • 手順 1. 画像入力 2. K – Nearest Neighborでk個 の画像をFlickrデータセット から取得 3. 取得した画像のタグとグ ループ名から特徴量算出 手法の流れ • 入力:未知画像 • 処理:2つの識別器を構築 – ビジュアル識別器 – テキスト識別器 • 出力:カテゴリ 識別器の構築 • ビジュアル識別器 • テキスト識別器 • SVMの利用 – カイ二乗カーネル • 特徴量をカイ2乗距離へ射影 K(x,y)= exp{-² (x,y)} ² (x,y) = i { (||xi-yi||) ² / ||xi+yi|| } • 識別器の統合 – ロジスティック回帰 • 検証用データセットを利用 実験 • 以下を確認 1. 2. 3. 4. 5. 異なるビジュアル特徴量におけるテキスト特徴の影響 テキスト特徴とビジュアル特徴の統合の影響 学習画像の影響 補助データセットの画像枚数の影響 カテゴリ名の影響 実験1 • 異なるビジュアル特徴におけるテキスト特徴の構築 – KNN精度に依存 • – ビジュアル特徴に依存 各特徴量の精度比較 • • カラーヒストグラムが低 Unifiedが高 実験2 • テキスト特徴とビジュアル特徴の統合の影響 – 互いが相互に作用 実験3 • 学習画像枚数の影響 – 画像数少 • テキスト特徴の影響大 – 画像数多 • テキスト特徴の影響小 – 最も高い利得 • テキストとビジュアルが一 致したとき 実験4 • 補助データセットの画像枚数 – 200,000〜600,000 • 精度上昇大 – 600,000〜1,000,000 • 精度上昇小 • 精度上昇 ≠ 枚数 実験5 • カテゴリ名の影響 • 実験対象 – カテゴリ名に類似したタグが存在する (W) – カテゴリ名に類似したタグが存在しない (WO) • 類似カテゴリの存在に依存しない おわりに • テキストの特徴 – Flickrのタグ,グループ名を利用 • • • • • Unified特徴量は有効に作用 テキスト識別器 + ビジュアル識別器 = 相互に作用 学習画像数が少ない時テキスト特徴の影響大 精度向上≠ 補助データセット枚数 カテゴリ名の影響はない
© Copyright 2025 ExpyDoc