Building text features for object image

Building text features for object image
classification
福田考晃
はじめに
• Wang, Hoiemらによって提案 [CVPR,2009]
• なにをするものか?
– 未知画像の既知カテゴリへの分類
• どのように?
– 画像から得られる特徴
– テキストの特徴( flickr tag )
組み合わせて利用
手法の流れ
• 入力:未知画像
• 処理:2つの識別器を構築
– ビジュアル識別器
– テキスト識別器
• 出力:カテゴリ
ビジュアル特徴
• 5つの特徴量を利用
–
–
–
–
–
SIFT
Gist
カラーヒストグラム
勾配特徴
Unified特徴(上記4つをまとめたもの)
Gist
• 画像全体から得られる特徴量
強度
1. 画像を小領域に分割
2. 任意周波数,方向のGaborフィルタの応答算出
Gabor
filter
周波数,方向
小領域に分割
Unified特徴の最適化
• 2枚を1組の画像対を利用
• Unified特徴
• 重みを変更し,以下の式を最小化
Si:画像対の関係を表す
Si = 1 : 同じカテゴリの画像
Si = 0 : 異なるカテゴリの画像
:i番目の画像対のカイ2乗距離
手法の流れ
• 入力:未知画像
• 処理:2つの識別器を構築
– ビジュアル識別器
– テキスト識別器
• 出力:カテゴリ
インターネットから取得したデータセット
• 画像テキスト間の関係
• 1,000,000枚のデータセット
– 700,000枚
• 58カテゴリでflickrを検索
– PASCAL + Caltech 256カテゴリ
– 300,000枚
• 以下からダウンロード
手法の流れ
• 入力:未知画像
• 処理:2つの識別器を構築
– ビジュアル識別器
– テキスト識別器
• 出力:カテゴリ
テキスト特徴
• Flickrデータセットから6000個
のタグとグループ名を抽出
• 手順
1. 画像入力
2. K – Nearest Neighborでk個
の画像をFlickrデータセット
から取得
3. 取得した画像のタグとグ
ループ名から特徴量算出
手法の流れ
• 入力:未知画像
• 処理:2つの識別器を構築
– ビジュアル識別器
– テキスト識別器
• 出力:カテゴリ
識別器の構築
• ビジュアル識別器
• テキスト識別器
• SVMの利用
– カイ二乗カーネル
• 特徴量をカイ2乗距離へ射影
K(x,y)= exp{-² (x,y)}
² (x,y) = i { (||xi-yi||) ² / ||xi+yi|| }
• 識別器の統合
– ロジスティック回帰
• 検証用データセットを利用
実験
•
以下を確認
1.
2.
3.
4.
5.
異なるビジュアル特徴量におけるテキスト特徴の影響
テキスト特徴とビジュアル特徴の統合の影響
学習画像の影響
補助データセットの画像枚数の影響
カテゴリ名の影響
実験1
•
異なるビジュアル特徴におけるテキスト特徴の構築
–
KNN精度に依存
•
–
ビジュアル特徴に依存
各特徴量の精度比較
•
•
カラーヒストグラムが低
Unifiedが高
実験2
• テキスト特徴とビジュアル特徴の統合の影響
– 互いが相互に作用
実験3
• 学習画像枚数の影響
– 画像数少
• テキスト特徴の影響大
– 画像数多
• テキスト特徴の影響小
– 最も高い利得
• テキストとビジュアルが一
致したとき
実験4
• 補助データセットの画像枚数
– 200,000〜600,000
• 精度上昇大
– 600,000〜1,000,000
• 精度上昇小
• 精度上昇 ≠ 枚数
実験5
• カテゴリ名の影響
• 実験対象
– カテゴリ名に類似したタグが存在する (W)
– カテゴリ名に類似したタグが存在しない (WO)
• 類似カテゴリの存在に依存しない
おわりに
• テキストの特徴
– Flickrのタグ,グループ名を利用
•
•
•
•
•
Unified特徴量は有効に作用
テキスト識別器 + ビジュアル識別器 = 相互に作用
学習画像数が少ない時テキスト特徴の影響大
精度向上≠ 補助データセット枚数
カテゴリ名の影響はない