テクスチャ情報に基づく画像内の物体認識と抽出 - 信州大学・工学部

テクスチャ情報に基づく画像内の物体認識と抽出
信州大学工学部情報工学科 丸山・宮尾研究室
学部 4 年 08T5051E 染谷昌史
1 はじめに
近年、デジタルカメラの普及に伴い、大量の画像
を扱う機会が多くなってきている。しかし、人間の手
によりこれらの画像を被写体に基づいて分類するこ
とは多大な時間を要するため困難なものとなってい
る。そこで計算機により画像内の物体を認識させるこ
とで、計算機による画像分類が可能になると考えら
れる。画像中の物体認識及び領域抽出には、色、
エッジ、テクスチャなどの情報を用いることが有用で
あると知られているが、テクスチャ情報を用いる際は、
多数のフィルターに対する出力を特徴量とする手法
(filter bank)がよく用いられる。しかし、filter bank
に代わるテクスチャ認識の手法として、注目画素の
周囲の輝度値そのものを特徴量とする手法が提案さ
れている[1]。本研究ではこの輝度値分布に基づく
手法を、物体認識、抽出に適用し、その有効性を検
証する。
2 テクスチャの表現方法
テクスチャ情報を扱う際、、本研究ではピクセルの
輝度を使用する方式と、RGB 値を使用する方式の
2 通りを定義する。ピクセル輝度を使用する特徴量
では注目画素と周囲の画素の輝度値を並べたもの
を特徴ベクトルとして定義する。RGB 値を使用する
特徴量では注目画素と周囲の画素の R 値、G 値、
B 値を並べたものを特徴ベクトルとして定義する。図
1 に特徴ベクトルを取得するウィンドウの大きさを n、
注目画素の位置を x,y としたとき、n=3 で特徴ベクト
ル要素の取得順序を示す。
クラスタ Gi(1≦i≦k)に分割し、代表となる特徴ベクト
ル mi を求める。識別モデルは代表となる特徴ベクト
ルのヒストグラム h(mi)で表現される。mi,h(mi)は下
記の式で定義される。
∣G i∣
mi =
1
∑ x ( x ∈G )
G
∣ i∣ j=1 j j i
h(m i )=
∣G i∣
∣S∣
上述の処理を学習画像ごとに行うことで学習画像ご
とに識別モデルとなるヒストグラムを作成する。
図 2 学習画像から特徴ベクトルを取得
4 識別モデルの適用
画像内の物体認識・抽出の際は、ウィンドウを定義
し、そのウィンドウ領域内から作成するヒストグラムと
識別モデルのヒストグラムの類似度を測ることで認識
を行う。ウィンドウと部分ウィンドウの位置関係を図 3
に示す。黄色矩形が W×W のウィンドウを表し、緑
色矩形が n×n の部分ウィンドウを表す。部分ウィンド
ウをウィンドウ内で移動させることで特徴ベクトル集
合を得る。得られた特徴ベクトルは識別モデルの特
徴ベクトル mi でベクトル量子化を行う。これをすべ
ての識別モデルに適用することで識別モデルの特
徴ベクトルに基づくヒストグラムが生成される。生成さ
れたヒストグラムは特徴ベクトルの総数で除算し、正
規化を行う。これにより、W×W のウィンドウ内で識
別モデルの個数分のヒストグラムが生成される。生成
されたヒストグラムと識別モデルのヒストグラムの類似
度は下記の式で定義される。
k
simlarity=∑ min( h(m i ), t (m i ))
i =1
図 1 特徴ベクトルの要素の取得順序
3 識別モデルの構築
画像中の物体に対して認識・領域抽出を行うため
に、認識対象の物体が所属するクラスに対して識別
モデルを構築する。識別モデルは学習画像とマスク
の画像を用意し、マスクに相当する領域から特徴ベ
クトル x を収集する。学習画像から特徴ベクトルを取
得する様子を図 2 に示す。収集された特徴ベクトル
集合 S に k-means 法を適用することで S を k 個の
h(mi)は識別モデルのヒストグラムを表し、t(mi)は矩
形領域内で生成されたヒストグラムを表している。上
記の式により計算される類似度の内、最大となる識
別モデルを着目している矩形領域の認識クラスとす
る。
図 3 ウィンドウと部分ウィンドウの位置関係
5 実験
5.1 実験内容の説明
ピクセル輝度による特徴量を使用した方式と RGB
値による特徴量を使用した方式を用いた評価実験
を行った。使用するデータは Caltech101[2]より
accordion,bass,beaver,Leopards,trilobite の 5 ク
ラスの画像を使用した。学習には各クラスの画像を
30 枚ずつ、認識には 10 枚ずつ使用した。認識結
果を評価するために用いる正解画像は、認識に用
いる画像をラベル付けすることで用意した。認識の
際に作成するヒストグラムと、識別モデルのヒストグラ
ム間で類似度を算出するが、類似度の最大値が 0.8
に達しない領域は学習したクラスで認識できないも
のとして background と認識するものとした。
5.2 実験結果の定量的評価方法
実験結果を定量的に評価する方法として、Pascal
Visual Object Classes Challenge の
Segmentation 部門に準ずる評価式を使用する。評
価式は下記の式で与えられる。
accuracy =
true pos.
true pos.+ false neg.+ false pos.
true pos は、認識をした結果、正しかったことを示す。
false neg は、認識をしなかった結果、誤っていたこ
とを示す。false pos は、認識した結果、誤っていた
ことを示す。認識結果画像を predicted、正解画像
を ground truth としたとき、true pos, false neg,
false pos の位置関係を図 4 に示す。クラスごとに
true pos, false neg, false pos なピクセル数をそれ
ぞれ求めることでクラスの accuracy を計算する。ク
ラスの accuracy を平均したものを全体の accuracy
比較すると、RGB 値を用いることで領域抽出精度
が上がったクラスも存在したが、領域抽出精度が下
がったクラスも存在した。平均では領域抽出精度の
差異は小さいものとなり、単純に RGB 値を導入した
だけでは輝度値を使用する方式とテクスチャの表現
力の差異は小さいことがわかった。
6 まとめ
本研究ではテクスチャ情報に着目し、画像中の物
体認識・抽出を試みた。しかし、テクスチャ情報のみ
では精度の高い認識結果を得ることができなかった。
精度の高い認識を行うためには、テクスチャ以外の
識別尺度と、新たな手法を検討する必要がある。
表 1 実験結果
領域抽出の正確性(%)
クラス名
ピクセル輝度による特徴量
RGB 値による特徴量
mean
22.47
22.68
background
70.73
69.86
accordion
16.92
16.02
bass
13.06
14.95
beaver
13.87
10.98
Leopards
4.34
4.64
trilobite
15.87
19.60
図 5 色とクラスの対応
とする。
図 4 true pos, false pos, false neg の位置関係
5.3 実験結果と考察
k-means の k のサイズを 10、特徴ベクトルを取得
する部分ウィンドウ n×n のサイズを 3×3, 認識時に
使用するウィンドウ W×W のサイズを 71×71 と設定
したときの結果を表 1、図 6 に示す。なお、mean は
各クラスの領域抽出の正確性の平均を示す。図 5
は色が意味するクラスの対応を表す。ピクセル輝度
を用いる方式と RGB 値を用いる方式で実験結果を
図 6 領域抽出の精度が高かった例と低かった例。
左より入力画像、正解画像、ピクセル輝度を用いた
方式、RGB 値を用いた方式
参考文献
[1], M.Varma, A.Zisserman, “Texture Classification:
Are Filter Banks necessary?” Proc.CVPR 2003,
pp691-698, 2003.
[2], Caltech101
http://www.vision.caltech.edu/Image_Datasets/Caltec
h101/