テクスチャ情報に基づく画像内の物体認識と抽出 信州大学工学部情報工学科 丸山・宮尾研究室 学部 4 年 08T5051E 染谷昌史 1 はじめに 近年、デジタルカメラの普及に伴い、大量の画像 を扱う機会が多くなってきている。しかし、人間の手 によりこれらの画像を被写体に基づいて分類するこ とは多大な時間を要するため困難なものとなってい る。そこで計算機により画像内の物体を認識させるこ とで、計算機による画像分類が可能になると考えら れる。画像中の物体認識及び領域抽出には、色、 エッジ、テクスチャなどの情報を用いることが有用で あると知られているが、テクスチャ情報を用いる際は、 多数のフィルターに対する出力を特徴量とする手法 (filter bank)がよく用いられる。しかし、filter bank に代わるテクスチャ認識の手法として、注目画素の 周囲の輝度値そのものを特徴量とする手法が提案さ れている[1]。本研究ではこの輝度値分布に基づく 手法を、物体認識、抽出に適用し、その有効性を検 証する。 2 テクスチャの表現方法 テクスチャ情報を扱う際、、本研究ではピクセルの 輝度を使用する方式と、RGB 値を使用する方式の 2 通りを定義する。ピクセル輝度を使用する特徴量 では注目画素と周囲の画素の輝度値を並べたもの を特徴ベクトルとして定義する。RGB 値を使用する 特徴量では注目画素と周囲の画素の R 値、G 値、 B 値を並べたものを特徴ベクトルとして定義する。図 1 に特徴ベクトルを取得するウィンドウの大きさを n、 注目画素の位置を x,y としたとき、n=3 で特徴ベクト ル要素の取得順序を示す。 クラスタ Gi(1≦i≦k)に分割し、代表となる特徴ベクト ル mi を求める。識別モデルは代表となる特徴ベクト ルのヒストグラム h(mi)で表現される。mi,h(mi)は下 記の式で定義される。 ∣G i∣ mi = 1 ∑ x ( x ∈G ) G ∣ i∣ j=1 j j i h(m i )= ∣G i∣ ∣S∣ 上述の処理を学習画像ごとに行うことで学習画像ご とに識別モデルとなるヒストグラムを作成する。 図 2 学習画像から特徴ベクトルを取得 4 識別モデルの適用 画像内の物体認識・抽出の際は、ウィンドウを定義 し、そのウィンドウ領域内から作成するヒストグラムと 識別モデルのヒストグラムの類似度を測ることで認識 を行う。ウィンドウと部分ウィンドウの位置関係を図 3 に示す。黄色矩形が W×W のウィンドウを表し、緑 色矩形が n×n の部分ウィンドウを表す。部分ウィンド ウをウィンドウ内で移動させることで特徴ベクトル集 合を得る。得られた特徴ベクトルは識別モデルの特 徴ベクトル mi でベクトル量子化を行う。これをすべ ての識別モデルに適用することで識別モデルの特 徴ベクトルに基づくヒストグラムが生成される。生成さ れたヒストグラムは特徴ベクトルの総数で除算し、正 規化を行う。これにより、W×W のウィンドウ内で識 別モデルの個数分のヒストグラムが生成される。生成 されたヒストグラムと識別モデルのヒストグラムの類似 度は下記の式で定義される。 k simlarity=∑ min( h(m i ), t (m i )) i =1 図 1 特徴ベクトルの要素の取得順序 3 識別モデルの構築 画像中の物体に対して認識・領域抽出を行うため に、認識対象の物体が所属するクラスに対して識別 モデルを構築する。識別モデルは学習画像とマスク の画像を用意し、マスクに相当する領域から特徴ベ クトル x を収集する。学習画像から特徴ベクトルを取 得する様子を図 2 に示す。収集された特徴ベクトル 集合 S に k-means 法を適用することで S を k 個の h(mi)は識別モデルのヒストグラムを表し、t(mi)は矩 形領域内で生成されたヒストグラムを表している。上 記の式により計算される類似度の内、最大となる識 別モデルを着目している矩形領域の認識クラスとす る。 図 3 ウィンドウと部分ウィンドウの位置関係 5 実験 5.1 実験内容の説明 ピクセル輝度による特徴量を使用した方式と RGB 値による特徴量を使用した方式を用いた評価実験 を行った。使用するデータは Caltech101[2]より accordion,bass,beaver,Leopards,trilobite の 5 ク ラスの画像を使用した。学習には各クラスの画像を 30 枚ずつ、認識には 10 枚ずつ使用した。認識結 果を評価するために用いる正解画像は、認識に用 いる画像をラベル付けすることで用意した。認識の 際に作成するヒストグラムと、識別モデルのヒストグラ ム間で類似度を算出するが、類似度の最大値が 0.8 に達しない領域は学習したクラスで認識できないも のとして background と認識するものとした。 5.2 実験結果の定量的評価方法 実験結果を定量的に評価する方法として、Pascal Visual Object Classes Challenge の Segmentation 部門に準ずる評価式を使用する。評 価式は下記の式で与えられる。 accuracy = true pos. true pos.+ false neg.+ false pos. true pos は、認識をした結果、正しかったことを示す。 false neg は、認識をしなかった結果、誤っていたこ とを示す。false pos は、認識した結果、誤っていた ことを示す。認識結果画像を predicted、正解画像 を ground truth としたとき、true pos, false neg, false pos の位置関係を図 4 に示す。クラスごとに true pos, false neg, false pos なピクセル数をそれ ぞれ求めることでクラスの accuracy を計算する。ク ラスの accuracy を平均したものを全体の accuracy 比較すると、RGB 値を用いることで領域抽出精度 が上がったクラスも存在したが、領域抽出精度が下 がったクラスも存在した。平均では領域抽出精度の 差異は小さいものとなり、単純に RGB 値を導入した だけでは輝度値を使用する方式とテクスチャの表現 力の差異は小さいことがわかった。 6 まとめ 本研究ではテクスチャ情報に着目し、画像中の物 体認識・抽出を試みた。しかし、テクスチャ情報のみ では精度の高い認識結果を得ることができなかった。 精度の高い認識を行うためには、テクスチャ以外の 識別尺度と、新たな手法を検討する必要がある。 表 1 実験結果 領域抽出の正確性(%) クラス名 ピクセル輝度による特徴量 RGB 値による特徴量 mean 22.47 22.68 background 70.73 69.86 accordion 16.92 16.02 bass 13.06 14.95 beaver 13.87 10.98 Leopards 4.34 4.64 trilobite 15.87 19.60 図 5 色とクラスの対応 とする。 図 4 true pos, false pos, false neg の位置関係 5.3 実験結果と考察 k-means の k のサイズを 10、特徴ベクトルを取得 する部分ウィンドウ n×n のサイズを 3×3, 認識時に 使用するウィンドウ W×W のサイズを 71×71 と設定 したときの結果を表 1、図 6 に示す。なお、mean は 各クラスの領域抽出の正確性の平均を示す。図 5 は色が意味するクラスの対応を表す。ピクセル輝度 を用いる方式と RGB 値を用いる方式で実験結果を 図 6 領域抽出の精度が高かった例と低かった例。 左より入力画像、正解画像、ピクセル輝度を用いた 方式、RGB 値を用いた方式 参考文献 [1], M.Varma, A.Zisserman, “Texture Classification: Are Filter Banks necessary?” Proc.CVPR 2003, pp691-698, 2003. [2], Caltech101 http://www.vision.caltech.edu/Image_Datasets/Caltec h101/
© Copyright 2025 ExpyDoc