Semantic Based Image Retrieval: A Probabilistic Approach Proc. of ACM Multimedia 2000, pp 167-176, 2000 Ben Bradshaw 論文紹介者:久保 正明 Contents Content-based Image Retrieval Overview Extracting Feature Vector • Colour extraction • Texture Extraction Probabilistic Labelling Results • Natural/Man-made • Inside/Outside Image Retrieval Application SUMMARY Content-based Image Retrieval Low-Level Features (First generation) • QBIC(M.Flickner et al,”Intelligent Multimedia Information Retrieval, chapter Query by image and video content: The QBIC system”,pp 8-22.AAAI Press, 1977) • Virage(A.Gupta et al,”Visual information retrieval”,Communication of the ACM, 40(5):71-79,1997) • VisualSEEK(J.Smith et al,”Intelligent Multimedia Information Retrieval, chapter Querying by colour regions using the VisualSEEK content-based visual query system”,pp 23-41, AAAI Press, 1997) • ユーザが検索したい特徴量を指定できる • 現在はユーザがクエリーを考案する助けにはならないと認識されて いる どの特徴量を使えばよいか決定することが困難 Query by Example (Second generation) • Texture of texture(J.S.DeBonet,”Novel statistical multiresolution techniques for image synthesis, discrimnation and recognition”. Master’s thesis, M.I.T. Learning and Vision Group, AI Lab,1997 • MARS(Y.Rui et al,”A relevance feedback architecture in content-based multimedia information ) retrieval system”In Proc. of IEEE Workshop on Content-based Access of Image and Video Libraries, 1977. ) • ユーザは例示画像を与えるだけ • クエリをはじめる前に最適な画像を持っている必要がある In conjunction with CVPR’97 Third generation of image retrieval Second generationの低レベル特徴をハイレベ ル意味空間に置き換える • システムは低レベルな特徴を使って検索を行うがユー ザは意味に基づいてクエリを作成 クエリを高レベルな意味で作るためユーザにとっ ては低レベル特徴よりも理解しやすい • 低レベル特徴:赤色が多い写真 etc • 高レベルな意味:Walesでの休暇の写真 etc 従来手法と本手法の違い 局所的な領域を意味付けする • 従来(参考文献参照)は画像に対して値を出していた 確率による局所領域の意味付け • 画像全体ではなく画像中の小さい領域に対して意味付け ・M.M.Grkani et al,”Texture orientation for sorting photos ‘at a grance ’”, In Porc. Of the IEEE int. Conf. On Pattern Recognition ,1994 ・E.C. Yiu,”Image classification using colour cues and texture orientation” Master’s thesis,Dept EECS, MIT, 1996 ・M.Szummer et al,”Indoor-outdoor image classification” In IEEE Int. Work. On Content-based Access of Image and Vid. Databases ,1998 ・A.B.Torralba et al,”Semantic organisation of scenes using discriminant structural templates”,In ICCV’99,1999 ・A.Vailaya,”Content-based hierarchical classification of vacation images”, In IEEE Conf on Multimedia Computing and Systems, vol1 pp518-523,1999 自然領域 人工物領域 Overview:ラベリング ラベリング:領域に意味付けをすること 確率を用いた画像の局所的ラベリング • 多くの異なったブロックサイズからデータを収集 • 収集したデータを組み合わせて知識獲得 • 一定のブロックを用いるアルゴリズムよりもロバスト 意味ラベル • Natural or Man-made (自然、人工) Local sampling procedure • Inside or Outside (屋内、屋外) Global sampling procedure Overview:局所サンプリング サンプリングポイントを中心とした異なったサイズ のブロックからデータを抽出 • ブロックを階層構造にレベル分けする Natural/Man-madeのラベリングではサンプル “グリッド”を16x16に設定(次ページ) 画像サイズ 256x384,384x256 Local sampling Sample Grid 16 16 Nature Man-made Overview:確率による分類 Nature Man-made 特徴ベクトル 特徴ベクトル Images 特徴ベクトル Dimension Dimension Dimension Reduction Reduction Reduction Nature 確率密度推定 確率密度推定 事後確率 Man-made Colour extraction 値の間でできるだけ相関がない色モデルがよい よく利用されるモデル • Ohta colour model • HSV colour model • 両者ほぼ同じ結果が出るので変換が容易なOhtaモデ ルを利用する Ohta colour model • 輝度(luminance) I o1 、色差情報(chrominance) I o 2 , I o 3 C1 ( Bl ) I o 2 ( r )d r Bl C2 ( Bl ) I o 3 ( r )d r Bl r : particular pixel pisition in the image Bl : Image block at level l Texture extraction Complex wavelet transform (CWT) • 方向に沿ったテクスチャ N.G.Kingsbury,”The dual-tree complex wavelet transform: Gabor wavelet A new efficient tool for image restoration and enhancement” ,In EUSIPCO’98, vol1 pp319-322, EURASIP, 1998 • 従来良く利用された手法 • Gaborは2次元、CWTは1次元の畳込み(Convolution) • CWTの方が負荷が少ない A.K.Jain et al.”Unsupervised texutre segmentation using Gabor filters”, Pattern Recognition, vol. 24,pp 1167-1186,1991 {15 ,45 ,75 ,75 ,45 ,15 } I s I o1 * s where s is the wavelet function at scale s I o1 is intensity of the image s ( Bl ) ( I s ( r )) 2 d r Bl Complex Wavelet Transform:CWT h0 f ( 2n ) f ( n ) Pre-filter Filter f [ j,5, j ] / 5 : const h0 [1 j,4 j,4 j,1 j ] / 10 h1 [1 2 j,5 2 j,5 2 j,1 2 j ] / 14 低周波成分A 高周波成分D(3) を2つ出す。 テクスチャー特徴の次元数 ウェーブレットのスケール (変換回数) • 1-4 方向 • 6 {15 ,45 ,75 ,75 ,45 ,15} 24次元ベクトル TBl [11 ( Bl ), 12 ( Bl ), , 46 ( Bl )] T41 ( Bl ) T12 ( Bl ) Sample grid T13 ( Bl ) T11 ( Bl ) T14 ( Bl ) T16 ( Bl ) T15 ( Bl ) Feature Vector 26次元 色:2次元(色差) テクスチャ:24次元(スケール1-4,6方向) 色、テクスチャ特徴を一緒に扱う X Bl [11 ( Bl ), 12 ( Bl ), , 46 ( Bl ), C1 ( Bl ), C2 ( Bl )] “Best” vectors for classification クラス間が大きく分かれている クラス内の距離が小さい Bad vectors Good vectors Fisher’s linear discriminant 最適な分類となる直線を探す 多次元 一次元 射影(projection) X Bl pTl X Bl Fisher’s Discriminant 1 n個のd次元サンプルx1…xnをとりこのうちn1個が集合 Χ1に属しω1とラベル付け、n2個が集合X2に属しω2 とラベル付けされるとする。Xの各要素の線形結合y→ y w Tx これに対しn個のサンプルy1…ynが与えられそれぞれ X1、X2に対応する集合Y1、Y2が得られる。このときwは Y1,Y2がうまく分離できるものを選ぶ必要がある。 クラス間の分離殿尺度としては標本平均の差を取る。 標本平均をmiとすると、射影後のサンプルの標本平均 ~ 1 m y i は次式で与えられる。 ni yYi 1 ni w xXi T x w T mi 分離度を向上させるためには、標本平均の差が各クラスの 標準偏差の表価値に対して大きくする必要がある。射影後の サンプルの分散は ~ ~ )2 si 2 ( y m i yY mi 1 ni x X X 1 i Fisher’s Discriminant 2 1 ~2 ~2 ( s1 s2 )は蓄積されたデータの 分散の推定値 n ~ s12 ~ s22は射影されたサンプル のクラス内分散 と呼ばれる。 Fisher' s linear discrimina nt は以下の評価関数 ~ m ~ |2 |m J( w ) ~12 ~22 s s 1 2 を最大とする wを用いた線形関数 w T xとして 定義される Classification flow Images Feature vector extraction Construction of Dimension reduction probability density using Fisher’s discriminant using Maximum Likelihood Approach Posterior conditioned Class1 probability Class2 予備知識:確率分布 確率分布 コインを2回投げたとき、表が出る回数の確率分布 予備知識:確率密度関数 Xを連続確率変数、f(x)を確率密度関数と呼ぶ 定義域が a x b であれば b P(a x b) f ( x )dx 1 a このときPを確率分布と呼ぶ 予備知識:正規分布 発生確率が完全に独立かつランダムであれば 確率密度関数は正規分布に従うことが知られている 最尤法(Maximum likelihood approach) 最尤法:いくつかのサンプルから尤もらしい確率 密度分布を決定する手法 正規分布に従うと仮定 各レベルにおける確率密度分布 X1,X2,X3:投影後の一次元データ 予備知識:同時確率と条件付確率 同時確率と条件付確率 Male(M) Blue(B) 3,000 Female(F ) 1,000 4,000 Green(G) 2,000 4,000 6,000 5,000 5,000 10,000 同時確率: 条件付確率: 青い目の男性 男性という条件のもと青い目の人 P ( B, M ) 3000 3 10000 10 P( B | M ) 3000 3 5000 5 確率推定 仮定:それぞれのレベルでの尤度は互いに独立 ブロックを1~Lとするときの事後条件付確率 Ck where k 1,2 : 2つのクラス P() : 確率 p() : 確率密度 P ( X 1 , , X L | Ck ) P ( Ck | X 1 , , X L ) P ( Ck ) P ( X 1 ,, X L ) L l 1 P ( X l | Ck ) P ( X 1 ,, X L ) P ( Ck ) ただし P ( X 1 ,, X L ) P( X L | X L1 ,, X 1 ) P ( X 2 | X 1 ) P( X 1 ) 実験:Natural/Man-made NaturalとMan-madeの分類 学習用画像 • Natural 120枚 • Man-made 120枚 レベル1~4(128x128~16x16) 1次元ベクトルの作成(Fisher’s linear discriminant) 確率密度推定 X n : Projected data 実験:Natural/Man-made 実験1 • 自然のみ 120枚、人工物のみ 120枚 実験2 • 自然、人工物が両方写ったもの 125枚 確率密度生成時に利用した画像は用いない 事後確率が0.5以上であればクラスに属する 実験結果 自然と人工物の両方を含む画像ではレベルをを 追加したほうが精度が高い • レベル4のみでは29.8%だが1,2,3,4を使うと21.6%に 減少 一方のみしか写っていない画像は精度が高い • エラー率約10%程度 人工物の割合の結果 ρ:人工物の割合 人工物が入っている割合(レベル1,2,3,4を利用) 上段:オリジナル画像 下段:人工物を明るく表現 実験:Outside/Inside Outside/Inside(屋内・屋外)の分類 Natural/Man-madeの分類とは違い、局所的でなく全 体的な特徴を取るようにする 屋内 120枚、 屋外 120枚 レベル0~4(画像全体~16x16) • 全体的な特徴を取り入れるため 1次元ベクトルの作成(Fisher’s linear discriminant) 全体的な特徴量を抽出するため32x32のグリッドを用 いた • Natural/Man-madeでは16x16 実験結果:Outside/Inside 3レベルあれば分類精度は86.3% Natural/Man-made分類と同様複数のレベルを 用いたほうが精度が高い • ただし、画像全体(Level 0)を用いると精度低下 Outside/Insideの分類例 屋内・屋外の例、ρ:屋外と判断される領域の比率 レベル2,3,4のみで作成 分類誤り ビルのペイント 周りの木から プールと窓を 屋内と が自然扱い の影で建物が 屋外と判断 誤認識 自然扱い 画像検索アプリケーションのプロトタイプ 提案した分類方法がアプリケーション上で有効に 働くかを評価する 著者がデジカメで撮影した800枚の画像 12か 月分 撮影日時の情報を追加 Daytime/Night-time(昼/夜)の分類を Inside/Outsideと同様の手法で追加 従来手法との違い • 従来:実際の特徴ベクトルを保持 • 本手法:3つの確率の値(自然、屋外、昼),日付 検索方法 写真がとられた日時を指定 • 検索対象の数を大幅に削減 屋外で撮られたか屋内で撮られたかを指定 • 屋外の場合次を指定 NaturalとMan-madeのどちらが多いか 昼と夜どちらに撮られたものか クエリー1 「My Holiday in Wales」 著者は同じ時期にBostonとWalesに行っていた。 日時のデータにより800枚から171枚へ。 風景が主に写っていた P(Outside)xP(Natural)の降順 本当の適合画像は71枚 24枚中17枚が 適切な画像 クエリー2 「The evening spent with friends in a bar in Boston」 著者は同じ時期にBostonとWalesに行っていた。 日時のデータにより800枚から171枚へ。 屋内で撮った P(Inside)で降順にソート。 本当の適合画像は16枚 24枚中9枚が 適合画像。 プロトタイプから得られたこと Semantic-based Image retrieval systemの可 能性 • 日付のメタデータ+少ないカテゴリ分類でさえユーザ に対して迅速かつ容易な画像検索を提供できる 意味での画像検索の前提 • ユーザがクエリをシステムが抽出した意味に置き換え 例:クエリ「Holiday in Wales」→屋外+自然 • クエリを低レベルな画像特徴に置き換えるよりも直観 的 SUMMARY 確率、多重階層を用いた画像の意味分類 • 多重階層により事後確率の精度を向上 意味分類 • Natural/Man-made、Inside/Outside • 86-91%の精度 • 学習画像200枚程度 従来研究との比較 • 定量的な比較は困難 不変的な画像がない 実験で用いた画像が少ない 日付を追加 • 検索結果の向上 • 画像検索にとって有効な手法 問題点 線形的に分類できるときしか適用できない 分類アルゴリズムは階層レベル間に統計的な独立性が あるという仮定が正しいという前提が必要 • 分類の公式が当てはまらない 改善について より洗練された確率密度推定を利用する • Kernel method, Bayesian Belief Networks • これらの手法は本手法に比べ精度向上、上記 制限の解消が見込める 他の分類カテゴリ • People/No peopleなど 妥当性のフィードバックと例示画像による検索機能の追 加
© Copyright 2025 ExpyDoc