特 集 動画像を対象とする内容検索方式 Content-based Retrieval System for Video Data あらまし 将来の電子図書館では,ビデオデータもテキストデータと同様に収集・保管され利用 できると考えられる。その際に重要な技術となる,ビデオデータを対象とする検索技術 の一つとして開発した,動体内の特徴量を用いる検索方式を説明する。 本検索方式では,動画像内の動体 (動いている物体) が持つ色分布および移動方向を特 徴量として用い,検索したい動体の出現するショットを検索する機能を提供する。 MPEG-2データに含まれる動ベクトル情報とDC成分から動体領域抽出と領域内の色分布 を求め,特徴量としてデータベースに蓄積する。検索にはGUIを用い,検索したい動体 が持つ色分布と移動方向を入力する。それに類似する特徴量を持つ動体を検索し,結果 を類似度順に表示する。 プロトタイプでの実験では,色を指定して検索したときの正解率が0.83であった。検 索時間は166 MHz Pentium上で9∼95秒であり,類似度計算を行う候補数に影響される。 Abstract Digital libraries of the future will be able to store video data as well as text data. For this reason, retrieval technology is essential for effectively handling video data. We have developed a new video data retrieval system that uses color distribution and the moving direction of detected object regions as the featured information. Motion vectors and DC coefficients in MPEG-2 data are used to generate featured information to be stored in a database. GUI is used to enter the features of a desired object so that a search can be made for similarities contained in the database. Then several items of highly similar data are displayed as the retrieval result. Our prototype system achieved retrieval precision of 0.83 using color information. Typical retrieval time varied from 9 to 95 seconds on a 166 MHz Pentium PC, according to the number of similar candidates. This paper describes our new content-based retrieval system for video data. 444 加藤光幾(かとう こうき) 石川 博(いしかわ ひろし) 1988年横浜国立大学大学院工学研究 科修士課程了。同年(株)富士通研究 所入社。1994年からデータベースの 研究に従事。 マルチメディアシステム研究所ソフ トウェア研究部 1979年東京大学理学部情報科学科卒。 同年 (株) 富士通研究所入社。 以来デー タベースの研究開発に従事。 1992年東 京大学理学博士号取得。 1994年情報処 理学会坂井記念特別賞, 1997年科学技 術庁長官賞 (研究功績者) 受賞。 電子情 報通信学会データ工学研究会WG主査。 マルチメディアシステム研究所ソフ トウェア研究部 FUJITSU.49, 6, pp.444-448 (11,1998) 動画像を対象とする内容検索方式 ○○○○○○○ ま え が き これらのうち検索に関連するものについては,注目す る対象によって適切な検索方法が異なる。例えば,つぎ 図書館は図書や資料,マイクロフィルムなどを収集・ のような検索要求があるだろう。 整理・保管し,情報や知識を必要とする利用者に使用さ ・特定の物体,人物を検索する。 れてきた。収集される情報はテキストが中心である。利 ・特定の動作をしているものを検索する。 用者は図書館から本を借りて読むか,図書館で資料から ・特定の移動をしているものを検索する。 必要とする情報を検索する場合が多い。 ・発言内容を検索する。 電子図書館をこれまでの図書館の延長として捉える ・メロディを検索する。 と,図書などを電子化してネットワークで提供する形態 ・ビデオが捉えている事象を検索する。 が考えられ,電子図書館の研究もテキストに関するもの 利用者が必要とする情報を的確に取得するためには, が先行している。 多様な検索手段を提供し,それらを組み合わせて絞り込 しかし知識や情報はテキストだけではなく,写真やビ む必要がある。 デオなど他メディアとしても存在する。ディジタルデー ● ビデオデータの特徴 タの蓄積技術,圧縮技術の発展でビデオや音声などを ディジタル化して保存できるようになった。そのためテ キストのみならずビデオなどのメディアも電子図書館で 保管しネットワークを介して貸し出しや検索が行える環 境を構築できる。 ビデオデータが持つ特徴のいくつかを次に示す。 (1) 動画像と音声から構成される。音声に含まれる言語 情報は音声認識でテキストに変換できる。 (2) ビデオの中身を理解できるように再生するには,あ る程度の時間を必要とする。 ビデオデータはデータ内の注目する対象によって多様 (3) ビデオはいくつかの部分に分割することができる。 な検索があり得る。そのためビデオ検索は多種の検索方 シーン (第1幕,第1場など論理的なまとまり)やショッ 法を組み合わせて行うことが望ましいと考えられる。 ト (カメラで連続して撮ったまとまり)というまとまり 以下ではビデオデータに関する検索技術研究の紹介, があり,検索の単位となる。 ○○○○○○○ および検索方法の一つとして開発した動体の色情報を使 用する検索方式を説明する。 ビデオデータの特徴と検索方式 (4) ビデオデータから直接検索するのが困難である。特 徴量を抽出し,それを用いて検索する。 ビデオデータは以上のような特徴を持つため,検索を 効率的に行うためには,ビデオデータ内の部分を単位と 情報を電子化することによって生まれる利点の一つ した検索が重要となる。また前述のように様々な検索が は,利用者が必要とする情報を簡便に検索できることで 考えられるが,それぞれで注目する特徴量が異なる。 ある。本などの記録媒体では,書誌情報を用いて情報の ● 既存の内容検索方式 ありかの当たりをつけて,それらから情報を探し出す必 ビデオの部分検索を実現するために人間が手作業で 要があった。電子化によってテキストからは全文検索な キーワードをつける場合,大量のビデオデータにキー どの方法で,より的確な情報収集が行えるようになる。 ワードを付与するには膨大な労力を要し,作業者によっ 一方,ビデオデータに関してはどのような検索が行える て質にばらつきが生じる。またデータが持つ様々な情報 であろうか? をすべてキーワードにするのは不可能である。そのため 電子図書館では,ビデオデータに関して次のような使 原データから自動的に特徴量を抽出し検索に用いる内容 われ方が考えられる。 検索技術が望まれる。 ・単に再生する(例えば,映画を見る)。 これまで研究されてきたビデオを対象とする内容検索 ・ブラウズする (例えば,有用な情報が含まれているか眺 方式は大きく分けて次の3種類に分類できる。 める)。 ・ビデオに含まれる情報を探す (必要とするのはビデオの 一部分の場合が多い)。 ・ビデオデータを再利用する (例えば,ダイジェストビデ オを生成する)。 ・ビデオに記録された事象を分析する。 FUJITSU.49, 6, (11,1998) (1) 画像情報を用いる検索 例えば,ビデオに含まれる動画像をショットごとに分 割し,ショットから代表フレームを選択する。代表フ レームに対し,フレーム内の色,色の割合,配置などの 情報を抽出する。検索時には利用者が指定した特徴量と (1) の類似度を計算し,類似度の高いものを提示する。 445 動画像を対象とする内容検索方式 体領域を検出するためには物体の形状に関する知識が必 (2) 音声情報を用いる検索 例えば,ビデオに含まれる音声データから音声認識技 要であるが,検索対象を画像内の動体に限定することに 術を用いて変換したテキストやclosed captionを用いてテ より,領域検出を簡単化できる。特徴量は動体領域内か (2) キストデータから検索する。ビデオデータとテキストと ら計算でき,背景領域の影響を受けにくい。 の時間的対応づけは容易に行える。 本検索方式では,動画像としてMPEG-2 videoフォー マットデータを用いる。マクロブロック (16 × 16画素) ご (3) 付加情報を用いる検索 例えば,ビデオに関連する台本などの意味的に構造化 との動ベクトル情報 (直前に復号した画像をもとに動き補 されているテキスト情報が存在するとき,それから木構 償を用いて復号するためのデータで,オプティカルフ 造を構成し検索に用いる。ビデオの論理的構造をより正 ローの近似として扱っている)と,DC成分(色情報)を用 確に構成することができるが,テキストとビデオの時間 いて動体領域と色分布を求める。これらを用いることに 的対応づけの自動化が困難である。 より画像処理を簡略化し,またMPEG-2データを全部は復 ○○○○○○○ 次章で説明する,ビデオデータ検索の一方法として開発 号せずに計算時間を短縮している。 した動体の特徴を用いる検索方式は,上記の (1) に属する。 ● 特徴量抽出処理の流れ MPEG videoデータから検索に用いるための特徴量は次 動体を対象とする内容検索 ユーザが物体を検索したいとき,ユーザが想起するの の手順で求める(図-1)。 (1) MPEG videoデータから,マクロブロックごとの動 は物体に関する特徴であり,背景がどうなっているかを ベクトル情報とDC成分を抽出する。 気にしない場合も多い。しかし,従来の画像を対象とす (2) 動画像からカット点を検出しショットに分割する。 る内容検索方式の多くは画像全体の特徴を用いており, カット (ショットの境界)は輝度のヒストグラムの時間 特徴量には物体とそれ以外の背景領域がそれぞれ持つ特 変化から求め,短時間のエフェクトに対応できるよう 徴量が混合している。物体が持つ特徴量を用いて検索し にしている (図-2) 。ショットごとに以下の処理を行う。 ても背景領域に影響されてしまい,期待したような検索 (3) 動ベクトル情報を用いてカメラワークの検出・補正 ができない。 を行う。動ベクトルの傾向を調べパン(カメラを左右 以上の問題を解決するため,動画像を検索対象とし, に移動しながら撮影する)やズームなどのカメラワー 画像内の物体ごとに求めた特徴量を用いる内容検索方式 クを検出し,カメラ自体が移動している場合は,背景 (3), (4) を開発した。 一般に,任意の背景を持つ動画像から物 領域が静止しているように動ベクトルを補正する。 データ入力 特徴量抽出 カット検出 カメラワーク補正 動体領域 色分布 移動方向 MPEG-2 video 動画像データ 特徴量データ 検索 検索用GUI 類似度計算 結果表示 図-1 動画像検索の処理フロー Fig.1-Processing flow of video retrieval. 446 FUJITSU.49, 6, (11,1998) 動画像を対象とする内容検索方式 図-2 カット検出例 Fig.2-Sample of cut detection. なお,動ベクトルは移動方向と一致するように符号 を変えている。 (4) 動体領域を検出する。カメラワーク補正後の動ベ 図-3 検索用GUI Fig.3-GUI for video retrieval. クトル情報に対し,動ベクトルが一様になっている領 域を探し,それらを動体領域とする。動体領域の移動 方向は領域内の動ベクトルの平均値を用いている。隣 接フレームで類似した動体には同じラベルを付け管理 する。 なお,動体が短時間静止した場合でも動体領域を追 跡できるようにしている。 (5) 色分布を抽出する。動体領域はいくつかの類似色領 域から構成され,面積のより大きい色領域の方が特徴 量として重要度が高いと考え,動体領域をいくつかの 色領域に分割し,色領域ごとに代表色,色領域の重心座 標,面積を計算し,特徴量としてデータベースに登録す る。色領域の分割には色相と輝度情報を用いている。 図-4 検索結果例 Fig.4-Sample of retrieval result. 色は正確に覚えにくく,表示系によっても異なるた め,後述の検索では,色空間からある範囲内に含まれる 動体が持つ色配置と移動方向を指定して検索を指示する。 色を検索する。色空間は3次元であり有限であるため,色 検索サーバではGUI で入力したデータとの類似度を (5) 情報の管理に多次元インデクスの一種であるQuad-tree 色,それらの相対位置,移動方向を用いて計算する。ま を用いている。Quad-treeの挿入処理は,よく用いられる ず,検索対象の移動方向が指定されている場合は,その * 多次元インデクスであるR -treeに比べ簡単であり,高速 方向に対応するQuad-treeを選択し,移動方向が指定され に処理できる。 ていない場合は,8個のtreeすべてを選択する。選択した 動体の移動方向による検索対象の絞込みを行うため, treeから,ユーザが入力した色ごとに類似色を持つ動体の 動体の移動方向を8方向に分割し,それぞれに対応した8個 集合を求め,それらのANDを計算して候補とする。つぎ のQuad-treeを設け,色情報を蓄積している。 にユーザが入力した色パターンおよび検索候補で,面積 ● 検索アルゴリズム が一番大きい色領域を求め,他の色領域への相対方向が 動体の検索は検索用GUI (図-3) を用いて行う。GUIは色 類似しているものを選択する。対応する色ブロック間の 配置用ウィンドウ,カラーパレット,動き方向を指定す 色の距離の合計を計算しスコアとする。スコアを昇順に るためのウィンドウなどから成る。ユーザが検索したい ソートし,結果をユーザに提示する(図-4)。 FUJITSU.49, 6, (11,1998) 447 動画像を対象とする内容検索方式 表-1 検索精度 ● 考察と評価 評価項目 本 検 索 方 式 に 基 づ く プ ロ ト タ イ プ を 作 成 し 実 験 を 行った。検索サーバとして166 MHz Pentium WindowsNT (注2) 4.0,データベースはO2 System (注1) (注3) PC + 正解率 色のみ指定 0.83 色と移動方向を指定 0.45 を用い 表-2 処理時間 た。実験に使用したデータはCamcorderで撮影したビデ オ(三脚不使用)およびニュース番組で合計約1時間であ る。Quad-treeには色データが約5万点含まれている。 検索精度を表-1に示す。検索結果として1∼6番目に出 力された画像から,検索時に指示した色パターンおよび 移動方向を持つ動体が存在するか否かを判定し,正解率 を計算した。色は1色と2色の場合を実験している。 移動方向を指定した場合の精度が指定しない場合より 処理フェーズ データ登録 検索 項 目 処理時間 特徴量抽出 3.11倍 DB登録 3.12倍 方向指定なし 9.0∼95.0秒 方向指定あり 9.1∼48.9秒 備 考 再生時間比 ○○○○○○○ む す び 悪いが,この原因は手持ち撮影の画像が多く,手ぶれし 将来の電子図書館において,大量に蓄積されサービス ているときにカメラワークの補正に失敗し,動体検出と されるであろうビデオデータに関して,検索の点から説明 移動方向検出が不正確になったためである。 した。またビデオデータ検索の一例として,動体に着目し データ登録時と検索時の処理時間を表-2に示す。 た検索方式を説明した。今後は他検索方式との連携方法を データ登録は,いったん特徴量を抽出した後にデータ 検討し,利用者が使い易い検索システムを目指していく。 ベースに登録している。データベースには検索結果表示用 の静止画も登録しており,DB登録の約2/3を要している。 謝 辞 検索時間は大きな開きが生じているが,検索に使用し 本研究は(財)日本情報処理開発協会の次世代電子図書 た色数には影響されず,指定した色そのもので左右され 館システム研究開発事業における研究開発である。 る。つまりQuad-treeで求められる候補数に影響される。 実験で用いたビデオデータに含まれる動体には無彩色に 近い色が多く,そのような色を含む検索を行うと候補数 が増大し類似度計算に時間がかかる。 本方式だけでは検索能力が限られているため,テキス ト検索など他検索方式と連携し,より柔軟な検索ができ るようにする必要がある。 (注1)米国Intel Corporationの米国およびその他の国における商標。 (注2)米国Microsoft Corporationの米国およびその他の国における登録 商標。 (注3)米国Ardent Software,Inc.の米国およびその他の国における登 録商標。 448 参考文献 (1) M. Flickner et al.:Query by Image and Video Content: The QBIC System.IEEE Computer,pp.23-32(Sep.1995). (2) 金出ほか:Informedia:CMUディジタルビデオライブラリ プロジェクト.情報処理,37,9,pp.841-847(1996). (3) 加藤ほか:動画像を対象とする内容検索方式.情報処理学 会研究報告,97-DBS-111,97,7,pp.87-94(1997). (4) K. Kato et al.:Content-based Retrieval System for Video Data. Joint Conf. of Information Sciences, 3, pp.195-198(1997) . (5) http://www.cs.umd.edu/~brabec/quadtree/ FUJITSU.49, 6, (11,1998)
© Copyright 2025 ExpyDoc