映像検索を高度化する映像解析技術

映像検索を高度化する映像解析
技術
解説
住吉英樹
■
近年，インターネットの検索技術が進歩し，必要な情報が簡単に入手できるようになっ
た。大量の映像を日々扱う放送局においても，希望する映像を簡単に探し出したいとい
う要望は強い。コンピューターの能力の向上により，大量の映像の中から似ているもの
を短時間で見つけたり，限定的ではあるが映像の内容をコンピューターが認識して検索
に役立てることも可能になってきた。また，放送局においても映像をコンピューター上
のファイルとして扱う運用への移行（ファイルベース化）が進んでおり，映像検索を高
度化する環境が整ってきた。本稿では，従来のタイトルや概要文などによる番組単位の
検索だけでなく，利用者の望む映像内容に基づいたショット単位での検索などを実現す
るための，検索機能を高度化する映像解析技術の研究について解説する。また，一部で
試験的に利用が始まった，放送局における高機能な映像検索システムについて紹介する。
１．はじめに
インターネットの世界では，Webページの増加に合わせて，大規模なテキストデータ
を対象とする検索技術が急速に発展した。この検索技術の発展が，Webコンテンツの驚
異的な増大とその有用性を一層高めたとも言える。最近では，テキストだけでなく画像
や音声の検索技術も登場しており，高機能な検索システムは，Webコンテンツに不可欠
な存在となっている。しかし，インターネット上の映像提供サービスを見ても，映像ク
リップ（数十秒から数分程度の短い映像）などのコンテンツを単位とする検索が主流で，
希望する被写体が映っている映像を時間区間とともに答えてくれるような検索機能を提
供するサービスは見つからない。
放送局では，大量の映像を日々利用しているが，ここ数年，映像をコンピューター
ファイルとして扱うようになってきた。この方法のメリットの１つは，長時間の映像で
あっても必要な個所を指定して飛び飛びに再生でき，効率的な編集や閲覧が可能になる
ことである。しかし，映像がコンピューターデータになったといっても，テキスト情報
のように欲しい情報を簡単に検索することはできない。テキスト情報と同じように，大
量の映像の中から希望する映像を素早く検索するためには，どこ（時間的位置）に何
（被写体内容など）が映っているかという，内容を記述した情報（メタデータ）が必要と
なるが，大量の映像のメタデータを人手で記述することは困難である。人手をかけずに
詳細なメタデータを自動付与できれば，映像のファイル化と相まって，必要な映像を簡
単に検索し，入手することが可能となる。
本稿では，映像検索の高度化を目的とした，メタデータの抽出を自動化する各種の映
14
NHK技研 R&D/No.149/2015.1
番組のタイトル：
ダーウィンが来た！「びわ湖
の巨大ナマズを追え！」
番組の概要：
日本最大の湖・びわ湖にすむ巨大魚ビワコオオナ
マズ。全長は1.2メートルと普通のナマズの2倍。
体重は5倍の10キロ。びわ湖とその周辺だけでし
か見られない上に数も少なく，...
時間
番組映像
この区間には，
「なまず」
，
「湖」
，
「太陽」
が映っている
この区間には，
「花」，
「山」
が映っている
映像の再利用を目的と
した検索に有効な情報
１図映像区間への分割と映像内容情報（メタデータ）の付与
像解析技術について解説する。また，NHK内で一部試行の始まっている，映像検索シス
テム高度化の取り組みについて紹介する。
２．検索を高度化する映像解析技術
2.1 映像検索の課題
NHKの番組アーカイブスでは，番組を単位として，データベースで管理，検索する方
法をとってきた。検索には，データベースへの登録時に付けられたタイトルや出演者名，
番組概要など少量の文字情報が用いられている。番組映像は，再放送など番組単位での
利用以外にも，新たな番組やWebコンテンツの制作のための素材映像として再利用され
ることがある。再利用を目的として映像の検索を行う番組制作者からは，希望する映像
を番組より細かな単位で簡単に検索できる，高機能な映像検索システムへの要望が強い。
このような検索を実現するためには，１図のように，利用者が扱いやすい映像区間の中
に何が映っているのかを記述した情報（メタデータ）を作成し，それを用いて検索を実
行するシステムが必要となる。
現状の検索システムにおいて希望する被写体の映像を見つけるためには，その映像が
含まれていそうな番組をタイトルなどから検索するノウハウと，希望の映像がどこ（時
間的な位置）に映っているのか，時間をかけて再生し，探し出す労力が必要となる。し
かし，希望する被写体の映像を検索で簡単に見つけられるようにするために，70万本と
いわれる大量のアーカイブス映像の全てに，詳細なメタデータを人手で付与する作業は
現実的ではない。また，現在では，多くの番組に字幕放送による文字情報が付与されて
いるが，映像内容を説明していないことも多く，字幕を用いた検索は有効ではあるが万
能ではない。
一方，番組を作るために撮影された素材映像は，字幕などの文字情報が付いていない
ため，テープ番号と簡単な映像内容のメモなどで管理されている。通常，素材映像は，
番組の時間の10倍∼1,000倍近くになるといわれており，放送に使えない，もしくは使わ
ない部分の方が多いため，すべての素材映像に手間とコストをかけてメタデータを付け
ることは無駄が多い。また，大きな災害や大規模なイベントでは，大量の映像が短期間
に撮影されるため，できるだけ効率的にメタデータの付与と映像の検索ができるシステ
ムが望まれている。
NHK技研 R&D/No.149/2015.1
15
時間
番組映像
シーン
ショット
・・・・・・
フレーム
２図番組映像の構造
このように放送局では，さまざまな場面で大量の映像の中から必要な映像を探す作業
が行われており，検索機能の高度化への要求は強い。次節以降では，利用者が望む映像
を簡単に検索するための技術について，映像を扱いやすくするための時間的な区分，映
像内容から検索可能な記述情報を生成する内容記述メタデータの生成技術，言葉では表
現しにくい絵柄や構図に基づいた検索を可能にする類似画像検索などの映像解析技術に
ついて解説する。
2.2 映像の構造
映像は写真などの静止画像と異なり，時間軸を持ったメディアであるため，内容を一
覧することができない。番組などの長時間の映像となると，必要な情報（被写体）が
入っていることが分かっていても，その時間的な位置を見つけ，取り出すには時間がか
かる。このため，欲しい映像を短時間に入手するための映像検索機能として，まず映像
を扱いやすい時間長に区分した後，その区間に何が映っているのか判別することが行わ
れる。
一般に番組映像は，意味的，時間的な分割により，２図のように番組，シーン，
ショット（またはカット）という粒度で表現される。番組は，編集の結果，創り出され
る映像コンテンツの単位であり，複数のシーンで構成される。シーンは，場面とも訳さ
れ，ある時刻や場所などが同一の，意味的な映像区間を指し，１つ以上（通常複数）の
ショットで構成される。ショットは，途切れることなく撮影された映像の区間である。
ショットとショットの境界をカット点（ワイプ＊１，ディゾルブ＊２，フェード＊３などの
＊１
次の映像に，画面の一部から画
面をふき取るように切り替わる
場面転換技法。
特殊効果のある境界を除く）と呼び，ショットのことをカットと呼ぶこともある。フ
レームは，映像を構成する１秒間に約30コマの静止画である。一方，未編集の素材映像
＊２
前の映像から次の映像に徐々に
切り替わる場面転換技法。
＊３
黒などから徐々に映像が見える
状態（またはその逆）に切り替
わる場面転換技法。
には，編集により意味を与えられた番組やシーンに相当する区分は無く，撮影時に用い
られたメディア（テープなど）を最上位の単位とした構造となる。撮影する内容によっ
ては，素材映像全体が１つのショットで構成される場合もある。
（１）ショットへの分割
途切れることなく撮影された映像の区間であるショットを取り出すために，ショット
の境界点を検出する映像解析手法がある。映像がファイルとして記録される近年の映像
16
NHK技研 R&D/No.149/2015.1
収録装置では，このショットの区切りはファイル単位のデータの区切りとして存在する
ので改めて検出する必要はないが，VTR映像の場合には，ショット境界の情報がほとん
どの場合，欠落している。
ショット境界検出技術は，フレーム間の映像データの連続性を評価し，連続性が途切
れた点をカット点とする方法を基本としている。連続性の評価には，一般にヒストグラ
ム比較法がよく用いられる。ヒストグラム比較法は，RGB（赤緑青）やHSV＊４などの色
＊４
色相（Hue）
，彩度（Saturation）
，
明度（Value）の３つの成分から
成る色空間。
ヒストグラム＊５の差分を用い，画面全体ではなく16個程度に分割したブロック内を処理
対象とすることが多い１）。ヒストグラム比較法は，類似度の高いショット間で切り替えが
あった場合に検出できないことや，動きの速いショットで誤検出をすることがある。こ
のため，複数の特徴量を多次元特徴空間の中で扱う手法２）や，テクスチャー（柄や模様）
＊５
横軸に色の種類，縦軸に度数を
とった度数分布図。
の構図変化に注目した手法３）などの研究も行われている。
国際的な評価型のワークショップTRECVid＊６の中でも，2001年から2007年にわたり，
ショット境界の検出手法について開発と評価が行われてきた４）。提案されたいずれの手法
も，瞬時に映像が切り替わるショット境界（カット切り替え）の検出については，高い
精度を有している。
＊６
Text REtrieval Conference Video
Retrieval Evaluation：米国のNIST
（National Institute of Standards
and Technology）が主催する情
報検索のための競争型のワーク
ショップ。
当所では，実用性を高めるために，処理速度の向上に重点を置いたショット境界の検
出手法５）を開発した。この手法においては，処理コストの低いRGBの各濃度値について，
フレーム間の絶対値の差分の和を用いてショット境界の候補を見つけ，その候補に対し，
処理コストは高いが精度の高いブロックマッチング差分＊７を用いて隣接フレーム間の差
＊７
２つのフレームの間で，画像を
小領域に分割したブロックの，
最も類似したブロックを探索す
るコストが，一定値以上となる
ブロックの数で，フレーム間の
違いを表す手法。
分を測り，それが一定の閾値以上となる境界をショット境界とする。この手法により，
世界最高水準のショット境界検出速度が得られた。また，ニュース素材映像などでよく
現れるフラッシュによるショット境界の誤検出６）を防ぐために，隣接フレームのみでな
く，ショット境界候補のフレームの前後数フレームのフレーム間差分を算出し，変化量
が閾値以下の場合にはショット境界ではないと判定する機能を付加するなど，放送用映
像における実用精度を高めている。
しかし，当所の手法も含め，番組映像などで演出として行われるワイプ，ディゾルブ，
フェードなどの漸次切り替えの検出は完全ではない。また，画面を横切る大きな被写体
や激しく明滅する光源などを撮影した場合の誤検出の低減も課題として残されている。
（２）ショット内容の分割（サムネイル抽出）
素材映像のように長いショットの場合には，さらに詳細な分割をしたい場合がある。
また，ショットの境界を時間データとして見つけただけでは，ショットの内容が判断で
きないため，通常，ショット分割とともに，その内容を代表する画像（サムネイル）を
抜き出して利用する。サムネイルには，ショットの冒頭のフレーム画像が使われること
が多いが，長時間のショットでは，必ずしもショットの冒頭に主要な被写体が映ってい
なかったり，多くの被写体が順次映っている場合があり，１枚の静止画で内容を代表さ
せることは困難なため，１つのショットから複数のサムネイル画像を抽出することもあ
る。この場合，ショットの冒頭，末尾，中央などのフレームを抽出したり，一定の時間
間隔（１秒など）や，時間ではなく映像内容の変化に依存した形で複数枚のフレームを
抽出する。これにより，ショット内をある程度分割して効率よく一覧することが可能に
なる。また，抽出された複数のサムネイル画像は，映像内容を認識する際に，被写体の
見落としを少なくするとともに，全フレームを処理対象とするよりも処理量を減らす効
果もある。
当所で開発した手法では，ショット境界と判断するためのフレーム間差分情報を蓄積
NHK技研 R&D/No.149/2015.1
17
し，その値が一定値を超えた場合に，サムネイル画像を出力している。これにより，映
像の変化の大きな部分では多くのサムネイルを出力し，映像内容が変化しない部分では
１枚しか出力しないなど，内容の変化に適応した枚数のサムネイルが出力される。
（３）シーンへの分割
編集された結果である番組映像では，１つのショットが５秒∼30秒くらいの場合が多
く，検索結果を確認する際や再利用を想定して映像を見るときには，ショットでは短す
ぎると感じることもある。また，場所や時間が同一の複数のショットを意味的なつなが
りを持ったシーンという概念でまとめた方が扱いやすいことも多い。しかし，シーンの
境界は，意味的な境界でもあるため，映像の内容や見る人，利用用途によっても異なる
点で分割されることがあり，自動分割は困難な課題とされている。
現在提案されているシーン分割の手法では，映像内の色の変化や，音響信号の連続性
や構造など，比較的表層的な情報を用いて映像内容の連続性を判断し，その切れ目を
シーンの切れ目として扱うことが多い７）。当所でも，色情報の連続性に基づくシーン分割
技術の研究８）９）を行っている。また，映像に同期した字幕放送のテキストデータを文書と
して考え，単語の結束度（同じ単語が出現する度合い）を用いて分割する手法10）を適用
することも考えられるが，放送番組では，主題となる語が全体にわたって登場するなど
有効でないことも多い。より人の感覚に近いシーンへの分割を行うためには，画像など
の１つのメディア情報の信号的な処理だけでなく，被写体やそこで表現されている意味
などを反映できるように，映像や音声，テキストなども統合したシーン分割技術の研究
が求められている。
2.3 内容記述情報（メタデータ）の生成技術
通常，映像検索の際に，最も一般的な問い合わせ（検索キーワード）は，何が映って
いるのかという被写体の名称で，例えば，
「富士山」や「海」
「鳥」などの名詞で与えるこ
とが多い。これらの被写体の名称を，前述のショット単位に分割した映像区間に，自動
的に付与できれば，検索の効率は非常に高まる。
必要となる内容記述情報（メタデータ）は，検索する場面や利用者によっても大きく
異なる。例えば，報道素材であれば，
「何月何日の首相の記者会見」や，
「警視庁庁舎」な
どでの検索が想定される。動物や自然の映像の再利用では，
「沖縄のイルカ」
，スポーツで
は「イチローのホームラン」など，多様な検索キーワードが想定される。しかし，これ
らの情報を映像のみから正確に記述することは，人でも難しく，映像解析のみで記述で
きる範囲は限定的である。現在の技術では，
「人」や「山」といった一般名詞で表現でき
る，一般物体の「何」が映っているということと，スポーツ番組などの極めて限定的な
状況で「何が行われている」の範囲にとどまる。
（１）一般物体認識
一般物体認識とは，コンピューターが，映像の被写体となる物体が何かを認識し，テ
キスト（一般的には被写体の名称）で出力する機能のことを言う。コンピューターの登
場以来行われているチャレンジであるが，いまだに人間のような認識はできない。
1990年代に，画像内の被写体のコーナーやエッジといった局所的な特徴量をベクトル
として表現し，機械学習によって望む被写体の特徴量を学習することにより，被写体の
有無を判別するプログラムが開発され，認識精度が大きく向上した。これは３図に示す
ように，機械学習によって生成した識別器を利用して，映像にある被写体が映っている
かどうかを判別する技術である。この技術においては，画像の特徴を，画像の色や模様
を数値化した多数の特徴量（特徴量ベクトル）で表し，その特徴量ベクトルの集合を対
18
NHK技研 R&D/No.149/2015.1
入力画像
学習データ
時計
特徴ベクトルで学習
識別器
（判別基準）
識別
時計じゃない
腕時計
Bag-of-Visual-Words法
学習データ
ワード作成
勾配ヒストグラム空間（多次元）
クラスタリング
…
Visual words
特徴点抽出および
勾配ヒストグラム算出
特徴算出
入力画像
出現頻度
特徴点抽出および
勾配ヒストグラム算出
特徴ベクトル
Visual Wordsに置き換え
…
３図 BagofVisualWords法による一般物体認識の仕組み
象に，被写体を含む正例の集合と，含まない負例の集合とに分ける（概念的な）境界を
機械に見つけさせる。そして，与えられた未知の画像の特徴ベクトルがどちらの集合に
含まれるのかにより，対象となる被写体の有無を判定する。この手法は，正解として与
える学習データの変更によって，さまざまな種類の被写体に対応できるという特徴があ
る。
上記の手法で用いられる代表的な特徴量抽出法としては，局所的な特徴点と特徴ベク
トルを抽出するSIFT（ScaleInvariant Feature Transform）法11）や，SURF（Speeded
Up Robust Features）法12）がある。また，これらを発展させ，大量の特徴量を高速に照
合可能とし，局所特徴量を位置に依存せずに扱うこととしたBoVW（BagofVisual
Words）法などがある。BoVW法は，３図に示すように，エッジやコーナーなどの特徴
点の周辺領域から輝度の勾配ヒストグラム＊８を算出し，多次元空間でクラスタリング
＊８
横軸に勾配方向，縦軸に勾配強
度をとった度数分布図。
（似たもの同士をかたまりに）して複数のVisual Words＊９として定義した後，それらの
出現頻度に基づいて特徴ベクトルを計算する手法である。特徴ベクトルの識別に用いる
＊９
文書を単語の集合として扱う，
BagofWordsという自然言語
処理の手法を応用したもので，
画像の局所特徴量を単語のよう
に扱う手法。
＊10
などがあ
機械学習法にはサポートベクトルマシン（SVM：Support Vector Machine）
る。
2012年に，ニューラルネットワーク＊11を多階層化したDeep Learningと呼ばれる手法
が一般物体認識に適用され，これまでの認識精度を大幅に向上13）させるとともに，どの
＊10
パターン識別用の教師あり機械
学習方法（ラベルが付与されて
いるデータによる学習方法）の
１つで，データを２つのクラス
に分類する線形分類器が作られ
る。
特徴量が有効なのかまで自動的に学習できるようになるなど話題を集めた。ニューラル
ネットワークやそれを多段化する技術そのものは古くから知られていたが，近年のコン
ピューターの性能の進歩や，インターネット上の大量の映像や画像の利用と，それに適
した学習手法の開発により，良好な性能を得ることができるようになった。まだ，学習
に時間を要することや，大量のデータが必要であること，パラメーターの調整が複雑で
＊11
脳の機能の一部を，計算機上の
シミュレーションによって実現
することを目的とした数学モデ
ル。
あることなどから，実用化にはしばらく時間を要するものと思われるが，実用化への期
待は高まっている。
当所では，放送現場での利用を前提として，少ない学習データでの認識精度の確保と，
NHK技研 R&D/No.149/2015.1
19
短い学習時間を想定した手法14）の開発を行っている。この手法では，BoVW法の課題で
ある，映像フレーム内における空間的な位置情報が特徴ベクトルに反映されないという
点や，学習データの作成にかかるコストが大きいという点を解決した。この手法は，フ
レーム画像をさまざまなサイズの部分領域に分割し，各部分領域ごとに画像特徴を算出
することによって，被写体の空間情報を特徴ベクトルに反映する。画像特徴の算出にお
いては，BoVW法による局所特徴ベクトルに加え，より広い領域も考慮できる大域的な
特徴ベクトルも考慮することで，被写体の特徴をより正確に捉えられるようにした。ま
た，認識に有効な特徴量を選択することで，比較的少量の学習データによっても，精度
の高い認識を実現している。さらに，一部のデータにのみラベルを付与するだけで，エ
＊12
ラベルが付与されているデータ
と，ラベルが付与されていない
データの両方が混在するような
不完全な学習データから識別器
を生成する機械学習方法。
ラーの少ない学習データを効率的に作成できる半教師付き学習＊12を提案している15）。ま
た，学習用の画像を収集する際に，インターネット上の画像検索機能を利用する方法も
提案している16）。
（２）人物の顔の検出
テレビ番組において人の顔が映っている映像は，重要な意味を持つことが多い。イン
タビューや記者会見などニュース映像の中から人の顔が映っている場面を見つけること
は，映像の再利用にも有用である。また，他の物体に比べ，正面から映された人の顔の
バリエーションは比較的小さいため，唯一，高精度での検出や認識が実用的に利用され
ている被写体でもある。
顔検出の研究17）自体は古くから行なわれており，初期には顔を輪郭線で表現し，標準
の顔パターンとの一致により検出する手法などが提案された18）。統計的機械学習＊13によ
＊13
統計的な手法を基礎とする機械
学習の方法。
る有名な顔検出手法として，AdaBoost＊14を利用したものがある19）。この手法では，白
と黒のフィルターの組で表される矩形特徴量を抽出し，特徴量ごとに用意した弱学習
＊14
前の識別機の間違いに応じて調
整した次の識別機を作る機械学
習アルゴリズム。
器＊15のうち，重要度の高いものを選択して強学習器＊16を構成した後，複数の強学習器を
一列に並べて判定を行なっている。現在利用されている多くの顔検出システムが，この
手法をベースに発展させたもので，顔の有無や少人数の認識については，市販のデジタ
＊15
ランダムな識別よりは精度が高
いものの，識別精度の高くない
学習器。
ルカメラなどでも実用化されている。また，スマートフォンやパソコンでの認証や，空
港での本人確認20）などにも利用されている。しかし，これらの顔検出・認識システムは，
顔がカメラを向いており，大きさや明るさなども制御された状況での利用にとどまって
＊16
弱学習器を組み合わせた，識別
精度の高い学習器。
おり，番組映像など，多様な照明条件や顔の向きを含む画像から安定して顔を検出した
り，アーカイブスなど，多くの番組に登場する大量の人物を正確に識別するには，まだ
課題が残っている。
当所でも参考文献19）の手法をベースとした顔の検出，追跡，識別技術の研究を行って
いる21）。しかし，放送に用いられる映像，特に報道用の素材映像では，マスクやメガネ，
帽子といった顔の一部を遮蔽するような状況や，極端な横向きなどの顔が多く現れ，検
出漏れも多い。このような検出漏れを低減させるために，一般物体認識を拡張して人物
の顔のアップの画像を学習させ，一般的な顔画像検出と前述の顔検出手法とを併用する
方法も一部の用途で用いている22）。
（３）文字情報の認識
映像内に現れる文字が容易に認識できれば，場所や人名，商品名など，放送用映像の
メタデータとして非常に有効な，さまざまな固有名が取得できる。
書類などに印刷された文字を認識する文字認識（OCR：Optical Character
Recognition）の技術はかなり成熟しており，明瞭なフォントにより白黒で印刷された書
類であれば，高精度で認識することができる。また，多段組みや，縦書き，横書きの認
20
NHK技研 R&D/No.149/2015.1
識についても十分な精度が得られている。
しかし，画像（写真）や映像中に現れる文字の検出，認識については，いまだに精度
が十分とは言えない23）。これは，看板などのような映像中の文字は，字体や文字の色，
背景の色がさまざまで背景と文字がうまく分離できないこと，大きさや向き，傾きなど
の影響が大きいことなどが理由である。また，建物や窓枠など，通常の情景の中には文
字と同様のエッジ特徴を持つものが多く，文字領域の検出自体が困難な課題である。日
本語など漢字圏の文字は，文字の種類も多く，縦書きや横書きなどが混在するため，難
度は高い。
最近のスマートフォンの普及やメガネ型スマートデバイスの登場などにより，文字情
報の認識技術への需要は高まっており，映像内にある文字データの認識技術も競争型
ワークショップ24）で課題設定されるなど，注目を浴びている。
（４）イベントの検出
スポーツ番組でのゴールシーンなど，人はある映像区間を観測することで，何が起き
ているのかというイベント（出来事）を判断することができる。このイベントが機械に
より自動的に検出，認識できれば，映像の利用はさらに広がるものと考えられる。
人の動きから歩行や立ち止まるなどの基本的な行動イベントを抽出し，街頭で撮影さ
れた映像から，不審な行動を検出するなどの取り組み25）は，世界的に行われている。放
送番組においては，比較的定型的なショットが繰り返し用いられることを利用して，ス
ポーツ番組映像からのイベント内容（野球のホームラン，ツーベース，三振など）の認
識26）27）が行われている。また，選手の動きなどからバスケットボールのジャンプや
シュート28）などを抽出したり，サッカーグラウンド全体を撮影した映像から，選手の動
きや位置を認識し，フリーキックやキックオフなどのイベントを抽出29）する試みもある。
しかし，スポーツのように特定の条件のもとではなく，複雑で多様なイベントの識別
を行うことは，いまだに困難な課題となっている。被写体の種類からイベントを限定し
て認識する手法30）や，単純なイベントの映像を属性要素とし，これらの組み合わせや相
関から複雑なイベントを認識させる試みなど31）が行われている。2010年からは，複雑な
イベントを映像から抽出する，TRECVid Multimedia Event Detectionのタスク32）も始
まった。
写真などの静止画像に比べ，映像には動きの情報があり，イベント内容を説明するこ
とに適している。複雑なイベントの検出や認識は，これからの重要な研究テーマと言え
る。
2.4 類似画像検索
映像を検索する場合，前述のように，あらかじめ付与した被写体名などの言葉で検索
する方法以外に，手持ちの画像に似た風景の映像を探したい場合や，頭の中にはイメー
ジがあるものの，必ずしも被写体名のように言語で表現することができない構図や色，
模様などに注目して検索したい場合がある。このような非言語的な情報で検索したい場
合には，例示画像に類似した画像を見つける類似画像検索技術が有効である。類似画像
検索は，与えられた画像を，含まれている色や模様などで数値化したデータに変換し，
蓄積されている画像を数値化したデータ群と，数値間の数学的な距離を比較し，近いも
のを見つけることで，検索を行う。事前の学習も不要であり，色や模様などの特徴をあ
らかじめ数値化しておくことで比較的高速に大量の画像が処理できることから，Google
画像検索での類似機能33）や，写真データの提供サイト34）など，いくつかのシステムが実
用，もしくはそれに近い状態で提供されている。
NHK技研 R&D/No.149/2015.1
21
被写体領域
目立つ領域マップ
「目立つ領域マップ」で
被写体領域を特定
中央のブロックを
被写体領域へずらす
被写体を追いかけて
ブロック同士で画像特徴を比較
レイアウトが若干異なる画像も見つけることが可能
４図類似画像検索において被写体が複数のブロックの境界にまたがる場合の処理
当所でも，例示した画像との類似度を計算することで類似の画像を検索，提示する類
似画像検索技術の研究を行っている。放送現場での利用を想定して，厳密な画像間の一
致よりも，大まかな構造の類似性に注目している。この手法では，色とテクスチャーを
４×４のブロックごとに比較し，全体の構図を重視した検索が可能である。また，４図
のように主要な被写体が複数のブロックの境界にまたがることで類似度が低下する問題
に対し，ブロックを一定の範囲で移動させてマッチングをとることで緩やかな類似画像
検索を実現した35）。この手法による実験の結果，類似度が上位10件の検索結果中，類似
していると判断されるものが70％以上あり，大量の映像からの絞り込みに用いるには十
分な精度を持つと考えている。また，この手法は，データベースに蓄えられた主要な色
やテクスチャーなどを要素として用いて人手で描いた簡単なスケッチ画像を入力とする
検索36）へも応用できる。さらに，類似画像検索を発展させ，複数のショットの代表静止
画像の特徴量を計算して比較することで，シーンに相当する区間も検索できるようにし
た。
３．映像解析技術を応用した検索システム
前述のように，これまでの映像管理は，VTRテープを少量のテキストデータで検索す
る方法が主に行われてきたが，NHKにおいても，映像をファイルデータとして扱うファ
イルベース化が始まっている。このタイミングに合わせ，当所では放送現場と協力して，
映像検索システムの実験的な利用を始めている。ここでは，２つのシステムの概要につ
いて報告する。
3.1 震災メタデータ補完システム
2011年に発生した東日本大震災では，極めて大量の報道用素材映像が撮影された。こ
れらの映像は，放送素材映像として貴重なだけでなく，今後の防災，減災に極めて重要
であり，整理，蓄積し，アーカイブ化することが急務である。しかし，大量の映像が短
期間で撮影されたため，整理作業は膨大となり，映像データベースの構築が課題となっ
ていた。
当所では，撮影された素材映像のショット境界を検出し，一部の被写体情報などのメ
タデータ付与作業を省力化できるメタデータ補完システムを試作22）37）した。このシステ
ムは，映像解析技術や音響識別技術などを組み合わせて，メタデータを自動付与するシ
ステムである。ショット単位への区分やいくつかの被写体情報を高速に自動付与すると
ともに，認識誤りの訂正や意味情報の追加を，人手で簡便に行うツールを用意して，確
度の高いメタデータを効率的に付与することを目指している。システムには，付与した
メタデータによる映像検索機能も付加し，現在，福島放送局で試行運用中である。福島
放送局では，約３カ月でVTR１万本以上の映像を処理し，ショット単位での映像検索に
より見つけた素材が番組制作に利用されている。ノートPCを用いた非常に小規模な構成
22
NHK技研 R&D/No.149/2015.1
自動処理管理ツール
キャプションデータ
FTP※2
ツール
参照動画
LTO※1
ドライブ
ショット分割
＋
サムネイル作成
オブジェクト認識技術
画像
撮影メモ
実験的に抽出した
被写体
・火災・炎
・水
・がれき
・ヘリコプター
・救急車
・原発
カラーバー
空撮
顔アップ
チェックツール
（確認，修正，追加）
＋
メタデータ
顔検出
音声
検索用DB
×
インタビュー
人の声
音声認識技術の一部
※１ Linear Tape-Open：コンピューター用磁気テープの規格。
※２ File Transfer Protocol。
５図震災メタデータ補完システムの処理概要
６図震災メタデータ補完システムの福島放送局での利用の様子
で高速な処理が可能で，他用途への応用も検討が始まっている。５図に処理概要を，６
図に福島放送局での利用の様子を示す。
3.2 アーカイブス検索の高機能化検証
NHKアーカイブスに蓄積されている過去の番組の一部を対象に，高機能な検索の実現
に向け，一般物体認識技術を利用した被写体情報の抽出技術や，入力した画像に類似す
る映像を検索する技術を盛り込んだ検索システムを試作し，2015年１月から検索機能の
検証実験を始める予定である。このシステムでは，７図に示すような検索画面により，
以下のような検索機能を提供する。
!一般物体認識によりショットに付与された被写体メタデータを用いた検索
!指定ショットもしくはアップロードした画像に類似するショットの検索
!ショット単位，シーン単位による番組内容の一覧
!当該番組中のスーパーインポーズ（画面に重ねて表示した文字や図）のあるショッ
トの一覧
!当該番組中の顔が映っているショットの一覧
!選択中のショットに類似したショットの検索結果
今後は，放送制作現場の利用者に検索機能の有効性を評価してもらう予定である。ま
た，映像解析技術を応用した，映像アーカイブスへのメタデータ自動付与機能に関して
NHK技研 R&D/No.149/2015.1
23
７図 NHKアーカイブス検索システムの検索画面例
も評価を行う予定である。
４．おわりに
本稿では，利用者が望む映像を簡単に入手できる映像検索の高度化を目的とした，映
像解析技術の動向と，当所における映像検索システムの開発状況について述べた。放送
局においても，コンピューターの高性能化に伴い映像がファイル化され，大量の映像を
容易に扱うことができるようになった。自動検索化については，研究の進展により，よ
うやくその入口にたどり着いた状況と言える。しかしながら，映像を簡単に見つけ出せ
る検索システムの実現には依然として課題も多く，現在もさまざまな研究が行われてい
る。それらの技術については，参考文献38）を参照されたい。
本稿で述べた映像検索を高度化する映像解析技術は，利用環境やシステム化の方法に
よっては，現在の技術水準でも利用可能な領域があると考える。利用可能な分野や対象
と技術とをマッチさせることで，すべてを自動化することはできないとしても，可能な
範囲で作業労力を減らす支援システムとして利用しながら，映像解析手法の改善を図っ
ていきたい。
24
NHK技研 R&D/No.149/2015.1
参考文献
1） A.Nagasaka，Y. Tanaka：
“Automatic Video Indexing and FullVideo Search for Object
Appearances ，” Proc. IFIP TC 2 / WG 2.6 Second Working Conference on Visual
Database Systems II，pp.113127（1991）
2）岩元，山田：
“多次元特徴空間解析に基づく映像のカット検出手法，
”FIT，I026（2005）
3）望月，蓼沼，八木：
“フラクタル特徴の変化に基づくカット点検出，
”信学総大，D11134，
p.134（2005）
4） A. Smeaton，P. Over，A. Doherty：“Video Shot Boundary Detection：Seven Years of
TRECVid Activity，
”Computer Vision and Image Understanding Volume 114，Issue 4，
pp.411418（2010）
5）河合，住吉，八木：
“逐次的な特徴算出によるディゾルブ，フェードを含むショット境界の高
速検出手法，
”信学論D，Vol.J91D，No.10，pp.25292539（2008）
6）河合，住吉，藤井，八木：
“フレーム補間を利用したフラッシュによる映像変動の補正手法，
”
映情学誌，Vol.66，No.11，pp.J444J452（2012）
7）宋，小川，長谷山：
“映像の構造に注目したMCMC法によるシーン分割の高精度化に関する検
討，
”信学技報，CAS回路とシステム，110（86）
，pp.115120（2010）
8）福田，望月，佐野，藤井：
“統合色リストに基づく番組映像のシーン系列生成，
”映情学年次
大，238（2012）
9）望月，佐野：
“画像片リストに基づいたショットの統合によるシーン系列生成，
”FIT，No.3，
H004，pp.101102（2013）
10）M. Hearst：“MultiParagraph Segmentation of Expository Text，”Proc. 32nd Annual
Meeting of the Association for Computational Linguistics（1994）
11 ） David G. Lowe ：“ Distinctive Image Features from Scale Invariant Keypoints ，”
International Journal of Computer Vision 60（2）
，pp.91110（2004）
12）H. Bay，T. Tuytelaars，L. Gool：“SURF：Speeded Up Robust Features，”Proc. of
European Conference on Computer Vision，pp.404415（2006）
13）A. Krizhevsky ， I. Sutskever ， G. Hinton ：“ ImageNet Classification with Deep
Convolutional Neural Networks，
”Advances in Neural Information Processing Systems
25（2012）
14）河合，藤井：“Semantic Concept Detection Based on Spatial Pyramid Matching and
Semisupervised Learning，”ITE Trans. Media Technology and Applications，Vol.1，
No.2，pp.190198（2013）
15）河合，藤井：
“クローズドキャプションと画像特徴を考慮した反復学習に基づく映像検索シス
テム，
”映情学年次大，237（2012）
16）河合，望月，住吉，佐野：
“NHK STRL at TRECVID 2013：Semantic Indexing，
”TREC
Video Retrieval Evaluation（TRECVID 2013 Workshop）
（2013）
17）岩井，勞，山口，平山：
“画像処理による顔検出と顔認識，
”情処学CVIM研資，CVIM149
（37）
（2005）
18）坂井，長尾，藤林，木戸出：
“濃淡図形からの線要素の抽出とパターンの認識，
”情報処理，
Vol.10，No.3，pp.132142（1969）
19）P.Viola and M. Jones：“Robust Realtime Face Detection，”International Journal of
Computer Vision（IJCV）57（2）
，pp.137154（2004）
20）
“新しい自動化ゲートの実証実験の実施について，
”http：//www.moj.go.jp/nyuukokukanri/
kouhou/nyuukokukanri04_00023.html
NHK技研 R&D/No.149/2015.1
25
21）S. Clippingdale and M. Fujii：“Video Face Tracking and Recognition with Skin Region
Extraction and Deformable Template Matching，”International Journal of Multimedia
Data Engineering and Management（IJMDEM）Vol.3，No.1，pp.3648（2012）
22）住吉，河合，望月，佐野，藤井：
“大震災アーカイブスメタデータ補完システム，
”映情学年
次大，61（2012）
23）L. Neumann and J. Matas：“A Method for Text Localization and Recognition in Real
world Images，
”Asian Conference on Computer Vision，ACCV 2010，pp.20672078
（2010）
24）D. Karatzas，et al.：
“ICDAR 2013 Robust Reading Competition，
”ICDAR 2013（2013）
25）J. Fiscus，et al．：
“TRECVID 2009 Video Surveillance Event Detection Track，
”2009
TREC Video Retrieval Evaluation Notebook Papers and Slides（http：//wwwnlpir.nist.
gov/projects/tvpubs/tv.pubs.9.org.html）
26）望月，藤井，八木，篠田：
“投球の次ショットに重きを置いたシーンのパターン化と離散隠れ
マルコフモデルを用いた野球放送映像の自動イベント分類，
”映情学誌，Vol.61，No.8，
pp.11391149（2007）
27）矢崎，三須，中田，本井，小林，松本，八木：
“ベイズ隠れマルコフモデルを用いたスポーツ
イベント検出の高精度化，
”信学技報，ヒューマン情報処理，HIP 109（471）
，pp.401406
（2010）
28）M. Takahashi，M. Naemura，M. Fujii and James J. Little：“Human Action Recognition
Using a Combined Global and Local Pairwise Representation，
”Proc. IEEE International
Symposium on Multimedia（ISM 2013）
，pp.147154（2013）
29）三須，高橋，蓼沼，八木：
“サッカー映像のフォーメーション解析に基づく実時間イベント検
出，
”FIT，LI003（2005）
30）M. Mazloom，E. Gavves，K. E. A. van de Sande and C. Snoek：“Searching Informative
Concept Banks for Video Event Detection ，” Proc. 3 rd ACM Conf. International
Conference on Multimedia Retrieval（ICMR2013）
，pp.255262（2013）
31）Z. Ma，Y. Yang，Z. Xu，S. Yan，Nicu Sebe and A. G. Hauptmann：“Complex Event
Detection via MultiSource Video Attributes，
”IEEE Conf. Computer Vision and Pattern
Recognition（CVPR2013）
，pp.26272633（2013）
32）J. Fiscus，G. Sanders，D. Joy and P. Over：“2013 TRECVID Workshop Multimedia
Event Detection and Multimedia Event Recounting Tasks，
”http：//wwwnlpir.nist.gov/
projects/tvpubs/tv13.slides/tv13.med.mer.final.slides.pdf（2013）
33）グーグル画像検索（https：//www.google.co.jp/imghp?hl＝ja）：
“Similar Images Graduates from Google Labs，”http：//googleblog.blogspot.jp/2009/10/similarimages
graduatesfromgoogle.html
34）アマナイメージズ社：
“http：//amanaimages.com/”
35）T. Mochizuki，H. Sumiyoshi，M. Sano and M. Fujii：“Visualbased Image Retrieval by
Block Reallocation Considering Object Region ，” Asian Conference on Pattern
Recognition（ACPR2013）
，PS203，pp.371375（2013）
36）望月，住吉，藤井：
“クエリー画像描画による画像検索の構図テンプレートを用いた高速化，
”
FIT，No.3，H040，pp.219220（2010）
37）住吉，河合，望月，クリピングデル，佐野：
“大震災アーカイブスメタデータ補完システム
の開発と検出精度評価，
”映情学年次大，142（2013）
26
NHK技研 R&D/No.149/2015.1
38）M. Haseyama，T. Ogawa and N. Yagi：
“A Review of Video Retrieval Based on Image and
Video Semantic Understanding，”ITE Trans. on Media Technology and Applications，
Vol.1，No.1，pp.29（2013）
すみよしひでき
住吉英樹
1980年入局。広島放送局を経
て，1984年から放送技術研究
所において，コンピューター
を利用した番組制作システム，
メタデータ制作システムの研
究に従事。現在，放送技術研
究所ハイブリッド放送システ
ム研究部上級研究員。博士
（工学）
。
NHK技研 R&D/No.149/2015.1
27

Download Report