平成 20 年度フロンティアプロジェクトぼかし映像を H.264/SVC で符号化した際の符号化特性の調査 The attribute investigation of the mosaic image encoded in H.264/SVC 1090397 山田悠太指導教員清水明宏 2009 年 3 月 17 日高知工科大学フロンティア工学コース要旨ぼかし映像を H.264/SVC で符号化した際の符号化特性の調査山田悠太近年，犯罪の未然防止や，保護区の監視をするために，監視カメラの利用が増加している．その際，高画質な映像で保存・監視できる映像圧縮技術として，H.264/AVC が用いられるようになった．その一方で，監視映像の配信により，被写体のプライバシ保護が問題となっている．そのため，監視映像にぼかし処理を適用して配信する方法が用いられている．監視カメラで撮影された映像は，複数のモニターに配信され，監視室や遠隔地といった様々な場所で監視されている．H.264/AVC を用いてこれらを実現するには，配信サーバが複数台必要であった．そこで，現在注目されている映像圧縮技術として，H.264/AVC の拡張標準である H.264/SVC がある．この技術を用いることで，一つの配信サーバで複数のモニターに配信することができる．しかし，現時点で，H.264/SVC にぼかし処理を適用する方式の提案や検証はされていない．そこで，本研究では，H.264/SVC にぼかし処理を適用する方式を提案する．そして，監視カメラを運用する上で重要な処理コスト，保存映像の画質，ファイルサイズの観点から提案方式の評価を行った．キーワード H.264/SVC, ぼかし，監視カメラ –i– Abstract The attribute investigation of the mosaic image encoded in H.264/SVC YAMADA, Yuta Recently, the number of surveillance cameras that use H.264/AVC is increasing to prevent a crime. On the other hand, we should defend the privacy of subject because the surveillance camera spread. Therefore, the mosaic image is delivered because of the privacy protection. However, in order to watch by H.264/AVC from two or more places, two or more sets of distribution servers were required. Then, H.264/SVC which can perform animation transfer at two or more places by the server was made. However, suggestion of a method to apply mosaic processing to H.264/SVC is not considered. In addition, the verification has not been done yet. Then, we propose the method to apply mosaic work to H.264/SVC. And we evaluated the suggestion method from a processing cost, the image quality, file size. key words H.264/SVC，mosaic，surveillance camera – ii – 目次第1章序論 1 1.1 背景と目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 本論文の概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 H.264 3 2.1 H.264/AVC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 H.264/SVC 4 第2章第3章 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 提案方式 7 3.1 圧縮前にぼかし処理を適用する方式 . . . . . . . . . . . . . . . . . . . . . 8 3.2 圧縮後にぼかし処理を適用する方式 . . . . . . . . . . . . . . . . . . . . . 8 第4章評価 10 4.1 処理コスト . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 4.2 保存映像の画質 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4.3 ファイルサイズ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 結論 15 第5章謝辞 17 参考文献 18 – iii – 図目次 2.1 多層的データ構造 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 H.264/SVC を用いた配信例 . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3.1 ぼかし処理の流れ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.2 圧縮前にぼかし処理を適用する方式の処理 . . . . . . . . . . . . . . . . . . 8 3.3 圧縮後にぼかし処理を適用する方式の処理 . . . . . . . . . . . . . . . . . . 9 4.1 保存映像の画質比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.2 検証映像 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.3 ぼかし強度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.4 圧縮後にぼかし処理を適用する方式と比べた場合の増減結果 . . . . . . . . . 14 – iv – 表目次 4.1 処理コストの比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4.2 ファイルサイズ増減結果（平均値） . . . . . . . . . . . . . . . . . . . . . . 14 5.1 評価まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 –v– 第1章序論本章では，本研究における社会的背景と目的について述べ，本論文の概要について述べる． 1.1 背景と目的近年，犯罪手口の多様化や凶悪化が社会問題となっている．そこで，駅やアーケード内では，監視カメラを複数台設置し，監視・記録することにより，犯罪を未然に防ぐ手法を取り入れている．その際，犯人の特定を容易にし，捜査の精度を上げるため，高画質な映像の記録が求められている．そこで，映像圧縮技術として，従来の技術よりも高い画質を実現できる H.264/AVC が用いられるようになった．しかし，監視映像の配信により，被写体のプライバシ保護が問題となっている．この問題を解決するために，映像全体にぼかし処理を適用する方法がある．これにより，輪郭を残し，人物を特定できない状態にすることが可能となった．一部の地域では実際に，配信する映像にぼかし処理を適用し，被写体のプライバシを保護している．プライバシ保護された映像は，複数のモニタに配信され，監視室や遠隔地といった様々な環境からリアルタイムで監視されている．そのため，H.264/AVC で配信する場合，複数台の配信サーバが必要である．そこで，現在注目されている映像圧縮技術として，H.264/AVC の拡張標準である H.264/SVC がある．この技術を用いることで，1 つの配信サーバで複数のモニタに映像を配信することができる．これにより，配信サーバの数を減らし，コストを削減することができる．しかし，現時点で，H.264/SVC にぼかし処理を適用する方式の提案や検証はされていない．そこで，本研究では，H.264/SVC にぼかし処理を適用する方式を提案する． –1– 1.2 本論文の概要そして，監視カメラを運用する上で重要な処理コスト，保存映像の画質，ファイルサイズの観点から提案方式の評価を行う． 1.2 本論文の概要本論文では，H.264/SVC に適したぼかし適用方式の提案，評価を行う．第二章では，H.264/AVC，H.264/SVC の技術的背景および概要について述べる．第三章では，適用するぼかし手法及び，提案方式について述べる．第四章では，監視カメラを運用する上で重要な処理コスト，保存映像の画質，ファイルサイズの観点から提案方式の評価を述べる．最後に，本論文の成果をまとめ，今後の課題について述べる． –2– 第2章 H.264 本章では，映像圧縮技術として国際標準とされている H.264/AVC および，拡張標準である H.264/SVC について述べる．H.264/AVC とは国際標準化機関である ITU-T （国際電気通信連合-電気通信標準化部門）によって勧告された動画圧縮規格である [4] ．ISO/IEC（国際標準化機構/国際電気標準会議）では，ISO/IEC14496-10MPEG-4 Part 10 Advanced Video Coding として規定されているが，技術的には同一のものである [5]．この両者の名前を合わせて，一般的に H.264/AVC と呼ぶ．本章では，まず，国際標準化団体の規格である H.264/AVC について述べる．次に，H.264/AVC の拡張標準である H.264/SVC（Scalable Video Coding）について述べる． 2.1 H.264/AVC ここでは，従来方式である MPEG-4 からの改良点を中心に H.264/AVC について述べる．H.264/AVC の基本的なアルゴリズムは従来方式である MPEG とよく似ている．まずフレーム間予測を行い，次に周波数変換して画素を高域成分と低域成分に分解し，量子化を行った後，エントロピー符号化を行う．ただし，処理に用いるアルゴリズムが異なる．次に述べる MPEG とは異なる符号化アルゴリズムを採用することで画質・圧縮率の向上を可能としている． • 可変ブロック・サイズ動き補償まずフレーム間予測について述べる．MPEG では 16 × 16 のマクロブロックを基本処理単位としていた．H.264 ではフレーム間予測におけるマクロブロックの処理単位とし –3– 2.2 H.264/SVC て，16 × 16，16 × 8，8 × 16，8 × 8 の 4 種類のブロックサイズをサポートしている．更に各 8 × 8 ブロックをサブブロックモードと呼ばれる，8 × 8，8 × 4，4 × 8， 4 × 4 の 4 種類のブロックサイズに分割できる．これにより，多数のブロックサイズを利用することで，形状や動きに適したブロックからの予測が可能となる． • 4 × 4 画素単位の直交変換 H.264/AVC では，4 × 4 画素単位の直交変換を用いる．従来の JPEG，MPEG-1， MPEG-2 や MPEG-4 では，すべて 8 × 8 画素単位の直交変換が用いられていた．4 × 4 画素単位の直交変換には，8 × 8 画素単位の直交変換に比べ優れている点が二つある．まず，4 × 4 画素単位の直交変換のほうが，扱うデータ数が少なく，演算の有効桁数が少ないため，容易に実現することができる．次に，4 × 4 画素単位の画面内予測，4 × 4 画素単位の動き補償など，符号化の最小単位が 4 × 4 画素のため，直交変換も 4 × 4 画素単位にすることで整合性をとることができる． • デブロッキングフィルタこのフィルタは，整数変換のブロック境界のみを平滑化してブロックノイズの発生を抑制するものである．デブロッキングフィルタは圧縮率向上のためには効果的であるが，処理量が大きいという問題がある．そのため，処理量を抑えたい場合，デブロッキングフィルタを使用しないことも可能である． 2.2 H.264/SVC H.264/SVC は，2007 年 11 月に ITU-T と ISO/IEC によって標準化された最新の映像圧縮技術であり，正式には H.264/AVC Annex G と呼ばれる [1]．H.264/AVC や従来の映像配信では，通信の開始時に受信端末とデータ規格の適合性を取って固定されている．このため，多様な機器と接続した場合，それだけ多様な配信サーバが必要となる．しかし H.264/SVC の場合，配信サーバ 1 つで実現することができる．これは H.264/SVC では，映像データの構造を変え，多層的データ構造を採用することで実現している．多層的データ –4– 2.2 H.264/SVC 構造のイメージを図 2.1 に示す．図 2.1 多層的データ構造 H.264/SVC のデータ構造は，ベース・レイヤ，拡張レイヤの二つに分けられる．ベース・レイヤは，必要最低限の映像要素で構成されている．これは，高信頼性チャネルといわれる必須のデータストリームである．そのため，FEC（Forward Error Correction，前方誤り訂正）を用いてデータの欠落を抑える．拡張レイヤは，ベース・レイヤに加えることで映像品質を上げることができる要素で構成されている．そのため，ベース・レイヤより優先度が低く低信頼性チャネルといわれる．低信頼性チャネルでは，次の 3 つで構成されている． • Spatial（空間レイヤ）このデータを付加することで，映像が高精細化される． • Temporal（時間レイヤ）このデータを付加することで，映像のフレーム・レートが向上する． –5– 2.2 H.264/SVC • Signal/Noise（S/N 比レイヤ）このデータを付加することで，映像の通信品質が向上する．エンコーダ（符号器）では，さらにこれら 3 つのレイヤをどれだけの階層に分割するかを設定することができる．配信までの流れとして，送信側機器は，データを高信頼性チャネルと低信頼性チャネルの 2 つに分けて符号化し，送信する．そして，再生側機器では，ネットワーク帯域の状態や，受信機器の環境から高信頼性チャネルに加えて受信する低信頼性チャネルのデータを最適に組み合わせ，再生する．ここで，高信頼性チャネルと空間レイヤを受信すると，低フレーム・レートで高精細な映像を再生することができる．H.264/SVC を用いた配信例を図 2.2 に示す．図 2.2 H.264/SVC を用いた配信例 –6– 第3章提案方式本章では，今回適用したぼかし処理および，提案するぼかし適用方式について述べる．提案方式におけるぼかし処理はぼかしの一種である，輝度成分の平均値を用いたモザイク処理を適用した．モザイク処理とは画像や映像において，表示させたくない部分にピクセル単位でぼかすことができるフィルタリング処理である．処理方法としては，まず，原画像の一定領域ごとの輝度情報を読み込み，輝度情報の平均値を計算し，その結果を用いて映像を加工する．具体的な処理の流れを図 3.1 に示す．図 3.1 は，映像 6 × 6 サイズ，ぼかしの強度 3 × 3 である．図 3.1 ぼかし処理の流れ –7– 3.1 圧縮前にぼかし処理を適用する方式 3.1 圧縮前にぼかし処理を適用する方式圧縮前にぼかし処理を適用する方式で，ぼかし映像を配信する流れを図 3.2 に示す．圧縮前にぼかし処理を適用する方式で，ぼかし映像を配信するには次に示す処理が必要である． 1. 監視用の低解像度映像にぼかし処理を適用する 2. ぼかし映像と保存用の高解像度映像を H.264/SVC でエンコードするこの時，ぼかし映像が低解像度のため，ベース・レイヤとしてエンコードされる． 3. 映像を取り出し再生する保存用の高画質な映像を受信端末で再生する場合，このエンコードされたベース・レイヤに拡張レイヤを付加して再生する．ぼかし映像を受信端末で再生する場合，ベース・レイヤのみを再生する．以上の処理を経て，受信端末で再生される．図 3.2 3.2 圧縮前にぼかし処理を適用する方式の処理圧縮後にぼかし処理を適用する方式圧縮後にぼかし処理を適用する方式で，ぼかし映像を配信する流れを図 3.3 に示す．圧縮後にぼかし処理を適用する方式で，ぼかし映像を配信するには以下に示す処理が必要で –8– 3.2 圧縮後にぼかし処理を適用する方式ある． 1. 監視用の低解像度映像と保存用の高解像度映像を H.264/SVC でエンコードするこの時，低解像度の映像がベース・レイヤとしてエンコードされる． 2. 映像を取り出す保存用の高画質な映像を受信端末で再生する場合は，エンコードされたベース・レイヤに拡張レイヤを付加して再生する． 3. 無圧縮の状態にデコードするこれは，圧縮してある映像では，ぼかし処理を適用できないため行う． 4. 低解像度の映像にぼかし処理を適用する 5. ぼかし映像を再圧縮し，再生する以上の処理を経て，受信端末で再生される．図 3.3 圧縮後にぼかし処理を適用する方式の処理 –9– 第4章評価本章では，3 章で提案した 2 点の H.264/SVC に適したぼかし方式を処理コスト，保存映像の画質，ファイルサイズといった 3 点から評価する． 4.1 処理コスト映像を配信する場合，映像のエンコード，デコードに最も処理コストがかかる．そのため，これらの処理回数が多いほど処理コストの高い方式といえる．そこで，処理コストの評価では，処理コストの高い処理であるエンコード，デコード回数から評価する．圧縮前にぼかし処理を適用する方式では，H.264/SVC で複数の映像を圧縮する際にエンコードが 1 回行われる．それに対し，圧縮後にぼかし処理を適用する方式では，まず H.264/SVC で複数の映像を圧縮する際に 1 回目のエンコードが行われる．さらに，ぼかし処理を適用する際に 1 回目のデコードと 2 回目のエンコードが行われる．評価結果を表 4.1 に示す．この結果より，圧縮後にぼかし処理を適用する場合，エンコード，デコード処理を複数回しなければならない．このため，処理コストが高く，高性能な端末でなければ再生時にサーバで遅延が発生する恐れがある．これに比べ，圧縮前にぼかし処理を適用する方式では，1 回のエンコードで映像を配信できるため，処理コストが低い方式といえる． – 10 – 4.2 保存映像の画質表 4.1 処理コストの比較圧縮前にぼかし処理を適用する方式圧縮後にぼかし処理を適用する方式エンコード回数 1 2 デコード回数 0 1 4.2 保存映像の画質圧縮後にぼかし処理を適用する方式では，従来の H.264/SVC で実現できる高画質な映像を保存することができる．しかし，圧縮前にぼかし処理を適用する方式では，ベース・レイヤがぼかし映像のため画質が劣化する恐れがある．そこで 2 つの方式から，保存用の高画質な映像を取り出し比較を行った．取り出した 2 つの映像を図 4.1 に示す． 2 つの映像を比べると，圧縮後にぼかし処理を適用する方式に比べ，圧縮前にぼかし処理を適用する方式は画質が劣化していることが分かった．そこで，PSNR を用いて，原画像における測定画像の劣化度合いを評価する [3]．PSNR は，原画像と測定画像が完全に一致する場合には，無限大となり，ノイズ量が大きいほど値が小さくなる．PSNR は式 4.1 で表される． ∑X P SN R = 10 log10 ∑X ∑Y x=1 x=1 ∑Y y=1 A2 ′ 2 y=1 {f (x, y) − f (x, y)} (4.1) 原画像を圧縮後から取り出した保存用の高画質な映像とし，計測すると，PSNR は 42.94dB であった．PSNR は 40dB を超えると，人間の目ではその差異がほとんど知覚できないと言われている．そのため，圧縮前にぼかし処理を適用した方式でも画質の劣化は知覚できないレベルだということが分かった． 4.3 ファイルサイズ圧縮前にぼかし処理を適用する方式では，ベース・レイヤがぼかし映像のため，圧縮後にぼかし処理を適用する方式と比べ，ファイルサイズが増加する恐れがある．そこで，圧縮後にぼかし処理を適用する方式と比べた場合のファイルサイズ増加量を計測した．まず，今回 – 11 – 4.3 ファイルサイズ図 4.1 保存映像の画質比較検証に使用した映像を図 4.2 に示す．これらの映像は，ITU-R（国際電気通信連合-無線通信部門）で国際標準とされている [2]．低解像度の映像として 180 × 150 ピクセル，保存用の高画質な映像として 360 × 300 ピクセルの映像を使用した．また，使用したぼかし強度を図 4.3 に示す．そして，圧縮後にぼかし処理を適用する方式と比べた場合の増減結果を表 4.2，図 4.4 に示す．図 4.4 では，動きが多い映像と動きが少ない映像の値は 3 つの映像の平均値である．この検証から，圧縮後にぼかし処理を適用する方式と比べて，圧縮前にぼかし処理を適用する方式では，動きの少ない映像にぼかし処理を適用すると，ファイルサイズが減少することが分かった．それに対し，動きのある映像ではファイルサイズが増加することが分かった． – 12 – 4.3 ファイルサイズ図 4.2 検証映像図 4.3 ぼかし強度 – 13 – 4.3 ファイルサイズ表 4.2 ファイルサイズ増減結果（平均値）動きの多い映像動きの少ない映像複合的な映像 59325KB 59325KB 59325KB ぼかし処理無しで圧縮 248KB 373KB 231KB 圧縮前にぼかし処理を適用する方式 257KB 359KB 241KB 圧縮後にぼかし処理を適用する方式 248KB 373KB 231KB 圧縮前図 4.4 圧縮後にぼかし処理を適用する方式と比べた場合の増減結果 – 14 – 第5章結論本研究では，H.264/SVC にぼかしを適用する方式を提案し，監視カメラを運用する上で重要な処理コスト，保存映像の画質，ファイルサイズの三点から評価した．評価のまとめを表 5.1 に示す．表 5.1 評価まとめ圧縮前にぼかし処理を適用する方式圧縮後にぼかし処理を適用する方式処理コスト ○ × 保存映像の画質 △ ○ ファイルサイズ 252KB 231KB 圧縮前にぼかし処理を適用する方式のメリットして，処理コストの低さが挙げられる．このため，圧縮後にぼかし処理を適用する方式に比べ，低処理端末で映像の配信を行うことができる．デメリットとして，ファイルサイズが増加することが挙げられる．このため，圧縮後にぼかし処理を適用する方式より，録画可能時間が少なくなる．しかし，今回の検証結果では，ファイルサイズの増加量は最大 9.1%程度増加した．これより，監視カメラを運用する上では，あまり大きな影響はないと考えられる．これに対し，圧縮後にぼかし処理を適用する方式のメリットとして，圧縮前にぼかし処理を適用する方式と比べ，録画可能時間が多く，画質が高いことが挙げられる．デメリットとしては，処理コストが高いことが挙げられる．このため，圧縮後にぼかし処理を適用する – 15 – 方式は，処理コストが高く，高性能な端末でなければ再生する映像に遅延が発生する恐れがある．今回の検証では，解像度が 180 × 150，360 × 300 の映像を使用した．しかし，解像度を変更した場合，今回の検証結果とは異なる結果が出る可能性がある．そのため，今後は，解像度を変更し検証する必要がある． – 16 – 謝辞本研究を遂行するにあたり，ご指導，ご助言を頂きました高知工科大学フロンティア工学コース清水明宏教授に心より厚くお礼を申し上げます．本研究の副査を担当していただいた，高知工科大学フロンティア工学コース野中弘二教授に深く感謝致します．本学大学院修士課程 2 年生の小野豊氏，中山優氏には，研究内容に関して有益なアドバイスをしていただきました．お二方のご協力がなければ，この論文を書き上げることはできなかったと思います．心から厚くお礼申し上げます．本学大学院修士課程 1 年生の青木渉氏，野倉宏和氏，濱口真伍氏，本学情報システム工学科 4 年生の松並政治氏，本学情報システム工学科 3 年生の森一聡氏，苅田光一郎氏，高知工科大学清水研究室の皆様には，研究途上において，有益な御議論を頂き心から感謝致します． – 17 – 参考文献 [1] Heiko Schwarz，“JSVM Software Manual,”2008. [2] YUV Video Sequences, “http://trace.eas.asu.edu/yuv/index.html,”2008/11/28． [3] 貴家仁志, “よくわかる動画・静止画の処理技術,” CQ 出版社，2004 年 [4] ITU-T Recommendation H.264，“Advanced Video Coding for generic audiovisual” 2003 [5] ISO/IEC 14496-10，“Coding of audiovisual objects - Part 10:Advanced Video Coding” 2003 – 18 –