官能率符号化動画像の画質に関する基礎的研究

高能率符号化動画像 の画質 に関す る基礎 的研究
半谷 精 一 郎
東京 理科 大学 工 学 部
電気 工 学 科 助 教授
1 . は じめに
高能率符号化画像 の画質評価 に S N R ( S i g n a l t o N o l s e R a t i o ) を 用 いることが 不適切 であ
ることは一 般 によ く知 られて い る〔1 〕。 これ は、 符号化時 に生 じる雑音が、輝度が大 き く変化す
るエ ッジ付近 に集 中 した り、 ブロ ック状 に分布 して、雑音量が 同 じで も主観的 にはま った く異 な
って感知 され るか らであ るc そ のため、人間 の視覚 の空間周波数特性を正眩波 グレー テ ィ ングを
用 いて 測定 し、雑音量を計算す る際に この ことを考慮す る方法 〔2 〕や、実画像 に加えた空 間周波
数選択性雑音 に対す るM O S ( M e a n o p i n l o n S c o r e ) を もとに導 出 した重み付 け関数 を利用す る
W S N R ( W e i g h t e d S N R ) 〔 3 〕などが提案 されて い る。
この うち、後者 のW S N R に関 して は、 さらに原画 の 局所的 なフラクタル次元を利用 して 改良 した
AWSNR(Advanced W S N R〔
4 〕) が M O S と
C o s i n e T r a n s f o r m )5 〔
〕のよ うな変換符号化や V Q 一
0 , 9 3 の相関を与え てお り、 D C T ( D i s c r e t e
PE(Vector QuantiZatlon of Prediction
Error)〔
6 〕のよ うな予測符号化 によ って 高能率符号化 された画像 の8 0 % の M O S を
±0 . 5 の確度
で推定 で きる ことを明 らかに して きた 〔7 〕。
そ こで 、本研究で は動画像符 号化 の 国際標準規格であるH . 2 6 1 〔
8 〕を もとに符号化 した動画像
の 画質をA W S N R を
用 いて評価 し、 フ レー ムの進行 とともにM O S が
どの よ うに変化す るかを
推定す るとともに、実際 に主 観評価 を行 った結 果 と比較す る。
2 . フ ラクタル次元 を利用す るA W S N R に
WSNRは
ついて
画像 の空間周波数領域 における雑音成分 に視覚 の空 間周波数特性 に相 当す る重み付
け関数を乗 じ、人間 には認 知 され に くい高周波雑音を評価 しな いよ うに した客観 評価尺度 であ る。
静 止 画像 を数 種 類 の 符 号 化 方 式 に よ り符 号 化 し、 その 画 質 をW S N R に
WSNRの
ほ うが S N R よ
種類 によ って はM O S を
りM O S を
よ り評 価 す る と、
推定 しやすい ことが 判明 して い る。ただW S N R は
画像 の
推定 しに くい とい うこともわか って お り、何 らか の対応が望 まれていた。
そ こで 、 フラクタル次元を用 いて 画像 の局所的 な複雑 さを考慮 し、複雑な絵柄の上の雑音 は検
知 しに くい とい う人間 の特性 をW S N R と
組み合わせて改善 して A W S N R を
提案 して きた。す
なわち、多数 の様 々なフラ クタル次元 ( F l 高m ) を もったテ クスチ ャ画像を用意 し、 これ に様 々
な大 きさの ラ ンダ ム雑音を加 えた画像 の主 観評価実験を行 な うことによ り、図 1 の よ うなM O S
―W S N R ―
F I 町 の 関係を求 めた上で 〔4 】、次 のよ うな手順 によ りA W S N R を
定 め ることに
した。
( 1 ) フ ラ クタル次元 の求 めやす さと局所的 な特徴 を反映 させ るために、原画 像を3 2 画素 X 3 2 画 素
の大 きさのブ ロ ックに分割す る。
( 2 ) 原 画像 と符号化画像 とか ら各 ブ ロ ックの フラクタル次元 とW S N R を
-13-
求 める。
(3)WSNRと
フラ クタル次元か ら各 ブロ ックのM O S を
2 の 時 のW S N R 2 か
ら、W S N R 2 / W S N R で
推定 し、そのM O S を
与え るF l 市 =
与え られ る雑音 のマスキ ング係数を求 め、
各 ブ ロ ックの雑音 を軽減す る。
り0 〓
1
40
WSNR 30
2
Fdim
1 2 枚のテ キスチ ャか ら求 めたM o s ―
図 1
F Ⅲ Ⅲの 関係 〔4 〕
WSNR―
( 4 ) 全 ブ ロ ッ クの 雑 音 を こ う して 軽 減 し、 画 像 全 体 の 平 均 か ら求 め た s N R を
AWSNRと
その画像 の
す る。 図 2 に 4 種 類 の 画 像 ( I T E H A I R B A N D , I T E C H U R C H , S I D B A M I しK D R O P ,
C C I T T B A R B A R A ) に 5 種 類 の 符号 化方式 ( D C T , A D C T , D C T V Q , A D C T V Q , V Q P E 2 ) お よび ラ
ンダム雑音 を 付加 した合計 2 0 0 枚の 画像 に対 す るM O S 一
WSNR特
性 とM O S ―
AWSNR
特性 を示す。 図 中 の 一 点鎖線 は、 測 定値 との 2 乗 誤 差 を 最 小 にす る次式 の よ うな ロ ジステ ィ ッ
ク曲 線 〔9 〕を 与 え る もの で、
,イ
」
θS=
MOS一
+1
1+exp〔一α(WSNR一 β)}
性 において は α= 0 。2 8 , β= 2 5 , 0 9 、M O S ―
WSNR特
0 . 3 4 8 、β= 2 7 . 8 0 とな った。 また、 これ らの結果か らW S N R も
を ±0 . 5 の確 度 で 推 定 す る とすれ ばW S N R で
AWSNRで
(1)
AWSNRに
お いて は α=
しくはA W S N R か
らM O S
は5 6 % の 画像 しか該 当す る ものが な いが 、
は8 0 % の 画像 に適 用で きる こと も判明 した 〔7 〕。
′
′
松
総出子
:ず
晶◇蛇即
co rrolation.o928
variance・018
轟
聯
十
十
15
20
25
30
35
W S N R 〔d B l
40
45
1o
WIOS―
ヽ
VSNR
図 2
MOS―
WSNR特
I T EH‐
AlRBAND
lTE‐
CHURCH
S i D B A ‐M i t K D R O P
C C l T T ‐B A R B A R A
15
20
25
30
35
A‐
WSNR idB〕
40
十ズ ロ ◇
lT糾11!il131111111111:
SlDBA‐MiLKD ROP
C CiTT、
BARBARA
10
十ズ ロ ◇
二
45
M O S ―A I V S N R
性 と フラ クタル 次元 を考慮 して改善 したM O S 一
-14-
AWSNR特
性
3 . 動 画像 の動的 M O S の
推定
符号化 され た動画 像 の画質を主観的 に評価す ることは、国 際規格を定 める際 な どは必ず 行 なわ
れ るよ うであ るが、 その 客観評価尺度 となるとS N R 以
外 は見当た らな い。 しか し、 S N R が
高
能率符号化動画像 の適切 な評価尺度 とな りうるか といえばやは り否定的である。 そ こで 、視覚 の
胸上画像であるM i s s A m e r i c a ( 1 5 0 フレー
時間周波数特性 な どを考慮せず に上記の A W S N R を
ム) の 各 フ レー ム毎 に求 め、 その値か らM O S を
推定す ることを試みた③
その 際 の符号化方式 と しては、H 。
2 6 1 で規定 されて い るM C t t D C T 方
式 ( 以降、 これを方式
1 と 呼 ぶ ) と 、 リフ レ ッシュ直後 はM C 方 式 によ り符号化 し、途 中か らM C t t D C T 方 式 に切替
10〕
え る方式 〔
( 以降、 これを方式 2 と 呼ぶ ) の 2 つ を扱 った。 この 時 の 、伝送符号量 は2 5 6 k b p s 、
フ レー ム レー ト3 0 f r a m e / s e c と
し、 D C T を
施す ブ ロ ックサイズ : 8 × 8 画 素、動 きベ ク トル探
索範囲 : ± 7 画 素、 リフ レ ッシュフ レー ム : 6 1 フ レー ム ロと した。
図 3 に 、方式 1 な らびに方式 2 に よ り符号化 した動画 像 のM O S を
た結 果を示す。 また、図 4 に 方式 1 な らびに方式 2 の S N R が
AWSNRを
もとに推定 し
フ レー ムの進行 とともにどの よ う
に変化す るかを示す。 どち らの方式 で も第 2 フ レー ム まで は、伝送符号量 の制約 か ら推定M O S 、
も悪 く、か な りの画質劣化が生 じて い ることがわか る。 一 例 と して、第 2 フ レー ムの原
SNRと
画像 と符号化画像 ( 方式 1 お よび 2 に よる もの) を 図 5 に 示す。 この 図か ら、主観評価 した場合
には、 ほとん どの評 価者 のM O S が
1 も しくは 2 と な ることが 予想 され、図 3 の 推定 M O S と
よ
く一 致す ると思われ る。
44
42
︻0こ に Z の
の O 〓 や0も も 0﹂﹂
40
M athodl ―
M othod2 ―
-―
―
40
図 3
60
80
100
,rame numbo「
120
38
M othodl ―
―――
M ethodl ―
140
40
AWSNRか
ら求 め られた
動画像 の推定 M O S
図 4
60
80
100
,「
amo ntrmbo「
120
動画像 の S N R
また、第 3 フ レー ム以降 について も実際 に主 観的 に画像を観察 した ところ、第 6 0 フレー ム まで
は両方式 の画像 にはあま り劣化がみ られず、図 3 お よび図 4 の 結果 はいずれ も主観評価値を反映
した もの とな った。
ただ し、 第 6 1 フレー ムの リフ レ ッシュ後、第 6 4 フレー ム まで は、方式 1 の 劣化が主観 的 に も顕
著 にわか った。 一 例 と して、図 6 に 第 6 3 フレー ムの原画像 と符号化画像 ( 方式 1 に よる もの) を
示す① これ は方式 1 が リフ レ ッシュ時 に低 ビ ッ トレー トで I N T R A 符
はM C で
号化を行 ない、 それ以 降
得 た動 きベ ク トル を用 いなが ら予測誤 差 も符号化す るためで、伝送容量 の上 限で あ る
-15-
図5 第
3フ レー ム画像 (左か ら、原画 像、方式 1に よる画像、方式 2に よる画 像)
図 6 第 63フ レー ムの画像 (左か、原画像、 方式 1に よる画像)
256kbps以上 の情報が発生 して い るためであ る。 この ことは、図 3の 推定MOSが
の 後除 々に回復 しているが、64フ レー ム辺 りまでMOS<4で
図 4で は第 63フ レー ム以降 の SNRが
37dB以上 とな り、 SNRが
1.8にな り、 そ
あ ることと一 致 して い る。 一 方、
37dB以上だ と画 質 の 劣化が認 め
られな い とい う一 般的な見解か らは画 質 の低下 は読み とれない。 この よ うに方式 1に よる符号化
画像 に関 して は、 SNRよ
りもAWSNRを
もとに して求 めた推定MOSの
方 が主 観評価値 に近
い ことがわか った。
これ に対 し、方式 2で は、 リフ レ ッシュ前 の画質 は、実際は劣化がわか る場合 は少 な くMOS
は 5に 近 いはずであ る。 実際、図 3よ り、 リフ レ ッシュ前の推定MOSは
お り、MOSを
4.7前後 の 値を と って
よ く反映 しているといえ る。 また、図 7で 示 したよ うに リフ レ ッシュ後 の 画像 中
図 7 第 97フ レー ムの 画像 (左か ら、原画像、方式 2に よる画像)
-16-
第 9 7 フレー ム辺 りで はほとん どの人が劣化に気付 いてお り、 3 . 9 とい う推定M O S は
果を よ く反映 して い ることがわか った。 一方、 S N R は
一 般 的 な 見地 か らはM O S が
SNRに
主観 評価結
3 9 . 5 d B ∼4 3 d B の変化 しか示 してお らず、
4 以 下で あ るとい うの は難 しく、本研究で提案 した A W S N R が
比 べ 、 よ り我 々が感 じる劣化量 に対応 して い ることを裏 付けてい る。
4 . ま とめ
フラクタル次元を用 いて画像 の局所的な複雑 さを考慮 しつつ符 号化画像 の画質 の客観評価を与
え るA W S N R に
よれば8 0 % ま での 高能率符号化画像 のM O S 値
を ±0 . 5 で推定 で きることを示
し、2 つ の動画像符号化方式 の特性 を与え ることへ応用 してみた。
その結 果、従来 の S l kR‐
よ りもM O S を
一
直後推定 で き、その値 も主観的 な ものに比 較的 よ く
致す ることがわか った。
今後 は、時間方向 の視覚 の特性を考慮 した評価尺度を確立 し、 よ り精度 の 高 いM O S の
推定を
行 え るよ うにす る必要があ ると考え る。
謝辞 本 研究を遂行す るにあた り、働高柳記念電子科学技術振興財団 よ り多大 の ご援助 を賜 りま し
た。 ここに、理事長 は じめ関係 の皆様 に深謝致 します とともに、謹んで御礼 申 し上 げます。
参考文献
", コ
ロナ社, 1 9 8 6
〔1 〕 宮川, “テ レビジョン画像 の評価技術
",信
学技報, I E 8 7
〔2 , 宮 原, 小 谷, 西 村, “画像 の 客観評価尺度 ―画質 の 劣化要因 の貢献度
-112, pp.1-8, 1987
〔3 〕 半谷, 和 国, 宮 内, “静止画 の画質を評価す るための空間周波数領域上 の 重み付 け関数 の
",テ
レビ誌, v o l . 4 6 , N o . 3 , p p . 2 9 5 2 9 9 , 1 9 9 2
実験的導 出
Advanced WSNR for Coded Monochrome Picture
〔4 〕 H a n g a l , S u z u k i a n d M i y a u c h i , “
Evaluation using Fractal Dimenslon", Proc, of Picture Coding Symposium, Sacrament,
CA, pp92-95, Sep. 1994
〔5 〕 相澤, 原 島, 宮 川, “画像信号適応 的離散 コサ イ ン変換 ベ ク トル量子化
",信
学論 ( 8 ) ,
J69-B, No.3, pp.228-236, 1986
〔6 〕 伊東, 内 藤, 佐 藤, 宇 都宮, “画像 の 予測誤 差信号 ベ ク トル量子化法
",信
学論 ( B ) , 」7 0
-B, No.3, 1987
〔7 〕 白井, 半 谷, 宮 内, “画像 の フラクタル次元を考慮 したW S N R に
",画
像符号化 シンポ ジウム予稿集, 2 . 3 , O c t 。 1 9 9 4
討
",オ ー
ム社, 1 9 9 1
〔8 〕 原島, “画像情報圧縮
よる動画 像 の 画質 の 検
〔9 〕 半谷, 石 川, 宮 内, “静止画 の 客観評価尺度 について ( その 5 ) " , 画
像符号化 シンポ ジ
ウム予稿集, p p . 7 8 , O c t . 1 9 9 0
1 0 〕鎌 田, 半 谷, 宮 内, “低遅延動画像符号化を実現す る効果的な リフ レ ッシュ方式 の提案
〔
画像符号化 シンポ ジウム予稿集, 1 1 . 3 , O c t 。 1 9 9 4
-17-
",