MPEG-4 AACを用いた 22.2ch音声符号化・復号装置の開発

03
MPEG-4 AACを用いた
22.2ch音声符号化・復号装置の開発
杉本岳大 中山靖茂 小森智康
22.2ch Audio Encoder/Decoder Using
MPEG-4 AAC
Takehiro SUGIMOTO, Yasushige NAKAYAMA and Tomoyasu KOMORI
要 約
ABSTRACT
8Kスーパーハイビジョン放送の実現に向け,22.2マルチ
For 8K Super Hi-Vision broadcasting, a 22.2ch audio
チャンネル音響の音声信号を伝送する目的で,MPEG-
encoder/decoder using MPEG-4 AAC was developed
4 AAC(Advanced Audio Coding)を用いた22.2ch
for the purpose of transmitting 22.2 multichannel
音声符号化・復号装置を開発した。 本稿では,ARIB
(Association of Radio Industries and Businesses:
audio quality of a 22.2ch audio encoder/decoder
conforming to the ARIB standard are described.
電波産業会)規格に準拠した符号化・復号装置の仕様
Moreover, downmixing and dialogue control functions
と音声品質について説明するとともに,放送音声の多機
were implemented to provide multifunctionality to
能化を目的に実装したダウンミックス機能とダイアログ制
22.2ch sound.
御機能についても紹介する。
40
sound signals. In this report, the specifications and
NHK技研 R&D/No.155/2016.1
上層
TpFC
TpFL
TpSiL
TpFR
TpC
TpBL
TpSiR
TpBR
TpBC
中層
下層
LFE1
BtFC
BtFL
FLc
FC
FL
LFE2
FRc
FR
BtFR
SiL
SiR
BL
BR
BC
1図 22.2ch音響のチャンネル配置とチャンネルラベル
置に実装した。本稿では,開発した22.2ch音声符号化・
1.まえがき
復号装置の仕様と性能について紹介する。
8Kスーパーハイビジョン(以下,8K)は,既存の映
像音響システムをはるかに上回る臨場感を視聴者に提供
できる次世代のテレビジョンである1)。
8Kは7,680×4,320
個の画素を有し,
現行のデジタル放送(2Kハイビジョン)
2.22.2ch音響システム
1図に,22.2ch音響のチャンネル配置とチャンネルラ
の16倍の解像度を実現している。NHKは8Kの映像と組
ベルを示す3)。22.2ch音響は3次元的に配置した24個の
み合わせる音響システムとして,24個のチャンネルを上
チャンネルから構成される。聴取位置の上方に上層9
下方向に3層配置した22.2マルチチャンネル音響(以下,
チャンネル,聴取者の耳の高さに中層10チャンネル,聴
22.2ch音響)の研究開発を進めている
取位置の下方に下層3チャンネルを配置し,さらに2個
。
2)3)
わが国では,超高精細度テレビジョン放送の早期実現
を目指して,2013年に4K・8K放送のロードマップが総
の低域効果チャンネル(Low Frequency Effects:LFE)
を加えている。
務省から示されるとともに,次世代放送推進フォーラム
8K用の音響システムとしての観点(画面とチャン
(NexTV-F)が設立された4)。このロードマップによる
ネル配置との関係)からは,11個の前方チャンネルを
と8K放送に関しては,2016年に試験放送,2018年に実
画面の周囲と画面上に配置し(FL, FR, FC, FLc, FRc,
用放送を開始し,
さらに東京オリンピック・パラリンピッ
TpFL, TpFR, TpFC, BtFC, BtFL, BtFR),5個のチャ
クが開催される2020年における本格普及を目指すことが
ンネルを聴取者の横断面(両耳と頭頂部を含む平面)
目標として定められている。22.2ch音響による放送につ
に配置し(SiL, SiR, TpC, TpSiL, TpSiR),さらに6個
いても,8K放送の魅力を映像・音響の両面から高める
のチャンネルを後方に配置する(BL, BR, BC, TpBL,
ために,ロードマップに沿った開発を進めており,その
TpBR, TpBC)音響システムと見なせる。また,Rec.
一環として,今回22.2ch音声符号化・復号装置を開発し
ITU-R(International Telecommunication Union -
た。さらに,放送サービスとしての22.2ch音響の機能性
Radiocommunication Sector)BS.1909が規定する先進的
を高めてユーザビリティー(利便性)を向上させること
なマルチチャンネル音響システムの要求条件5)(下記の
を目的に,ダウンミックス*1 機能とダイアログ(ナレー
ション,せりふ)制御機能を22.2ch音声符号化・復号装
*1 複数の音声信号から成るマルチチャンネル音声方式を,より少ないチャ
ンネル数の音声方式に変換すること。
NHK技研 R&D/No.155/2016.1
41
1表 22.2ch音声信号の圧縮符号化法
チャンネルラベル
圧縮符号化法
FC
SCE
FLc, FRc
CPE
FL, FR
CPE
SiL, SiR
CPE
BL, BR
CPE
BC
SCE
LFE1
LFE
LFE2
LFE
TpFC
SCE
TpFL, TpFR
CPE
TpSiL, TpSiR
CPE
TpC
SCE
TpBL, TpBR
CPE
TpBC
SCE
BtFC
SCE
BtFL, BtFR
CPE
制御ユニット 音声基板
映像基板
2図 8K映像/ 22.2ch音声符号化装置
2表 22.2ch音声符号化・復号装置の仕様
パラメーター
値
入力チャンネル数
最大22.2ch
標本化周波数
48kHz
量子化ビット数
16bit,24bit
オーディオオブジェクトタイプ
LC(Low Complexity)
ダウンミックス機能
5.1ch,2ch
入出力インターフェース
AES10 (MADI)
①~⑥)を満たすことも,22.2ch音響の重要な特徴であ
る。
① 画面上の任意の位置に音像が定位可能であること
② 聴 取位置を取り囲む全方向から到来する音が再生
可能であること
③ 自然で高品質な3次元音場が再生可能であること
④ 最適な聴取範囲を拡大できること
示すAOT(Audio Object Type)としては,LC(Low
⑤ 既 存のマルチチャンネル音響方式との互換性があ
Complexity)を選択した。LCは,現行のデジタル放送
ること
に採用されているMPEG-2 AACのLCプロファイルとほ
⑥ ライブ収録および生放送に対応できること
ぼ同性能の技術であり,使用するツールを制限する代わ
①~④は3次元音響の品質に関わる特徴であり,⑤は
りにデコーダーでの処理負荷を軽減するツールセットで
実用的な音響制作システムに,また⑥は放送システムに
ある。
必須の要件である。
4.22.2ch音声符号化・復号装置の構成
3.22.2ch音声信号の圧縮符号化方式
2図に,8K映像/ 22.2ch音声符号化装置の外観を示
日本国内の放送における22.2ch音声信号の圧縮符号化
す。装置全体は,映像符号化・音声符号化・多重化の
方式は,ARIB標準規格STD-B32の第2部として規格化
合わせて19枚の基板から構成されており,そのうちの
されている 。8K放送では,このARIB STD-B32で規
1枚が音声基板である。映像の符号化方式にはMPEG-H
定された音声符号化方式のうち,MPEG-4 AAC
に基
HEVC(High Efficiency Video Coding)/ H.265を,映像・
づいた圧縮符号化法を用いる。また,22.2ch音声信号の
音声の多重化方式にはMPEG-H MMT(MPEG Media
各チャンネルの圧縮符号化法はMPEG(Moving Picture
Transport)を採用した。復号装置は,符号化装置と同
Experts Group)で国際標準化されており ,
SCE(Single
様の19枚の基板から成る対向の構成とした。
6)
7)
8)
Channel Element:単一チャンネル用の圧縮符号化),
22.2ch音 声 符 号 化・ 復 号 装 置 の 仕 様 を 2 表 に 示 す。
CPE(Channel Pair Element:2チャンネルをペアとし
22.2ch音声符号化・復号装置は,ベースバンド音声信
て扱う圧縮符号化)およびLFE(LFE Element:LFEチャ
号の入出力部(AES10 / MADI(Multichannel Audio
ンネル用の圧縮符号化)を組み合わせて圧縮符号化を行
Digital Interface)),MPEG-4 AACで圧縮符号化・復号
う。1表に22.2ch音声信号の圧縮符号化法を示す。
する信号処理部,MPEG-4 AACストリームの入出力部
22.2ch音声信号圧縮符号化のためのツールセットを
42
NHK技研 R&D/No.155/2016.1
の3つのセクションから成る。
報告
3表 ダウンミックス係数の範囲と初期値
C
LFE
L
03
R
LS
RS
ダウンミックス係数
範囲(dB)
初期値(dB)
α
0 ~-∞
-4.5
β
0 ~-∞
-4.5
γ
0 ~-∞
-3.0
δ
0 ~-∞
-6.0
ε
0 ~-∞
-0.0
ζ
+10 ~-∞
-3.0
受信機に実装されている。
3図 5.1ch音響のチャンネル配置
5.22.2ch音声信号のダウンミックス機能
一般にダウンミックスの役割は,2chステレオ音声や
モノ音声に対する下位互換性をマルチチャンネル音響
L2ch = L +
1
1
C + LS √2
√2
(7)
R2ch = R+
1
1
C + RS √2
√2
(8)
ここで(1)~(6)式と(7),(8)式を組み合わせるこ
とで,5.1chを経由して22.2chから2chを得られる。
なお,ダウンミックス係数を変数にしている理由は,
に持たせることにある 。現在広く普及しているダウン
番組の内容やデザインによって最適なダウンミックス係
ミックス法は,マルチチャンネル音声信号を線形変換し
数を選別するためである。
てチャンネル数を削減する方法であり,中でもITU-Rが
5.2 ダウンミックス係数の初期値
9)
推奨するダウンミックス法は広く受信機に実装されてい
前節では,ダウンミックス係数を放送局側で設定可能
る 。22.2ch音声信号のダウンミックス法は,従来の線
な変数として扱った。一方で,ダウンミックス係数が伝
形変換を8Kの音響システムとしての要求条件に添って
送されない場合にも対応できるように,ほとんどの番組
拡張し ,MPEG-4 AACの枠組み内で取り扱い可能な
で破綻なく機能するダウンミックス係数の初期値を規定
ように,ダウンミックス式とダウンミックス係数の初期
しておく必要がある。そこで,我々はMPEG-4 AACの
値の組み合わせとして実現したものである。
枠組みで選択できるダウンミックス係数の数値的制約*2
5.
1 ダウンミックス式
を考慮し,5.1chと2ch双方の音質を両立できるダウン
10)
11)
22.2chから5.1chへのダウンミックス式を下記に示す。
また,5.1ch音響のチャンネル配置を3図に示す。
ミックス係数の初期値を導出した11)。3表に,
ダウンミッ
クス係数の初期値を相対レベル(デシベル値)で示す。
L=FL+αFLc+βSiL+ε
(TpFL+βTpSiL+BtFL)
(1)
R=FR+αFRc+βSiR+ε
(TpFR+βTpSiR+BtFR)
(2)
C=FC+αFLc+αFRc+ε
(TpFC+δTpC+BtFC)
(3)
LFE=ζ
(LFE1+LFE2)
(4)
放送音声に対する視聴者の意見の多くは,ダイアログ
LS=BL+γBC+βSiL+ε
(δTpC+TpBL+βTpSiL+γTpBC)(
5)
の聞こえに関するものである12)。しかし,視聴者の音量
RS=BR+γBC+βSiR+ε
(δTpC+TpBR+βTpSiR+γTpBC)
(6)
に対する好みは年齢や興味の対象によって多様であり,
αはFLcとFRcのダウンミックス係数,βは側方チャ
現行の放送音声の仕組みですべての要望に対応すること
ンネルのダウンミックス係数,γは後方チャンネルのダ
は困難である。一方,国際発信力強化の一環としての多
ウンミックス係数,δはTpCのダウンミックス係数,ε
言語放送や,音声解説放送の普及促進13),スポーツ番組
は上層と下層に係るダウンミックス係数,そしてζは
におけるバックネット音声など,ダイアログに関係のあ
LFEのダウンミックス係数である。各ダウンミックス係
る音声サービスへの関心は高まっている。これらの背景
数の値の範囲を,3表に相対レベル(デシベル値)で示
を踏まえ,22.2ch音響の放送サービスにおいて,受信機
す。3表における0dBは,
(1)~
(6)式においては係数1
でダイアログを制御するための仕組みを開発し,ARIB
6.ダイアログ制御機能
に相当する。
また5.1chから2chへのダウンミックス式は,Rec. ITU-R
BS.775-310)の中で以下のように規定されており,既存の
*2 MPEG-4 AACにおけるダウンミックス係数は連続値をとることができ
ず,最小で1.5dB幅の離散値テーブルから選択する必要がある。
NHK技研 R&D/No.155/2016.1
43
FLc
FRc
BC
LFE2
TpBR
TpSiL
TpSiR
TpBC
BtFC
追加3
BR
TpBL
BtFR
BL
TpC
SiR
LFE1
TpFC
追加2
FC
TpFR
BtFL
FR
TpFL
SiL
FL
FC
22.2ch
ダイアログチャンネルの例
● 追加ダイアログ信号1:英語
● 追加ダイアログ信号2:解説放送
● 追加ダイアログ信号3:バックネット音声
追加1
BtFC
追加 3ch
(a)
ダイアログチャンネルの例
(b)
ダイアログ信号の差し替え機能の例
4図 ダイアログ制御機能の模式図
で規格化するとともに6),22.2ch音声符号化・復号装置
イアログ大」の方向に変化させると,背景音レベルが下
に実装した。
がってダイアログが聞きやすくなる。一方,「ダイアロ
今回実装したダイアログ制御機能は,ダイアログエン
グ小」の方向に変化させると,ダイアログのレベルが下
ハンスメント機能(受信機でのダイアログ信号のレベル
がり,背景音(スポーツ番組における競技音など)のみ
調節)とダイアログ信号の差し替え機能の2種類である。
を聞くことができる。
従来の22.2ch音響の番組制作との整合性を考慮し,以下
6.2 ダイアログ信号の差し替え機能
の2点に留意した仕組みとした。
・ダイアログ制御機能の使用可否を,放送局側で番組
ごとに選択できること
・従来の22.2ch音響の番組制作を妨げないこと
6.
1 ダイアログエンハンスメント機能
ダイアログエンハンスメント機能は,ダイアログチャ
ンネル(ダイアログが再生されるチャンネル)とそれ以
外の背景音チャンネルを番組ごとにフラグにより区別し
て伝送し,ダイアログチャンネルに割り当てられた信号
のレベルを,背景音チャンネルの信号から独立して受信
ダイアログ信号の差し替え機能は,22.2chの音声信号
とは別に差し替え用の追加ダイアログ信号(例:英語
/解説放送/バックネット音声)を22.2chと同一の音声
ストリーム内のユーザー領域(Data Stream Element:
DSE)に埋め込んで伝送し,受信機でダイアログチャン
ネルにもともと割り当てられていた信号(以下,初期ダ
イアログ信号)と差し替える機能である。
4図(b)の例に沿って,ダイアログ信号の差し替え
機能の概要を説明する。
・差し替えの対象となるダイアログチャンネルが1個
機で調節するための機能である。具体例として,
4図
(a)
の場合(例:FC)は,制作時にFCに割り当てられ
にダイアログチャンネルの例を示す。この例では,FC
ていた初期ダイアログ信号と追加ダイアログ信号と
とBtFCの2チャンネルをダイアログチャンネルとして
を,受信機で差し替える。
選択している。なお,選択可能なダイアログチャンネル
の数に制限はない。
・差し替えの対象となるダイアログチャンネルが複数
の場合(例:FCとBtFC)は,対象となるすべての
放送局側で制御できるパラメーターとしては,ダイア
ダイアログチャンネルの初期ダイアログ信号が,選
ログチャンネルの位置・個数のほか,受信機でのレベル
択された1個の追加ダイアログ信号と差し替えられ
調節範囲の上限・下限が含まれる。また複数のダイアロ
る。その際,同一の音声信号を異なるレベルで各ダ
グチャンネルを指定した場合に,各チャンネルに異なる
イアログチャンネルに割り当てている場合は,もと
音声信号を割り当てることもできるが,ダイアログチャ
もと指定されていたレベル分配比(例:FC→-3
ンネルのレベルは一括して調節することになる。
dB,BtFC→-0dB)に従って,各ダイアログチャ
5図に,試作したダイアログエンハンスメント機能用
のユーザーインターフェースを示す。放送局で制作され
ンネルの初期ダイアログ信号と,選択された1個の
追加ダイアログ信号とを受信機で差し替える。
たダイアログと背景音のレベルバランスの初期値を,中
・初期ダイアログ信号に含まれる背景音と,追加ダイ
央のインジケーターが示している。
レベルバランスを
「ダ
アログ信号に含まれる背景音とを等しくすること
44
NHK技研 R&D/No.155/2016.1
報告
03
0.0
−1.0
客観評価値
−2.0
−3.0
−4.0
5図 ダイアログエンハンスメント機能用の
ユーザーインターフェース
ロゴ
オーケストラ
スポーツ
ドラマ
6図 客観評価試験の結果
で,背景音を含むダイアログ信号の差し替えも可能
が分かる。ITU-R勧告によると,放送品質(放送に適
になる。
した品質)とは「音質劣化を判別しやすい音源で主観
なお,追加ダイアログ信号に背景音が含まれない場合
評価値の平均が-1.0以上であること」と規定されてい
には,ダイアログエンハンスメント機能とダイアログ信
る15)。よって今回開発した22.2ch音声符号化・復号装置
号の差し替え機能とを組み合わせて運用することも可能
は,1.4Mbpsのビットレートと評価した音源の範囲にお
である。
いて,放送品質を満たすことが予想される。
7.客観評価試験
8.むすび
開発した22.2ch音声符号化・復号装置の性能を調べる
ために,音声信号の客観評価法に関するITU-R勧告
14)
に
本稿では,今回開発したMPEG-4 AACを用いた22.2ch
音声符号化・復号装置の仕様と性能について述べた。今
*3
準 拠 し てCRC(Communications Research Centre)
後は,精緻な主観評価実験を実施し,マルチチャンネル
が 開 発 し たCRC-SEAQ(System for the Evaluation of
音響用の音声符号化・復号装置としての性能を評価する
Audio Quality) を用いて,客観評価試験を行った。
予定である。
*4
22.2ch音響のサンプル音源の中から8Kのロゴ効果音,
オーケストラ,スポーツ,ドラマを選び,非圧縮音と圧
本稿は,音響学会秋季講演論文集およびAESジャパンコンファレ
縮音を比較した。評価するビットレートは,22.2chの合
ンス・名古屋2015に掲載された以下の論文を元に加筆・修正したも
計で1.4Mbpsとした。客観評価法はマルチチャンネル音
のである。
響には未対応であるため,ドラマについてはダイアログ
杉本,中山:
“MPEG-4 AACを用いた22.2ch音声符号化・復号装置
が割り当てられたFCの信号に,それ以外の音源につい
の開発,
”音響学会秋季講演論文集,2-P-9(2015)
てはFLの信号に着目して評価した。なお,マルチチャ
ンネル音響のうちの1チャンネルのみで圧縮符号化の劣
化を評価することは,マルチチャンネル音響の特徴であ
杉本,小森,中山,知念,畠中:
“放送サービスにおける22.2ch音響
の多機能化,
”AESジャパンコンファレンス・名古屋2015,
No.2(2015)
る3次元音場の再現性や定位の精度などを評価対象から
除外してしまうため,本実験は,主観評価実験の予備実
験(結果を予測するための実験)として実施した。
6図に客観評価試験の結果を示す。この結果から,す
べての音源の客観評価値
*5
が-1.0を上回っていること
*3 通信技術に関する研究を行うカナダの国立研究機関。
*4 CRCが開発した音声信号の品質評価装置。
*5 非圧縮音声信号と圧縮音声信号の違いに関する評価値で,0.0は「違いを
検知できない」
,
-1.0は「違いを検知できるが気にならない」
,
-4.0は「違
いが非常に気になる」という評価を示す。
NHK技研 R&D/No.155/2016.1
45
参考文献
1)
T. Yamashita, K. Masaoka, K. Ohmura, M. Emoto, Y. Nishida and M. Sugawara:
“Super Hi-Vision Video
Parameters for Next-Generation Television,
”SMPTE J.,Vol.121,pp.63-68(2012)
2)
Rec. ITU-R BS.2051,
“Advanced Sound System for Programme Production”
(2014)
3)
SMPTE ST 2036-2-2008,
“Ultra High Definition Television – Audio Characteristics and Audio Channel
Mapping for Program Production”
(2008)
4)
次世代放送推進フォーラム,http://www.nextv-f.jp/en/index.html
5)
Rec. ITU-R BS.1909,“Performance Requirements for an Advanced Multichannel Stereophonic Sound
System for Use with or without Accompanying Picture”
(2012)
6)
電波産業会:
“デジタル放送における映像符号化,
音声符号化及び多重化方式(3.3版)
,
”ARIB STD-B32(2015)
7)
ISO/IEC 14496-3:2009,
“Information Technology – Coding of Audio-Visual Objects – Part 3: Audio”
(2009)
8)
ISO/IEC 14496-3:2009/AMD 4:2013,
“New Levels for AAC Profiles”
(2013)
9)
F. Rumsey:Spatial Audio,Focal Press(2001)
10)
Rec. ITU-R BS.775-3,“Multichannel Stereophonic Sound System with and without Accompanying
Picture”
(2012)
11)
T. Sugimoto, S. Oode and Y. Nakayama:
“Downmixing Method for 22.2 Multichannel Sound Signal in 8K
Super Hi-Vision Broadcasting,
”J. Audio Eng. Soc.,Vol.63,No.7/8,pp.590-599(2015)
12)
NHK:
“視聴者対応報告,
”http://www.nhk.or.jp/css/report/
13)
総 務 省:
“ 情 報 バ リ ア フ リ ー 環 境 の 整 備,
”http://www.soumu.go.jp/main_sosiki/joho_tsusin/b_free/b_
free1.html
14)
Rec. ITU-R BS.1387,
“Method of Objective Measurements of Perceived Audio Quality”
(1999)
15)
Rec. ITU-R BS.1548-4,
“User Requirements for Audio Coding Systems for Digital Broadcasting”
(2013)
すぎ もと たけ ひろ
杉本 岳大
2001年入局。放送技術局を経て,2004年から
放送技術研究所において,音響トランスデュー
サーおよび音声符号化方式の研究に従事。現在,
放送技術研究所テレビ方式研究部に所属。博士
(工学)
。
こ もり とも やす
小森 智康
1994年入局。静岡放送局を経て,1997年から
放送技術研究所において,音声符号化方式およ
び人にやさしい音声放送サービスの研究に従事。
現在,放送技術研究所テレビ方式研究部上級研
究員。
46
NHK技研 R&D/No.155/2016.1
なか やま やす しげ
中山 靖茂
1994年入局。盛岡放送局を経て,1996年から
放送技術研究所において,音像の距離感制御お
よび音声符号化方式の研究に従事。現在,放送
技術研究所テレビ方式研究部副部長。