Document

音響信号処理特論
ビームフォーミングとスペクトル減算の
統合手法におけるミュージカルノイズ発生量の
高次統計量に基づく解析
猿渡 洋(奈良先端大)
Speech and Acoustics Processing
Laboratory
Graduate School of Information Science, Nara Institute of Science and Technology
背景
雑音環境下における(ハンズフリー)音声通話,音声認識要求の高まり
実環境における雑音抑圧手法
様々な雑音抑圧手法
 単一チャネル
► スペクトル減算,Wiener Filtering, etc ...
 マルチチャネル信号処理
► マイクロホンアレー信号処理
► 単一チャネル雑音抑圧手法では利用できない空間情報を利用可能
 マルチチャネル信号処理と非線形ポスト処理の組み合わせ
 マルチチャネル信号処理よりも更に高い雑音抑圧性能
 非線形処理に伴う人工的な歪であるミュージカルノイズが発生
ミュージカルノイズの発生は利用者に不快感を与える
 できる限り発生を抑えたい
マイクロホンアレー信号処理と
非線形ポスト処理の組み合わせの例
ブラインド空間的サブトラクションアレー
 ハンズフリー音声認識を目的とした,雑音抑圧手法
 独立成分分析 (ICA) で推定した雑音を,
遅延和アレー (DS) により目的音を強調した信号からスペクトル減算
マイクロホンアレー信号処理と非線形ポスト処理の組み合わせ手法
DS
(目的音強調)
スペクトル減算
ICA
(雑音推定)
特徴
► 従来の ICA では取り扱いが難しい点音源で近似できない
拡散性の雑音を取り扱い可能
► ブラインド処理
► 非定常な雑音を取り扱い可能
► 後段に SS を用いるため,ミュージカルノイズが問題
背景
ミュージカルノイズの発生をできる限り抑えたい
ミュージカルノイズの発生量に関する非線形処理のパラメータ最適化を行いたい
 音質劣化を抑えつつ,できる限り処理強度(雑音抑圧性能)をあげたい
問題
ミュージカルノイズの発生量に関する定量的な尺度が無い
 ヒューリスティックにパラメータを決定する事が多くなる
 対象となる信号が変わるたびにパラメータを決める必要性
高次統計量を用いたミュージカルノイズ発生量の指標
ミュージカルノイズの発生量と尖度(4次統計量)の間の関連 [1]
主観的なミュージカルノイズの発生量と強い相関があることを確認
人が感じる
ミュージカルノイズの発生量
処理後の尖度の変化
強い関連
マイクロホンアレー信号処理と非線形処理の組み合わせ手法
[1] Yoshihisa Uemura, et al, Automatic Optimization Scheme of Spectral Subtraction based on
において,ミュージカルノイズの側面からも議論できるようになった
musical noise assessment via higher-order statistics,‘’ IWAENC2008.
スペクトル減算後の尖度解析
スペクトル減算後の p.d.f.
 スペクトル減算は推定雑音の平均に,ある一定の減算係数を乗じて減算する.
 すなわち,パワースペクトル上で p.d.f. が下図のように変形される.
負になった成分は
零成分として積み上がる
分布が零方向へ移動し
元の分布形状が変化する
平均値
スペクトル減算前
平均値
スペクトル減算後
ミュージカルノイズの発生量を抑える
アレー信号処理と非線形処理の統合手法
チャネル毎スペクトル減算とアレー信号処理の組み合わせ [2]
 チャネル毎にスペクトル減算を行った後,遅延和アレー (DS) を適用する(下図右)
 雑音抑圧性能を損なわず,ミュージカルノイズの発生を抑制できる.
 尖度に基づく解析の結果,ガウス性雑音に対しては理論的にも尖度を低減,
すなわちミュージカルノイズを低減できることを示した.
SS
DS
SS
SS
Noise estimation
by beamforming
従来良く見られる組み合わせ方
(BF+SS)
DS
Channel-wise
noise estimation
検討している組み合わせ方
(chSS+BF)
本発表では,この検討している構造 (chSS+BF) が
[2] 高橋他,”チャネル毎スペクトル減算を用いたマイクロホンアレー・ポスト処理における
ガウス性雑音以外に対してもミュージカルノイズを低減できる事を示す
ミュージカルノイズの低減,” 日本音響学会秋季研究発表会講演論文集,2-8-17, pp.671—674,2008.
従来のスペクトル減算のつなぎ方
(BF+SS)
ビームフォーミングの後ろに,スペクトル減算を接続
Beamforming
(Delay-and-Sum)
Spectral
subtraction
(SS)
Noise estimation
(ICA, NBF, ABF,...)
処理手順
1. ビームフォーミング (DS) によりシングルチャネルの目的音強調信号を得る.
2. 同時に,死角制御型ビームフォーマ(NBF)や,適応アレー,ICA を用いて
シングルチャネルの雑音推定信号を得る.
3. 最後に 1, 2 で得られた信号を基にスペクトル減算を行い雑音抑圧信号を得る.
提案法:ミュージカルノイズを低減可能な
スペクトル減算のつなぎ方 (chSS+BF)
チャネル毎にスペクトル減算を行ってから,後段でビームフォーミング
SS
DS
SS
Channel-wise
noise estimation
処理手順
1. チャネル毎に雑音推定を行う.
(この推定はたとえば,Single-input multiple-output ICA (SIMO-ICA)などで行う)
2. チャネル毎にスペクトル減算を行い,マルチチャネルの雑音抑圧信号を得る.
3. 2 で得られたマルチチャネルの信号に対して,ビームフォーミングを行う.
処理後の尖度をBF+SSに比べて低減可能
この SS の接続方法だと処理後の尖度を下げることが可能
 ミュージカルノイズを低減可能(詳細は後述)
尖度に基づく解析の指針
処理後の尖度の増加量が小さい=ミュージカルノイズの発生量が少ない
⇒ 尖度を基に解析を行い chSS+BF の尖度増加量が小さいことを示す
解析の流れ
1. まず,スペクトル減算および,DS によってどのくらい尖度が変化するかを示す.
2. 次に,上記の解析結果を基に,
chSS+BF および BF+SS によってどのくらい尖度が 変化するかを示す.
仮定する信号
 J チャネルのマルチチャネル信号 xj ( j=1, ..., J) を考える.
 チャネル毎に独立かつ同一分布に従う (i.i.d.) 信号が入力されているとする.
 また,時間領域における入力信号が従う分布の確率密度関数(p.d.f.) は
両側対称かつ平均ゼロとする.
 この仮定により, 1 次を除く奇数次モーメント/キュムラントはゼロになる.
 また,入力信号はパワースペクトル上ではガンマ分布でモデリングできるとする.
 これらの仮定は入力信号がガウス性であることを仮定しない
 すなわち実環境におけるほとんど全ての雑音を対象にできる
スペクトル減算後の尖度解析
スペクトル減算後の尖度
スペクトル減算後のは以下のように表現できる [3]
 スペクトル減算の減算係数を大きくすると尖度が上昇する
 入力信号の分布の形状(α)により,処理後の尖度が異なる.
スペクトル減算後の尖度は
減算係数だけでなく,処理前の信号の統計的性質にも依存する.
[3] Y. Uemura et al., “Automatic optimization scheme of spectral subtraction based on musical
noise assessment via higher-order statistics,” Proc. of IWAENC 2008,
DS後の信号の尖度解析
モーメントとキュムラントを用いて解析を進め,DS後の尖度がどうなるか明らかにする.
ここでは以下の性質と仮説を用いる.
キュムラントに関する和の性質
パワー領域信号
周波数領域におけるパワー領域信号は以下のように表現できる
ここで,実部,虚部が互いに i.i.d. な信号であると仮定すると,
パワー領域信号は2つの i.i.d. な信号の2乗信号の和になるため,
キュムラントの和の性質からパワー領域のキュムラントを求めることができる.
DS 後の尖度の解析手順
以下のように,時間領域から2乗領域を経て,パワー領域の尖度を求める
時間
領域
2乗
領域
パワー
領域
入力
キュムラント
DS後 2 乗
モーメント
DS後パワー領域
キュムラント
DS
DS後
キュムラント
DS後 2 乗
キュムラント
DS後
モーメント
2乗
領域へ
パワー領域へ
DS後パワー領域
モーメント
DS後パワー領域
尖度
DS 後の尖度
DS後のパワー領域モーメント
DS後の尖度
ここで求めた DS 後の尖度は任意のキュムラントを設定でき
あらゆる雑音に適用可能
DS処理前後における尖度の関係
導出した尖度により,以下のような DS の処理前後の尖度の関係が導かれる
 ここで,尖度が 6 未満の信号は劣ガウシアン信号であり,
現実的な音響信号として存在することは稀であると考えられる.
 そこで入力信号の尖度が 6 以上であるとするとおおよそ,以下のように近似できる.
マイクロホンの数が増えるに従って
尖度の低減量が増加する
= ミュージカルノイズの発生量が低減する
最終出力の尖度比較
ここからは,BF+SS及びchSS+BF の最終出力の尖度を議論する.
BF+SS の最終出力の尖度
chSS+BFの最終出力の尖度
これらの最終出力の尖度のどちらが小さいかを議論する
最終出力の尖度の比較
比較指標
導出した BF+SS, chSS+BF の最終出力の尖度を比較するため,
次の指標を用いる.
 この D は出力尖度の二手法間での差を表している.
 D>0 であれば, chSS+BF が BF+SS に比べて小さい尖度の信号を
出力していることを示す.
D>0 であれば, chSS+BF の方が
ミュージカルノイズを低減できている事を示す.
手順
 様々な尖度の入力信号に対する上記指標を観察する.
 なお,スペクトル減算の減算係数は 2.0 で固定.
最終出力の尖度の比較: 結果
Gaussian
Super Gaussian
 chSS+BF は BF+SS に比べて様々な入力信号に対して尖度を低減できる
効果がある事が分かる
非ガウス性の雑音に対しても chSS+BF
はミュージカルノイズの発生量を低減できる.
実験結果:入力がガウス性雑音の場合
悪
悪
良
良
処理後の尖度の増加量
残留雑音の量
• 雑音抑圧量は同じまま,ミュージカルノイズの発生を抑圧できる
• 尖度変化量とミュージカルノイズ発生量の関係の正当性を示唆
実験結果
case2: BF+SS のフロアリング係数>0
 フロアリング係数によっては BF+SS も 提案 chSS+BFと
同じ尖度を達成できる.
 しかしながら,その場合雑音抑圧性能は劣化
主観評価実験 – 実験条件
目的
 chSS+BF と BF+SS で処理した信号のどちらがより
ミュージカルノイズが少ないか主観的に評価する.
提示信号および被験者数
サンプリング周波数
16 kHz
目的音声
10 発話 (男性 5 発話,女性 5 発話)
マイクロホン素子数
8
雑音
白色雑音,実収録の駅雑音,音声の
三種類の雑音を 36 個のラウドピーカから
再生し収録したもの.
注:これらの雑音は実収録しており,
チャネル間相関を含む
提示方法
AB 法
被験者数
男性 8 名
提示信号数
雑音1種類につき 10 ペアの信号
計 30 ペアの信号を提示
信号収録に使用した実験環境
主観評価実験 – 結果
どの雑音についても,提案 chSS+BF の方が
ミュージカルノイズが少ないという判断がなされている
まとめ
 ミュージカルノイズを抑えるための線形処理と非線形処理の統合手法
として検討している chSS+BF について,ガウス性雑音以外の
雑音に対する挙動の解析を行った.
 その結果,ガウス性雑音以外の雑音に対しても効果がある事が
確認された.
今後の課題
 チャネル間相関が存在する場合の理論的な解析
 DS 以外のマイクロホンアレー信号処理の検討
 スペクトル減算以外の非線形処理における検討