6/4

20150604
信号処理システム特論
本日の内容
ノイズ除去手法
○ 適応ノッチフィルタ
○ 背景雑音除去の代表的手法
適応ノッチフィルタ
適応ノッチフィルタ: 入力信号に重畳した狭い範囲に存在する大
きなパワーに自動的にノッチ周波数が追随するフィルタ
回転体から生じるノイズなど ⇒ 狭い周波数範囲に大きなパワー
ノッチフィルタ
u (n)
r + an z −1 + z −2 
1
H ( z ) = 1 +

2  1 + an z −1 + rz − 2 
y ( n) = ru ( n) + an u ( n − 1) + u (n − 2)
u (n) = x(n) − an u (n − 1) − ru (n − 2)
an = −(1 + r ) cos(2π f N / f s )
an +1 = an − µ u (n − 1)e(n)
e( n ) =
1
{x(n) + y (n)}
2
r = 0.99
r = 0.9
r = 0.9
r = 0.8
an = 0
an = (1 + r ) / 2
ノッチフィルタの係数更新
u (n)
an +1 = an − µ u (n − 1)e(n)
u ( n) = x( n) − an u (n − 1) − ru (n − 2)
1
{x(n) + y (n)}
2
y (n) = ru (n) + an u (n − 1) + u (n − 2)
e( n ) =
適応ノッチフィルタのシミュレーション
スペクトログラム(上:入力、下:出力)
・入力信号: Sweep信号
約10秒で0~4000Hzまで変化
・サンプリング周波数:8000Hz)
x(n) = 0.1d (n) + sin(0.00002n 2 )
入出力のパワー比
約14dBの低減
周波数領域適応フィルタ
入力信号を一定間隔のブロックごと(N点)のデータに分割
係数更新はブロックごとに1回 ⇒ 演算量(1/N)
Wi (n) = Wi (n − 1) −
1
Ei (n) X i (n)
2
| X i ( n) |
逐次処理型周波数領域適応フィルタ
1
Wi (n) = Wi (n − 1) −
e( n ) X i ( n )
2
| X i ( n) |
その他、周波数領域でのノイズ除去技術
ここで考えるノイズ除去問題
仮定1:時刻 n における観測信号は x(n)=s(n)+d(n) で表せる
仮定2:音声信号 s(n) とノイズ信号 d(n) は無相関
周波数領域への変換(SFTF)
第 l フレームの k 番目のスペクトル
N −1
X (l , k ) = ∑ x(lQ + n)e
n =0
−j
2πk
n
N
= S (l , k ) + D (l , k )
問題設定
Sˆ (l , k ) = G (l , k ) X (l , k )
G (l , k ) : スペクトルゲイン
Sˆ (l , k ) = X (l , k ) − D (l , k )
最適なスペクトルゲイン
通常は得られない!
D (l , k )
X (l , k ) − D (l , k )
Gopt (l , k ) =
= 1−
X (l , k )
X (l , k )
最適に近いスペクトルゲインをどう得るか。
スペクトル・サブトラクション
S.F.Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Trans.
Acoustics, Speech, and signal processing, Vol.ASSP-27, No.2, 1978.
音信号の非音声部分における平均周波数特性スペクトルの大きさを
推定し、周波数領域においてこれを減算するもの。
最初の数秒間はノイズのみと仮定して,
その部分の平均を利用するのが多い。
(
)
ˆ (l , k ) e j∠X ( l ,k )
Sˆ (l , k ) = X (l , k ) − D
ˆ (l , k ) | 

|D
 X (l , k ) = G (l , k ) X (l , k )
= 1 −

|
(
,
)
|
X
l
k


ˆ (l , k ) |
ノイズの振幅スペクトルの推定値: | D
スペクトル・サブトラクションのシミュレーション
・ サンプリング周波数:44.1kHz
・ STFTのフレーム長:1024点、(約23msec)
ハーフオーバーラップ使用
・ ノイズ推定のための初期フレーム数:4
SS
ミュージカルノイズの発生
⇒ ・振幅スペクトルだけを考慮
・引き過ぎや引き残しが原因
確率分布に基づく手法
観測信号のスペクトル X が生じた後の条件付期待値
J = E[| S − Sˆ |2 X ] の最小化問題を考える
Ŝ として,音声スペクトルの平均値
すなわち,S の条件付期待値 E[ S | X ] を選ぶ
E[ S | X ] は,事後確率密度関数 p ( S | X ) から計算。
p ( S | X ) は,音声とノイズスペクトルの確率密度関数から計算。
音声とノイズスペクトルの確率密度関数を
どのように仮定するかが性能に大きく影響
手法1) ガウス分布を仮定した手法
音声信号、ノイズとも
スペクトルの確率密度分布が「ガウス分布」に従うものと仮定



p( S ) =
 | S |2
exp −
2
2
2
σ
2πσ s
s

p( D) =
 | D |2
exp −
2
2
2
σ
2πσ d
d

1
1
Gwiener =
γ =



ξ
1+ ξ
| X |2
σ d2
ξ (l ) = βγ (l − 1)G 2 (l − 1) + (1 − β ) ⋅ max[γ (l ) − 1, 0]
β : 定数
手法2) レイリー分布を仮定した手法
音声信号の振幅スペクトルは「レイリー分布」,
位相スペクトルは-π~πの「一様分布」,
ノイズ信号のスペクトルは「ガウス分布」に従うと仮定
p (| S |) =
2| S |
σ s2
 | S |2
exp − 2
 σs



1
p (∠S ) =
2π
GRLY
ξ + ξ 2 + 2(1 + ξ )(ξ / γ )
=
2(1 + ξ )
γ =
| X |2
σ d2
ξ (l ) = βγ (l − 1)G 2 (l − 1) + (1 − β ) ⋅ max[γ (l ) − 1, 0]
β : 定数
手法3) T. Lotter と P. Varyの分布による手法
T.Lotter and P.vary, “Speech enhancement by MAP spectral amplitude estimation using a
super-Gaussian speech model,” EURASIP journal on applied signal processing, Vol.7, 2005.
独自に調べた分布に従うと仮定

|S|
µν +1 | S |ν

−
p( S ) =
exp
µ

Γ(ν + 1)σ νs +1
σs




ν (l , k )
GL.map (l , k ) = u + u (l , k ) +
2γ (l , k )
2
µ, ν
分布の形状を決めるパラメータ
u (l , k ) =
1 u (l , k )
−
2
4
1
γξ (l , k )
手法4) 可変音声分布による手法
・休止区間や,音声の始まりや終わり付近:
振幅スペクトルは,デルタ関数か, または指数分布に従う
・音声が存在する区間:レイリー分布に従うと仮定
音声スペクトル分布の形状を,
音声区間と非音声区間で適応的に変化させる方法
シミュレーション
・ 同じ音源を使用
・ サンプリング周波数:44.1kHz
・ STFTのフレーム長:1024点、(約23msec)
ハーフオーバーラップ使用
・ ノイズ推定のための初期フレーム数:4
・ 雑音:ホワイトノイズ
クリーン音声信号
入力信号
ホワイトノイズ付加
評価方法
○ 客観評価
・ 信号対雑音比:Signal to Noise Ratio(SNR)
信号のパワー
10 × log10
[dB]
ノイズのパワー
注意)SNRが高いからといって音質が良いとは限らない
○ 主観評価
平均オピニオン評点:Mean Opinion Score(MOS)
⇒ 主観的な評価を平均してスコアとする方法
結果比較
ガウス分布
入力信号 0.72[dB]
16.7[dB]
レイリー分布
18.4[dB]
SS 9.3[dB]
可変分布
20.8[dB]
まとめ
信号処理によるノイズ除去
・システムの性能・品質向上において重要。
・統計量等の事前情報を利用した信号処理研究が活発。
⇒・モデルをどう構築するか
・モデルから外れた場合の対応をどうするか
(例えば、突発的な騒音・ノイズをどう除去するか)
・必要なパラメータをどう決めるか
(低演算・低遅延・高精度)
ノイズ除去手法はまだまだホットな研究テーマ