スライド 1

音響尤度を用いた
マルチスピーカ音響エコーキャンセラの検討
1-Q-17
古賀健太郎,滝口哲也,有木康雄(神戸大)
研究背景・目的
問題設定・アプローチ
マルチスピーカ(スピーカ数:4)からの音楽雑音(2ch)が,
1chマイクで観測されるモデルにおいて,観測信号y(i)の
SNを向上
カーナビのタッチパネル操作は,わき見運転による
交通事故を誘発
音声ならば,わき見運転することが無い
しかし,車内では雑音が音声認識用マイクに混入
し認識率が低下

適応フィルタ h’(i) は4つのエコーパスをまとめて推
定するため、キャンセル結果が十分に収束しない
そこで、4つの固定フィルタで,4つのエコーパスを独
立に推定する
車内などの環境で,
マイクで観測される雑音を除去し
音声認識率を確保する
音響エコーキャンセラの研究
y(i)のSN向上には
xR*hFR (i)+xR*hRR(i)+ xL*hFL(i)+xL*hRL(i)
を正確に推定してy(i)からキャンセルする必要あり
音響尤度を用いたマルチスピーカ音響エコーキャンセラ
実環境 i {i=1,2,…,N}でインパルス応答を測定し
各エコーパスに対応した固定フィルタ
h’FL(i), h’FR(i), h’RL(i),h’RR(i) {i=1,2,…,N}
とする
環境 i は変化
推定したい環境の数Nだけ固定フィルタを準備
音声尤度低いクリーン音声候補
参考:インパルス応答を測
定した実環境
推定環境と,観測信号の測定環境が
ミスマッチのため
音楽雑音消し残しが多い
音声尤度高いクリーン音声候補
推定環境と,観測信号測定環境が
合っているため
音響雑音消し残しが少ない
こちらを選択
推定したい環境N通りのキャンセルを行いN個のクリーン音声候補を算出
< 全体図 >
i=1
h’FR(1)
i=2
h’RR(1)
+
-
h’FL
(1)
h’FR(2)
+
-
h’RL
+
-
h’FL
(2)
ŜM(1), ŜM(2), … , ŜM(N) と
音声のGMMψ={λ, μ, σ} より
音声尤度
高域強調 → FFT →
(1)|ψ ), P(Ŝ (2)|ψ ), …, P(Ŝ (N)|ψ )
P(Ŝ
M
M
M
n次元メルフィルタバンク処理 →
出てきた値の対数を離散コサイン変換 を計算し
i=N
h’RR(2)
h’FR(N)
(FRスピーカ)
h’RR(N)
+
-
h’RL
xR
(RRスピーカ)
hFR(i)
S
hRR(i)
(Rch)
h’FL
+
-
+
-
(N)
(N)
h’RL
hFL(i)
MFCC特徴量 ŜM(1) , ŜM(2), … , ŜM(N)
を算出
参照信号
(音楽)
(観測信号) (音声)
(2)
(2) 音声尤度最大の î の計算
クリーン音声候補ŝ(1), ŝ(2), … , ŝ(N)
の時間領域波形に対し
y(i)
(1)
(1) MFCC特徴量計算
i
(Lch)
(室内環境) hRL(i)
(FLスピーカ)
î = argmax P(ŜM(i)|ψ )
i
となる ŝ(î) を,求めるクリーン音声 ŝ とする
音声尤度
W
xL
音声特徴量 o の重みつき混合正規分布 P(o) = ΣλwN(o ;μw ,σw)
w=1
(RLスピーカ)
< 実験条件>
ŝ(1) ŝ(2) ŝ(N)
クリーン音声候補
<SN評価結果>
N個のクリーン音声候補のうち
音声尤度最大の候補を選択
SNR(dB)
40.0
環境 i ( 物の
配置が異なる環
境(8通り) )
ŝ(1)
ŝ(1) ŝ(2) ŝ(N)
î 番目の
クリーン音声候補を
選択
ŝ(î)
î
ŝ(2)
ŝ(N)
(1)MFCC 特徴量計算
ŜM(2)
ŜM(N)
ŜM(1)
音声の
GMM
ψ={λ, μ, σ}
30.0
20.0
観測信号(※)のパラメータ
(クリーン音声)
音声sの話者
5名
発話文章数
20
標本化周波数
16kHz
観測した環境i
1~8
従来手法(NLMS)のパラメータ
音声認識
エンジン
適応フィルタのタップ長
提案手法は、推定する環境が多くなればなるほど計算に時間がかかる欠
点がある。そこで、推定する環境を減らす検討を行う。
1200
固定フィルタで推定した環境I
固定フィルタのタップ長
GMM学習に用いた話者数
GMM学習の文章数
GMMの混合数
MFCCの次元数
MFCC特徴抽出のフレーム幅
MFCC特徴抽出のシフト幅
1~8
1200
1名(特定話者)
20
32
16
32ms
8ms
40.0
1
95
4
20.0
17.8 15.8
21.7
10
6 10
7
8
5
o = 1 のとき95% の確率でh’(2) 選択
o = 2 のとき90% の確率でh’(1) 選択
30 55 10
25
75
5 70
10
o = 4 のとき75% の確率でh’(5) 選択
5 o = 5 のとき70% の確率でh’(4)選択
5
85
5 20
(8) 選択
o
=
6
のとき85%
の確率でh’
15
o = 8 のとき95% の確率でh’(6)選択
5
55
95
35.3
30.8
8
5 10
5
5
7
5
2 85
3
6
<SN評価結果>
30.0
使用しなかった環境 o の代わりにどの環境 o^ が選択されているか調査
(表中の数値:%)
5
尤度最大化基準に基づく音響エ
コーキャンセラ【提案手法】
40.0
30.0
環境 i ( 物の
配置が異なる環
境(8通り) )
20.0
h’(1)とh’(2) 、 h’(4)とh’(5) 、 h’(6)とh’(8)は、それぞれ似た環境
17.8 15.8
21.7
10.0
観測信号(※)のパラメータ
4
適応フィルタによる
キャンセラ 【NLMS(学習同定法)】
SNR(dB)
35.3
0.0
3
キャンセル無し
【ベースライン】
・ 環境1と2の片方、環境4と5の片方、環境6と8の片方を推定に使う
・ 環境3と7は必ず推定に使う
物の配置が異なる環境8通りに対し、5通りの環境で推定する
10.0
2
15.8
0.0
提案手法のパラメータ
< 実験条件>
SNR(dB)
1
17.8
※ 参照信号に実環境で測定したインパルスを畳み込んだシミュレーション観測信号
推定環境を減らす検討
選ばれた環境o^
実際の環境 o
35.3
10.0
(2)音声尤度最大の î の計算
環境oで観測した信号y(o)に対し,同じ環境oを推定した
固定フィルタh’(o)を用いなかった場合(未知環境の場
合),同じ環境oを推定した固定フィルタh’(o)を用いてい
る場合と比べて,SN改善効果が小さい
(右グラフ黄色の帯)
λw:重み係数
Σ1Wλw dw = 1
音声sの話者
5名
発話文章数
20
標本化周波数
16kHz
観測した環境i
1~8
提案手法のパラメータ
固定フィルタで
推定した環境I
(※2)
i={1or2,
3,
4or5,
6or8,
7}
固定フィルタのタップ長
1200
GMM学習に用いた話者数
1名 (特定話者)
GMM学習の文章数
20
GMMの混合数
32
MFCCの次元数
16
MFCC特徴抽出のフレーム幅 32ms
MFCC特徴抽出のシフト幅
8ms
※ 参照信号に実環境で測定したインパルスを畳み込んだシミュレーション観測信号
※2 5通りの推定の組み合わせは
( i={(1,3,4,6,7),(1,3,4,7,8),(1,3,5,6,7),(1,3,5,7,8),(2,3,4,6,7),(2,3,4,7,8),(2,3,5,6,7),(2,3,5,7,8)})の8
パターン
0.0
キャンセル無し 【ベースライン】
適応フィルタによるキャンセラ
【NLMS(学習同定法)】
尤度最大化基準に基づく
音響エコーキャンセラ
【提案手法、環境iが既知の場合】
尤度最大化基準に基づく
音響エコーキャンセラ
【環境iが未知の場合】
尤度最大化基準に基づく
音響エコーキャンセラ
【環境iが一部未知の場合】
(5通りの推定の組合せ8パターンの平均)
8通りの環境による推定(環境iが既知)と比べるとSN改善効果は小さくなるが、
環境iが未知の場合と比べるとSN改善効果は高い
5通りの環境による推定(環境iが一部未知)でも十分な音楽キャンセル性能を出せる