音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討 1-Q-17 古賀健太郎,滝口哲也,有木康雄(神戸大) 研究背景・目的 問題設定・アプローチ マルチスピーカ(スピーカ数:4)からの音楽雑音(2ch)が, 1chマイクで観測されるモデルにおいて,観測信号y(i)の SNを向上 カーナビのタッチパネル操作は,わき見運転による 交通事故を誘発 音声ならば,わき見運転することが無い しかし,車内では雑音が音声認識用マイクに混入 し認識率が低下 適応フィルタ h’(i) は4つのエコーパスをまとめて推 定するため、キャンセル結果が十分に収束しない そこで、4つの固定フィルタで,4つのエコーパスを独 立に推定する 車内などの環境で, マイクで観測される雑音を除去し 音声認識率を確保する 音響エコーキャンセラの研究 y(i)のSN向上には xR*hFR (i)+xR*hRR(i)+ xL*hFL(i)+xL*hRL(i) を正確に推定してy(i)からキャンセルする必要あり 音響尤度を用いたマルチスピーカ音響エコーキャンセラ 実環境 i {i=1,2,…,N}でインパルス応答を測定し 各エコーパスに対応した固定フィルタ h’FL(i), h’FR(i), h’RL(i),h’RR(i) {i=1,2,…,N} とする 環境 i は変化 推定したい環境の数Nだけ固定フィルタを準備 音声尤度低いクリーン音声候補 参考:インパルス応答を測 定した実環境 推定環境と,観測信号の測定環境が ミスマッチのため 音楽雑音消し残しが多い 音声尤度高いクリーン音声候補 推定環境と,観測信号測定環境が 合っているため 音響雑音消し残しが少ない こちらを選択 推定したい環境N通りのキャンセルを行いN個のクリーン音声候補を算出 < 全体図 > i=1 h’FR(1) i=2 h’RR(1) + - h’FL (1) h’FR(2) + - h’RL + - h’FL (2) ŜM(1), ŜM(2), … , ŜM(N) と 音声のGMMψ={λ, μ, σ} より 音声尤度 高域強調 → FFT → (1)|ψ ), P(Ŝ (2)|ψ ), …, P(Ŝ (N)|ψ ) P(Ŝ M M M n次元メルフィルタバンク処理 → 出てきた値の対数を離散コサイン変換 を計算し i=N h’RR(2) h’FR(N) (FRスピーカ) h’RR(N) + - h’RL xR (RRスピーカ) hFR(i) S hRR(i) (Rch) h’FL + - + - (N) (N) h’RL hFL(i) MFCC特徴量 ŜM(1) , ŜM(2), … , ŜM(N) を算出 参照信号 (音楽) (観測信号) (音声) (2) (2) 音声尤度最大の î の計算 クリーン音声候補ŝ(1), ŝ(2), … , ŝ(N) の時間領域波形に対し y(i) (1) (1) MFCC特徴量計算 i (Lch) (室内環境) hRL(i) (FLスピーカ) î = argmax P(ŜM(i)|ψ ) i となる ŝ(î) を,求めるクリーン音声 ŝ とする 音声尤度 W xL 音声特徴量 o の重みつき混合正規分布 P(o) = ΣλwN(o ;μw ,σw) w=1 (RLスピーカ) < 実験条件> ŝ(1) ŝ(2) ŝ(N) クリーン音声候補 <SN評価結果> N個のクリーン音声候補のうち 音声尤度最大の候補を選択 SNR(dB) 40.0 環境 i ( 物の 配置が異なる環 境(8通り) ) ŝ(1) ŝ(1) ŝ(2) ŝ(N) î 番目の クリーン音声候補を 選択 ŝ(î) î ŝ(2) ŝ(N) (1)MFCC 特徴量計算 ŜM(2) ŜM(N) ŜM(1) 音声の GMM ψ={λ, μ, σ} 30.0 20.0 観測信号(※)のパラメータ (クリーン音声) 音声sの話者 5名 発話文章数 20 標本化周波数 16kHz 観測した環境i 1~8 従来手法(NLMS)のパラメータ 音声認識 エンジン 適応フィルタのタップ長 提案手法は、推定する環境が多くなればなるほど計算に時間がかかる欠 点がある。そこで、推定する環境を減らす検討を行う。 1200 固定フィルタで推定した環境I 固定フィルタのタップ長 GMM学習に用いた話者数 GMM学習の文章数 GMMの混合数 MFCCの次元数 MFCC特徴抽出のフレーム幅 MFCC特徴抽出のシフト幅 1~8 1200 1名(特定話者) 20 32 16 32ms 8ms 40.0 1 95 4 20.0 17.8 15.8 21.7 10 6 10 7 8 5 o = 1 のとき95% の確率でh’(2) 選択 o = 2 のとき90% の確率でh’(1) 選択 30 55 10 25 75 5 70 10 o = 4 のとき75% の確率でh’(5) 選択 5 o = 5 のとき70% の確率でh’(4)選択 5 85 5 20 (8) 選択 o = 6 のとき85% の確率でh’ 15 o = 8 のとき95% の確率でh’(6)選択 5 55 95 35.3 30.8 8 5 10 5 5 7 5 2 85 3 6 <SN評価結果> 30.0 使用しなかった環境 o の代わりにどの環境 o^ が選択されているか調査 (表中の数値:%) 5 尤度最大化基準に基づく音響エ コーキャンセラ【提案手法】 40.0 30.0 環境 i ( 物の 配置が異なる環 境(8通り) ) 20.0 h’(1)とh’(2) 、 h’(4)とh’(5) 、 h’(6)とh’(8)は、それぞれ似た環境 17.8 15.8 21.7 10.0 観測信号(※)のパラメータ 4 適応フィルタによる キャンセラ 【NLMS(学習同定法)】 SNR(dB) 35.3 0.0 3 キャンセル無し 【ベースライン】 ・ 環境1と2の片方、環境4と5の片方、環境6と8の片方を推定に使う ・ 環境3と7は必ず推定に使う 物の配置が異なる環境8通りに対し、5通りの環境で推定する 10.0 2 15.8 0.0 提案手法のパラメータ < 実験条件> SNR(dB) 1 17.8 ※ 参照信号に実環境で測定したインパルスを畳み込んだシミュレーション観測信号 推定環境を減らす検討 選ばれた環境o^ 実際の環境 o 35.3 10.0 (2)音声尤度最大の î の計算 環境oで観測した信号y(o)に対し,同じ環境oを推定した 固定フィルタh’(o)を用いなかった場合(未知環境の場 合),同じ環境oを推定した固定フィルタh’(o)を用いてい る場合と比べて,SN改善効果が小さい (右グラフ黄色の帯) λw:重み係数 Σ1Wλw dw = 1 音声sの話者 5名 発話文章数 20 標本化周波数 16kHz 観測した環境i 1~8 提案手法のパラメータ 固定フィルタで 推定した環境I (※2) i={1or2, 3, 4or5, 6or8, 7} 固定フィルタのタップ長 1200 GMM学習に用いた話者数 1名 (特定話者) GMM学習の文章数 20 GMMの混合数 32 MFCCの次元数 16 MFCC特徴抽出のフレーム幅 32ms MFCC特徴抽出のシフト幅 8ms ※ 参照信号に実環境で測定したインパルスを畳み込んだシミュレーション観測信号 ※2 5通りの推定の組み合わせは ( i={(1,3,4,6,7),(1,3,4,7,8),(1,3,5,6,7),(1,3,5,7,8),(2,3,4,6,7),(2,3,4,7,8),(2,3,5,6,7),(2,3,5,7,8)})の8 パターン 0.0 キャンセル無し 【ベースライン】 適応フィルタによるキャンセラ 【NLMS(学習同定法)】 尤度最大化基準に基づく 音響エコーキャンセラ 【提案手法、環境iが既知の場合】 尤度最大化基準に基づく 音響エコーキャンセラ 【環境iが未知の場合】 尤度最大化基準に基づく 音響エコーキャンセラ 【環境iが一部未知の場合】 (5通りの推定の組合せ8パターンの平均) 8通りの環境による推定(環境iが既知)と比べるとSN改善効果は小さくなるが、 環境iが未知の場合と比べるとSN改善効果は高い 5通りの環境による推定(環境iが一部未知)でも十分な音楽キャンセル性能を出せる
© Copyright 2024 ExpyDoc