バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出 神戸大学大学院工学研究科情報知能学専攻 CS17有木研究室 山田馨士朗 有木康雄 滝口哲也 研究背景(1/2) 音声認識において 時間ー周波数平面上のフォルマント遷移・・・音素や発音の情報 雑音下音声認識における問題 時間ー周波数平面上のこれらの情報は雑音により容易に歪まされる ・・・・認識率の低下 周 波 数 :フォルマント 時間 www.***.com 研究背景(2/2) 画像の平滑化による雑音除去(ex.ガウシアンフィルタ) ・・・細かな雑音を除去することができるが 同時にフォルマント遷移(エッジ)情報も平滑化の影響で劣化 Bilateral filter[C.Tomasi and R.Manduchi(1998)] エッジ情報を保存しつつ、画像の平滑化を行うことが可能 (a) Original image (b) Gaussian filter (c) Bilateral filter www.***.com Bilateral filter filtering www.***.com Bilateral filter = min( 時間長、周波数範囲)/16 = (対数パワースペクトルの最大値 −対数パワースペクトルの最小値)/10 www.***.com Frequency Frequenc y 提案手法1 Proposed method Mel Filter Bank STDFT 音声波形 DFT係数 対数化 Mel Frequency Cepstrum Coefficient メル軸上での 三角窓の出力 Bilateral Filter 離散コサイン変換 対数パワー Bilateral filtered MFCC + Bilateral filter MFCC抽出過程の64次元メルフィルタバンク出力に対し Bilateral filterを用いた平滑化を行う これをProposedとする www.***.com Mel Filter Bank STDFT 音声波形 Frequency Frequenc y 提案手法2 DFT係数 対数化 Bilateral Filter メル軸上での 三角窓の出力 Bilateral Filter 離散コサイン変換 対数パワー Bilateral filtered MFCC MFCC抽出過程の64次元メルフィルタバンク出力に対し Bilateral filterを用いた平滑化を2回行う この手法をProposed2とする www.***.com Mel Filter Bank STDFT 音声波形 対数化 Frequency Frequenc y 提案手法3 DFT係数 メル軸上での 三角窓の出力 離散コサイン変換 対数パワー MFCC Bilateral Filter Bilateral filtered MFCC MFCCに対し Bilateral filterを用いた平滑化を行う これをProposed3とする www.***.com 評価実験ー単語音声認識実験 音声データ 男女10名の話者が発声したラベルつき音声データベース (ATR音素バランス文Aセット)20→8kHzにダウンサンプリング データ数 各話者、学習データ2620単語 各話者、評価データに学習に使用していないデータ1000単語 音素数 54音素 特徴量 bilateral filtered MFCC+⊿+⊿⊿(提案手法) MFCC+⊿+⊿⊿ 音響モデル HMM(5状態、8混合) 雑音環境 食堂内、高速道路付近 (CENSREC-1-Cに収録)の無音部分を重畳 SNR10~20dB www.***.com Recognition rate[%] 結果(1/8)(MFにバイラテラルあり、なしの比較) 100 90 80 70 60 50 40 30 20 10 0 FFS FKM FMS FTK FYN proposed 1 MAU MMY MNM MTT MXM MFCC12+E Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim) www.***.com 結果(2/8)(MFにバイラテラルフィルタ2回、13dim) Recognition rate[%] 100 90 80 70 60 50 40 30 20 10 0 FFS FKM FMS FTK FYN Proposed 1 MAU MMY MNM MTT MXM Proposed 2 Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim) www.***.com 結果(3/8)(MFCCにバイラテラルフィルタ、13dim) Recognition rate[%] 100 90 80 70 60 50 40 30 20 10 0 FFS FKM FMS FTK FYN Proposed 1 MAU MMY MNM MTT MXM Proposed 3 Noise: restaurant noise baseline: MFCC+energy(13dim) www.***.com proposed: bilateral filtered MFCC+energy(13dim) 結果(4/8)(提案手法1~3まとめ) method Restaurant noise features MFCCE 13dim Baseline 69.5 Proposed 1 79.7 Proposed 2 Proposed 3 Street noise Baseline Proposed 1 78.0 74.4 74.9 84.1 Proposed 2 Proposed 3 82.5 80.6 数値は10話者の平均の認識率(%) www.***.com Recognition rate[%] 結果(5/8)(MFにバイラテラルあり、なしの比較) 100 90 80 70 60 50 40 30 20 10 0 FFS FKM FMS FTK FYN Proposed 1 MAU MMY MNM MTT MXM MFCC12+E Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim) www.***.com 結果(6/8)(MFにバイラテラルあり、MFCCE26dim) Recognition rate[%] 100 90 80 70 60 50 40 30 20 10 0 FFS FKM FMS FTK FYN Proposed 4 MAU MMY MNM MTT MXM MFCCE+Δ Noise: restaurant noise baseline: MFCC+MFCC⊿+energy(26dim) proposed: bilateral filtered MFCC+MFCC⊿+energy(26dim) www.***.com Recognition rate[%] 結果(7/8)(MFにバイラテラルあり、MFCCE39dim) 100 90 80 70 60 50 40 30 20 10 0 FFS FKM FMS FTK Proposed 5 FYN MAU MMY MNM MTT MXM MFCCE+Δ+ΔΔ Noise: restaurant noise baseline: MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim) proposed: bilateral filtered MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim) www.***.com 結果(8/8)(特徴量別、他手法との比較) method Restaurant noise features MFCCE 13dim Baseline Proposed 1 SS Gaussian Street noise Baseline Proposed 1 SS Gaussian 69.5 79.7 MFCCE MFCCE+ +⊿ ⊿+⊿⊿ 26dim 39dim 64.6 54.5 80.6 78.6 73.8 76.4 74.9 71.6 79.8 80.1 68.6 78.3 79.5 84.1 81.1 80.8 86.9 81.2 83.7 84.3 81.1 83.1 数値は10話者の平均の認識率(%) www.***.com 考察・今後の課題 Bilateral filterはノイズを平滑化し影響を 低減する為に効果があると考えられる MFCC以外に相性のよい特徴量はないか SS等の雑音推定手法との違い Gaussianとの差異・・・フィルタのパラメータ調整 SSやその他手法との組み合わせ 音声に特化したフィルタの特徴付け www.***.com ご静聴ありがとうございました Frequency Frequenc y 提案手法1 Proposed method STDFT 音声波形 Mel Filter Bank DFT係数 対数化 Mel Frequency Cepstrum Coefficient メル軸上での 三角窓の出力 Bilateral Filter 離散コサイン変換 対数パワー Bilateral filtered MFCC + Bilateral filter • MFCC抽出過程の64次元メルフィルタバンク出力に対し Bilateral filterを用いた平滑化を行う これをProposedとする www.***.com Mel Filter Bank STDFT 音声波形 DFT係数 対数化 Bilateral Filter • Frequency Frequenc y 提案手法2 メル軸上での 三角窓の出力 Bilateral Filter 離散コサイン変換 対数パワー Bilateral filtered MFCC MFCC抽出過程の64次元メルフィルタバンク出力に対し Bilateral filterを用いた平滑化を2回行う この手法をProposed2とする www.***.com Mel Filter Bank STDFT 音声波形 対数化 DFT係数 メル軸上での 三角窓の出力 離散コサイン変換 対数パワー • Frequency Frequenc y 提案手法3 MFCC Bilateral Filter Bilateral filtered MFCC MFCCに対し Bilateral filterを用いた平滑化を行う これをProposed3とする www.***.com 結果4 method restaurant noise street noise features MFCC 13dim Proposed 78.6% Baseline 54.5% Proposed2 Proposed3 Proposed Baseline 78.0% 74.4% 84.3% 79.5% Proposed2 Proposed3 82.5% 80.6% 数値は10話者の平均の認識率 www.***.com Recognition rate[%] 結果1(MFにバイラテラルあり、なしの比較) 100 90 80 70 60 50 40 30 20 10 0 FFS FKM FMS FTK FYN proposed 1 MAU MMY MNM MTT MXM MFCC12+E Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim) www.***.com Recognition rate[%] 100 90 80 70 60 50 40 30 20 10 0 FFS FKM FMS FTK FYN proposed 4 MAU MMY MNM MTT MXM MFCC+Δ+E Noise: restaurant noise baseline: MFCC+MFCC⊿+energy(26dim) proposed: bilateral filtered MFCC+MFCC⊿+energy(26dim) www.***.com Recognition rate[%] 100 90 80 70 60 50 40 30 20 10 0 FFS FKM FMS FTK proposed 5 FYN MAU MMY MNM MTT MXM MFCC+Δ+ΔΔ+E Noise: restaurant noise baseline: MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim) proposed: bilateral filtered MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim) www.***.com 実験結果(4/4) features MFCC method restaurant noise street noise proposed Baseline Proposed Baseline 79.7% 69.5% 84.1% 74.9% MFCC MFCC+⊿ +⊿ +⊿⊿ 80.6% 64.6% 86.9% 80.1% 78.6% 54.5% 84.3% 79.5% 数値は10話者の平均の認識率 www.***.com 100 Recognition rate[%] 90 80 70 60 50 40 30 20 10 0 FFS FKM FMS FTK FYN proposed 1 MAU MMY MNM MTT MXM MFCCE www.***.com Recognition rate[%] 100 90 80 70 60 50 40 30 20 10 0 FFS FKM FMS FTK FYN Proposed 1 MAU MMY MNM Proposed 2 MTT MXM www.***.com 100 Recognition rate[%] 90 80 70 60 50 40 30 20 10 0 FFS FKM FMS FTK FYN Proposed 1 MAU MMY MNM Proposed 3 MTT MXM www.***.com Recognition rate[%] 100 90 80 70 60 50 40 30 20 10 0 FFS FKM FMS FTK FYN proposed 4 MAU MMY MNM MFCCE+Δ MTT MXM www.***.com Recognition rate[%] 100 90 80 70 60 50 40 30 20 10 0 FFS FKM FMS FTK proposed 5 FYN MAU MMY MNM MFCCE+Δ+ΔΔ MTT MXM www.***.com Mel Filter Bank STDFT 音声波形 DFT係数 メル軸上での 三角窓の出力 Proposed method Bilateral Filter 対数化 離散コサイン変換 対数パワー Bilateral filtered MFCC www.***.com Recognition rate [%] 100 90 80 70 60 50 40 30 20 10 0 proposed baseline FFS FKM FMS FTK FYN MAU MMY MNM MTT MXM www.***.com www.***.com Recognition rate [%] 100 90 80 70 60 50 40 30 20 10 0 proposed baseline FFS FKM FMS FTK FYN MAU MMY MNM MTT MXM www.***.com 100 90 80 70 60 50 40 30 20 10 0 proposed baseline FFS FKM FMS FTK FYN MAU MMY MNM MTT MXM www.***.com 結果(バイラテラルフィルタ2回、13dim) Recognition rate[%] 100 90 80 70 60 50 40 30 20 10 0 1time 2times FFS FKM FMS FTK FYN MAU MMY MNM MTT MXM Noise: restaurant noise baseline: MFCC+energy(13dim) proposed: bilateral filtered MFCC+energy(13dim) www.***.com
© Copyright 2025 ExpyDoc