雑音環境下音声認識のための バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6 ◎山田馨士朗,滝口哲也,有木康雄 (神戸大) 研究背景 バイラテラルフィルタ Bilateral filter [C.Tomasi and R.Manduchi(1998)] エッジ情報を保存しつつ、画像の平滑化を行うことが可能 フォルマント filtering filtering 時間ー周波数平面上のフォルマント遷移・・・音素や発音の情報 雑音下音声認識における問題 時間ー周波数平面上のこれらの情報は雑音により容易に 歪まされる・・・・認識率の低下 画像の平滑化による雑音除去(ex.ガウシアンフィルタ) 細かな雑音を除去することができるが同時にフォルマント 遷移(エッジ)情報も平滑化の影響で劣化 (a) Original image (c) Bilateral filter (b) Gaussian filter →フォルマント遷移を残しつつ雑音を抑制したい 実験条件 音声データ 男女10名の話者が発声したラベルつき音声 データベース(ATR音素バランス文Aセット) データ数 各話者、学習データ2620単語(雑音音声) 各話者、評価データ1000単語 (学習データに使用してないもの) 音素数 54音素 特徴量 bilateral filtered MFCC+⊿+⊿⊿(提案手法) MFCC+⊿+⊿⊿ 音響モデル HMM(5状態、8混合) 雑音環境 食堂内、高速道路付近(CENSREC-1-Cに収 録)の無音部分を重畳 SNR 10~20dB 提案手法 提案手法 STDFT 音声波形 Mel Filter Bank メル軸上での 三角窓の出力 DFT係数 Bilateral Filter Mel Frequency 対数化 離散コサイン変換 Cepstrum Coefficient Bilateral filtered 対数パワー + Bilateral filter MFCC MFCC抽出過程の64次元メルフィルタバンク出力に対し Bilateral filterを用いた平滑化を行う 評価実験 Noise: restaurant noise 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 proposed 50 baseline 40 30 20 10 0 FFS 10話者の平均認識率 features Recognition rate Recognition rate 100 Noise: street noise FFS FKM FMS FTK baseline: proposed: FYN MAU MMY MNM MTT MXM proposed baseline method restaurant noise street noise FKM FMS FTK proposed Baseline Proposed Baseline MFCC+⊿+ ⊿⊿ 78.6% 54.5% 84.3% 79.5% FYN MAU MMY MNM MTT MXM MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim) bilateral filtered MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim) 考察・課題 ◆ ほとんどの話者によって認識率の改善がみられ、ベースラインからレストラン内雑音データに対し24.1ポイント、高速道路付近雑音 データに対し、4.8ポイントの改善が見られた。 ◆ 今後はスペクトルサブトラクション等の他の雑音に対する手法との比較を行っていく。組み合わせも可能。
© Copyright 2025 ExpyDoc