スライド 1

雑音環境下音声認識のための
バイラテラルフィルタを用いた音声特徴量抽出
2-Q-6
◎山田馨士朗,滝口哲也,有木康雄 (神戸大)
研究背景
バイラテラルフィルタ
Bilateral filter [C.Tomasi and R.Manduchi(1998)]
エッジ情報を保存しつつ、画像の平滑化を行うことが可能
フォルマント
filtering
filtering
時間ー周波数平面上のフォルマント遷移・・・音素や発音の情報
雑音下音声認識における問題
時間ー周波数平面上のこれらの情報は雑音により容易に
歪まされる・・・・認識率の低下
画像の平滑化による雑音除去(ex.ガウシアンフィルタ)
細かな雑音を除去することができるが同時にフォルマント
遷移(エッジ)情報も平滑化の影響で劣化
(a) Original image
(c) Bilateral filter
(b) Gaussian filter
→フォルマント遷移を残しつつ雑音を抑制したい
実験条件
音声データ
男女10名の話者が発声したラベルつき音声
データベース(ATR音素バランス文Aセット)
データ数
各話者、学習データ2620単語(雑音音声)
各話者、評価データ1000単語
(学習データに使用してないもの)
音素数
54音素
特徴量
bilateral filtered MFCC+⊿+⊿⊿(提案手法)
MFCC+⊿+⊿⊿
音響モデル
HMM(5状態、8混合)
雑音環境
食堂内、高速道路付近(CENSREC-1-Cに収
録)の無音部分を重畳 SNR 10~20dB
提案手法
提案手法
STDFT
音声波形
Mel Filter Bank
メル軸上での
三角窓の出力
DFT係数
Bilateral
Filter
Mel Frequency
対数化
離散コサイン変換
Cepstrum
Coefficient
Bilateral filtered
対数パワー
+ Bilateral filter
MFCC
MFCC抽出過程の64次元メルフィルタバンク出力に対し
Bilateral filterを用いた平滑化を行う
評価実験
Noise: restaurant noise
90
80
70
60
50
40
30
20
10
0
100
90
80
70
60
proposed
50
baseline
40
30
20
10
0 FFS
10話者の平均認識率
features
Recognition rate
Recognition rate
100
Noise: street noise
FFS FKM FMS FTK
baseline:
proposed:
FYN MAU MMY MNM MTT MXM
proposed
baseline
method
restaurant
noise
street noise
FKM FMS FTK
proposed
Baseline
Proposed
Baseline
MFCC+⊿+
⊿⊿
78.6%
54.5%
84.3%
79.5%
FYN MAU MMY MNM MTT MXM
MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim)
bilateral filtered
MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim)
考察・課題
◆
ほとんどの話者によって認識率の改善がみられ、ベースラインからレストラン内雑音データに対し24.1ポイント、高速道路付近雑音
データに対し、4.8ポイントの改善が見られた。
◆ 今後はスペクトルサブトラクション等の他の雑音に対する手法との比較を行っていく。組み合わせも可能。