スライド 1 - CS17 Ariki Laboratory, Kobe

バイラテラルフィルタによる実雑音下音声認識
のための音声特徴量抽出
神戸大学大学院工学研究科情報知能学専攻
CS17有木研究室
山田馨士朗 有木康雄 滝口哲也
研究背景(1/2)
 音声認識において
時間ー周波数平面上のフォルマント遷移・・・音素や発音の情報
 雑音下音声認識における問題
時間ー周波数平面上のこれらの情報は雑音により容易に歪まされる
・・・・認識率の低下
周
波
数
:フォルマント
時間
www.***.com
研究背景(2/2)
 画像の平滑化による雑音除去(ex.ガウシアンフィルタ)
・・・細かな雑音を除去することができるが
同時にフォルマント遷移(エッジ)情報も平滑化の影響で劣化
 Bilateral filter[C.Tomasi and R.Manduchi(1998)]
エッジ情報を保存しつつ、画像の平滑化を行うことが可能
(a) Original image
(b) Gaussian filter
(c) Bilateral filter
www.***.com
Bilateral filter
filtering
www.***.com
Bilateral filter


= min( 時間長、周波数範囲)/16
= (対数パワースペクトルの最大値
−対数パワースペクトルの最小値)/10
www.***.com
Frequency
Frequenc
y
提案手法1
Proposed method
Mel Filter Bank
STDFT
音声波形
DFT係数
対数化
Mel Frequency
Cepstrum Coefficient
メル軸上での
三角窓の出力
Bilateral
Filter
離散コサイン変換
対数パワー
Bilateral filtered
MFCC
+ Bilateral filter
 MFCC抽出過程の64次元メルフィルタバンク出力に対し
Bilateral filterを用いた平滑化を行う
これをProposedとする
www.***.com
Mel Filter Bank
STDFT
音声波形
Frequency
Frequenc
y
提案手法2
DFT係数
対数化
Bilateral
Filter
メル軸上での
三角窓の出力
Bilateral
Filter
離散コサイン変換
対数パワー
Bilateral filtered
MFCC
 MFCC抽出過程の64次元メルフィルタバンク出力に対し
Bilateral filterを用いた平滑化を2回行う
この手法をProposed2とする
www.***.com
Mel Filter Bank
STDFT
音声波形
対数化
Frequency
Frequenc
y
提案手法3
DFT係数
メル軸上での
三角窓の出力
離散コサイン変換
対数パワー
MFCC
Bilateral
Filter
Bilateral filtered
MFCC
 MFCCに対し
Bilateral filterを用いた平滑化を行う
これをProposed3とする
www.***.com
評価実験ー単語音声認識実験
音声データ
男女10名の話者が発声したラベルつき音声データベース
(ATR音素バランス文Aセット)20→8kHzにダウンサンプリング
データ数
各話者、学習データ2620単語
各話者、評価データに学習に使用していないデータ1000単語
音素数
54音素
特徴量
bilateral filtered MFCC+⊿+⊿⊿(提案手法)
MFCC+⊿+⊿⊿
音響モデル
HMM(5状態、8混合)
雑音環境
食堂内、高速道路付近 (CENSREC-1-Cに収録)の無音部分を重畳
SNR10~20dB
www.***.com
Recognition rate[%]
結果(1/8)(MFにバイラテラルあり、なしの比較)
100
90
80
70
60
50
40
30
20
10
0
FFS
FKM FMS
FTK
FYN
proposed 1
MAU MMY MNM MTT MXM
MFCC12+E
Noise:
restaurant noise
baseline: MFCC+energy(13dim)
proposed: bilateral filtered MFCC+energy(13dim)
www.***.com
結果(2/8)(MFにバイラテラルフィルタ2回、13dim)
Recognition rate[%]
100
90
80
70
60
50
40
30
20
10
0
FFS
FKM
FMS
FTK
FYN
Proposed 1
MAU
MMY MNM
MTT
MXM
Proposed 2
Noise:
restaurant noise
baseline: MFCC+energy(13dim)
proposed: bilateral filtered MFCC+energy(13dim)
www.***.com
結果(3/8)(MFCCにバイラテラルフィルタ、13dim)
Recognition rate[%]
100
90
80
70
60
50
40
30
20
10
0
FFS
FKM
FMS
FTK
FYN
Proposed 1
MAU
MMY
MNM
MTT
MXM
Proposed 3
Noise:
restaurant noise
baseline: MFCC+energy(13dim)
www.***.com
proposed: bilateral filtered MFCC+energy(13dim)
結果(4/8)(提案手法1~3まとめ)
method
Restaurant
noise
features MFCCE
13dim
Baseline
69.5
Proposed 1
79.7
Proposed 2
Proposed 3
Street noise Baseline
Proposed 1
78.0
74.4
74.9
84.1
Proposed 2
Proposed 3
82.5
80.6
数値は10話者の平均の認識率(%)
www.***.com
Recognition rate[%]
結果(5/8)(MFにバイラテラルあり、なしの比較)
100
90
80
70
60
50
40
30
20
10
0
FFS
FKM FMS
FTK
FYN
Proposed 1
MAU MMY MNM MTT MXM
MFCC12+E
Noise:
restaurant noise
baseline: MFCC+energy(13dim)
proposed: bilateral filtered MFCC+energy(13dim)
www.***.com
結果(6/8)(MFにバイラテラルあり、MFCCE26dim)
Recognition rate[%]
100
90
80
70
60
50
40
30
20
10
0
FFS
FKM
FMS
FTK
FYN
Proposed 4
MAU
MMY MNM
MTT
MXM
MFCCE+Δ
Noise:
restaurant noise
baseline: MFCC+MFCC⊿+energy(26dim)
proposed: bilateral filtered MFCC+MFCC⊿+energy(26dim)
www.***.com
Recognition rate[%]
結果(7/8)(MFにバイラテラルあり、MFCCE39dim)
100
90
80
70
60
50
40
30
20
10
0
FFS
FKM
FMS
FTK
Proposed 5
FYN
MAU
MMY
MNM
MTT
MXM
MFCCE+Δ+ΔΔ
Noise:
restaurant noise
baseline: MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim)
proposed: bilateral filtered MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim)
www.***.com
結果(8/8)(特徴量別、他手法との比較)
method
Restaurant
noise
features MFCCE
13dim
Baseline
Proposed 1
SS
Gaussian
Street noise Baseline
Proposed 1
SS
Gaussian
69.5
79.7
MFCCE MFCCE+
+⊿
⊿+⊿⊿
26dim
39dim
64.6
54.5
80.6
78.6
73.8
76.4
74.9
71.6
79.8
80.1
68.6
78.3
79.5
84.1
81.1
80.8
86.9
81.2
83.7
84.3
81.1
83.1
数値は10話者の平均の認識率(%)
www.***.com
考察・今後の課題
Bilateral filterはノイズを平滑化し影響を
低減する為に効果があると考えられる
MFCC以外に相性のよい特徴量はないか
SS等の雑音推定手法との違い
Gaussianとの差異・・・フィルタのパラメータ調整
SSやその他手法との組み合わせ
音声に特化したフィルタの特徴付け
www.***.com
ご静聴ありがとうございました
Frequency
Frequenc
y
提案手法1
Proposed method
STDFT
音声波形
Mel Filter Bank
DFT係数
対数化
Mel Frequency
Cepstrum Coefficient
メル軸上での
三角窓の出力
Bilateral
Filter
離散コサイン変換
対数パワー
Bilateral filtered
MFCC
+ Bilateral filter
•
MFCC抽出過程の64次元メルフィルタバンク出力に対し
Bilateral filterを用いた平滑化を行う
これをProposedとする
www.***.com
Mel Filter Bank
STDFT
音声波形
DFT係数
対数化
Bilateral
Filter
•
Frequency
Frequenc
y
提案手法2
メル軸上での
三角窓の出力
Bilateral
Filter
離散コサイン変換
対数パワー
Bilateral filtered
MFCC
MFCC抽出過程の64次元メルフィルタバンク出力に対し
Bilateral filterを用いた平滑化を2回行う
この手法をProposed2とする
www.***.com
Mel Filter Bank
STDFT
音声波形
対数化
DFT係数
メル軸上での
三角窓の出力
離散コサイン変換
対数パワー
•
Frequency
Frequenc
y
提案手法3
MFCC
Bilateral
Filter
Bilateral filtered
MFCC
MFCCに対し
Bilateral filterを用いた平滑化を行う
これをProposed3とする
www.***.com
結果4
method
restaurant
noise
street noise
features MFCC
13dim
Proposed
78.6%
Baseline
54.5%
Proposed2
Proposed3
Proposed
Baseline
78.0%
74.4%
84.3%
79.5%
Proposed2
Proposed3
82.5%
80.6%
数値は10話者の平均の認識率
www.***.com
Recognition rate[%]
結果1(MFにバイラテラルあり、なしの比較)
100
90
80
70
60
50
40
30
20
10
0
FFS
FKM FMS
FTK
FYN
proposed 1
MAU MMY MNM MTT MXM
MFCC12+E
Noise:
restaurant noise
baseline: MFCC+energy(13dim)
proposed: bilateral filtered MFCC+energy(13dim)
www.***.com
Recognition rate[%]
100
90
80
70
60
50
40
30
20
10
0
FFS
FKM
FMS
FTK
FYN
proposed 4
MAU
MMY MNM
MTT
MXM
MFCC+Δ+E
Noise:
restaurant noise
baseline: MFCC+MFCC⊿+energy(26dim)
proposed: bilateral filtered MFCC+MFCC⊿+energy(26dim)
www.***.com
Recognition rate[%]
100
90
80
70
60
50
40
30
20
10
0
FFS
FKM
FMS
FTK
proposed 5
FYN
MAU
MMY MNM
MTT
MXM
MFCC+Δ+ΔΔ+E
Noise:
restaurant noise
baseline: MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim)
proposed: bilateral filtered MFCC+MFCC⊿+MFCC⊿⊿+energy(39dim)
www.***.com
実験結果(4/4)
features MFCC
method
restaurant
noise
street noise
proposed
Baseline
Proposed
Baseline
79.7%
69.5%
84.1%
74.9%
MFCC MFCC+⊿
+⊿
+⊿⊿
80.6%
64.6%
86.9%
80.1%
78.6%
54.5%
84.3%
79.5%
数値は10話者の平均の認識率
www.***.com
100
Recognition rate[%]
90
80
70
60
50
40
30
20
10
0
FFS
FKM FMS
FTK
FYN
proposed 1
MAU MMY MNM MTT MXM
MFCCE
www.***.com
Recognition rate[%]
100
90
80
70
60
50
40
30
20
10
0
FFS
FKM
FMS
FTK
FYN
Proposed 1
MAU
MMY MNM
Proposed 2
MTT
MXM
www.***.com
100
Recognition rate[%]
90
80
70
60
50
40
30
20
10
0
FFS
FKM
FMS
FTK
FYN
Proposed 1
MAU
MMY
MNM
Proposed 3
MTT
MXM
www.***.com
Recognition rate[%]
100
90
80
70
60
50
40
30
20
10
0
FFS
FKM
FMS
FTK
FYN
proposed 4
MAU
MMY MNM
MFCCE+Δ
MTT
MXM
www.***.com
Recognition rate[%]
100
90
80
70
60
50
40
30
20
10
0
FFS
FKM
FMS
FTK
proposed 5
FYN
MAU
MMY MNM
MFCCE+Δ+ΔΔ
MTT
MXM
www.***.com
Mel Filter Bank
STDFT
音声波形
DFT係数
メル軸上での
三角窓の出力
Proposed method
Bilateral
Filter
対数化
離散コサイン変換
対数パワー
Bilateral filtered
MFCC
www.***.com
Recognition rate [%]
100
90
80
70
60
50
40
30
20
10
0
proposed
baseline
FFS FKM FMS FTK FYN MAU MMY MNM MTT MXM
www.***.com
www.***.com
Recognition rate [%]
100
90
80
70
60
50
40
30
20
10
0
proposed
baseline
FFS FKM FMS FTK FYN MAU MMY MNM MTT MXM
www.***.com
100
90
80
70
60
50
40
30
20
10
0
proposed
baseline
FFS FKM FMS FTK FYN MAU MMY MNM MTT MXM
www.***.com
結果(バイラテラルフィルタ2回、13dim)
Recognition rate[%]
100
90
80
70
60
50
40
30
20
10
0
1time
2times
FFS
FKM FMS
FTK
FYN
MAU MMY MNM MTT MXM
Noise:
restaurant noise
baseline: MFCC+energy(13dim)
proposed: bilateral filtered MFCC+energy(13dim)
www.***.com