非定常雑音環境に頑健な音声認識手法の検討

突発性雑音環境下での音声認識における
欠損領域予測・補間手法の検討
白井研究室 学部4年
篠井 暖
研究背景と目的

現在の音声認識システムは実環境での認識精度に
問題(非定常雑音への対応が不十分)
実環境の様々な雑音に対応した音声認識技術の必要性

人間の聴覚は非定常雑音に対しても頑健
(非欠損領域より欠損領域を予測)
欠損領域の予測・補間により音声認識精度の向上を図る

対象とするケース:時間突発的な雑音により音声の
ある時間領域で周波数情報が全て欠損
欠損領域の前後の信号から予測を行う必要性
欠損領域補間手法

狭帯域信号における線形予測法
1.
2.
3.
音声信号を帯域分割し狭帯域信号を作成
狭帯域信号の包絡線と搬送波それぞれについて
Burg法を用いた線形予測を行い欠損領域を補間
包絡線は振幅予測、搬送波は位相予測により補間する
補間後の狭帯域信号を用いて音声を復元
狭帯域信号(補間後)
狭帯域信号
線形予測
時間信号
狭帯域信号(補間後)
狭帯域信号
線形予測
…
狭帯域信号(補間後)
狭帯域信号
線形予測
時間信号
(補間後)
評価実験

提案手法の有効性を主観評価(試聴実験)と客観
評価(音声認識実験)の両面から評価

試聴実験を行う理由
 音声認識率向上と同時に、人間も聴き取りやすく
なっているか調べる
 音声認識器による認識率と人間の聴覚による
認識率を比較

無意味連続三音節音声の第二音節に欠損区間作成
第二音節の音素認識率で評価
評価実験結果
客観評価実験結果
90
80
音素認識率(%)

70
Clean
60
包絡線×搬送
波(予測)
欠損領域その
まま
雑音
50
40
30
20
10
10
20
40
欠損区間長(ms)
80
160
160msで約10%の認識率向上
評価実験結果
主観評価実験結果
80msで約5%の認識率向上
90
80
Clean
70
音素認識率(%)

60
包絡線*搬送
波(予測)
欠損領域そ
のまま
雑音
50
40
30
20
10
10
20
40
欠損区間長(ms)
80
160
まとめ
狭帯域信号の包絡線と搬送波について線形予測
を用いて欠損領域補間を行う手法を提案
 評価実験より・・・提案した補間手法は有効



欠損区間長160msで約10%の認識率改善
今後の展望


包絡線、搬送波の予測手法を改善
他手法との効果を比較(Spectral Trackingを用いた欠
損領域補間等)