非定常雑音環境に頑健な音声認識手法の検討

突発性雑音環境下での音声認識における
欠損領域予測・補間手法の検討
白井研究室 学部4年
篠井 暖
研究背景と目的

現在の音声認識システムは実環境での認識精度に
問題(非定常雑音への対応が不十分)
実環境の様々な雑音に対応した音声認識技術の必要性

人間の聴覚は非定常雑音に対しても頑健
(非欠損領域より欠損領域を予測)
欠損領域の予測・補間により音声認識精度の向上を図る

対象とするケース:時間突発的な雑音により音声の
ある時間領域で周波数情報が全て欠損
欠損領域の前後の信号から予測を行う必要性
欠損領域補間手法

狭帯域信号における線形予測法
1.
2.
3.
音声信号を帯域分割し狭帯域信号を作成
狭帯域信号の包絡線と搬送波それぞれについて
線形予測を行い欠損領域を補間
補間後の狭帯域信号を用いて音声を復元
狭帯域信号(補間後)
狭帯域信号
線形予測
時間信号
狭帯域信号(補間後)
狭帯域信号
線形予測
…
狭帯域信号(補間後)
狭帯域信号
線形予測
時間信号
(補間後)
評価実験

提案手法の有効性を主観評価(試聴実験)と客観
評価(音声認識実験)の両面から評価
 試聴実験を行う理由
音声認識率向上と同時に、人間も聴き取りやすく
なっているか調べる
 音声認識器による認識率と人間の聴覚による
認識率を比較

評価実験結果
客観評価実験結果
70
60
Clean
音素認識率(%)

50
40
包絡線×搬送
波(予測)
30
欠損領域その
まま
20
10
10
20
40
欠損区間長(ms)
80
160
160msで約10%の認識率向上