突発性雑音環境下での音声認識における 欠損領域予測・補間手法の検討 白井研究室 学部4年 篠井 暖 研究背景と目的 現在の音声認識システムは実環境での認識精度に 問題(非定常雑音への対応が不十分) 実環境の様々な雑音に対応した音声認識技術の必要性 人間の聴覚は非定常雑音に対しても頑健 (非欠損領域より欠損領域を予測) 欠損領域の予測・補間により音声認識精度の向上を図る 対象とするケース:時間突発的な雑音により音声の ある時間領域で周波数情報が全て欠損 欠損領域の前後の信号から予測を行う必要性 欠損領域補間手法 狭帯域信号における線形予測法 1. 2. 3. 音声信号を帯域分割し狭帯域信号を作成 狭帯域信号の包絡線と搬送波それぞれについて Burg法を用いた線形予測を行い欠損領域を補間 包絡線は振幅予測、搬送波は位相予測により補間する 補間後の狭帯域信号を用いて音声を復元 狭帯域信号(補間後) 狭帯域信号 線形予測 時間信号 狭帯域信号(補間後) 狭帯域信号 線形予測 … 狭帯域信号(補間後) 狭帯域信号 線形予測 時間信号 (補間後) 評価実験 提案手法の有効性を主観評価(試聴実験)と客観 評価(音声認識実験)の両面から評価 試聴実験を行う理由 音声認識率向上と同時に、人間も聴き取りやすく なっているか調べる 音声認識器による認識率と人間の聴覚による 認識率を比較 無意味連続三音節音声の第二音節に欠損区間作成 第二音節の音素認識率で評価 評価実験結果 客観評価実験結果 90 80 音素認識率(%) 70 Clean 60 包絡線×搬送 波(予測) 欠損領域その まま 雑音 50 40 30 20 10 10 20 40 欠損区間長(ms) 80 160 160msで約10%の認識率向上 評価実験結果 主観評価実験結果 80msで約5%の認識率向上 90 80 Clean 70 音素認識率(%) 60 包絡線*搬送 波(予測) 欠損領域そ のまま 雑音 50 40 30 20 10 10 20 40 欠損区間長(ms) 80 160 まとめ 狭帯域信号の包絡線と搬送波について線形予測 を用いて欠損領域補間を行う手法を提案 評価実験より・・・提案した補間手法は有効 欠損区間長160msで約10%の認識率改善 今後の展望 包絡線、搬送波の予測手法を改善 他手法との効果を比較(Spectral Trackingを用いた欠 損領域補間等)
© Copyright 2024 ExpyDoc