突発性雑音環境下での音声認識における 欠損領域予測・補間手法の検討 白井研究室 学部4年 篠井 暖 研究背景と目的 現在の音声認識システムは実環境での認識精度に 問題(非定常雑音への対応が不十分) 実環境の様々な雑音に対応した音声認識技術の必要性 人間の聴覚は非定常雑音に対しても頑健 (非欠損領域より欠損領域を予測) 欠損領域の予測・補間により音声認識精度の向上を図る 対象とするケース:時間突発的な雑音により音声の ある時間領域で周波数情報が全て欠損 欠損領域の前後の信号から予測を行う必要性 欠損領域補間手法 狭帯域信号における線形予測法 1. 2. 3. 音声信号を帯域分割し狭帯域信号を作成 狭帯域信号の包絡線と搬送波それぞれについて 線形予測を行い欠損領域を補間 補間後の狭帯域信号を用いて音声を復元 狭帯域信号(補間後) 狭帯域信号 線形予測 時間信号 狭帯域信号(補間後) 狭帯域信号 線形予測 … 狭帯域信号(補間後) 狭帯域信号 線形予測 時間信号 (補間後) 評価実験 提案手法の有効性を主観評価(試聴実験)と客観 評価(音声認識実験)の両面から評価 試聴実験を行う理由 音声認識率向上と同時に、人間も聴き取りやすく なっているか調べる 音声認識器による認識率と人間の聴覚による 認識率を比較 評価実験結果 客観評価実験結果 70 60 Clean 音素認識率(%) 50 40 包絡線×搬送 波(予測) 30 欠損領域その まま 20 10 10 20 40 欠損区間長(ms) 80 160 160msで約10%の認識率向上
© Copyright 2024 ExpyDoc