音声認識の性能調査

設計レビュー
GROUP 2
音声認識の性能調査
前の実験では、音声認識ソフトの認識が低い
ことがわかったので、この実験では音声認識ソ
フトを用いてフィルタの効果を調べた。フィルタ
として、“音量調節”、“ノイズ除去”、“速度調
整”の3つを採用した。
+
USBマイク
パソコン
実験結果
“ノイズ除去”、“速度調整”を行った場合、
認識率の低下が認められた。
原因
• フィルタにより音響特徴が変化し、音響も出る
と不一致を起こすことが考えられる
• 使用した音声認識ソフトの音響モデルが“比
較的静かな環境で、成人話者が発音すること
を前提としている”ことがあり、電話口での応
対に耐えられないと考えられる。
対策
実験結果と考えられる原因より、新たな音響
モデルを作成することにより、電話口および一
般会話の音声認識が行えると考えられる。
このモデルの作成に使用する音声はフィルタ
をかけ、電話が扱う300~3400Hzに周波数
対を調整し、音量調節を行う。
音量調節フィルタのアルゴリズム
振幅を単純に増倍することにより実現する。
1.最大振幅値の目的地を設定する
2.WAVファイル中の最大振幅値を取り出す
3.フィルタ係数を設定する
4.WAVファイルから順次振幅値を取り出し、
フィルタ係数を掛け、情報を加工する
ノイズ除去フィルタのアルゴリズム
フーリエ変換により時系列情報を周波数系列
情報に変換し任意周波数を除去することにより
実現する。
1.WAVファイルの時系列情報をフーリエ変換
し周波数系列情報にする
2.周波数情報から300Hz以下、3400Hz以
上の情報を除去する
3.逆フーリエ変換により周波数系列情報を時
系列情報にする
今後の予定
• 新しい音響モデルの作成
→モデルの作成には膨大な学習データが必要
なため、その収集が難点である。
• フィルタを作成する
→”音量調節”、”ノイズ除去”、”速度調整”