ベイズ的アプローチに基づく 音声認識における事前分布の検討 徳田・李研究室 橋本 佳 背景 HMM音声認識におけるモデル学習 最尤学習 学習データの不足 汎化性能低下 ベイズ学習 信頼度を考慮 高い汎化性能 ベイズ学習における事前分布 適切な事前分布 モデル推定精度の向上 事前分布の最適設定法はない ベイズ学習における適切な事前分布の検討 最尤学習 モデルパラメータを一意に決定 P(O | ) N (o | , S ) 1 学習データの不足による誤推定 S 1 十分な学習データ 適切なモデル 少ない学習データ 過学習により 汎化性能が低下 ベイズ学習1 積分計算が困難 近似手法による導出 変分ベイズ法 モデルパラメータを分布として推定 事前の知識 事前分布 学習データ 事後分布 観測データ 事後予測分布 認識 ベイズ学習2 事前分布 P(, S ) N ( | ,( S )1 )W (S | , B) ハイパーパラメータ の分布 S の分布 B S 事後分布 Q(, S ) N ( | ,( S )1 )W (S | , B) 事後予測分布 P ( x | O) P( x | ) P( | O) d パラメータの信頼性を考慮 汎化性能向上 ベイズ基準クラスタリング 先行音素が母音? yes no 先行音素が 破裂音? yes 後続音素が 子音? no yes MDL基準 学習データ不足 推定精度低下 no ベイズ基準 学習データに適応 状態を共有 適切な事前分布 学習データから事前分布を推定 T 1 1 N ( o | , S ) N ( | , ( TS ) )W ( S | T 1, ) t t 1 事前分布条件 自由エネルギーを比較 T T 1 小さい 自由エネルギー 大きい 低い 表現能力 高い 最大になる事前分布を推定 実験条件 学習データ ATR B-Set 男性話者6人×450文章 テストデータ ATR B-Set 男性話者6人×53文章 サンプリング周波数 16kHz 25ms フレーム長 フレーム周期 5ms 分析窓 Blackman窓 特徴量 HMM 25次メルケプストラム, Δ , 2 3状態, left-to-right, スキップなし 実験結果 自由エネルギー 実験結果 決定木の大きさ 実験結果 認識率 むすび ベイズ学習における事前分布の検討 事前分布の変化によって認識率が変動 適切な事前分布 認識率向上 自由エネルギーから適切な事前分布を推定 B の適切な値を推定 今後の課題 適切な事前分布の推定 音素ごとに適切な事前分布を推定 認識時の動的モデル選択
© Copyright 2024 ExpyDoc