ベイズアプローチ的HMM 音声認識の事前分布の検討

ベイズ的アプローチに基づく
音声認識における事前分布の検討
徳田・李研究室
橋本 佳
背景

HMM音声認識におけるモデル学習



最尤学習
学習データの不足
汎化性能低下
ベイズ学習
信頼度を考慮
高い汎化性能
ベイズ学習における事前分布


適切な事前分布
モデル推定精度の向上
事前分布の最適設定法はない
ベイズ学習における適切な事前分布の検討
最尤学習
モデルパラメータを一意に決定
P(O | )  N (o | , S )
1
学習データの不足による誤推定
S 1

十分な学習データ
適切なモデル
少ない学習データ
過学習により
汎化性能が低下
ベイズ学習1

積分計算が困難
近似手法による導出

変分ベイズ法
モデルパラメータを分布として推定
事前の知識
事前分布
学習データ
事後分布
観測データ
事後予測分布
認識
ベイズ学習2
事前分布
P(, S )  N ( | ,( S )1 )W (S | , B)
ハイパーパラメータ




 の分布
S の分布
B
S
事後分布 Q(, S )  N ( | ,( S )1 )W (S |  , B)
事後予測分布
P ( x | O)   P( x | ) P(  | O) d  パラメータの信頼性を考慮
汎化性能向上
ベイズ基準クラスタリング
先行音素が母音?
yes
no
先行音素が
破裂音?
yes
後続音素が
子音?
no
yes
MDL基準
学習データ不足
推定精度低下
no
ベイズ基準
学習データに適応
状態を共有
適切な事前分布

学習データから事前分布を推定
T
1
1
N
(
o
|

,
S
)

N
(

|

,
(
TS
)
)W ( S | T  1, )
 t
t 1
事前分布条件

自由エネルギーを比較
 T
  T 1
小さい
自由エネルギー
大きい
低い
表現能力
高い
最大になる事前分布を推定
実験条件
学習データ
ATR B-Set 男性話者6人×450文章
テストデータ
ATR B-Set 男性話者6人×53文章
サンプリング周波数 16kHz
25ms
フレーム長
フレーム周期
5ms
分析窓
Blackman窓
特徴量
HMM
25次メルケプストラム, Δ ,

2
3状態, left-to-right, スキップなし
実験結果
自由エネルギー
実験結果
決定木の大きさ
実験結果
認識率
むすび

ベイズ学習における事前分布の検討



事前分布の変化によって認識率が変動
適切な事前分布
認識率向上
自由エネルギーから適切な事前分布を推定
B の適切な値を推定
今後の課題



適切な事前分布の推定
音素ごとに適切な事前分布を推定
認識時の動的モデル選択