Document

ベイズ基準による音声認識のための
事前分布推定法の検討
情報工学専攻
徳田・李研究室
橋本 佳
背景

音声認識技術の普及
カーナビゲーションシステム
 携帯電話
⇒ さらなる認識性能の改善が必要


隠れマルコフモデルによる音声のモデル化
性能改善のためにはモデルの高精度化が必要
 モデルの詳細化による認識性能の向上
⇒ モデル数増加による学習データ不足の問題
⇒ 少量の学習データから高精度なモデル推定

2
目的

尤度最大化基準


ベイズ基準



少量の学習データで過学習
高い汎化性能
事前分布をモデル学習に利用
⇒ 事後分布推定・モデル構造選択に影響
⇒ 学習データから事前分布を推定
適切な事前分布推定法の検討
共有構造を考慮した事前分布推定
 クロスバリデーションに基づく事前分布設定

3
尤度最大化基準(ML基準)
尤度が最大となるモデルパラメータ
を推定
学習データ :
認識データ :
予測分布 :
学習データ量
多量
少量
データ
推定される
モデル
学習データ量が少量の場合に過学習の問題
4
ベイズ基準
モデルパラメータ を確率分布で表現
尤度関数
事前分布 :
事後分布 :
学習データ
予測分布 :
認識データ
全てのモデルパラメータを考慮 ⇒ 高い汎化性能
5
変分ベイズ法 [Attias; 99] (1/2)

隠れ変数
を含むモデルの事後分布
⇒ 直接的な計算は困難
⇒ 事後分布推定には近似手法が必要

変分ベイズ法では近似事後分布を推定
:独立性を仮定
⇒ 近似事後分布
6
変分ベイズ法 [Attias; 99] (2/2)

対数周辺尤度の下限

変分法によって
を定義
を最大化する事後分布を導出
7
事前分布の設定

共役事前分布を設定


事前分布と事後分布が同じ分布族
解析的な事後分布推定が可能
尤度関数

共役事前分布
事前情報による事前分布の設定
:事前情報のデータ量
:事前情報の平均
: ベクトル次元数
:事前情報の分散
8
コンテキスト依存モデル
音素の特徴は周囲の音素から変化
⇒ 音素文脈(コンテキスト)を考慮してモデル化
a
t-a-i
s-a-i
k-a-o
…
○ 詳細な特徴を表現可能
× モデル数の増加 ⇒ データ量不足の問題
× 未知コンテキストのモデル化が不可能
決定木構造に基づくコンテキストクラスタリング
9
コンテキストクラスタリング
モデル構造を決定木によって表現



コンテキストに関する質問による分割
類似モデルのパラメータを共有
未知コンテキストに対応
先行音素は母音?
yes
no
決定木
表現能力
データ量
小
大
低
高
多
少
適切なモデル構造を選択することが重要
10
ベイズ基準のコンテキストクラスタリング
を最大化する決定木構造を選択
: 先行音素は母音?
yes
no
質問の選択 :
の増加量 :
⇒ 増加量が最大となる分割
分割停止条件 :
ベイズ基準における適切なモデル構造を選択
11
Cross Validationに基づくモデル評価

モデル推定・評価に同一のデータを使用
⇒ 学習データに特化したモデル構造を選択

Cross Validationを用いたML基準
学習データをK個に分割
モデルパラメータ
推定
2,3
1,3
1,2
モデル評価 : 尤度の計算
12
Cross Validationを用いたベイズ基準
Cross Validationを事前分布設定に利用
学習データをK個に分割
事前分布
事後分布
モデル評価 :
設定
2,3
1,3
1,2
推定
の計算
13
CVを用いたベイズ基準モデル構造選択
を最大化する決定木構造を選択
: 先行音素は母音?
yes
no
• 各ノードで
を計算
• 分割前後での増加量
が最大となる分割を行う
分割停止条件 :
汎化性能の高いモデル構造を選択
14
実験条件
データベース
JNAS
学習データ
20,000文
テストデータ
100 文
サンプリング周波数
16 kHz
窓関数
Hamming 窓
フレームサイズ / シフト
25 ms / 10 ms
特徴量
12次元 MFCC + ΔMFCC
+ ΔEnergy (25次元)
15
実験内容

モデル構造と認識率に対する従来法との比較
学習基準
モデル構造選択基準
MDL
ML基準
MDL基準
CV-ML
ML基準
CVを用いたML基準
CV-Bayes
ベイズ基準
CVを用いたベイズ基準
CVにおける学習データの分割数 ⇒ 10

テストデータに対する
による汎化性能の評価
16
従来法との比較
モデル構造と音素認識率
提案法は認識率が最大となるモデル構造に近づく
⇒ MDLから8.48%の誤り改善率
8.48%
17
汎化性能の評価
テストデータに対する
テストデータに対する が最大となるモデル構造を選択
⇒ 汎化性能の高いモデル構造を選択
18
むすび

ベイズ基準における事前分布推定法の検討



共有構造を考慮した事前分布推定
クロスバリデーションに基づく事前分布設定
 従来法と比較して8.48%の誤り改善率
 汎化性能の高いモデル構造を選択
⇒ 認識率が最高となるモデル構造とは異なる
今後の課題


識別的な基準を導入
階層的な事前分布構造の検討
19