Document

変分ベイズ法に基づく音声認識のための
ハイパーパラメータの共有構造
◎橋本 佳,全 炳河,南角吉彦,
李 晃伸,徳田恵一 (名工大)
はじめに

音響モデルの学習基準




尤度最大化基準
MPE基準,MMI基準
ベイズ基準
⇒ 変分ベイズ法に基づく音声認識 [渡部ら; ’04]
ベイズ基準における事前分布



事後分布の推定,モデル構造選択に影響
⇒ 適切な事前分布を設定することが重要
学習データを用いた事前分布の自動推定
事前分布の共有構造を考慮
2
本発表の構成



変分ベイズ法に基づく音声認識
 ベイズ基準
 変分ベイズ法
 ベイズ基準によるモデル構造選択
共有構造を考慮したハイパーパラメータ推定
 ハイパーパラメータの設定
 ハイパーパラメータ共有構造
 ハイパーパラメータ推定法
連続音素認識実験
 ハイパーパラメータ推定法の比較
 ハイパーパラメータ共有構造の比較
3
ベイズ基準
モデルパラメータ を確率分布で表現
事前分布 :
事後分布 :
学習データ
予測分布 :
認識データ
全てのモデルパラメータの値を考慮 ⇒ 高い汎化性能
4
変分ベイズ法 [Attias; ’99](1/2)
近似事後分布
を推定
⇒ 対数周辺尤度の下限
を最大化
Jensenの不等式
:学習データ
:モデルパラメータ
:状態系列
:任意関数
5
変分ベイズ法 [Attias; ’99](2/2)

事後分布の独立性を仮定

変分法によって

変分ベイズ法のモデル学習
と
を最大化する事後分布を導出
を交互に更新 ⇒
を最大化
6
ベイズ基準のモデル構造選択 [渡部ら; ’04]
を最大化する決定木構造を選択
: 先行音素は母音?
yes
no
質問の選択 :
の増加量 :
⇒ 増加量が最大となる分割
分割停止条件 :
ベイズ基準における適切な事後分布の共有構造を選択
7
変分ベイズ法における事前分布

共役事前分布を設定
⇒ 事前分布と事後分布が同じ分布族
尤度関数
共役事前分布
:ハイパーパラメータ

ハイパーパラメータの拘束条件
⇒
: ベクトル次元数
8
本発表の構成



変分ベイズ法に基づく音声認識
 ベイズ基準
 変分ベイズ法
 ベイズ基準のモデル構造選択
共有構造を考慮したハイパーパラメータ推定
 ハイパーパラメータの設定
 ハイパーパラメータ共有構造
 ハイパーパラメータ推定法
連続音素認識実験
 ハイパーパラメータ推定法の比較
 ハイパーパラメータ共有構造の比較
9
ハイパーパラメータの設定

ハイパーパラメータ推定
学習対象の事前情報を使用
⇒ 事前情報が無い状況を仮定
⇒ 学習データを用いた自動推定
を最大化するハイパーパラメータ推定

ハイパーパラメータ共有構造
ハイパーパラメータ推定にはモデル構造が必要
 各音素のHMMの状態ごとに共有
⇒ 最適な共有構造とはかぎらない

ハイパーパラメータ共有構造を考慮
10
ハイパーパラメータ共有構造
任意のハイパーパラメータ共有構造を表現
全モデルを1つの決定木で表現
中心音素
HMMの状態
…
/a/
s2
…
s4
/N/
…
コンテキスト
ハイパーパラメータの共有構造
ハイパーパラメータを共有する部分木
11
ハイパーパラメータ推定
を最大化するハイパーパラメータ推定

部分木の根ノードの統計量を使用
根ノードの
を最大化
木構造を考慮していない推定法

部分木の葉ノードの統計量を使用
部分木全体の
を最大化
木構造を考慮した推定法
12
本発表の構成



変分ベイズ法に基づく音声認識
 ベイズ基準
 変分ベイズ法
 ベイズ基準によるモデル構造選択
共有構造を考慮したハイパーパラメータ推定
 ハイパーパラメータの設定
 ハイパーパラメータ共有構造
 ハイパーパラメータ推定法
連続音素認識実験
 ハイパーパラメータ推定法の比較
 ハイパーパラメータ共有構造の比較
13
実験条件
データベース
JNAS / ASJ
学習データ
20,000 / 2,500 / 200 文
テストデータ
100 文
サンプリング周波数
16 kHz
窓関数
Hamming 窓
フレームサイズ / シフト
25 ms / 10 ms
特徴量
12次元 MFCC + ΔMFCC
+ ΔEnergy (25次元)
HMM
3状態 1混合
14
ハイパーパラメータの比較条件

ハイパーパラメータ推定法



手法A : 部分木の根ノードの統計量を使用
手法B : 部分木の葉ノードの統計量を使用
ハイパーパラメータ共有構造
all
phone
state
/a/ s2
leaf
…
/a/
…
/N/
/a/ s4
*leafでは手法A, Bが
同じ値を推定
15
ハイパーパラメータ推定法の比較(1/2)
各推定法による の値
Hyper-Parameter T
16
ハイパーパラメータ推定法の比較(1/2)
各推定法による の値
Hyper-Parameter T
17
ハイパーパラメータ推定法の比較(1/2)
各推定法による の値
Hyper-Parameter T
18
ハイパーパラメータ推定法の比較(1/2)
各推定法による の値
手法Bがより大きな の値
Hyper-Parameter T
19
ハイパーパラメータ推定法の比較(2/2)
各推定法による認識率
Hyper-Parameter T
20
ハイパーパラメータ推定法の比較(2/2)
各推定法による認識率
Hyper-Parameter T
21
ハイパーパラメータ推定法の比較(2/2)
各推定法による認識率
Hyper-Parameter T
22
ハイパーパラメータ推定法の比較(2/2)
各推定法による認識率
• 手法Bがより大きい
• 手法Bがより高い認識率
手法Bがより高い認識率
⇒ 手法Bがより適切なハイパーパラメータを推定
Hyper-Parameter T
23
ハイパーパラメータ共有構造の比較(1/3)
学習データ量20,000文
共有構造leafが最も高い認識率
24
ハイパーパラメータ共有構造の比較(2/3)
学習データ量2,500文
共有構造phone, stateが最も高い認識率
25
ハイパーパラメータ共有構造の比較(3/3)
学習データ量200文
学習データ量によって適切な共有構造が異なる
• 多量の学習データ
⇒ 大きな共有構造(leaf)
• 少量の学習データ
共有構造allが最も高い認識率
⇒ 小さな共有構造(all)
26
むすび

ハイパーパラメータの共有構造の検討



ハイパーパラメータの推定法の比較
⇒ モデル構造を考慮した推定法の有効性
ハイパーパラメータの共有構造の比較
⇒ 学習データ量によって適切な共有構造が異なる
今後の課題


学習データ量に応じた事前分布の共有構造決定法
ハイパーパラメータ推定法の更なる改善
27