Document

クロスバリデーションを用いた
ベイズ基準によるHMM音声合成
◎橋本 佳,全 炳河,南角吉彦,徳田恵一
(名工大)
はじめに

変分ベイズ法に基づくHMM音声合成(南角ら; ’03)



事前分布をモデル学習に利用
⇒ 事後分布推定・モデル構造選択に影響
従来の事前分布の設定
⇒ 事前分布パラメータを調整パラメータとして使用
Cross Validationに基づく事前分布(橋本ら; ’08)


調整パラメータを用いない事前分布設定
汎化性能の高いモデル構造を選択
HMM音声合成に適用
2
ベイズ基準による音声合成(1/2)
モデル学習基準・音声合成基準
ML基準
ベイズ基準
: 合成音声パラメータ系列(静的特徴量)
: 静的特徴量に動的特徴量を付加する行列
: モデルパラメータ
: 合成文のラベル列
: 学習データ
: 学習文のラベル列
3
ベイズ基準による音声合成(2/2)
ベイズ基準における予測分布(周辺尤度関数)
:
:
:
:
:
合成データの状態遷移を表す隠れ変数
学習データの状態遷移を表す隠れ変数
合成データの尤度関数
学習データの尤度関数
モデルパラメータの事前分布
困難な期待値計算
⇒ 変分ベイズ法による近似(Attias; ’99)
4
変分ベイズ法(1/2)

対数周辺尤度の下限
⇒
を定義
の最大化による対数周辺尤度の近似
(Jensenの不等式)
:

に関する期待値
: 近似事後分布
近似事後分布の独立性を仮定
を最大化する近似事後分布を推定
5
変分ベイズ法(2/2)

変分法による
を最大化する事後分布の導出

近似事後分布が合成データに依存
は合成データに依存しないと仮定
⇒
を推定
⇒ 学習データから
6
ベイズ基準によるモデル構造選択
を最大化するモデル構造を選択
: 先行音素は母音?
yes
no
質問の選択 :
の増加量 :
⇒ 増加量が最大となる分割
分割停止条件 :
ベイズ基準における適切なモデル構造を選択
7
事前分布

事前分布は下限
に影響
⇒ 適切な事前分布設定法が必要

共役事前分布
尤度関数
共役事前分布

事前情報による事前分布の設定
:事前情報のデータ量
: ベクトル次元数
:事前情報の平均
:事前情報の分散
8
Cross Validationを用いたベイズ基準
Cross Validationに基づく事前分布設定
学習データをK個に分割
事前分布
事後分布
モデル評価 :
設定
2,3
1,3
1,2
推定
の計算
9
CVを用いたベイズ基準モデル構造選択
を最大化する決定木構造を選択
: 先行音素は母音?
yes
no
• 各ノードで
を計算
• 分割前後での増加量
が最大となる分割を行う
分割停止条件 :
汎化性能の高いモデル構造を選択
10
実験条件(1/2)
データベース
ATR日本語音声データベース b-set
話者
MHT
学習データ
450 文
テストデータ
53 文
サンプリング周波数
16 kHz
窓関数
Blackman 窓
フレームサイズ / シフト
25 ms / 5 ms
特徴量
24次 メルケプストラム + Δ + ΔΔ
対数基本周波数 + Δ + ΔΔ
(78次元)
11
実験条件(2/2)

比較手法
モデル名
学習基準
モデル構造選択基準
状態数
MDL
ML基準
MDL基準
2,491
CVB
ベイズ基準
CVを用いたベイズ基準
25,911
CVB-MDL ベイズ基準 状態数をMDLにそろえたCVB
2,553
状態数をCVBにそろえたMDL
26,106
ML-CVB

ML基準
主観評価実験


被験者10人
被験者ごとにランダムに20文選択
12
主観評価実験
5-point MOS
13
むすび

CVを用いたベイズ基準によるHMM音声合成

クロスバリデーションに基づく事前分布設定
汎化性能の高いモデル構造を選択

合成音声の品質改善


今後の課題


少量学習データによる音声合成
状態数と音質に関する調査
14