Document

Bayesian Context Clustering
Using Cross Validation
for HMM-Based Speech Synthesis
HMM音声合成のための
クロスバリデーションを用いたベイズ基準
によるコンテキストクラスタリング
○橋本 佳,全 炳河,南角吉彦,徳田恵一
(名工大)
はじめに(1/2)

ML基準によるHMM音声合成



モデルパラメータを点推定
⇒ 学習データが不十分な場合に過学習
MDL基準によるモデル構造選択
⇒ 学習データ少量時に推定精度低下
ベイズ基準によるHMM音声合成(南角ら; ’03)



モデルパラメータの事後分布を推定
データ量を考慮したモデル構造選択
事前分布をモデル学習に利用可能
⇒ 事後分布推定・モデル構造選択に大きく影響
2
はじめに(2/2)

事前情報が無い状況での事前分布設定法



学習データを利用
事前分布パラメータを調整パラメータとして使用
⇒ 適切な調整パラメータの探索が必要
Cross Validationに基づく事前分布(橋本ら; ’08)



調整パラメータを用いない事前分布設定法
汎化性能の高いモデル構造を選択
音声認識において有効性を確認
HMM音声合成に適用
3
ベイズ基準による音声合成(1/2)
モデル学習基準・音声合成基準
ML基準
ベイズ基準
: 合成音声パラメータ系列
: 学習データ
: モデルパラメータ
: 合成文のラベル列
: 学習文のラベル列
4
ベイズ基準による音声合成(2/2)
ベイズ基準における予測分布(周辺尤度関数)
:
:
:
:
:
合成データの状態遷移を表す隠れ変数
学習データの状態遷移を表す隠れ変数
合成データの尤度関数
学習データの尤度関数
モデルパラメータの事前分布
変分ベイズ法による近似(Attias; ’99)
5
変分ベイズ法(1/2)

対数周辺尤度の下限
を定義
(Jensenの不等式)
:
に関する期待値
: 近似事後分布
下限の最大化による対数周辺尤度の近似
⇒ を最大化する近似事後分布を推定
6
変分ベイズ法(2/2)

近似事後分布の独立性を仮定

変分法による事後分布推定
: 正規化項
交互に更新することで
を最大化
7
実装における近似

事後分布



が合成データに依存
合成ラベル決定後に学習
膨大な計算量
合成データに依存しないと仮定
⇒ 学習データのみから
を推定
8
事前分布

共役事前分布


事前分布と事後分布が同じ分布族
数学的取扱いが容易
尤度関数
共役事前分布

事前情報による事前分布の設定
:事前情報のデータ量
: 特徴量の次元数
:事前情報の平均
:事前情報の分散
9
音声パラメータ生成(1/2)

音声パラメータ

静的特徴量と動的特徴量によって表現
⇒ 合成時は静的特徴量のみ推定

ベイズ基準による合成音声パラメータ生成

下限 は対数周辺尤度を近似
⇒ を最大化する音声パラメータを推定
10
音声パラメータ生成(2/2)

音声パラメータ生成
尤度関数
ML基準
⇒
ベイズ基準
⇒
ML基準と同じ形で推定可能
11
ベイズ基準によるモデル構造選択
を最大化するモデル構造を選択
: 先行音素は母音?
yes
no
質問の選択 :
の増加量 :
⇒ 増加量が最大となる分割
分割停止条件 :
ベイズ基準における適切なモデル構造を選択
12
モデル構造選択における事前分布

モデル構造選択は事前分布に大きく影響
⇒ 事前分布による過学習の緩和
⇒ 適切な事前分布が必要

事前情報がない状況での事前分布設定

学習データによる事前分布設定
⇒ 適切な調整パラメータの探索が必要
:事前情報のデータ量
: 特徴量の次元数
:事前情報の平均
:事前情報の分散
13
Cross Validationを用いたベイズ基準
Cross Validationに基づく下限
学習データをK個に分割
事前分布
事後分布
モデル評価 :
設定
2,3
1,3
1,2
推定
の計算
14
Cross Validationに基づく事前分布設定

Cross Validationに基づく周辺尤度関数
学習データに対してオープン ⇒ 過学習を緩和

Cross Validationに基づく事前分布
15
CVを用いたベイズ基準モデル構造選択
を最大化するモデル構造を選択
: 先行音素は母音?
yes
no
• 各ノードで
を計算
• 分割前後での増加量
が最大となる分割を行う
分割停止条件 :
汎化性能の高いモデル構造を選択
16
実験条件(1/2)
データベース
ATR日本語音声データベース b-set
話者
MHT
学習データ
450 文
テストデータ
53 文
サンプリング周波数
16 kHz
窓関数
Blackman 窓
フレームサイズ / シフト
25 ms / 5 ms
特徴量
24次 メルケプストラム + Δ + ΔΔ
対数基本周波数 + Δ + ΔΔ
(78次元)
17
実験条件(2/2)

比較手法
モデル名
学習基準
モデル構造選択基準
状態数
MDL
ML基準
MDL基準
2,491
CVB
ベイズ基準
CVを用いたベイズ基準
25,911
CVB-MDL ベイズ基準 状態数をMDLにそろえたCVB
2,553
状態数をCVBにそろえたMDL
27,106
ML-CVB

ML基準
主観評価実験


被験者10人
被験者ごとにランダムに20文選択
18
主観評価実験
5-point MOS
19
むすび

CVを用いたベイズ基準によるモデル構造選択

クロスバリデーションに基づく事前分布設定
汎化性能の高いモデル構造を選択

合成音声の品質改善


今後の課題


状態数と音質に関する調査
HSMMへの拡張
20