Document

ベイズ基準によるHSMM音声合成の評価
◎橋本佳,南角吉彦,徳田恵一 (名工大)
はじめに

HMMに基づく音声合成



ベイズ基準によるHMM音声合成(橋本ら; ’08)




ML基準によるモデル学習
MDL基準によるモデル構造選択
モデルパラメータの周辺化
データ量を考慮したモデル構造選択
学習・合成間におけるモデルの不一致
ベイズ基準によるHSMM音声合成(橋本ら; ’09)

学習・合成において同一のモデルを使用
ベイズ基準によるHSMM音声合成の詳細な評価
2
隠れマルコフモデル(HMM)
1
観測系列
:
状態系列
:
1
1
1
2
1
2
3
2
3
3
3
隠れセミマルコフモデル(HSMM)
継続長分布
1
観測系列
:
状態系列
:
1
1
1
2
1
2
3
2
3
状態継続長を考慮したモデル
3
4
尤度関数の比較

尤度関数
HMM
HSMM
: 観測系列
: 状態系列
: モデルパラメータ
HSMMでは状態遷移確率が継続長分布によって算出
5
ベイズ基準による音声合成(1/2)
モデル学習基準・音声合成基準
ML基準
ベイズ基準
: 合成音声パラメータ系列
: 学習データ
: モデルパラメータ
: 合成文のラベル列
: 学習文のラベル列
6
ベイズ基準による音声合成(2/2)
ベイズ基準における予測分布(周辺尤度関数)
:
:
:
:
:
合成データの状態遷移を表す隠れ変数
学習データの状態遷移を表す隠れ変数
合成データの尤度関数
学習データの尤度関数
モデルパラメータの事前分布
変分ベイズ法による近似(Attias; ’99)
7
変分ベイズ法(1/2)

対数周辺尤度の下限
を定義
(Jensenの不等式)
:
に関する期待値
: 近似事後分布
下限の最大化による対数周辺尤度の近似
⇒ を最大化する近似事後分布を推定
8
変分ベイズ法(2/2)

近似事後分布の独立性を仮定

変分法による事後分布推定
: 正規化項
交互に更新することで
を最大化
9
音声パラメータ生成

音声パラメータ
静的特徴量と動的特徴量によって表現
⇒ 合成部では静的特徴量のみ推定

ベイズ基準による合成音声パラメータ生成
下限 は対数周辺尤度を近似
⇒ を最大化する音声パラメータを推定
10
実験条件
データベース
ATR日本語音声データベース b-set
話者
MHT
学習データ
450 文
テストデータ
53 文
サンプリング周波数
16 kHz
窓関数
Blackman 窓
フレームサイズ / シフト
25 ms / 5 ms
特徴量
24次 メルケプストラム + Δ + ΔΔ
対数基本周波数 + Δ + ΔΔ
(78次元)
11
ML基準・HMMとの比較


ML基準とベイズ基準の比較
HMMとHSMMの比較
学習・合成基準 モデル構造選択 モデル
ML-HMM
HMM
ML基準
MDL基準
ML-HSMM
HSMM
Bayes-HMM
HMM
※
ベイズ基準
ベイズ基準
Bayes-HSMM
HSMM
※ クロスバリデーションを用いたベイズ基準によるモデル構造選択(橋本ら; ’08)
12
主観評価実験
ML基準・HMMとの比較
分布数
87,267
88,287
745,969
744,955
13
改善の要因の調査

ベイズ基準による改善の要因


パラメータの周辺化
モデル構造選択
学習・合成基準 モデル構造選択 モデル
ML-MDL
ML基準
MDL基準
Bayes-MDL
ベイズ基準
HSMM
ML-Bayes
ML基準
ベイズ基準
Bayes-Bayes
ベイズ基準
14
主観評価実験
モデル構造の比較
分布数
88,287
88,287
744,955
744,955
15
むすび

ベイズ基準によるHSMM音声合成の評価

HSMMによる品質改善

ベイズ基準の有効性
パラメータの周辺化とモデル構造の両方が必要


今後の課題


小規模な学習データでの音声合成実験
モデル構造と音質の調査
16