ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大) はじめに HMMに基づく音声合成 ベイズ基準によるHMM音声合成(橋本ら; ’08) ML基準によるモデル学習 MDL基準によるモデル構造選択 モデルパラメータの周辺化 データ量を考慮したモデル構造選択 学習・合成間におけるモデルの不一致 ベイズ基準によるHSMM音声合成(橋本ら; ’09) 学習・合成において同一のモデルを使用 ベイズ基準によるHSMM音声合成の詳細な評価 2 隠れマルコフモデル(HMM) 1 観測系列 : 状態系列 : 1 1 1 2 1 2 3 2 3 3 3 隠れセミマルコフモデル(HSMM) 継続長分布 1 観測系列 : 状態系列 : 1 1 1 2 1 2 3 2 3 状態継続長を考慮したモデル 3 4 尤度関数の比較 尤度関数 HMM HSMM : 観測系列 : 状態系列 : モデルパラメータ HSMMでは状態遷移確率が継続長分布によって算出 5 ベイズ基準による音声合成(1/2) モデル学習基準・音声合成基準 ML基準 ベイズ基準 : 合成音声パラメータ系列 : 学習データ : モデルパラメータ : 合成文のラベル列 : 学習文のラベル列 6 ベイズ基準による音声合成(2/2) ベイズ基準における予測分布(周辺尤度関数) : : : : : 合成データの状態遷移を表す隠れ変数 学習データの状態遷移を表す隠れ変数 合成データの尤度関数 学習データの尤度関数 モデルパラメータの事前分布 変分ベイズ法による近似(Attias; ’99) 7 変分ベイズ法(1/2) 対数周辺尤度の下限 を定義 (Jensenの不等式) : に関する期待値 : 近似事後分布 下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定 8 変分ベイズ法(2/2) 近似事後分布の独立性を仮定 変分法による事後分布推定 : 正規化項 交互に更新することで を最大化 9 音声パラメータ生成 音声パラメータ 静的特徴量と動的特徴量によって表現 ⇒ 合成部では静的特徴量のみ推定 ベイズ基準による合成音声パラメータ生成 下限 は対数周辺尤度を近似 ⇒ を最大化する音声パラメータを推定 10 実験条件 データベース ATR日本語音声データベース b-set 話者 MHT 学習データ 450 文 テストデータ 53 文 サンプリング周波数 16 kHz 窓関数 Blackman 窓 フレームサイズ / シフト 25 ms / 5 ms 特徴量 24次 メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ (78次元) 11 ML基準・HMMとの比較 ML基準とベイズ基準の比較 HMMとHSMMの比較 学習・合成基準 モデル構造選択 モデル ML-HMM HMM ML基準 MDL基準 ML-HSMM HSMM Bayes-HMM HMM ※ ベイズ基準 ベイズ基準 Bayes-HSMM HSMM ※ クロスバリデーションを用いたベイズ基準によるモデル構造選択(橋本ら; ’08) 12 主観評価実験 ML基準・HMMとの比較 分布数 87,267 88,287 745,969 744,955 13 改善の要因の調査 ベイズ基準による改善の要因 パラメータの周辺化 モデル構造選択 学習・合成基準 モデル構造選択 モデル ML-MDL ML基準 MDL基準 Bayes-MDL ベイズ基準 HSMM ML-Bayes ML基準 ベイズ基準 Bayes-Bayes ベイズ基準 14 主観評価実験 モデル構造の比較 分布数 88,287 88,287 744,955 744,955 15 むすび ベイズ基準によるHSMM音声合成の評価 HSMMによる品質改善 ベイズ基準の有効性 パラメータの周辺化とモデル構造の両方が必要 今後の課題 小規模な学習データでの音声合成実験 モデル構造と音質の調査 16
© Copyright 2024 ExpyDoc