ベイズ音声合成における 事前分布とモデル構造の話者間共有 橋本 佳,南角 吉彦,徳田 恵一 名古屋工業大学 背景 統計モデルに基づく音声合成 尤度最大化(ML)基準による音声合成 ベイズ基準による音声合成 [Hashimoto et al., ’08] 全話者に共通した音響的特徴 Speaker Adaptive Training (SAT) [Anastasakos et al., ’97] Shared Tree Clustering (STC) [Yamagishi et al., ’03] Universal Background Model (UBM) [Reynolds et al., ’00] 事前分布とモデル構造の話者間共有 複数話者の学習データから効率良くモデルを学習 2 ベイズ基準による音声合成(1/3) モデル学習・音声合成 ML 学習 合成 Bayes : 合成データ : 学習データ : モデルパラメータ 学習・合成 : 合成データのラベル列 : 学習データのラベル列 3 ベイズ基準による音声合成(2/3) モデル構造を表す隠れ変数の導入 : モデル構造 事後確率に基づくモデル構造選択 単一のモデル構造による近似予測分布 4 ベイズ基準による音声合成(3/3) 予測分布(周辺尤度関数) : 合成データの状態系列を表す隠れ変数 : 学習データの状態系列を表す隠れ変数 : 合成データの尤度関数 : 学習データの尤度関数 : モデルパラメータの事前分布 変分ベイズ法 [Attias, ’99] 5 変分ベイズ法 近似事後分布推定法 ⇒ 対数周辺尤度の下限 の最大化による推定 Jensen’s inequality : 近似事後分布 : に関する期待値計算 : ハイパーパラメータ : モデル構造 6 複数話者の同時モデル化 全話者に共通した音響的特徴 全話者の学習データを効率良く利用 SAT, STC, UBM, etc… モデル推定精度の改善 複数話者の同時モデル化 : 話者 : ハイパーパラメータ : モデル構造 モデル構造と事前分布の話者間共有 7 モデル構造の話者間共有 下限の和の最大化による共有モデル構造の選択 Is this phoneme a vowel? yes 分割停止条件: no リーフノード : 各話者の事後分布 ベイズ基準による共有決定木クラスタリング(STC) 8 事前分布の設定 共役事前分布 出力確率分布 事前分布 : ハイパーパラメータ 学習データを用いた事前分布設定 : 事前データのデータ量 : 事前データの分散 : 事前データの平均 : 調整パラメータ 複数話者の学習データを事前データとして利用 ⇒ 不特定話者事前分布 9 事前分布の話者間共有 下限の和の最大化による共有事前分布の推定 各話者の事後分布を考慮した事前分布推定 話者正規化学習 ⇒ 話者正規化事前分布 事前分布と事後分布が相互に依存 ⇒ 勾配法 : 各話者の事後分布 : 共有事前分布 10 実験条件 話者 男性話者5人 学習データ 各話者450文 テストデータ 各話者53文 サンプリング周波数 16 kHz 窓関数 Blackman 窓 フレームサイズ / シフト 25 ms / 5 ms 特徴量 音響モデル 24次 メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ 5状態 left-to-right HSMM 11 比較手法 ベイズ音声合成における共有方法の比較 モデル構造 SD Tree 事前分布 ○ △ Prior (不特定話者事前分布) ※話者間共有されていない Tree-Prior ○ Tree-SAT ○ ○ (不特定話者事前分布) ○ (話者正規化事前分布) 12 実験結果 主観評価実験による自然性の評価 13 むすび 事前分布とモデル構造の話者間共有 全話者に共通した音響的特徴を利用 頑健なモデル構造の選択 適切な事前分布の設定 主観評価値の大幅の改善 話者間共有手法の有効性を確認 今後の課題 様々な実験条件での比較実験 話者選択手法の検討 14
© Copyright 2024 ExpyDoc