Document

ベイズ音声合成における
事前分布とモデル構造の話者間共有
橋本 佳,南角 吉彦,徳田 恵一
名古屋工業大学
背景
統計モデルに基づく音声合成


尤度最大化(ML)基準による音声合成
ベイズ基準による音声合成 [Hashimoto et al., ’08]
全話者に共通した音響的特徴



Speaker Adaptive Training (SAT) [Anastasakos et al., ’97]
Shared Tree Clustering (STC) [Yamagishi et al., ’03]
Universal Background Model (UBM) [Reynolds et al., ’00]
事前分布とモデル構造の話者間共有

複数話者の学習データから効率良くモデルを学習
2
ベイズ基準による音声合成(1/3)
モデル学習・音声合成
ML
学習
合成
Bayes
: 合成データ
: 学習データ
: モデルパラメータ
学習・合成
: 合成データのラベル列
: 学習データのラベル列
3
ベイズ基準による音声合成(2/3)
モデル構造を表す隠れ変数の導入
: モデル構造

事後確率に基づくモデル構造選択

単一のモデル構造による近似予測分布
4
ベイズ基準による音声合成(3/3)
予測分布(周辺尤度関数)
: 合成データの状態系列を表す隠れ変数
: 学習データの状態系列を表す隠れ変数
: 合成データの尤度関数
: 学習データの尤度関数
: モデルパラメータの事前分布
変分ベイズ法 [Attias, ’99]
5
変分ベイズ法
近似事後分布推定法
⇒ 対数周辺尤度の下限 の最大化による推定
Jensen’s inequality
: 近似事後分布
: に関する期待値計算
: ハイパーパラメータ
: モデル構造
6
複数話者の同時モデル化
全話者に共通した音響的特徴

全話者の学習データを効率良く利用


SAT, STC, UBM, etc…
モデル推定精度の改善
複数話者の同時モデル化
: 話者
: ハイパーパラメータ
: モデル構造
モデル構造と事前分布の話者間共有
7
モデル構造の話者間共有
下限の和の最大化による共有モデル構造の選択
Is this phoneme a vowel?
yes
分割停止条件:
no
リーフノード
: 各話者の事後分布
ベイズ基準による共有決定木クラスタリング(STC)
8
事前分布の設定
共役事前分布
出力確率分布
事前分布
: ハイパーパラメータ
学習データを用いた事前分布設定
: 事前データのデータ量
: 事前データの分散

: 事前データの平均
: 調整パラメータ
複数話者の学習データを事前データとして利用
⇒ 不特定話者事前分布
9
事前分布の話者間共有
下限の和の最大化による共有事前分布の推定



各話者の事後分布を考慮した事前分布推定
話者正規化学習 ⇒ 話者正規化事前分布
事前分布と事後分布が相互に依存 ⇒ 勾配法
: 各話者の事後分布
: 共有事前分布
10
実験条件
話者
男性話者5人
学習データ
各話者450文
テストデータ
各話者53文
サンプリング周波数
16 kHz
窓関数
Blackman 窓
フレームサイズ / シフト
25 ms / 5 ms
特徴量
音響モデル
24次 メルケプストラム + Δ + ΔΔ
対数基本周波数 + Δ + ΔΔ
5状態 left-to-right HSMM
11
比較手法
ベイズ音声合成における共有方法の比較
モデル構造
SD
Tree
事前分布
○
△
Prior
(不特定話者事前分布)
※話者間共有されていない
Tree-Prior
○
Tree-SAT
○
○
(不特定話者事前分布)
○
(話者正規化事前分布)
12
実験結果
主観評価実験による自然性の評価
13
むすび
事前分布とモデル構造の話者間共有

全話者に共通した音響的特徴を利用



頑健なモデル構造の選択
適切な事前分布の設定
主観評価値の大幅の改善

話者間共有手法の有効性を確認
今後の課題


様々な実験条件での比較実験
話者選択手法の検討
14