Document

学習・合成過程が統合された
ベイズ音声合成
☆橋本佳,南角吉彦,徳田恵一 (名工大)
はじめに

ベイズ基準によるHMM音声合成(橋本ら; ’08)



事後分布の近似



音声合成の問題を直接表現する予測分布
予測分布によって音声合成システム全体を表現
事後分布が合成データに依存
事後分布は合成データに対して独立という仮定
⇒ 学習部と合成部に分離
⇒ ベイズ音声合成の特徴を十分に表現できていない
学習・合成過程が統合されたベイズ音声合成

予測分布をより厳密に表現
2
ベイズ基準による音声合成(1/2)
モデル学習基準・音声合成基準
ML基準
ベイズ基準
: 合成データ
: 学習データ
: モデルパラメータ
: 合成文のラベル列
: 学習文のラベル列
3
ベイズ基準による音声合成(2/2)
ベイズ基準における予測分布(周辺尤度関数)
:
:
:
:
:
合成データの状態遷移を表す隠れ変数
学習データの状態遷移を表す隠れ変数
合成データの尤度関数
学習データの尤度関数
モデルパラメータの事前分布
変分ベイズ法による近似(Attias; ’99)
4
変分ベイズ法(1/2)

対数周辺尤度の下限
を定義
(Jensenの不等式)
:
に関する期待値
: 事後分布
の近似事後分布
を最大化する近似事後分布を推定
5
変分ベイズ法(2/2)

近似事後分布の独立性を仮定

変分法による事後分布推定
: 正規化項
交互に更新することで
を最大化
6
音声パラメータ生成

音声パラメータ
静的特徴量と動的特徴量によって表現
⇒ 音声パラメータ生成時には静的特徴量のみ推定

ベイズ基準による音声パラメータ生成
下限 は対数周辺尤度を近似
⇒ を最大化する音声パラメータを推定
7
事後分布の近似

事後分布
は合成データに依存
⇒ 合成データは観測されていない
⇒ 直接計算することは困難

合成データに依存しないと仮定(橋本ら; ’08)
⇒ 学習データのみから
を推定
8
学習・合成過程の統合

事後分布は合成データに対し独立という仮定



学習部と合成部に分離
ベイズ基準の特徴を十分に表現できていない
合成データを用いた事後分布推定


観測データの代わりに合成データを利用
事後分布と合成データは相互に影響
⇒ 事後分布と合成データの繰返し推定
9
近似を用いたベイズ音声合成
事後分布
の更新
(学習データの隠れ変数系列)
事後分布
の更新
(モデルパラメータ)
事後分布
の更新
(合成データの隠れ変数系列)
合成データ
の生成
学習データ
学習部
合成部
合成データ
10
提案法
事後分布
の更新
(学習データの隠れ変数系列)
学習データ
事後分布
の更新
(モデルパラメータ)
事後分布
の更新
(合成データの隠れ変数系列)
合成データ
の生成
合成データ
11
実験条件
データベース
ATR日本語音声データベース b-set
話者
MHT
学習データ
450 文
テストデータ
53 文
サンプリング周波数
16 kHz
窓関数
Blackman 窓
フレームサイズ / シフト
25 ms / 5 ms
特徴量
音響モデル
24次 メルケプストラム + Δ + ΔΔ
対数基本周波数 + Δ + ΔΔ
5状態 left-to-right HSMM
12
更新アルゴリズム

以下の手順による合成データ生成
1. 近似を用いた事後分布推定
2. Step 1の事後分布から合成データを生成
3. 学習・合成データを用いたクラスタリング
4. 学習・合成データを用いた事後分布の推定
(更新回数は5回)
5. Step 4の事後分布から合成データを生成
6. Step 3・4・5を繰り返す
13
更新回数の比較
事後分布・合成データの更新回数を変化


Iteration0
Iteration1
事後分布推定に用いたデータ
学習データ
学習データとIteration0の合成データ
Iteration2
Iteration3
学習データとIteration1の合成データ
学習データとIteration2の合成データ
クロスバリデーションを用いたベイズ基準による
モデル構造選択(橋本ら; ’08)
事後分布推定に用いる合成データは1発話
14
主観評価実験
事後分布・合成データの更新回数の比較
繰返し回数の増加に伴い品質を改善
15
推定に用いる合成データ数の比較
事後分布推定に用いる合成データ数の比較
学習・合成基準
ML
Baseline
ML基準
Bayes基準
Batch
Sentence
Bayes基準
Bayes基準


事後分布学習に用いる
合成データ数
0
53
1
Batch, Sentenceの更新回数は3回
全手法のモデル更新回数は同一
16
主観評価実験
事後分布推定に用いる合成データ数の比較
1発話ごとに繰返し推定することにより音質を改善
17
むすび

学習・合成過程が統合されたベイズ音声合成





合成データに対し独立という近似を排除
ベイズ基準の予測分布をより厳密に表現
更新回数の増加に伴い音質を改善
1発話ごとに事後分布推定を行うことでより適切な事
後分布を推定
今後の課題


少量の学習データによる実験
学習データ量と学習に用いる合成データ量と音質に
関する調査
18