Document

HMM音声合成における
変分ベイズ法に基づく線形回帰
◎橋本 佳1, 山岸 順一2, Peter Bell2,
Simon King2, Steve Renals2, 徳田 恵一1
1
名古屋工業大学
2
University of Edinburgh
背景

線形回帰に基づく話者適応


少量の適応データから変換パラメータを推定
尤度最大化(ML)基準による推定 ⇒ MLLR [Gales; ’98]


過学習の問題
ベイズ基準による推定


事前分布の利用
⇒ MAPLR [Chou; ’99]
事後分布に基づく期待値計算
⇒ 変分ベイズ法に基づく線形回帰 [Yu et al.; ’07]
HMM音声合成における変分ベイズ法に基づく線形回帰
2
線形回帰による話者適応

線形回帰を用いたHMMの尤度関数
遷移確率
出力確率
1
線形回帰を表現
: 適応データ
: モデルパラメータ
: 状態遷移系列
: 変換パラメータ
3
音声合成における話者適応

尤度最大化(ML)基準による話者適応
: 合成データ
: 適応データ
: モデルパラメータ
: 変換パラメータ


変換パラメータを点推定 ⇒ 過学習
ベイズ基準による話者適応

変換パラメータを周辺化(期待値計算)
4
ベイズ基準における事後分布

変換パラメータの事後分布
: 適応データ
: 状態系列
: モデルパラメータ
: 変換パラメータ


困難な積分計算 ⇒ 近似手法が必要
事後確率最大化(MAP)基準による近似


事前分布を利用
変換パラメータを点推定
5
変分ベイズ法(1/2)

変分ベイズ法による近似事後分布の推定 [Attias; ’99]

対数周辺尤度の下限を定義
(Jensenの不等式)
: 近似事後分布
下限の最大化による近似事後分布の推定
6
変分ベイズ法(2/2)

制約条件の導入

変分法による近似事後分布の導出

事後分布は相互に依存 ⇒ 繰返し推定による最適化
7
変換パラメータの事後分布

変換パラメータの事後分布


変換行列の各行が独立と仮定
共役事前分布を使用

各行の事前分布にガウス分布を設定
事前分布
事後分布
8
更新式の比較
統計量

MLLR

MAPLR

VBLR (Variational Bayesian method based Linear Regression)
9
状態遷移系列の事後分布

変換パラメータに関する周辺化
遷移確率

出力確率
事後分布に依存したペナルティ項

適応データ量が多量 ⇒ ペナルティ項の影響は小
10
実験条件(1/2)
学習データ
CMU ARCTIC
3628発話(4話者)
適応データ
100発話
テストデータ
50文
サンプリング周波数
48 kHz
フレームシフト
5 ms
特徴量
49次 STRAIGHT メルケプストラム,
対数基本周波数,非周期成分
+ Δ + ΔΔ
音響モデル
5状態 left-to-right HSMM
11
実験条件(2/2)

比較手法
事前分布の利用
変換パラメータの周辺化
✔
✔
✔
MLLR
MAPLR
VBLR

MAPLR, VBLRにおける事前分布
事前分布
単位行列
グローバル
単一の回帰クラスの変換行列を利用
構造的アプローチ
回帰木の親ノードの変換行列を利用
※ 調整パラメータ
: 1, 10, 100, 1000, 10000
12
メルケプストラム歪み

各適応データ量におけるメルケプストラム歪み

回帰クラス数と調整パラメータは最適値を選択
13
事前分布の比較

各適応データ量におけるメルケプストラム歪み

回帰クラス数と調整パラメータは最適値を選択
14
むすび

音声合成における変分ベイズ法に基づく線形回帰

適応パラメータの事後分布を推定



適応データが少量の時にMLLRから大きく改善
MAPLRと同程度の客観評価値



変換パラメータの周辺化を実現
変換パラメータの周辺化の効果は小さい
事前分布の影響が大きい
今後の課題



事前分布の検討
合成過程と変換パラメータの事後分布推定の統合
回帰クラス数の自動選択
15
音声サンプル
目標音声
 平均声

2発話
適応データ量
10発話
100発話
MLLR
MAPLR
VBLR
SVBLR
16
従来法との比較
事前分布の利用

MLLR
MAPLR
✔
VBLR
✔
✔
変換パラメータの周辺化


変換パラメータの
周辺化
適応データ量が多量であるほどMAPLRに近づく
事前分布の利用

適応データ量が多量であるほどMLLRに近づく
17
メルケプストラム歪み

適応データ量:100発話
18
メルケプストラム歪み

適応データ量:100発話
19
メルケプストラム歪み

適応データ量:100発話
20
メルケプストラム歪み

適応データ量:10発話
21
メルケプストラム歪み

適応データ量:10発話
22
メルケプストラム歪み

適応データ量:10発話
23
メルケプストラム歪み

各適応データ量におけるメルケプストラム歪み

回帰クラス数と調整パラメータは最適値を選択
24
メルケプストラム歪み

各適応データ量におけるメルケプストラム歪み

回帰クラス数と調整パラメータは最適値を選択
25
事前分布の比較

各適応データ量におけるメルケプストラム歪み

回帰クラス数と調整パラメータは最適値を選択
26
F0歪み

各適応データ量におけるF0歪み

回帰クラス数と調整パラメータは最適値を選択
27
F0歪み

各適応データ量におけるF0歪み

回帰クラス数と調整パラメータは最適値を選択
28