Document

ベイズ基準による
隠れセミマルコフモデルに基づく音声合成
◎橋本 佳,南角吉彦,徳田恵一 (名工大)
はじめに(1/2)

ML基準によるHMM音声合成



モデルパラメータを点推定
⇒ 学習データが不十分な場合に過学習
MDL基準によるモデル構造選択
⇒ 学習データ少量時に推定精度低下
ベイズ基準によるHMM音声合成(南角ら; ’03)



モデルパラメータの事後分布を推定
事前情報をモデル学習に利用
データ量を考慮したモデル構造選択
2
はじめに(2/2)

HMM音声合成における状態継続長



学習部 : 継続長を考慮しない
合成部 : 継続長を考慮
⇒ 学習・合成間のモデルの不一致
HSMMに基づく音声合成(Zen et al.; ’04)



継続長分布を持つモデル
学習・合成間のモデルの不一致を解決
ML基準によるモデル学習・音声合成
ベイズ基準によるHSMMに基づく音声合成
3
隠れマルコフモデル(HMM)
1
観測系列
:
状態系列
:
1
1
1
2
1
2
3
2
3
3
4
隠れセミマルコフモデル(HSMM)
継続長分布
1
観測系列
:
状態系列
:
1
1
1
2
1
2
3
2
3
状態継続長を考慮したモデル
3
5
尤度関数の比較

尤度関数
HMM
HSMM
: 観測系列
: 状態系列
: モデルパラメータ
HSMMでは状態遷移確率が継続長分布によって算出
6
HMM音声合成
学習データ
基本周波数抽出
ラベル
メルケプストラム分析
HMMの学習
学習部
合成部
継続長モデル
コンテキスト依存HMM
テキスト
ラベル
音声パラメータ生成
励振源生成
合成フィルタ
合成音声
7
HSMM音声合成
学習データ
基本周波数抽出
ラベル
メルケプストラム分析
HSMMの学習
学習部
合成部
コンテキスト依存HSMM
テキスト
ラベル
音声パラメータ生成
励振源生成
合成フィルタ
合成音声
8
ベイズ基準による音声合成(1/2)
モデル学習基準・音声合成基準
ML基準
ベイズ基準
: 合成音声パラメータ系列
: 学習データ
: モデルパラメータ
: 合成文のラベル列
: 学習文のラベル列
9
ベイズ基準による音声合成(2/2)
ベイズ基準における予測分布(周辺尤度関数)
:
:
:
:
:
合成データの状態遷移を表す隠れ変数
学習データの状態遷移を表す隠れ変数
合成データの尤度関数
学習データの尤度関数
モデルパラメータの事前分布
変分ベイズ法による近似(Attias; ’99)
10
変分ベイズ法(1/2)

対数周辺尤度の下限
を定義
(Jensenの不等式)
:
に関する期待値
: 近似事後分布
下限の最大化による対数周辺尤度の近似
⇒ を最大化する近似事後分布を推定
11
変分ベイズ法(2/2)

近似事後分布の独立性を仮定

変分法による事後分布推定
: 正規化項
交互に更新することで
を最大化
12
HSMMの尤度計算

Generalized Forward-Backward Algorithm
Forward
Backward
ベイズ基準ではモデルパラメータの期待値を使用
13
音声パラメータ生成

音声パラメータ
静的特徴量と動的特徴量によって表現
⇒ 合成部では静的特徴量のみ推定

ベイズ基準による合成音声パラメータ生成
下限 は対数周辺尤度を近似
⇒ を最大化する音声パラメータを推定
14
実験条件(1/2)
データベース
ATR日本語音声データベース b-set
話者
MHT
学習データ
450 文
テストデータ
53 文
サンプリング周波数
16 kHz
窓関数
Blackman 窓
フレームサイズ / シフト
25 ms / 5 ms
特徴量
24次 メルケプストラム + Δ + ΔΔ
対数基本周波数 + Δ + ΔΔ
(78次元)
15
実験条件(2/2)

比較手法




HSMMとHMMの比較
ベイズ基準によるモデル学習・音声合成
クロスバリデーションを用いたベイズ基準による
モデル構造選択(橋本ら; ’08)
主観評価実験


被験者10人
被験者ごとにランダムに20文選択
16
主観評価実験
対比較実験
合成音声の品質を改善
17
むすび

ベイズ基準によるHSMMに基づく音声合成

ベイズ基準によるHSMMの学習
学習・合成間のモデルの不一致を解決

合成音声の品質改善


今後の課題

ML基準によるHSMM音声合成との比較
18