Bayesian Context Clustering Using Cross Validation for HMM-Based Speech Synthesis HMM音声合成のための クロスバリデーションを用いたベイズ基準 によるコンテキストクラスタリング ○橋本 佳,全 炳河,南角吉彦,徳田恵一 (名工大) はじめに(1/2) ML基準によるHMM音声合成 モデルパラメータを点推定 ⇒ 学習データが不十分な場合に過学習 MDL基準によるモデル構造選択 ⇒ 学習データ少量時に推定精度低下 ベイズ基準によるHMM音声合成(南角ら; ’03) モデルパラメータの事後分布を推定 データ量を考慮したモデル構造選択 事前分布をモデル学習に利用可能 ⇒ 事後分布推定・モデル構造選択に大きく影響 2 はじめに(2/2) 事前情報が無い状況での事前分布設定法 学習データを利用 事前分布パラメータを調整パラメータとして使用 ⇒ 適切な調整パラメータの探索が必要 Cross Validationに基づく事前分布(橋本ら; ’08) 調整パラメータを用いない事前分布設定法 汎化性能の高いモデル構造を選択 音声認識において有効性を確認 HMM音声合成に適用 3 ベイズ基準による音声合成(1/2) モデル学習基準・音声合成基準 ML基準 ベイズ基準 : 合成音声パラメータ系列 : 学習データ : モデルパラメータ : 合成文のラベル列 : 学習文のラベル列 4 ベイズ基準による音声合成(2/2) ベイズ基準における予測分布(周辺尤度関数) : : : : : 合成データの状態遷移を表す隠れ変数 学習データの状態遷移を表す隠れ変数 合成データの尤度関数 学習データの尤度関数 モデルパラメータの事前分布 変分ベイズ法による近似(Attias; ’99) 5 変分ベイズ法(1/2) 対数周辺尤度の下限 を定義 (Jensenの不等式) : に関する期待値 : 近似事後分布 下限の最大化による対数周辺尤度の近似 ⇒ を最大化する近似事後分布を推定 6 変分ベイズ法(2/2) 近似事後分布の独立性を仮定 変分法による事後分布推定 : 正規化項 交互に更新することで を最大化 7 実装における近似 事後分布 が合成データに依存 合成ラベル決定後に学習 膨大な計算量 合成データに依存しないと仮定 ⇒ 学習データのみから を推定 8 事前分布 共役事前分布 事前分布と事後分布が同じ分布族 数学的取扱いが容易 尤度関数 共役事前分布 事前情報による事前分布の設定 :事前情報のデータ量 : 特徴量の次元数 :事前情報の平均 :事前情報の分散 9 音声パラメータ生成(1/2) 音声パラメータ 静的特徴量と動的特徴量によって表現 ⇒ 合成時は静的特徴量のみ推定 ベイズ基準による合成音声パラメータ生成 下限 は対数周辺尤度を近似 ⇒ を最大化する音声パラメータを推定 10 音声パラメータ生成(2/2) 音声パラメータ生成 尤度関数 ML基準 ⇒ ベイズ基準 ⇒ ML基準と同じ形で推定可能 11 ベイズ基準によるモデル構造選択 を最大化するモデル構造を選択 : 先行音素は母音? yes no 質問の選択 : の増加量 : ⇒ 増加量が最大となる分割 分割停止条件 : ベイズ基準における適切なモデル構造を選択 12 モデル構造選択における事前分布 モデル構造選択は事前分布に大きく影響 ⇒ 事前分布による過学習の緩和 ⇒ 適切な事前分布が必要 事前情報がない状況での事前分布設定 学習データによる事前分布設定 ⇒ 適切な調整パラメータの探索が必要 :事前情報のデータ量 : 特徴量の次元数 :事前情報の平均 :事前情報の分散 13 Cross Validationを用いたベイズ基準 Cross Validationに基づく下限 学習データをK個に分割 事前分布 事後分布 モデル評価 : 設定 2,3 1,3 1,2 推定 の計算 14 Cross Validationに基づく事前分布設定 Cross Validationに基づく周辺尤度関数 学習データに対してオープン ⇒ 過学習を緩和 Cross Validationに基づく事前分布 15 CVを用いたベイズ基準モデル構造選択 を最大化するモデル構造を選択 : 先行音素は母音? yes no • 各ノードで を計算 • 分割前後での増加量 が最大となる分割を行う 分割停止条件 : 汎化性能の高いモデル構造を選択 16 実験条件(1/2) データベース ATR日本語音声データベース b-set 話者 MHT 学習データ 450 文 テストデータ 53 文 サンプリング周波数 16 kHz 窓関数 Blackman 窓 フレームサイズ / シフト 25 ms / 5 ms 特徴量 24次 メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ (78次元) 17 実験条件(2/2) 比較手法 モデル名 学習基準 モデル構造選択基準 状態数 MDL ML基準 MDL基準 2,491 CVB ベイズ基準 CVを用いたベイズ基準 25,911 CVB-MDL ベイズ基準 状態数をMDLにそろえたCVB 2,553 状態数をCVBにそろえたMDL 27,106 ML-CVB ML基準 主観評価実験 被験者10人 被験者ごとにランダムに20文選択 18 主観評価実験 5-point MOS 19 むすび CVを用いたベイズ基準によるモデル構造選択 クロスバリデーションに基づく事前分布設定 汎化性能の高いモデル構造を選択 合成音声の品質改善 今後の課題 状態数と音質に関する調査 HSMMへの拡張 20
© Copyright 2024 ExpyDoc