日本音響学会 2015年春季研究発表会 講演番号 2-2-2 統計的パラメトリック音声合成における 変調スペクトルを考慮したパラメータ生成法 〇 高道 慎之介 (奈良先端大/CMU) 戸田 智基 (奈良先端大) Alan W. Black (CMU) 中村 哲(奈良先端大) 2015©Shinnosuke TAKAMICHI 03/17/2014 本発表の概要 問題: 統計的パラメトリック音声合成の音質劣化 – – HMM音声合成 [Tokuda et al., 2013.] や GMM声質変換 [Toda et al., 2007.] 生成パラメータ系列の過剰な平滑化が一因 過剰な平滑化を定量化: “広がり”から“振動”へ – 変調スペクトル(MS) : 系列内変動(GV)の拡張 [Takamichi et al., 2014.] [Toda et al., 2007.] 本発表: MSをパラメータ生成基準に導入 – MS制約を考慮して,音声パラメータ系列を生成 HMM音声合成とGMM声質変換において 従来の生成アルゴリズムよりも高い音質改善効果 2/16 HMMによる特徴量のモデル化 [Tokuda et al., 2013.] テキスト “Sample” 𝝀 = argmax 𝑃 𝒀|𝑿, 𝝀 テキスト 解析 “s” “ae” … コンテキスト要因 𝑿 “s” 𝝁1, 𝜮1 音声特徴量 “Sample” 音声 音声 分析 “a” 𝝁2, 𝜮2 𝝁3, 𝜮3 𝒀 * 𝑁 ∙; 𝝁, 𝜮 は平均ベクトル 𝝁 と 共分散行列 𝜮 の正規分布 3/16 GMMによる特徴量のモデル化 [Stylianou et al., 1998.] 𝝀 = argmax 𝑃 𝑿𝑡 , 𝒀𝑡 |𝝀 音声 “Sample” 音声 分析 𝑿𝑡 𝝁1, 𝜮1 𝝁2, 𝜮2 音声特徴量 𝝁3, 𝜮3 “Sample” 音声 𝒀𝑡 音声 分析 音声特徴量 𝑡: 時間インデックス 4/16 入力特徴量 𝑿 が与えられた下での 音声パラメータ系列生成 [Tokuda et al., 2000.] 静的・動的特徴量間の制約 𝑾 の下で音声パラメータ系列 𝒚 を生成 𝑃 𝒀|𝑿, 𝝀 ~ 𝑃 𝒀|𝒒, 𝑿, 𝝀 = 𝑁 𝑾𝒚; 𝝁, 𝜮 𝒚 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮 ∗ 𝒀 = 𝑾𝒚,𝒒: 準最適なHMM状態系列 or GMM分布系列 d-th mel-cepstrum 𝑦𝑑 𝑡 Natural parameters Generated parameters Time 𝑡 パラメータ系列の過剰な平滑化で音質が劣化・・・ 5/16 系列内変動(GV)を考慮した 音声パラメータ系列生成 [Toda et al., 2007.] GV制約(=広がりの制約)付きでパラメータ生成 𝒚 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝒗 𝒚 ; 𝝁v , 𝜮v 1 𝑣𝑑 𝒚 = 𝑇 d-th mel-cepstrum 𝑦𝑑 𝑡 𝑇 𝑡=1 𝑦𝑑 𝑡 − 𝑦𝑑 2 𝜔 𝜔: 重み 𝑇: フレーム数 Natural w/o GV w/ GV Time 𝑡 未だに自然/生成パラメータは大きく異なる・・・ 6/16 提案法 7 変調スペクトル(MS)の定義 [Takamichi et al., 2014.] MS (Modulation Spectrum): パラメータ系列のパワースペクトル – 2次 モーメント 𝑦𝑑 𝑡 – 時間的変動を表現可能 [Atlas et al., 2003.] GVの数学的拡張で、パラメータ系列を変調周波数毎の要素に分解 パワー スペクトル Time 𝑡 GV (スカラ) MS (ベクトル) 0 … f … M-1 d次のパラメータ系列の,f 番目のMS (MはFFT長の半分) 𝑠𝑑,𝑓 𝒚 = −𝜋𝑓𝑡 𝑦𝑑 𝑡 cos 𝑀 𝑡 2 + −𝜋𝑓𝑡 𝑦𝑑 𝑡 sin 𝑀 𝑡 2 8/16 Log MS of the d-th mel-cepstrum 自然/合成音声の変調スペクトル Natural w/ GV w/o GV Modulation frequency [Hz] 合成音声の変調スペクトルを補償することで音質改善 9/16 提案法 MS制約(=振動の制約)を考慮した音声パラメータ生成 𝒚 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝒔 𝒚 ; 𝝁s , 𝜮s 𝜔: 重み MS制約 𝑁 𝒔 𝒚 ; 𝝁s , 𝜮s の効果 – 𝜔 生成パラメータ系列のMSを補償(=自然音声のMSに近づける) 実装 – – – 初期化: 従来の生成 + MSを補償するフィルタ [Takamichi et al., 2014.] 生成: 最急降下法(目的関数の一次微分を利用)による反復的生成 後処理: 50Hzカットオフのローパスフィルタ 10/16 Log MS of the d-th mel-cepstrum 提案法の効果(変調スペクトル) w/ MS Natural w/ GV w/o GV Modulation frequency [Hz] 提案法により変調スペクトルを補償! 11/16 d-th Mel-cepstrum 𝑦𝑑 𝑡 提案法の効果(パラメータ時系列) w/ GV Natural w/o GV w/ MS Time t 振動したパラメータ系列を生成! 12/16 Log GV 提案法の効果(GV) Natural Temporally-larger scale w/o GV Temporally-smaller scale w/ GV w/ MS Index of mel-cepstrum d GVを考慮していないが,GVを補償! 13/16 主観評価の条件 HMM音声合成 GMM声質変換 統計モデル 5状態 HSMM 64混合 GMM 話者 ARCTIC databaseの男性/女性英語話者,16 kHz 音声パラメータ 25次元のメルケプストラム (スペクトルパラメータ), 対数F0,5帯域の非周期成分 (音源パラメータ) 学習データ 593文 評価データ 学習データに含まれない100文 共分散行列 HMM/GMM,MSモデル共に対角共分散行列 提案法の適用 メルケプストラム & F0 比較手法 GV: GVを考慮したパラメータ生成 [Toda et al., 2007.] MS: MSを考慮したパラメータ生成 (提案法) 50文 メルケプストラム 音質に関するABテスト (HMM音声合成,GMM声質変換) を実施 話者性に関するXABテスト(GMM声質変換のみ) 14/16 評価結果 提案法による音質改善効果を確認 * エラーバーは95%信頼区間 15/16 まとめ 目的: 統計的パラメトリック音声合成の音質改善 提案法: MSを考慮した音声パラメータ生成法 今後の予定 – – MSを考慮した学習法 … 次の講演で報告 MSを補償するフィルタ [Takamichi et al., 2014a-c] との比較 16/16
© Copyright 2025 ExpyDoc