統計的パラメトリック音声合成における 変調スペクトルを考慮した

日本音響学会 2015年春季研究発表会
講演番号 2-2-2
統計的パラメトリック音声合成における
変調スペクトルを考慮したパラメータ生成法
〇 高道 慎之介 (奈良先端大/CMU)
戸田 智基 (奈良先端大)
Alan W. Black (CMU)
中村 哲(奈良先端大)
2015©Shinnosuke TAKAMICHI
03/17/2014
本発表の概要

問題: 統計的パラメトリック音声合成の音質劣化
–
–

HMM音声合成 [Tokuda et al., 2013.] や GMM声質変換 [Toda et al., 2007.]
生成パラメータ系列の過剰な平滑化が一因
過剰な平滑化を定量化: “広がり”から“振動”へ
–
変調スペクトル(MS) : 系列内変動(GV)の拡張
[Takamichi et al., 2014.]

[Toda et al., 2007.]
本発表: MSをパラメータ生成基準に導入
–
MS制約を考慮して,音声パラメータ系列を生成
HMM音声合成とGMM声質変換において
従来の生成アルゴリズムよりも高い音質改善効果
2/16
HMMによる特徴量のモデル化
[Tokuda et al., 2013.]
テキスト
“Sample”
𝝀 = argmax 𝑃 𝒀|𝑿, 𝝀
テキスト
解析
“s” “ae” …
コンテキスト要因
𝑿
“s”
𝝁1,
𝜮1
音声特徴量
“Sample”
音声
音声
分析
“a”
𝝁2,
𝜮2
𝝁3,
𝜮3
𝒀
* 𝑁 ∙; 𝝁, 𝜮 は平均ベクトル 𝝁 と
共分散行列 𝜮 の正規分布
3/16
GMMによる特徴量のモデル化
[Stylianou et al., 1998.]
𝝀 = argmax 𝑃 𝑿𝑡 , 𝒀𝑡 |𝝀
音声
“Sample”
音声
分析
𝑿𝑡
𝝁1, 𝜮1
𝝁2, 𝜮2
音声特徴量
𝝁3, 𝜮3
“Sample”
音声
𝒀𝑡
音声
分析
音声特徴量
𝑡: 時間インデックス
4/16
入力特徴量 𝑿 が与えられた下での
音声パラメータ系列生成
[Tokuda et al., 2000.]
静的・動的特徴量間の制約 𝑾 の下で音声パラメータ系列 𝒚 を生成
𝑃 𝒀|𝑿, 𝝀 ~ 𝑃 𝒀|𝒒, 𝑿, 𝝀 = 𝑁 𝑾𝒚; 𝝁, 𝜮
𝒚 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮
∗ 𝒀 = 𝑾𝒚,𝒒: 準最適なHMM状態系列 or GMM分布系列
d-th mel-cepstrum 𝑦𝑑 𝑡

Natural parameters
Generated parameters
Time 𝑡
パラメータ系列の過剰な平滑化で音質が劣化・・・
5/16
系列内変動(GV)を考慮した
音声パラメータ系列生成
[Toda et al., 2007.]
GV制約(=広がりの制約)付きでパラメータ生成
𝒚 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝒗 𝒚 ; 𝝁v , 𝜮v
1
𝑣𝑑 𝒚 =
𝑇
d-th mel-cepstrum 𝑦𝑑 𝑡

𝑇
𝑡=1
𝑦𝑑 𝑡 − 𝑦𝑑
2
𝜔
𝜔: 重み
𝑇: フレーム数
Natural
w/o GV
w/ GV
Time 𝑡
未だに自然/生成パラメータは大きく異なる・・・
6/16
提案法
7
変調スペクトル(MS)の定義
[Takamichi et al., 2014.]

MS (Modulation Spectrum): パラメータ系列のパワースペクトル
–
2次
モーメント
𝑦𝑑 𝑡
–
時間的変動を表現可能 [Atlas et al., 2003.]
GVの数学的拡張で、パラメータ系列を変調周波数毎の要素に分解
パワー
スペクトル
Time 𝑡

GV (スカラ)
MS (ベクトル)
0 … f … M-1
d次のパラメータ系列の,f 番目のMS (MはFFT長の半分)
𝑠𝑑,𝑓 𝒚 =
−𝜋𝑓𝑡
𝑦𝑑 𝑡 cos
𝑀
𝑡
2
+
−𝜋𝑓𝑡
𝑦𝑑 𝑡 sin
𝑀
𝑡
2
8/16
Log MS of the d-th mel-cepstrum
自然/合成音声の変調スペクトル
Natural
w/ GV
w/o GV
Modulation frequency [Hz]
合成音声の変調スペクトルを補償することで音質改善
9/16
提案法

MS制約(=振動の制約)を考慮した音声パラメータ生成
𝒚 = argmax 𝑁 𝑾𝒚; 𝝁, 𝜮 𝑁 𝒔 𝒚 ; 𝝁s , 𝜮s

𝜔: 重み
MS制約 𝑁 𝒔 𝒚 ; 𝝁s , 𝜮s の効果
–

𝜔
生成パラメータ系列のMSを補償(=自然音声のMSに近づける)
実装
–
–
–
初期化: 従来の生成 + MSを補償するフィルタ [Takamichi et al., 2014.]
生成: 最急降下法(目的関数の一次微分を利用)による反復的生成
後処理: 50Hzカットオフのローパスフィルタ
10/16
Log MS of the d-th mel-cepstrum
提案法の効果(変調スペクトル)
w/ MS
Natural
w/ GV
w/o GV
Modulation frequency [Hz]
提案法により変調スペクトルを補償!
11/16
d-th Mel-cepstrum 𝑦𝑑 𝑡
提案法の効果(パラメータ時系列)
w/ GV
Natural
w/o GV
w/ MS
Time t
振動したパラメータ系列を生成!
12/16
Log GV
提案法の効果(GV)
Natural
Temporally-larger scale
w/o GV
Temporally-smaller scale
w/ GV
w/ MS
Index of mel-cepstrum d
GVを考慮していないが,GVを補償!
13/16
主観評価の条件
HMM音声合成
GMM声質変換
統計モデル
5状態 HSMM
64混合 GMM
話者
ARCTIC databaseの男性/女性英語話者,16 kHz
音声パラメータ
25次元のメルケプストラム (スペクトルパラメータ),
対数F0,5帯域の非周期成分 (音源パラメータ)
学習データ
593文
評価データ
学習データに含まれない100文
共分散行列
HMM/GMM,MSモデル共に対角共分散行列
提案法の適用
メルケプストラム & F0
比較手法
GV: GVを考慮したパラメータ生成 [Toda et al., 2007.]
MS: MSを考慮したパラメータ生成 (提案法)
50文
メルケプストラム
音質に関するABテスト (HMM音声合成,GMM声質変換)
を実施
話者性に関するXABテスト(GMM声質変換のみ)
14/16
評価結果
提案法による音質改善効果を確認
* エラーバーは95%信頼区間
15/16
まとめ



目的: 統計的パラメトリック音声合成の音質改善
提案法: MSを考慮した音声パラメータ生成法
今後の予定
–
–
MSを考慮した学習法 … 次の講演で報告
MSを補償するフィルタ [Takamichi et al., 2014a-c] との比較
16/16