Anti-spoofing に敵対するDNN音声変換の評価 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東京大学大学院 情報理工学系研究科) 1. 本発表の概要 問題点: 統計的パラメトリック音声合成の音質劣化 • 生成される音声特徴量系列の過剰な平滑化が一因 • テキスト音声合成における改善策: Anti-spoofing に敵対する音響モデル学習 (敵対的DNN音声合成) • 声のなりすましを防ぐ anti-spoofing を詐称するような音声を生成 • [Saito et al., 2017.] 本発表: • 音声サンプルはこちらです. Speech samples are available. (1) DNN音声変換のための anti-spoofing に敵対する音響モデル学習 (2) Highway network を用いた差分スペクトル推定 結果: 提案手法による音質改善効果を確認 • • http://sython.org/demo/sp201701advvc/demo.html 2. 従来手法 2.1 Minimum Generation Error (MGE) 学習 [Wu et al., 2016.] • 𝒙1 𝒙 ML-based parameter generation 𝒚 (1) 特徴量変換 [Toda et al., 2007.] • Excitation Excitation feats. feats. Excitation Excitation Synthesis analysis conversion filtering 𝒚1 ෝ 𝐿G 𝒚, 𝒚 ⋯ ⋯ ⋯ ⋯ ⋯ ෝ 𝒚 𝒀 ⋯ ⋯ ⋯ Delta calculation 𝑾 ⋯ ⋯ ⋯ ⋯ Generation error ⋯ ⋯ 𝒙𝑇 𝑿 DNNs 2.2 音声変換方式 • 𝒚𝑇 Input speech Spectral feats. 𝑮 ⋅ • • MGE学習の損失関数 (特徴量の生成誤差) • 1 ෝ = 𝒚 ෝ−𝒚 𝐿G 𝒚, 𝒚 𝑇 • ⊤ ෝ−𝒚 𝒚 (2) 差分スペクトル推定 [Kobayashi et al., 2014.] • Input speech → Minimize Converted speech Synthesis filtering Spectral Spectral feats. differentials Spectral Spectral differentials analysis estimation 問題点: 自然音声と異なる特徴量分布 自然音声と比較して分布が縮小 • 柔軟な音源特徴量変換 ボコーダ処理による 音質劣化 Spectral conversion Spectral analysis ෝ: { input, output, converted } speech features 𝒙, 𝒚, 𝒚 : { input, converted } static-dynamic speech features 𝑿, 𝒀 Spectral feats. Converted speech ボコーダ処理による 音質劣化を回避 音源特徴量の変換が困難 3. 提案手法 (1) Anti-spoofing に敵対する音響モデル学習 𝒙1 𝒙 Anti-spoofing → Minimize 𝑻 ⋅ : Transform gate 推定結果に対する重み (0 ~ 1) • (a) MGE Anti-spoofing を 詐称するための損失 𝐸𝐿 G ෝ = 𝐿G 𝒚, 𝒚 ෝ + 𝜔D ෝ 𝐿 𝒚, 𝒚 𝐿D,1 𝒚 𝐸𝐿 D → Minimize ෝ , 𝐿D,1 𝒚 ෝ の期待値 (損失のスケールを調整) 𝜔D : 重み, 𝐸𝐿G , , 𝐸𝐿D : 𝐿G 𝐲, 𝒚 13th mel-cepstral coefficients 𝒙 から 𝒚 − 𝒙 を推定 • • ෝ 𝐿D,0 𝒚 ② 音響モデルの更新 MGE Transform gate 𝑮 ⋅ : 差分スペクトル推定器 • 𝑡=1 𝐿D,1 𝒚 Natural 入力音声特徴量に応じて 推定結果を重み付け 𝑻 𝒙 𝑻 ⋅ ෝ =𝒙+𝑮 𝒙 ⊙𝑻 𝒙 𝒚 ෝ𝑇 𝒚 ⋯ ⋯ 𝑡=1 Spectral differentials estimation 𝒙 1: natural 0: converted 𝑇 1 1 ෝ = − log 𝐷 𝒚𝑡 − log 1 − 𝐷 𝒚 ෝ𝑡 𝐿D 𝒚, 𝒚 𝑇 𝑇 • ෝ 𝐿D 𝒚, 𝒚 𝑮 𝒙 ෝ1 𝒚 ⋯ ⋯ ⋯ ⋯ Cross-entropy ⋯ 𝑇 ⋯ ⋯ ⋯ 𝑮 ⋅ 𝒙 ⋯ 𝝓 ⋅ ① Anti-spoofing の更新 𝒙𝑇 ⋯ • 𝒚𝑇 ⋯ 𝝓 𝒚𝑡 = 𝒚𝑡 ⋯ 本発表では 𝒙1 入力音声特徴量を 直接的に利用 ෝ 𝒚 ⋯ or Feature function 𝒚1 [Srivastava et al., 2015.] 𝒙 ⋯ ෝ 𝐿G 𝒚, 𝒚 𝒚 ⋯ Feature conversion ෝ 𝒚 ⋯ ⋯ 𝒙𝑇 𝑮 ⋅ Generation error (2) Highway net を用いた差分スペクトル推定 • Proposed 提案手法により 分布の違いを補償! Feature index • (b) Proposed 1.0 55 50 45 40 35 30 25 20 15 10 5 高次メルケプストラム 0.9 • 0.8 小さい重み → 入力音声特徴量を 直接的に使用 • 0.7 • 0.6 • 0.5 低次メルケプストラム 0.4 • 0.3 0.2 0.1 100 200 300 400 100 200 Frame index 11th mel-cepstral coefficients 300 400 • • 0.0 大きい重み → 入力音声特徴量を 重点的に変換 4. 実験的評価 データセット 学習 / 評価データ サンプリング周波数 音声パラメータ ATR 音素バランス503文 (男性話者 2名) A-I セット 450文 / Jセット 53文 16 kHz 60次元のメルケプストラム, 𝐹0 , 5帯域の非周期性指標 提案法の適用 / 重み 𝜔D メルケプストラム / 1.0 音響モデル & anti-spoofing Feed-Forward MGE Proposed MGE Proposed 0.0 音質 (ABテスト) MGE Proposed 話者性 (XABテスト) 0.2 0.4 0.6 音質 (AB テスト) 0.8 1.0 MGE Proposed 0.0 話者性 (XABテスト) 0.2 0.4 0.6 0.8 1.0 (a) 特徴量変換 w/ Feed-Forward (b) 差分スペクトル推定 w/ highway net プリファレンススコア (エラーバーは95%信頼区間) ©Yuki Saito, 2017/01/21
© Copyright 2025 ExpyDoc