齋藤佑樹, 高道慎之介, 猿渡洋 (東京大学大学院情報理工

Anti-spoofing に敵対するDNN音声変換の評価
齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東京大学大学院 情報理工学系研究科)
1. 本発表の概要
問題点: 統計的パラメトリック音声合成の音質劣化
•
生成される音声特徴量系列の過剰な平滑化が一因
•
テキスト音声合成における改善策: Anti-spoofing に敵対する音響モデル学習 (敵対的DNN音声合成)
•
声のなりすましを防ぐ anti-spoofing を詐称するような音声を生成
•
[Saito et al., 2017.]
本発表:
•
音声サンプルはこちらです.
Speech samples are available.
(1) DNN音声変換のための anti-spoofing に敵対する音響モデル学習
(2) Highway network を用いた差分スペクトル推定
結果: 提案手法による音質改善効果を確認
•
•
http://sython.org/demo/sp201701advvc/demo.html
2. 従来手法
2.1 Minimum Generation Error (MGE) 学習 [Wu et al., 2016.]
•
𝒙1
𝒙
ML-based
parameter
generation
𝒚
(1) 特徴量変換 [Toda et al., 2007.]
•
Excitation
Excitation
feats.
feats.
Excitation
Excitation
Synthesis
analysis
conversion
filtering
𝒚1
ෝ
𝐿G 𝒚, 𝒚
⋯
⋯
⋯
⋯
⋯
ෝ
𝒚
෡
𝒀
⋯
⋯
⋯
Delta
calculation
𝑾
⋯
⋯
⋯
⋯
Generation
error
⋯
⋯
𝒙𝑇
𝑿
DNNs
2.2 音声変換方式
•
𝒚𝑇
Input
speech
Spectral
feats.
𝑮 ⋅
•
•
MGE学習の損失関数 (特徴量の生成誤差)
•
1
ෝ = 𝒚
ෝ−𝒚
𝐿G 𝒚, 𝒚
𝑇
•
⊤
ෝ−𝒚
𝒚
(2) 差分スペクトル推定 [Kobayashi et al., 2014.]
•
Input
speech
→ Minimize
Converted
speech
Synthesis
filtering
Spectral
Spectral
feats.
differentials
Spectral
Spectral
differentials
analysis
estimation
問題点: 自然音声と異なる特徴量分布
自然音声と比較して分布が縮小
•
柔軟な音源特徴量変換
ボコーダ処理による
音質劣化
Spectral
conversion
Spectral
analysis
ෝ: { input, output, converted } speech features
𝒙, 𝒚, 𝒚
෡ : { input, converted } static-dynamic speech features
𝑿, 𝒀
Spectral
feats.
Converted
speech
ボコーダ処理による
音質劣化を回避
音源特徴量の変換が困難
3. 提案手法
(1) Anti-spoofing に敵対する音響モデル学習
𝒙1
𝒙
Anti-spoofing
→ Minimize
𝑻 ⋅ : Transform gate
推定結果に対する重み (0 ~ 1)
•
(a) MGE
Anti-spoofing を
詐称するための損失
𝐸𝐿 G
ෝ = 𝐿G 𝒚, 𝒚
ෝ + 𝜔D
ෝ
𝐿 𝒚, 𝒚
𝐿D,1 𝒚
𝐸𝐿 D
→ Minimize
ෝ , 𝐿D,1 𝒚
ෝ の期待値 (損失のスケールを調整)
𝜔D : 重み, 𝐸𝐿G , , 𝐸𝐿D : 𝐿G 𝐲, 𝒚
13th
mel-cepstral
coefficients
𝒙 から 𝒚 − 𝒙 を推定
•
•
ෝ
𝐿D,0 𝒚
② 音響モデルの更新
MGE
Transform
gate
𝑮 ⋅ : 差分スペクトル推定器
•
𝑡=1
𝐿D,1 𝒚
Natural
入力音声特徴量に応じて
推定結果を重み付け
𝑻 𝒙
𝑻 ⋅
ෝ =𝒙+𝑮 𝒙 ⊙𝑻 𝒙
𝒚
ෝ𝑇
𝒚
⋯
⋯
𝑡=1
Spectral
differentials
estimation
𝒙
1:
natural
0: converted
𝑇
1
1
ෝ = − ෍ log 𝐷 𝒚𝑡 − ෍ log 1 − 𝐷 𝒚
ෝ𝑡
𝐿D 𝒚, 𝒚
𝑇
𝑇
•
ෝ
𝐿D 𝒚, 𝒚
𝑮 𝒙
ෝ1
𝒚
⋯
⋯
⋯
⋯
Cross-entropy
⋯
𝑇
⋯
⋯
⋯
𝑮 ⋅
𝒙
⋯
𝝓 ⋅
① Anti-spoofing の更新
𝒙𝑇
⋯
•
𝒚𝑇
⋯
𝝓 𝒚𝑡 = 𝒚𝑡
⋯
本発表では
𝒙1
入力音声特徴量を
直接的に利用
ෝ
𝒚
⋯
or
Feature
function
𝒚1
[Srivastava et al., 2015.]
𝒙
⋯
ෝ
𝐿G 𝒚, 𝒚
𝒚
⋯
Feature
conversion
ෝ
𝒚
⋯
⋯
𝒙𝑇
𝑮 ⋅
Generation
error
(2) Highway net を用いた差分スペクトル推定
•
Proposed
提案手法により
分布の違いを補償!
Feature index
•
(b) Proposed
1.0
55
50
45
40
35
30
25
20
15
10
5
高次メルケプストラム
0.9
•
0.8
小さい重み
→ 入力音声特徴量を
直接的に使用
•
0.7
•
0.6
•
0.5
低次メルケプストラム
0.4
•
0.3
0.2
0.1
100
200
300
400 100
200
Frame index
11th mel-cepstral coefficients
300
400
•
•
0.0
大きい重み
→ 入力音声特徴量を
重点的に変換
4. 実験的評価
データセット
学習 / 評価データ
サンプリング周波数
音声パラメータ
ATR 音素バランス503文 (男性話者 2名)
A-I セット 450文 / Jセット 53文
16 kHz
60次元のメルケプストラム, 𝐹0 , 5帯域の非周期性指標
提案法の適用 / 重み 𝜔D
メルケプストラム / 1.0
音響モデル & anti-spoofing Feed-Forward
MGE
Proposed
MGE
Proposed
0.0
音質 (ABテスト)
MGE
Proposed
話者性 (XABテスト)
0.2
0.4
0.6
音質 (AB テスト)
0.8
1.0
MGE
Proposed
0.0
話者性 (XABテスト)
0.2
0.4
0.6
0.8
1.0
(a) 特徴量変換 w/ Feed-Forward
(b) 差分スペクトル推定 w/ highway net
プリファレンススコア (エラーバーは95%信頼区間)
©Yuki Saito, 2017/01/21