雑音環境下における

雑音環境下における
非負値行列因子分解を用いた声質変
換
神戸大学大学院システム情報学研究科
情報科学専攻 CS17 有木研究室
藤井 貴生,相原龍,高島遼一,滝口哲也,有木康雄
ARIKI Lab. Kobe Univ.
声質変換とは?
• 声質変換は、入力音声を音韻情報などは保ったまま、話者
性のような特定の情報のみを変換する技術である
• 話者変換や感情変換、発話支援など様々なタスクへの応用
– 異なる言語間における話者変換により、ある話者の性質で母国語以
外の言語を発声
“いきおい”
入力話者
出力話者
ARIKI Lab. Kobe Univ.
研究背景・研究目的
• 従来は統計的アプローチによる声質変換がされてきた
– GMMに基づく声質変換
入力話者
同一発話内容
フレーム毎に特徴量抽出
+
の学習データ
(パラレルデータ) DTWによりフレームを同期
フレーム毎の
特徴量
同一発話の
フレームのペアから
変換関数を学習
出力話者
• 従来手法は雑音を考慮した定式化がされていない
雑音環境下における声質変換
ARIKI Lab. Kobe Univ.
声質変換システムの流れ
変換
“いきおい”
入力音声
(雑音重畳)
学習
パラレル辞書構築
特徴量抽出
Sparse Coding
変換
GMM学習
入力話者
GMMに基づく
補正
音声合成
出力音声
出力話者
ARIKI Lab. Kobe Univ.
パラレル辞書
• 入力話者と出力話者が同じテキストを発話した学習サンプ
ルを用意(パラレルデータ)
• Dynamic Programmingによるマッチングによりフレーム間
の同期を取り、それらの特徴量を並べたものを辞書とする
(パラレル辞書)
平滑化
スペクトル
入力話者音声
(source)
特徴量
抽出
出力話者音声
(target)
As
入力話者
辞書
t
出力話者
辞書
フレーム間同期
平滑化
スペクトル
A
パラレル辞書
ARIKI Lab. Kobe Univ.
Sparse Codingによる雑音除去・声質変換
• 雑音の辞書を足すことで、入力音声を雑音と音声に分離可能
– 雑音辞書は入力の前後の無音区間から構築
– 平滑化スペクトルは本手法における雑音の分離には適さないため、
入力、雑音及びそれらの辞書は通常の振幅スペクトルを用いる
L
D
X
K
J
s
分解
入力系列
(振幅スペクトル)
(D x L)
パラレル
辞書
A
s
N
入力話者辞書 雑音辞書
(振幅スペクトル) (振幅
(D x J)
スペクトル)
(D x K)
Hs
?
H
N
音声辞書に対する
重みのみをコピー
重み行列を推定
(J x L)
At
出力話者辞書
(平滑化スペクトル)
(D x J)
内積により
再構成
入力の
重み行列
ˆt
X
変換後の
スペクトル系列
(D x L)
Sparse Codingによる雑音除去・声質変換
• 雑音の辞書を足すことで、入力音声を雑音と音声に分離可能
変換
入力音声
(雑音重畳)
– 雑音辞書は入力の前後の無音区間から構築
– 平滑化スペクトルは本手法における雑音の分離には適さないため、
入力、雑音及びそれらの辞書は通常の振幅スペクトルを用いる
学習
L
K
J
パラレル辞書構築
D
X
s
分解
A
s
特徴量抽出
Hs
N
Sparse Coding
雑音辞書 変換
入力系列
入力話者辞書
(振幅スペクトル)
(振幅スペクトル) (振幅
(D x L)
N
(D x J)
スペクトル)
(D x K)
パラレル
GMM学習
GMMに基づく
重み行列を推定
辞書
H
補正
At
出力話者辞書
(平滑化スペクトル)
(D x J)
?
音声辞書に対する
重みのみをコピー
(J x L)
音声合成
出力音声
入力の
重み行列
内積により
再構成
ˆt
X
変換後の
スペクトル系列
(D x L)
提案手法
• 入力系列から推定される重み行列と,実際の目標の
スペクトルを表す重み行列には相違がある
→Sparse Coding変換後にGMMに基づく補正を行う
50
100
L
50
100
K
J
150
200
150
250
200
300
250
300
D
350
400
Xs
450
500
50
100
As
分解
150
入力系列
(振幅スペクトル)
(D x L)
パラレル
辞書
N
Hs
400
450
500
50
200
入力話者辞書 雑音辞書
(振幅スペクトル) (振幅
(D x J)
スペクトル)
(D x K)
H
Xt
350
100
150
目標となる
スペクトル系列
200
音声辞書に対する
重みのみをコピー
相違がある
GMMに基づく
補正
N
重み行列を推定
(J x L)
50
100
150
ˆt
X
200
X
t
A
t
H
st
250
300
350
400
450
目標となる
スペクトル系列
出力話者辞書
(平滑化スペクトル)
(D x J)
500
50
推定されるべき
入力の
重み行列
重み行列
変換後の
スペクトル系列
(D x L)
100
150
200
GMM学習
• Sparse Coding変換後のスペクトルと目標話者のスペクト
ルを学習データとしてGMMを学習する
→216単語のパラレルデータを用意
D
L
J
K
Xs
As
N
分解
入力系列
(振幅スペクトル)
(D x L)
パラレル
辞書
入力話者辞書 雑音辞書
(振幅スペクトル) (振幅
(D x J)
スペクトル)
(D x K)
Hs
Xt
目標となる
スペクトル系列
HN
変換モデル生成
A
t
出力話者辞書
(平滑化スペクトル)
(D x J)
Hs
ˆt
X
変換後の
スペクトル系列
(D x L)
評価実験
• 雑音重畳音声を入力とする話者性の変換実験
• 2つの従来手法との比較
– GMMに基づく声質変換法
– Sparse Codingを用いた声質変換法
• 変換後の音声と目標音声とのケプストラム距離から変換の
精度を算出
• 入力音声は男性話者の発話した単語・文章
– 学習データに含まれる50単語(CLOSED)
– 学習データに含まれていない25文章(OPEN)
辞書構築データ
ATRデータベース216単語
入力話者(source)
男性1名
出力話者(target)
女性1名
雑音環境
レストラン(SNR:10dB)
実験結果
50単語(CLOSED)
25文章(OPEN)
450
Cepstrum Distance
Cepstrum Distance
350
300
250
200
150
100
400
350
300
250
200
GMM
Sparse Coding
source
Sparse Coding +
GMM
target
GMM
GMM
SC
Sparse Coding
Sparse Coding +
GMM
SC+GMM
CLOSED・OPENの両条件で提案手法を
用いた場合が最も目標音声へと近似された
ARIKI Lab. Kobe Univ.
まとめ・今後の課題
• 本研究では雑音重畳音声に対する声質変換の検討
を行った
• 評価実験により、雑音環境下において本提案手法
が有効であることが示された
• Sparse Codingによる重み行列の推定に問題がある
→重み行列自身を変換する手法の検討
ARIKI Lab. Kobe Univ.
ご清聴ありがとうございました
ARIKI Lab. Kobe Univ.