雑音環境下における 非負 値

第15回音声言語シンポジウム 音声研究会(SP)
雑音環境下におけるセグメント特徴
を考慮したNMFによる声質変換
○藤井貴生,相原龍,滝口哲也,有木康雄(神戸大)
ARIKI Lab. Kobe Univ.
発表概要
•
•
•
•
•
•
•
声質変換とは?
従来手法
雑音環境について
NMFによる声質変換・雑音除去
セグメント特徴
評価実験
まとめ・今後の課題
声質変換とは?
入力音声を音韻情報などは保ったまま、
話者性のような特定の情報のみを変換する技術である
話者変換
感情変換
発話支援
不明瞭な音声
明瞭な音声
ARIKI Lab. Kobe Univ.
研究背景・研究目的
• 従来は統計的アプローチによる声質変換がされてきた
– GMMに基づく声質変換
入力話者
同一発話内容
フレーム毎に特徴量抽出
+
の学習データ
(パラレルデータ) DTWによりフレームを同期
出力話者
フレーム毎の
特徴量
同一発話の
フレームのペアから
変換関数を学習
• 従来手法は雑音を考慮した定式化がされていない
ARIKI Lab. Kobe Univ.
研究背景・研究目的
• 従来は統計的アプローチによる声質変換がされてきた
– GMMに基づく声質変換
入力話者
同一発話内容
フレーム毎に特徴量抽出
+
の学習データ
(パラレルデータ) DTWによりフレームを同期
フレーム毎の
特徴量
同一発話の
フレームのペアから
変換関数を学習
出力話者
• 従来手法は雑音を考慮した定式化がされていない
入力音声
目標音声
変換音声
ARIKI Lab. Kobe Univ.
研究背景・研究目的
• 従来は統計的アプローチによる声質変換がされてきた
– GMMに基づく声質変換
入力話者
同一発話内容
フレーム毎に特徴量抽出
+
の学習データ
(パラレルデータ) DTWによりフレームを同期
フレーム毎の
特徴量
同一発話の
フレームのペアから
変換関数を学習
出力話者
• 従来手法は雑音を考慮した定式化がされていない
M
yt   hm ( xt )[
m 1
(Y )
m
 m (m
(YX )
( XX )
) 1 ( xt  m( X ) )]
ARIKI Lab. Kobe Univ.
研究背景・研究目的
• 従来は統計的アプローチによる声質変換がされてきた
– GMMに基づく声質変換
入力話者
同一発話内容
フレーム毎に特徴量抽出
+
の学習データ
(パラレルデータ) DTWによりフレームを同期
フレーム毎の
特徴量
同一発話の
フレームのペアから
変換関数を学習
出力話者
• 従来手法は雑音を考慮した定式化がされていない
雑音環境下におけるNMF声質変換
パラレル辞書
変換
雑音除去
セグメント特徴
ARIKI Lab. Kobe Univ.
パラレル辞書
• 入力話者と出力話者が同じテキストを発話した学習サンプ
ルを用意(パラレルデータ)
• Dynamic Programmingによるマッチングによりフレーム間
の同期を取り、それらの特徴量を並べたものを辞書とする
(パラレル辞書)
・・・
入力話者音声
(source)
特徴量
抽出
出力話者音声
(target)
Ds
・・・
入力話者
辞書
t
・・・
出力話者
辞書
フレーム間同期
・・・
D
パラレル辞書
ARIKI Lab. Kobe Univ.
NMFによる雑音除去・声質変換
• 雑音の辞書を足すことで、入力音声を雑音と音声に分離可能
– 雑音辞書は入力の前後の無音区間から構築
– 平滑化スペクトルは本手法における雑音の分離には適さないため、
入力、雑音及びそれらの辞書は通常の振幅スペクトルを用いる
L
D
J
DN
分解
入力系列
(振幅スペクトル)
(D x L)
パラレル
辞書
K
入力話者辞書 雑音辞書
(振幅スペクトル) (振幅
(D x J)
スペクトル)
(D x K)
音声辞書に対する
重みのみをコピー
重み行列を推定
(J x L)
X S  D S内積により
H S  DN H N
出力話者辞書
(平滑化スペクトル)
(D x J)
再構成
入力の
重み行列
変換後の
スペクトル系列
(D x L)
NMFにおける問題点
• 重み行列の推定精度に問題がある
• 入力系列から正確な重み行列を推定したい
L
D
J
DN
分解
入力系列
(振幅スペクトル)
(D x L)
パラレル
辞書
K
目標となる
スペクトル系列
入力話者辞書 雑音辞書
(振幅スペクトル) (振幅
(D x J)
スペクトル)
(D x K)
MISMATCH
重み行列を推定
(J x L)
出力話者辞書
(平滑化スペクトル)
(D x J)
内積により
再構成
入力の
重み行列
変換後の
スペクトル系列
(D x L)
セグメント特徴を考慮したNMF
• 各フレームを独立に考えている
a a a k k i i …
→正しい基底が選択されにくい
• 音声は時系列データである以上,
前後の関係を考慮したい
a a a k k i i i …
a a k k i i i i …
セグメント特徴の導入
評価実験
• 雑音重畳音声を入力とする話者性の変換実験
• 2つの従来手法との比較
– GMMに基づく声質変換法
– NMFを用いた声質変換法(セグメントなし)
• Normalized Spectrum distortion(NSD)から各変換手法の精
度を算出
2
Y
Xˆ
S S
• 入力音声は男性話者の発話した単語
– 学習データに含まれる50単語(CLOSED)
– 学習データに含まれない50単語(OPEN)
NSD 
辞書構築データ
ATRデータベース216単語
入力話者(source)
男性2名
出力話者(target)
女性2名
雑音環境
レストラン(SNR:5,10.20dB)
S S
Y
X 2
実験結果(50単語CLOSED)
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
GMM
NMF
Seg-NMF
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
GMM
NMF
Seg-NMF
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
GMM
NMF
Seg-NMF
5dB
GMM
NMF
Seg-NMF
男性1→女性1
0.79
0.55
0.49
男性2→女性2
0.60
0.24
0.20
Avg
0.70
0.39
0.34
10dB
GMM
NMF
Seg-NMF
男性1→女性1
0.77
0.46
0.40
男性2→女性2
0.67
0.36
0.31
Avg
0.72
0.41
0.36
20dB
GMM
NMF
Seg-NMF
男性1→女性1
0.73
0.32
0.25
男性2→女性2
0.60
0.24
0.20
Avg
0.66
0.28
0.22
実験結果(50単語OPEN)
0.79
0.78
0.77
0.76
0.75
0.74
0.73
0.72
0.71
GMM
NMF
Seg-NMF
0.755
0.75
0.745
0.74
0.735
0.73
0.725
0.72
0.715
GMM
NMF
Seg-NMF
0.82
5dB
GMM
NMF
Seg-NMF
男性1→女性1
0.82
0.80
0.79
男性2→女性2
0.78
0.71
0.70
Avg
0.80
0.76
0.75
10dB
GMM
NMF
Seg-NMF
男性1→女性1
0.81
0.80
0.79
男性2→女性2
0.74
0.68
0.67
Avg
0.77
0.74
0.73
20dB
GMM
NMF
Seg-NMF
男性1→女性1
0.79
0.80
0.79
男性2→女性2
0.70
0.67
0.66
Avg
0.75
0.74
0.73
0.8
0.78
0.76
0.74
0.72
GMM
NMF
Seg-NMF
変換音声とスペクトラム
source
NMF
target
Seg-NMF
GMM
まとめ
• 雑音環境下におけるNMFを用いたexemplarbasedな声質変換を提案した
• 実験結果より,セグメント特徴を考慮した
本手法が雑音環境化において有効であるこ
とが示された
• 今後の課題・検討
– 音素単位の辞書クラスタリング
– 話者適応による目標話者辞書の作成
ご清聴ありがとうございました
ARIKI Lab. Kobe Univ.
セグメント段数による変化
220
215
210
205
200
195
190
185
180
175
seg1
seg2
seg3
seg4
seg5
• 50単語(closed)がテストデータ
• Seg1はセグメントなしの条件
• 段数が増えるごとに距離が小さくなっている
– 一定の段数で収束している?
変換音声
5dB
Original
Target
GMM
NMF
Seg-NMF
Original
Target
GMM
NMF
Seg-NMF
Original
Target
GMM
NMF
Seg-NMF
男性1→女性1
10dB
男性1→女性1
20dB
男性1→女性1
話者適応によるNMF変換
• 出力話者の辞書を入力話者の辞書から作成
→本来必要であった入力・出力話者のパラレルデータを
必要としない
L
D
X
J
s
分解
入力系列
(振幅スペクトル)
(D x L)
パラレル
辞書
D
s
入力話者辞書
(振幅スペクトル)
(D x J)
Hs
重み行列を推定
(J x L)
音声辞書に対する
重みをコピー
話者適応
Dˆ t
出力話者辞書
(平滑化スペクトル)
(D x J)
内積により
再構成
入力の
重み行列
ˆt
X
変換後の
スペクトル系列
(D x L)
話者適応による辞書作成
• 適応行列(A)、入力話者辞書、重み行列の積で出力話者音
声を表現する
• 出力話者の音声(適応データ)を表すように入力話者辞書が
変換される
出力話者音声(target)
L
D
Xt
J
D
分解
L
入力話者音声(source)
D
入力系列
(振幅スペクトル)
(D x L)
Xt
s
T
(
D
H
)
A( D s H )
A  A
1( D s H )T  1
A
適応行列
(D x D)
Ds
D
入力話者辞書
(振幅スペクトル)
(D x J)
Dˆ t
出力話者辞書
J
Hs
重み行列
(J x L)
声質変換とは?
• 声質変換は、入力音声を音韻情報などは保ったまま、話者
性のような特定の情報のみを変換する技術である
• 話者変換や感情変換、発話支援など様々なタスクへの応用
– 異なる言語間における話者変換により、ある話者の声質で母国語以
外の言語を発声
“おんせい”
入力話者
出力話者
ARIKI Lab. Kobe Univ.
変換音声
辞書構築データ
(入力話者音声)
ATRデータベース216単語
適応データ
(出力話者音声)
上記データから10単語
上記以外の5文章
入力話者(source)
男性1名
出力話者(target)
女性1名
音声環境
ノイズなし
X  AD H
t
入力話者音声
出力話者音声
s
変換音声
(話者適応)
変換音声
(従来のNMF手法)
NMFによる雑音除去・声質変換
• 雑音の辞書を足すことで、入力音声を雑音と音声に分離可能
– 雑音辞書は入力の前後の無音区間から構築
– 平滑化スペクトルは本手法における雑音の分離には適さないため、
入力、雑音及びそれらの辞書は通常の振幅スペクトルを用いる
L
D
X
K
J
s
分解
入力系列
(振幅スペクトル)
(D x L)
パラレル
辞書
D
s
N
入力話者辞書 雑音辞書
(振幅スペクトル) (振幅
(D x J)
スペクトル)
(D x K)
Hs
H
N
音声辞書に対する
重みのみをコピー
重み行列を推定
(J x L)
Dt
出力話者辞書
(平滑化スペクトル)
(D x J)
内積により
再構成
入力の
重み行列
ˆt
X
変換後の
スペクトル系列
(D x L)
ここまでのまとめ・今後の課題
• 本研究では雑音重畳音声に対する声質変換の検討
を行った
• NMFによる重み行列の推定に問題がある
→重み行列自身を変換する手法の検討(GMM,DBN)
• 辞書の構成に問題があるのでは?
ARIKI Lab. Kobe Univ.
評価実験
• 雑音重畳音声を入力とする話者性の変換実験
• 2つの従来手法との比較
– GMMに基づく声質変換法
– NMFを用いた声質変換法(セグメントなし)
• 変換後の音声と目標音声とのケプストラム距離から変換の
精度を算出
• 入力音声は男性話者の発話した単語
– 学習データに含まれる50単語(CLOSED)
辞書構築データ
ATRデータベース216単語
入力話者(source)
男性2名
出力話者(target)
女性2名
雑音環境
レストラン(SNR:5,10.20dB)
テストデータ(open)による実験
800
750
• 25文章(open)がテストデー
タ
700
650
• ここでも段数が大きいほう
が距離が小さい
600
550
Original
GMM
NMF
NMF+Seg(2) NMF+Seg(3)
Original
GMM
NMF
807.5
624.354
602.54
NMF+Seg(2) NMF+Seg(3)
599.124
597.375
まとめ・今後の課題
• NMFを用いた声質変換において,セグメント特徴を導入
することで精度が向上した
• 話者数,ノイズ比など条件を変えて実験を試みた
– セグメントの段数
– オープンな条件での実験
• まだ確認できていない実験
– 定常ノイズ環境
– メルケプストラム歪みによる評価
• 雑音除去の精度を向上させる
• 秋季音響学会(9/25~27開催,投稿済)
SII2013(査読待ち,投稿済)
GMMに基づく補正
• 入力系列から推定される重み行列と,実際の目標の
スペクトルを表す重み行列には相違がある
→ NMF変換後にGMMに基づく補正を行う
50
100
L
50
100
K
J
150
200
150
250
200
300
250
300
D
350
400
Xs
450
500
50
100
As
分解
150
入力系列
(振幅スペクトル)
(D x L)
パラレル
辞書
N
Hs
400
450
500
50
200
入力話者辞書 雑音辞書
(振幅スペクトル) (振幅
(D x J)
スペクトル)
(D x K)
H
Xt
350
100
150
目標となる
スペクトル系列
200
音声辞書に対する
重みのみをコピー
相違がある
GMMに基づく
補正
N
重み行列を推定
(J x L)
50
100
150
ˆt
X
200
X
t
A
t
H
st
250
300
350
400
450
目標となる
スペクトル系列
出力話者辞書
(平滑化スペクトル)
(D x J)
500
50
推定されるべき
入力の
重み行列
重み行列
変換後の
スペクトル系列
(D x L)
100
150
200
Activity
estimation
D
e
e
al
es
s
N
Source
Noise
dictionary dictionary
X
H
s
H
N
H
s
t
D
t