スライド 1

話者適応を用いたNMFによる声質変換
1-R5-20
☆藤井貴生,相原龍,中鹿亘,滝口哲也,有木康雄 (神戸大)
研究背景・研究目的
従来は統計的アプローチによる声質変換がされてきた

GMMに基づく声質変換[Y. Stylianou, 1998]
Exemplar-basedな手法の提案

雑音環境下における声質変換[Takashima, 2012]
パラレル辞書
入力話者と出力話者が同じテキストを発話した学習サンプル
を用意(パラレルデータ)
Dynamic Programmingによるマッチングにより
フレーム間の同期を取り、それらの特徴量を並べたもの
を辞書とする(パラレル辞書)
NMFを用いた声質変換
声質変換
NMFを用いた声質変換
辞書適応
t
s
ˆ
D  AD
入力系列を入力話者辞書と重み行列の線形結合で表現
得られた重み行列と出力話者辞書から変換後のスペク
トルを生成
従来のNMFによる声質変換手法では,入力話者と出力話者
の大量のパラレルデータを用意しておかなければならない
出力話者の少量の音声データのみを辞書適応に用いること
で,出力話者辞書を生成
A  arg min d ( X , AD H )
t
s
s
評価関数
A

t
A  A
X
s
s
DH
s
s
AD H


s
1D H
評価実験


T
更新式
s T
実験結果
50単語(CLOSED)
話者性の変換実験

入力話者:男性1名

出力話者:女性1名
提案手法を含む3つの手法との比較

GMMに基づく声質変換法(GMM)

NMFを用いた声質変換法(NMF)

NMF(話者適応)を用いた声質変換法(Ada-NMF)
Normalized Spectrum Distortion(NSD)から
変換の精度を算出
入力音声は男性話者の発話した単語・文章

学習データに含まれる50単語(CLOSED)

学習データに含まれていない25文章(OPEN)
まとめ・今後の課題
NMFによる声質変換において,話者適応を行うことで少量
の音声データから辞書を生成する手法を提案した
雑音環境下におけるNMFを用いた声質変換において,本提
案を適用する手法の検討を進めていく
25文章(OPEN)