スライド 1

雑音環境下における
Sparse Coding声質変換
3-P-49d
○藤井貴生,相原龍,高島遼一,滝口哲也,有木康雄 (神戸大)
研究背景・研究目的
パラレル辞書
従来は統計的アプローチによる声質変換がされてきた

GMMに基づく声質変換[Y. Stylianou, 1998]
従来手法は雑音を考慮した定式化がなされていない
入力話者と出力話者が同じテキストを発話した学習サンプル
を用意(パラレルデータ)
Dynamic Programmingによるマッチングにより
フレーム間の同期を取り、それらの特徴量を並べたもの
を辞書とする(パラレル辞書)
雑音環境下における声質変換
声質変換
声質変換の流れ
提案手法
Sparse Coding変換により雑音除去,声質変換が行われるが,
これらはまだ完全とは言えない
→Sparse Coding変換後にGMMに基づく補正を行う
評価実験
実験結果
雑音重畳音声を入力とする話者性の変換実験



雑音環境:レストラン(SNR:10dB)
入力話者:男性1名
出力話者:女性1名
2つの従来手法との比較


GMMに基づく声質変換法
Sparse Codingを用いた声質変換法
変換後の音声と目標音声とのケプストラム距離から
変換の精度を算出
入力音声は男性話者の発話した単語・文章


学習データに含まれる50単語(CLOSED)
学習データに含まれていない25文章(OPEN)
まとめ・今後の課題
Sparse Coding変換後の特徴量に対してGMMに基づく補正
を行うことにより、出力話者への近似精度が向上した
Sparse Coding変換時の重み行列の推定に問題がある
→重み行列自身の変換を行う手法の検討
CLOSED・OPENの両条件で提案手法を
用いた場合が最も目標音声へと近似された