雑音環境下における 非負値行列因子分解を用いた声質変 換 神戸大学大学院システム情報学研究科 情報科学専攻 CS17 有木研究室 藤井 貴生,相原龍,高島遼一,滝口哲也,有木康雄 ARIKI Lab. Kobe Univ. 声質変換とは? • 声質変換は、入力音声を音韻情報などは保ったまま、話者 性のような特定の情報のみを変換する技術である • 話者変換や感情変換、発話支援など様々なタスクへの応用 – 異なる言語間における話者変換により、ある話者の性質で母国語以 外の言語を発声 “いきおい” 入力話者 出力話者 ARIKI Lab. Kobe Univ. 研究背景・研究目的 • 従来は統計的アプローチによる声質変換がされてきた – GMMに基づく声質変換 入力話者 同一発話内容 フレーム毎に特徴量抽出 + の学習データ (パラレルデータ) DTWによりフレームを同期 フレーム毎の 特徴量 同一発話の フレームのペアから 変換関数を学習 出力話者 • 従来手法は雑音を考慮した定式化がされていない 雑音環境下における声質変換 ARIKI Lab. Kobe Univ. 声質変換システムの流れ 変換 “いきおい” 入力音声 (雑音重畳) 学習 パラレル辞書構築 特徴量抽出 Sparse Coding 変換 GMM学習 入力話者 GMMに基づく 補正 音声合成 出力音声 出力話者 ARIKI Lab. Kobe Univ. パラレル辞書 • 入力話者と出力話者が同じテキストを発話した学習サンプ ルを用意(パラレルデータ) • Dynamic Programmingによるマッチングによりフレーム間 の同期を取り、それらの特徴量を並べたものを辞書とする (パラレル辞書) 平滑化 スペクトル 入力話者音声 (source) 特徴量 抽出 出力話者音声 (target) As 入力話者 辞書 t 出力話者 辞書 フレーム間同期 平滑化 スペクトル A パラレル辞書 ARIKI Lab. Kobe Univ. Sparse Codingによる雑音除去・声質変換 • 雑音の辞書を足すことで、入力音声を雑音と音声に分離可能 – 雑音辞書は入力の前後の無音区間から構築 – 平滑化スペクトルは本手法における雑音の分離には適さないため、 入力、雑音及びそれらの辞書は通常の振幅スペクトルを用いる L D X K J s 分解 入力系列 (振幅スペクトル) (D x L) パラレル 辞書 A s N 入力話者辞書 雑音辞書 (振幅スペクトル) (振幅 (D x J) スペクトル) (D x K) Hs ? H N 音声辞書に対する 重みのみをコピー 重み行列を推定 (J x L) At 出力話者辞書 (平滑化スペクトル) (D x J) 内積により 再構成 入力の 重み行列 ˆt X 変換後の スペクトル系列 (D x L) Sparse Codingによる雑音除去・声質変換 • 雑音の辞書を足すことで、入力音声を雑音と音声に分離可能 変換 入力音声 (雑音重畳) – 雑音辞書は入力の前後の無音区間から構築 – 平滑化スペクトルは本手法における雑音の分離には適さないため、 入力、雑音及びそれらの辞書は通常の振幅スペクトルを用いる 学習 L K J パラレル辞書構築 D X s 分解 A s 特徴量抽出 Hs N Sparse Coding 雑音辞書 変換 入力系列 入力話者辞書 (振幅スペクトル) (振幅スペクトル) (振幅 (D x L) N (D x J) スペクトル) (D x K) パラレル GMM学習 GMMに基づく 重み行列を推定 辞書 H 補正 At 出力話者辞書 (平滑化スペクトル) (D x J) ? 音声辞書に対する 重みのみをコピー (J x L) 音声合成 出力音声 入力の 重み行列 内積により 再構成 ˆt X 変換後の スペクトル系列 (D x L) 提案手法 • 入力系列から推定される重み行列と,実際の目標の スペクトルを表す重み行列には相違がある →Sparse Coding変換後にGMMに基づく補正を行う 50 100 L 50 100 K J 150 200 150 250 200 300 250 300 D 350 400 Xs 450 500 50 100 As 分解 150 入力系列 (振幅スペクトル) (D x L) パラレル 辞書 N Hs 400 450 500 50 200 入力話者辞書 雑音辞書 (振幅スペクトル) (振幅 (D x J) スペクトル) (D x K) H Xt 350 100 150 目標となる スペクトル系列 200 音声辞書に対する 重みのみをコピー 相違がある GMMに基づく 補正 N 重み行列を推定 (J x L) 50 100 150 ˆt X 200 X t A t H st 250 300 350 400 450 目標となる スペクトル系列 出力話者辞書 (平滑化スペクトル) (D x J) 500 50 推定されるべき 入力の 重み行列 重み行列 変換後の スペクトル系列 (D x L) 100 150 200 GMM学習 • Sparse Coding変換後のスペクトルと目標話者のスペクト ルを学習データとしてGMMを学習する →216単語のパラレルデータを用意 D L J K Xs As N 分解 入力系列 (振幅スペクトル) (D x L) パラレル 辞書 入力話者辞書 雑音辞書 (振幅スペクトル) (振幅 (D x J) スペクトル) (D x K) Hs Xt 目標となる スペクトル系列 HN 変換モデル生成 A t 出力話者辞書 (平滑化スペクトル) (D x J) Hs ˆt X 変換後の スペクトル系列 (D x L) 評価実験 • 雑音重畳音声を入力とする話者性の変換実験 • 2つの従来手法との比較 – GMMに基づく声質変換法 – Sparse Codingを用いた声質変換法 • 変換後の音声と目標音声とのケプストラム距離から変換の 精度を算出 • 入力音声は男性話者の発話した単語・文章 – 学習データに含まれる50単語(CLOSED) – 学習データに含まれていない25文章(OPEN) 辞書構築データ ATRデータベース216単語 入力話者(source) 男性1名 出力話者(target) 女性1名 雑音環境 レストラン(SNR:10dB) 実験結果 50単語(CLOSED) 25文章(OPEN) 450 Cepstrum Distance Cepstrum Distance 350 300 250 200 150 100 400 350 300 250 200 GMM Sparse Coding source Sparse Coding + GMM target GMM GMM SC Sparse Coding Sparse Coding + GMM SC+GMM CLOSED・OPENの両条件で提案手法を 用いた場合が最も目標音声へと近似された ARIKI Lab. Kobe Univ. まとめ・今後の課題 • 本研究では雑音重畳音声に対する声質変換の検討 を行った • 評価実験により、雑音環境下において本提案手法 が有効であることが示された • Sparse Codingによる重み行列の推定に問題がある →重み行列自身を変換する手法の検討 ARIKI Lab. Kobe Univ. ご清聴ありがとうございました ARIKI Lab. Kobe Univ.
© Copyright 2025 ExpyDoc