第15回音声言語シンポジウム 音声研究会(SP) 雑音環境下におけるセグメント特徴 を考慮したNMFによる声質変換 ○藤井貴生,相原龍,滝口哲也,有木康雄(神戸大) ARIKI Lab. Kobe Univ. 発表概要 • • • • • • • 声質変換とは? 従来手法 雑音環境について NMFによる声質変換・雑音除去 セグメント特徴 評価実験 まとめ・今後の課題 声質変換とは? 入力音声を音韻情報などは保ったまま、 話者性のような特定の情報のみを変換する技術である 話者変換 感情変換 発話支援 不明瞭な音声 明瞭な音声 ARIKI Lab. Kobe Univ. 研究背景・研究目的 • 従来は統計的アプローチによる声質変換がされてきた – GMMに基づく声質変換 入力話者 同一発話内容 フレーム毎に特徴量抽出 + の学習データ (パラレルデータ) DTWによりフレームを同期 出力話者 フレーム毎の 特徴量 同一発話の フレームのペアから 変換関数を学習 • 従来手法は雑音を考慮した定式化がされていない ARIKI Lab. Kobe Univ. 研究背景・研究目的 • 従来は統計的アプローチによる声質変換がされてきた – GMMに基づく声質変換 入力話者 同一発話内容 フレーム毎に特徴量抽出 + の学習データ (パラレルデータ) DTWによりフレームを同期 フレーム毎の 特徴量 同一発話の フレームのペアから 変換関数を学習 出力話者 • 従来手法は雑音を考慮した定式化がされていない 入力音声 目標音声 変換音声 ARIKI Lab. Kobe Univ. 研究背景・研究目的 • 従来は統計的アプローチによる声質変換がされてきた – GMMに基づく声質変換 入力話者 同一発話内容 フレーム毎に特徴量抽出 + の学習データ (パラレルデータ) DTWによりフレームを同期 フレーム毎の 特徴量 同一発話の フレームのペアから 変換関数を学習 出力話者 • 従来手法は雑音を考慮した定式化がされていない M yt hm ( xt )[ m 1 (Y ) m m (m (YX ) ( XX ) ) 1 ( xt m( X ) )] ARIKI Lab. Kobe Univ. 研究背景・研究目的 • 従来は統計的アプローチによる声質変換がされてきた – GMMに基づく声質変換 入力話者 同一発話内容 フレーム毎に特徴量抽出 + の学習データ (パラレルデータ) DTWによりフレームを同期 フレーム毎の 特徴量 同一発話の フレームのペアから 変換関数を学習 出力話者 • 従来手法は雑音を考慮した定式化がされていない 雑音環境下におけるNMF声質変換 パラレル辞書 変換 雑音除去 セグメント特徴 ARIKI Lab. Kobe Univ. パラレル辞書 • 入力話者と出力話者が同じテキストを発話した学習サンプ ルを用意(パラレルデータ) • Dynamic Programmingによるマッチングによりフレーム間 の同期を取り、それらの特徴量を並べたものを辞書とする (パラレル辞書) ・・・ 入力話者音声 (source) 特徴量 抽出 出力話者音声 (target) Ds ・・・ 入力話者 辞書 t ・・・ 出力話者 辞書 フレーム間同期 ・・・ D パラレル辞書 ARIKI Lab. Kobe Univ. NMFによる雑音除去・声質変換 • 雑音の辞書を足すことで、入力音声を雑音と音声に分離可能 – 雑音辞書は入力の前後の無音区間から構築 – 平滑化スペクトルは本手法における雑音の分離には適さないため、 入力、雑音及びそれらの辞書は通常の振幅スペクトルを用いる L D J DN 分解 入力系列 (振幅スペクトル) (D x L) パラレル 辞書 K 入力話者辞書 雑音辞書 (振幅スペクトル) (振幅 (D x J) スペクトル) (D x K) 音声辞書に対する 重みのみをコピー 重み行列を推定 (J x L) X S D S内積により H S DN H N 出力話者辞書 (平滑化スペクトル) (D x J) 再構成 入力の 重み行列 変換後の スペクトル系列 (D x L) NMFにおける問題点 • 重み行列の推定精度に問題がある • 入力系列から正確な重み行列を推定したい L D J DN 分解 入力系列 (振幅スペクトル) (D x L) パラレル 辞書 K 目標となる スペクトル系列 入力話者辞書 雑音辞書 (振幅スペクトル) (振幅 (D x J) スペクトル) (D x K) MISMATCH 重み行列を推定 (J x L) 出力話者辞書 (平滑化スペクトル) (D x J) 内積により 再構成 入力の 重み行列 変換後の スペクトル系列 (D x L) セグメント特徴を考慮したNMF • 各フレームを独立に考えている a a a k k i i … →正しい基底が選択されにくい • 音声は時系列データである以上, 前後の関係を考慮したい a a a k k i i i … a a k k i i i i … セグメント特徴の導入 評価実験 • 雑音重畳音声を入力とする話者性の変換実験 • 2つの従来手法との比較 – GMMに基づく声質変換法 – NMFを用いた声質変換法(セグメントなし) • Normalized Spectrum distortion(NSD)から各変換手法の精 度を算出 2 Y Xˆ S S • 入力音声は男性話者の発話した単語 – 学習データに含まれる50単語(CLOSED) – 学習データに含まれない50単語(OPEN) NSD 辞書構築データ ATRデータベース216単語 入力話者(source) 男性2名 出力話者(target) 女性2名 雑音環境 レストラン(SNR:5,10.20dB) S S Y X 2 実験結果(50単語CLOSED) 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 GMM NMF Seg-NMF 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 GMM NMF Seg-NMF 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 GMM NMF Seg-NMF 5dB GMM NMF Seg-NMF 男性1→女性1 0.79 0.55 0.49 男性2→女性2 0.60 0.24 0.20 Avg 0.70 0.39 0.34 10dB GMM NMF Seg-NMF 男性1→女性1 0.77 0.46 0.40 男性2→女性2 0.67 0.36 0.31 Avg 0.72 0.41 0.36 20dB GMM NMF Seg-NMF 男性1→女性1 0.73 0.32 0.25 男性2→女性2 0.60 0.24 0.20 Avg 0.66 0.28 0.22 実験結果(50単語OPEN) 0.79 0.78 0.77 0.76 0.75 0.74 0.73 0.72 0.71 GMM NMF Seg-NMF 0.755 0.75 0.745 0.74 0.735 0.73 0.725 0.72 0.715 GMM NMF Seg-NMF 0.82 5dB GMM NMF Seg-NMF 男性1→女性1 0.82 0.80 0.79 男性2→女性2 0.78 0.71 0.70 Avg 0.80 0.76 0.75 10dB GMM NMF Seg-NMF 男性1→女性1 0.81 0.80 0.79 男性2→女性2 0.74 0.68 0.67 Avg 0.77 0.74 0.73 20dB GMM NMF Seg-NMF 男性1→女性1 0.79 0.80 0.79 男性2→女性2 0.70 0.67 0.66 Avg 0.75 0.74 0.73 0.8 0.78 0.76 0.74 0.72 GMM NMF Seg-NMF 変換音声とスペクトラム source NMF target Seg-NMF GMM まとめ • 雑音環境下におけるNMFを用いたexemplarbasedな声質変換を提案した • 実験結果より,セグメント特徴を考慮した 本手法が雑音環境化において有効であるこ とが示された • 今後の課題・検討 – 音素単位の辞書クラスタリング – 話者適応による目標話者辞書の作成 ご清聴ありがとうございました ARIKI Lab. Kobe Univ. セグメント段数による変化 220 215 210 205 200 195 190 185 180 175 seg1 seg2 seg3 seg4 seg5 • 50単語(closed)がテストデータ • Seg1はセグメントなしの条件 • 段数が増えるごとに距離が小さくなっている – 一定の段数で収束している? 変換音声 5dB Original Target GMM NMF Seg-NMF Original Target GMM NMF Seg-NMF Original Target GMM NMF Seg-NMF 男性1→女性1 10dB 男性1→女性1 20dB 男性1→女性1 話者適応によるNMF変換 • 出力話者の辞書を入力話者の辞書から作成 →本来必要であった入力・出力話者のパラレルデータを 必要としない L D X J s 分解 入力系列 (振幅スペクトル) (D x L) パラレル 辞書 D s 入力話者辞書 (振幅スペクトル) (D x J) Hs 重み行列を推定 (J x L) 音声辞書に対する 重みをコピー 話者適応 Dˆ t 出力話者辞書 (平滑化スペクトル) (D x J) 内積により 再構成 入力の 重み行列 ˆt X 変換後の スペクトル系列 (D x L) 話者適応による辞書作成 • 適応行列(A)、入力話者辞書、重み行列の積で出力話者音 声を表現する • 出力話者の音声(適応データ)を表すように入力話者辞書が 変換される 出力話者音声(target) L D Xt J D 分解 L 入力話者音声(source) D 入力系列 (振幅スペクトル) (D x L) Xt s T ( D H ) A( D s H ) A A 1( D s H )T 1 A 適応行列 (D x D) Ds D 入力話者辞書 (振幅スペクトル) (D x J) Dˆ t 出力話者辞書 J Hs 重み行列 (J x L) 声質変換とは? • 声質変換は、入力音声を音韻情報などは保ったまま、話者 性のような特定の情報のみを変換する技術である • 話者変換や感情変換、発話支援など様々なタスクへの応用 – 異なる言語間における話者変換により、ある話者の声質で母国語以 外の言語を発声 “おんせい” 入力話者 出力話者 ARIKI Lab. Kobe Univ. 変換音声 辞書構築データ (入力話者音声) ATRデータベース216単語 適応データ (出力話者音声) 上記データから10単語 上記以外の5文章 入力話者(source) 男性1名 出力話者(target) 女性1名 音声環境 ノイズなし X AD H t 入力話者音声 出力話者音声 s 変換音声 (話者適応) 変換音声 (従来のNMF手法) NMFによる雑音除去・声質変換 • 雑音の辞書を足すことで、入力音声を雑音と音声に分離可能 – 雑音辞書は入力の前後の無音区間から構築 – 平滑化スペクトルは本手法における雑音の分離には適さないため、 入力、雑音及びそれらの辞書は通常の振幅スペクトルを用いる L D X K J s 分解 入力系列 (振幅スペクトル) (D x L) パラレル 辞書 D s N 入力話者辞書 雑音辞書 (振幅スペクトル) (振幅 (D x J) スペクトル) (D x K) Hs H N 音声辞書に対する 重みのみをコピー 重み行列を推定 (J x L) Dt 出力話者辞書 (平滑化スペクトル) (D x J) 内積により 再構成 入力の 重み行列 ˆt X 変換後の スペクトル系列 (D x L) ここまでのまとめ・今後の課題 • 本研究では雑音重畳音声に対する声質変換の検討 を行った • NMFによる重み行列の推定に問題がある →重み行列自身を変換する手法の検討(GMM,DBN) • 辞書の構成に問題があるのでは? ARIKI Lab. Kobe Univ. 評価実験 • 雑音重畳音声を入力とする話者性の変換実験 • 2つの従来手法との比較 – GMMに基づく声質変換法 – NMFを用いた声質変換法(セグメントなし) • 変換後の音声と目標音声とのケプストラム距離から変換の 精度を算出 • 入力音声は男性話者の発話した単語 – 学習データに含まれる50単語(CLOSED) 辞書構築データ ATRデータベース216単語 入力話者(source) 男性2名 出力話者(target) 女性2名 雑音環境 レストラン(SNR:5,10.20dB) テストデータ(open)による実験 800 750 • 25文章(open)がテストデー タ 700 650 • ここでも段数が大きいほう が距離が小さい 600 550 Original GMM NMF NMF+Seg(2) NMF+Seg(3) Original GMM NMF 807.5 624.354 602.54 NMF+Seg(2) NMF+Seg(3) 599.124 597.375 まとめ・今後の課題 • NMFを用いた声質変換において,セグメント特徴を導入 することで精度が向上した • 話者数,ノイズ比など条件を変えて実験を試みた – セグメントの段数 – オープンな条件での実験 • まだ確認できていない実験 – 定常ノイズ環境 – メルケプストラム歪みによる評価 • 雑音除去の精度を向上させる • 秋季音響学会(9/25~27開催,投稿済) SII2013(査読待ち,投稿済) GMMに基づく補正 • 入力系列から推定される重み行列と,実際の目標の スペクトルを表す重み行列には相違がある → NMF変換後にGMMに基づく補正を行う 50 100 L 50 100 K J 150 200 150 250 200 300 250 300 D 350 400 Xs 450 500 50 100 As 分解 150 入力系列 (振幅スペクトル) (D x L) パラレル 辞書 N Hs 400 450 500 50 200 入力話者辞書 雑音辞書 (振幅スペクトル) (振幅 (D x J) スペクトル) (D x K) H Xt 350 100 150 目標となる スペクトル系列 200 音声辞書に対する 重みのみをコピー 相違がある GMMに基づく 補正 N 重み行列を推定 (J x L) 50 100 150 ˆt X 200 X t A t H st 250 300 350 400 450 目標となる スペクトル系列 出力話者辞書 (平滑化スペクトル) (D x J) 500 50 推定されるべき 入力の 重み行列 重み行列 変換後の スペクトル系列 (D x L) 100 150 200 Activity estimation D e e al es s N Source Noise dictionary dictionary X H s H N H s t D t
© Copyright 2024 ExpyDoc