辞書選択型NMFを用いた構音障害者の話者性を維持した声質変換日本音響学会 2014年春季研究発表会 2-Q5-5 ☆相原龍,滝口哲也,有木康雄(神戸大) 構音障害とは？概要 研究目的 アテトーゼ型脳性麻痺による構音障害者の不明瞭な音声を聞き取りやすくなるように変換する 別人の健常者の声に変換するのではなく，障害者音声の話者性を維持するアテトーゼ型脳性麻痺による構音障害 「アテトーゼ現象」：意図した動作に緊張状態 口舌だけでない，全身の運動障害 知的障害は比較的少ない障害者音声スペクトル健常者音声スペクトル 6000 Frequency [Hz] アプローチ 非負値行列因子分解（NMF）によるExemplar-based声質変換 子音のみの変換により，話者性を維持 辞書選択の導入により自然性が向上 i k i oi 5000 5000 4000 4000 3000 3000 2000 2000 1000 1000 0 0.2 0.4 0.6 0.8 i 6000 0 1 0.1 Time [Sec] 声質変換とは？音声に含まれる多様な情報のうち，特定の情報のみを変換する 混合正規分布モデル（GMM）による統計的手法が一般的 (Y. Stylionou et al., 1998) Alignment using DTW Feature extraction for each frame Training mapping function Parallel data Input spectrum  m ( YX ) converted spectrum ( ( XX ) 1 m ) (x t  μ ( X) m mean vector of source 0.9 Estimated Activity of source signal s s H Convert t X A H t s Target dictionary Converted spectrum 実験条件 辞書行列を音素カテゴリ副辞書に分割する 副辞書を選択するためのカテゴライズ辞書を作る Φ s 1 Φ 副辞書ごとに GMMを仮定 ... s 2 辞書行列(Exemplar) A Φ Φ s K s K 副辞書選択・変換 入力スペクトルをカテゴライズ辞書で分解し，副辞書を選択 選択された副辞書内で変換を行う入力スペクトル NMF X カテゴライズ辞書行列 s  s X NMF Φ s 1 H s  Φ s 2 H s 2 ... Φ sK 変換スペクトル ˆX t Φ Φ t 1 216 words 全基底数サンプリング 12 kHz NMF更新回数 300 特徴量 mfcc+Δmfcc+ΔΔmfcc 次元数 64 学習データ 216 words GMM混合数 64 mixtures t 2 聞き取り易さ MOS基準による 5段階評価 2.6 2.4 2.2 2 副辞書を選択 s 2,565 学習データ 主観評価実験 s 次元数 64,467 exemplars MOS  s STRAIGHT spectrum with segment 特徴量 H s 2 ... Φ tK 話者性の維持 比較的安定している母音を維持することで話者性を保つ 母音の出力副辞書は障害者，子音の出力副辞書は健常者 自然性２者択一による対比較 Preference Score カテゴライズ辞書行列 (平均ベクトルの集合) a e i o u p,t,k,b,d,g,s s,h,z m,n,N j,w r 0.8 評価実験 音素カテゴリ副辞書音素 0.7 Copy 辞書選択型NMFによる声質変換カテゴリ a e i o u 破裂音摩擦音鼻音半母音流音 0.6 Parallel data 問題点：障害者の話者性は別人健常者の話者性に「自分らしい声で話したい」という障害者のニーズに応えられない音素カテゴリ別副辞書行列 (Exemplar) A Estimate activities )] Preference Score m 1 0.5 1 Source dictionary s mean vector of target source spectrum y t   hm (xt )[μ 0.4 入力スペクトルは，入力辞書行列の基底と重みの線形結合で表される． 選択された基底を，対応する出力辞書行列の基底と置き換えることで，出力話者スペクトルへ変換される． X (Y) m 0.3 oi Time [Sec] 非負値行列因子分解 s s s 1 L s d ( X , Α H )  (1 ).  H Target training speech M 0.2 i NMF声質変換 声質変換 Source training speech k 話者性 XABによる対比較 Proposed 1 0.8 0.6 0.4 0.2 0 1 0.8 0.6 0.4 0.2 0 GMM NMF GMM Proposed NMF NMF GMM Proposed NMF source Proposed GMM Proposed GMM