辞書選択型NMFを用いた 構音障害者の話者性を維持した声質変換 日本音響学会 2014年春季研究発表会 2-Q5-5 ☆相原 龍,滝口 哲也,有木 康雄(神戸大) 構音障害とは? 概要 研究目的 アテトーゼ型脳性麻痺による構音障害者の不明瞭な音声を聞 き取りやすくなるように変換する 別人の健常者の声に変換するのではなく,障害者音声の話者 性を維持する アテトーゼ型脳性麻痺による構音障害 「アテトーゼ現象」:意図した動作に緊張状態 口舌だけでない,全身の運動障害 知的障害は比較的少ない 障害者音声スペクトル 健常者音声スペクトル 6000 Frequency [Hz] アプローチ 非負値行列因子分解(NMF)によるExemplar-based声質変換 子音のみの変換により,話者性を維持 辞書選択の導入により自然性が向上 i k i oi 5000 5000 4000 4000 3000 3000 2000 2000 1000 1000 0 0.2 0.4 0.6 0.8 i 6000 0 1 0.1 Time [Sec] 声質変換とは? 音声に含まれる多様な情報のうち,特定の情報のみを変換する 混合正規分布モデル(GMM)による統計的手法が一般的 (Y. Stylionou et al., 1998) Alignment using DTW Feature extraction for each frame Training mapping function Parallel data Input spectrum m ( YX ) converted spectrum ( ( XX ) 1 m ) (x t μ ( X) m mean vector of source 0.9 Estimated Activity of source signal s s H Convert t X A H t s Target dictionary Converted spectrum 実験条件 辞書行列を音素カテゴリ副辞書に分割する 副辞書を選択するためのカテゴライズ辞書を作る Φ s 1 Φ 副辞書ごとに GMMを仮定 ... s 2 辞書行列(Exemplar) A Φ Φ s K s K 副辞書選択・変換 入力スペクトルをカテゴライズ辞書で分解し,副辞書を選択 選択された副辞書内で変換を行う 入力スペクトル NMF X カテゴライズ 辞書行列 s s X NMF Φ s 1 H s Φ s 2 H s 2 ... Φ sK 変換スペクトル ˆX t Φ Φ t 1 216 words 全基底数 サンプリング 12 kHz NMF更新回数 300 特徴量 mfcc+Δmfcc+ΔΔmfcc 次元数 64 学習データ 216 words GMM混合数 64 mixtures t 2 聞き取り易さ MOS基準による 5段階評価 2.6 2.4 2.2 2 副辞書を選択 s 2,565 学習データ 主観評価実験 s 次元数 64,467 exemplars MOS s STRAIGHT spectrum with segment 特徴量 H s 2 ... Φ tK 話者性の維持 比較的安定している母音を維持することで話者性を保つ 母音の出力副辞書は障害者,子音の出力副辞書は健常者 自然性 2者択一 による 対比較 Preference Score カテゴライズ辞書行列 (平均ベクトルの集合) a e i o u p,t,k,b,d,g,s s,h,z m,n,N j,w r 0.8 評価実験 音素カテゴリ副辞書 音素 0.7 Copy 辞書選択型NMFによる声質変換 カテゴリ a e i o u 破裂音 摩擦音 鼻音 半母音 流音 0.6 Parallel data 問題点:障害者の話者性は別人健常者の話者性に 「自分らしい声で話したい」という障害者のニーズに応えられない 音素カテゴリ別副辞書行列 (Exemplar) A Estimate activities )] Preference Score m 1 0.5 1 Source dictionary s mean vector of target source spectrum y t hm (xt )[μ 0.4 入力スペクトルは,入力辞書行列の基底と重みの線形結合で表 される. 選択された基底を,対応する出力辞書行列の基底と置き換える ことで,出力話者スペクトルへ変換される. X (Y) m 0.3 oi Time [Sec] 非負値行列因子分解 s s s 1 L s d ( X , Α H ) (1 ). H Target training speech M 0.2 i NMF声質変換 声質変換 Source training speech k 話者性 XABによる 対比較 Proposed 1 0.8 0.6 0.4 0.2 0 1 0.8 0.6 0.4 0.2 0 GMM NMF GMM Proposed NMF NMF GMM Proposed NMF source Proposed GMM Proposed GMM
© Copyright 2024 ExpyDoc