非負値行列因子分解による 構音障害者の声質変換 神戸大学システム情報学研究科 相原龍, 高島遼一, 滝口哲也, 有木康雄 研究背景 聴覚・言語障害者は全国に約34万人 (平成18年度 厚生労働省) がいしゅつ 構音障害 言葉を正しく明瞭に発話できない 子音の欠落 アテト-ゼ型の脳性麻痺による構音障害者を対象 アテトーゼ=意図的動作時や緊張状態に起こる不随意運動 構音障害者の声質変換 www.***.com 声質変換とは? 声質変換 Aさんの声 Bさんの声 障害者音声変換 障害者音声 健常者音声 子音が復元され,聞き取りやすく www.***.com 従来手法 Gaussian Mixture Model : GMM 障害者と健常者のパラレルデータ 変換音声を平均で推定 Over-smoothing M y t hm (xt )[μ m 1 (Y) m m ( YX ) ( ( XX ) 1 m ) (xt μ (mX) )] www.***.com 提案手法・・・非負値行列因子分解とは? NMF基づく声質変換 非負値行列因子分解(Non-negative Matrix Factorization) Sparse性を考慮 Exemplar-based⇒少ないデータでも自然性 L J L D X 入力パターン系列 (D x L) D A J H 辞書 (Exemplars) (D x J) (Activity の推定にはスパース制約付きNMFを使用) 時系列毎に得られる 各Exemplarに対する重み (Activities) (J x L) www.***.com アライメント問題 パラレルデータの作成 HMM強制アライメント⇒DPマッチング 健常者 A A A AkAkaK aK K K K Ki Ki kI kI I I I 障害者 A A A AkAkaK aK aK aK Ki Ki Ki kI kI I I I www.***.com アライメント問題 パラレルデータの作成 HMM強制アライメント⇒DPマッチング 健常者 A A A AkAkaK aK K K K Ki Ki kI kI I I I 障害者 A A A AkAkaK aK aK aK Ki Ki Ki kI kI I I I www.***.com アライメント問題 パラレルデータの作成 HMM強制アライメント⇒DPマッチング 健常者 A A A AkAkaK aK K K K Ki Ki kI kI I I I 障害者 A A A AkAkaK aK aK aK Ki Ki Ki kI kI I I I www.***.com X s 提案手法 障害者音声 As 障害者音声 Hs Sparse Coding a a bb _ _ _ k k _ _ i i _ _ _ _ aaakkk i i i D D J L J 健常者音声 At パラレルデータ (学習辞書データ) L a a bb _ _ _ k k _ _ i i _ _ _ _ D J www.***.com X s 提案手法 障害者音声 As 障害者音声 Hs Sparse Coding a a bb _ _ _ k k _ _ i i _ _ _ _ aaakkk i i i D D J L J 健常者音声 At パラレルデータ (学習辞書データ) L a a bb _ _ _ k k _ _ i i _ _ _ _ D J www.***.com X s 提案手法 障害者音声 As 障害者音声 Hs Sparse Coding a a bb _ _ _ k k _ _ i i _ _ _ _ aaakkk i i i D D J L J 健常者音声 At パラレルデータ (学習辞書データ) L a a bb _ _ _ k k _ _ i i _ _ _ _ D J www.***.com X s 提案手法 障害者音声 As 障害者音声 Hs Sparse Coding a a bb _ _ _ k k _ _ i i _ _ _ _ aaakkk i i i D D J L J 健常者音声 At パラレルデータ (学習辞書データ) L a a bb _ _ _ k k _ _ i i _ _ _ _ D J www.***.com X s 提案手法 障害者音声 As 障害者音声 Hs Sparse Coding a a bb _ _ _ k k _ _ i i _ _ _ _ aaakkk i i i D D J L J 健常者音声 At パラレルデータ (学習辞書データ) L a a bb _ _ _ k k _ _ i i _ _ _ _ D J www.***.com X s 提案手法 障害者音声 As 障害者音声 Hs Sparse Coding a a bb _ _ _ k k _ _ i i _ _ _ _ aaakkk i i i D D J L J 健常者音声 At パラレルデータ (学習辞書データ) L a a bb _ _ _ k k _ _ i i _ _ _ _ D J www.***.com X s 提案手法 障害者音声 As 障害者音声 Hs Sparse Coding a a bb _ _ _ k k _ _ i i _ _ _ _ aaakkk i i i D D J L J 健常者音声 At パラレルデータ (学習辞書データ) L a a bb _ _ _ k k _ _ i i _ _ _ _ D J www.***.com X s 提案手法 障害者音声 As 障害者音声 Sparse Coding a a bb _ _ _ k k _ _ i i _ _ _ _ aaakkk i i i D D L J ˆt X 健常者音声 Hs a a bb _ _ _ k k _ _ i i _ _ _ _ aaakkk i i i D At パラレルデータ (学習辞書データ) D L J J Lwww.***.com X s 提案手法 障害者音声 As 障害者音声 Sparse Coding a a bb _ _ _ k k _ _ i i _ _ _ _ aaakkk i i i D D L J ˆt X 健常者音声 Hs a a bb _ _ _ k k _ _ i i _ _ _ _ aaakkk i i i D At パラレルデータ (学習辞書データ) D L J J Lwww.***.com 実験条件 データベース 健常者:男性音素バランス単語 障害者:男性1名 学習:50単語 変換:(A)Closed (B)Open(One-leave-out法) 聴取実験 成人男女10名による主観評価 「聞き取りやすさ」「子音の明瞭性」 5段階MOS評価 1.非常に聴き取りずらい⇔5.非常に聴き取りやすい www.***.com 実験結果 外出 がいしゅつ (g ai sh u ts u) 障害者音声 Closed変換音声 Open変換音声 健常者音声 www.***.com 実験結果 t e ch ou 障害者(Source) Closed変換 健常者(Target) Open変換 www.***.com 実験結果 約0.7ポイント上昇 約0.3ポイント上昇 www.***.com 考察 聞き取りやすさ,子音の明瞭さ共に向上 変換ノイズ ⇒セグメント特徴量の導入 欠落した子音は完全には復元されない ⇒辞書行列の変換 www.***.com 非負値行列因子分解による構音障害者の声質変換 APPENDIX www.***.com 子音の欠落 健常者 A A A AkAkaK aK K K K Ki Ki kI kI I I I 学習 データ 障害者 A A A AkAkaK aK aK aK Ki Ki Ki kI kI I I I 入力データ 障害者 A AkaK Ki kI I www.***.com 考察 欠落した子音は完全には復元されない 健常者 A A A AkAkaK aK K K K Ki Ki kI kI I I I 学習 データ 障害者 A A A AkAkaK aK aK aK Ki Ki Ki kI kI I I I 入力データ 障害者 A AkaK Ki kI I www.***.com 考察 欠落した子音は完全には復元されない 健常者 A A A AkAkaK aK K K K Ki Ki kI kI I I I 学習 データ 障害者 A A A AkAkaK aK aK aK Ki Ki Ki kI kI I I I 入力データ 障害者 A AkaK Ki kI I www.***.com
© Copyright 2024 ExpyDoc