NMFに基づく構音障害者の声質変換

非負値行列因子分解による
構音障害者の声質変換
神戸大学システム情報学研究科
相原龍, 高島遼一, 滝口哲也, 有木康雄
研究背景
聴覚・言語障害者は全国に約34万人
(平成18年度 厚生労働省)
がいしゅつ
構音障害
 言葉を正しく明瞭に発話できない
 子音の欠落
 アテト-ゼ型の脳性麻痺による構音障害者を対象
アテトーゼ=意図的動作時や緊張状態に起こる不随意運動
構音障害者の声質変換
www.***.com
声質変換とは?
声質変換
Aさんの声
Bさんの声
障害者音声変換
障害者音声
健常者音声
子音が復元され,聞き取りやすく
www.***.com
従来手法
Gaussian Mixture Model : GMM
障害者と健常者のパラレルデータ
変換音声を平均で推定
Over-smoothing
M
y t   hm (xt )[μ
m 1
(Y)
m
 m
( YX )
(
( XX ) 1
m
) (xt  μ (mX) )]
www.***.com
提案手法・・・非負値行列因子分解とは?
NMF基づく声質変換
 非負値行列因子分解(Non-negative Matrix Factorization)
 Sparse性を考慮
 Exemplar-based⇒少ないデータでも自然性
L
J
L
D
X
入力パターン系列
(D x L)
D
A
J
H
辞書 (Exemplars)
(D x J)
(Activity の推定にはスパース制約付きNMFを使用)
時系列毎に得られる
各Exemplarに対する重み
(Activities)
(J x L)
www.***.com
アライメント問題
パラレルデータの作成
 HMM強制アライメント⇒DPマッチング
健常者 A A A AkAkaK aK K K K Ki Ki kI kI I I I
障害者 A A A AkAkaK aK aK aK Ki Ki Ki kI kI I I I
www.***.com
アライメント問題
パラレルデータの作成
 HMM強制アライメント⇒DPマッチング
健常者 A A A AkAkaK aK K K K Ki Ki kI kI I I I
障害者 A A A AkAkaK aK aK aK Ki Ki Ki kI kI I I I
www.***.com
アライメント問題
パラレルデータの作成
 HMM強制アライメント⇒DPマッチング
健常者 A A A AkAkaK aK K K K Ki Ki kI kI I I I
障害者 A A A AkAkaK aK aK aK Ki Ki Ki kI kI I I I
www.***.com
X
s
提案手法
障害者音声
As
障害者音声
Hs
Sparse
Coding
a a bb _ _ _ k k _ _ i i _ _ _ _
aaakkk i i i
D
D
J
L
J
健常者音声
At
パラレルデータ
(学習辞書データ)
L
a a bb _ _ _ k k _ _ i i _ _ _ _
D
J
www.***.com
X
s
提案手法
障害者音声
As
障害者音声
Hs
Sparse
Coding
a a bb _ _ _ k k _ _ i i _ _ _ _
aaakkk i i i
D
D
J
L
J
健常者音声
At
パラレルデータ
(学習辞書データ)
L
a a bb _ _ _ k k _ _ i i _ _ _ _
D
J
www.***.com
X
s
提案手法
障害者音声
As
障害者音声
Hs
Sparse
Coding
a a bb _ _ _ k k _ _ i i _ _ _ _
aaakkk i i i
D
D
J
L
J
健常者音声
At
パラレルデータ
(学習辞書データ)
L
a a bb _ _ _ k k _ _ i i _ _ _ _
D
J
www.***.com
X
s
提案手法
障害者音声
As
障害者音声
Hs
Sparse
Coding
a a bb _ _ _ k k _ _ i i _ _ _ _
aaakkk i i i
D
D
J
L
J
健常者音声
At
パラレルデータ
(学習辞書データ)
L
a a bb _ _ _ k k _ _ i i _ _ _ _
D
J
www.***.com
X
s
提案手法
障害者音声
As
障害者音声
Hs
Sparse
Coding
a a bb _ _ _ k k _ _ i i _ _ _ _
aaakkk i i i
D
D
J
L
J
健常者音声
At
パラレルデータ
(学習辞書データ)
L
a a bb _ _ _ k k _ _ i i _ _ _ _
D
J
www.***.com
X
s
提案手法
障害者音声
As
障害者音声
Hs
Sparse
Coding
a a bb _ _ _ k k _ _ i i _ _ _ _
aaakkk i i i
D
D
J
L
J
健常者音声
At
パラレルデータ
(学習辞書データ)
L
a a bb _ _ _ k k _ _ i i _ _ _ _
D
J
www.***.com
X
s
提案手法
障害者音声
As
障害者音声
Hs
Sparse
Coding
a a bb _ _ _ k k _ _ i i _ _ _ _
aaakkk i i i
D
D
J
L
J
健常者音声
At
パラレルデータ
(学習辞書データ)
L
a a bb _ _ _ k k _ _ i i _ _ _ _
D
J
www.***.com
X
s
提案手法
障害者音声
As
障害者音声
Sparse
Coding
a a bb _ _ _ k k _ _ i i _ _ _ _
aaakkk i i i
D
D
L
J
ˆt
X
健常者音声
Hs
a a bb _ _ _ k k _ _ i i _ _ _ _
aaakkk i i i
D
At
パラレルデータ
(学習辞書データ)
D
L
J
J
Lwww.***.com
X
s
提案手法
障害者音声
As
障害者音声
Sparse
Coding
a a bb _ _ _ k k _ _ i i _ _ _ _
aaakkk i i i
D
D
L
J
ˆt
X
健常者音声
Hs
a a bb _ _ _ k k _ _ i i _ _ _ _
aaakkk i i i
D
At
パラレルデータ
(学習辞書データ)
D
L
J
J
Lwww.***.com
実験条件
データベース
 健常者:男性音素バランス単語
 障害者:男性1名
 学習:50単語
 変換:(A)Closed (B)Open(One-leave-out法)
聴取実験
 成人男女10名による主観評価
 「聞き取りやすさ」「子音の明瞭性」
 5段階MOS評価
1.非常に聴き取りずらい⇔5.非常に聴き取りやすい
www.***.com
実験結果
外出 がいしゅつ (g ai sh u ts u)
障害者音声
Closed変換音声
Open変換音声
健常者音声
www.***.com
実験結果
t e ch ou
障害者(Source)
Closed変換
健常者(Target)
Open変換
www.***.com
実験結果
約0.7ポイント上昇
約0.3ポイント上昇
www.***.com
考察
聞き取りやすさ,子音の明瞭さ共に向上
変換ノイズ
⇒セグメント特徴量の導入
欠落した子音は完全には復元されない
⇒辞書行列の変換
www.***.com
非負値行列因子分解による構音障害者の声質変換
APPENDIX
www.***.com
子音の欠落
健常者 A A A AkAkaK aK K K K Ki Ki kI kI I I I
学習
データ
障害者 A A A AkAkaK aK aK aK Ki Ki Ki kI kI I I I
入力データ
障害者
A AkaK Ki kI I
www.***.com
考察
欠落した子音は完全には復元されない
健常者 A A A AkAkaK aK K K K Ki Ki kI kI I I I
学習
データ
障害者 A A A AkAkaK aK aK aK Ki Ki Ki kI kI I I I
入力データ
障害者
A AkaK Ki kI I
www.***.com
考察
欠落した子音は完全には復元されない
健常者 A A A AkAkaK aK K K K Ki Ki kI kI I I I
学習
データ
障害者 A A A AkAkaK aK aK aK Ki Ki Ki kI kI I I I
入力データ
障害者
A AkaK Ki kI I
www.***.com