スライド 1

辞書選択型NMFを用いた
構音障害者の話者性を維持した声質変換
日本音響学会
2014年春季研究発表会
2-Q5-5
☆相原 龍,滝口 哲也,有木 康雄(神戸大)
構音障害とは?
概要
研究目的
アテトーゼ型脳性麻痺による構音障害者の不明瞭な音声を聞
き取りやすくなるように変換する
別人の健常者の声に変換するのではなく,障害者音声の話者
性を維持する
アテトーゼ型脳性麻痺による構音障害
「アテトーゼ現象」:意図した動作に緊張状態
口舌だけでない,全身の運動障害
知的障害は比較的少ない
障害者音声スペクトル
健常者音声スペクトル
6000
Frequency [Hz]
アプローチ
非負値行列因子分解(NMF)によるExemplar-based声質変換
子音のみの変換により,話者性を維持
辞書選択の導入により自然性が向上
i
k
i
oi
5000
5000
4000
4000
3000
3000
2000
2000
1000
1000
0
0.2
0.4
0.6
0.8
i
6000
0
1
0.1
Time [Sec]
声質変換とは?
音声に含まれる多様な情報のうち,特定の情報のみを変換する
混合正規分布モデル(GMM)による統計的手法が一般的
(Y. Stylionou et al., 1998)
Alignment
using
DTW
Feature
extraction
for each frame
Training
mapping
function
Parallel data
Input spectrum
 m
( YX )
converted spectrum
(
( XX ) 1
m
) (x t  μ
( X)
m
mean vector of source
0.9
Estimated Activity
of source signal
s
s
H
Convert
t
X
A
H
t
s
Target dictionary
Converted spectrum
実験条件
辞書行列を音素カテゴリ副辞書に分割する
副辞書を選択するためのカテゴライズ辞書を作る
Φ
s
1
Φ
副辞書ごとに
GMMを仮定
...
s
2
辞書行列(Exemplar)
A
Φ
Φ
s
K
s
K
副辞書選択・変換
入力スペクトルをカテゴライズ辞書で分解し,副辞書を選択
選択された副辞書内で変換を行う
入力スペクトル
NMF
X
カテゴライズ
辞書行列
s

s
X
NMF
Φ
s
1
H
s

Φ
s
2
H
s
2
... Φ sK
変換スペクトル
ˆX t
Φ Φ
t
1
216 words
全基底数
サンプリング
12 kHz
NMF更新回数
300
特徴量
mfcc+Δmfcc+ΔΔmfcc
次元数
64
学習データ
216 words
GMM混合数
64 mixtures
t
2
聞き取り易さ
MOS基準による
5段階評価
2.6
2.4
2.2
2
副辞書を選択
s
2,565
学習データ
主観評価実験
s
次元数
64,467
exemplars
MOS

s
STRAIGHT
spectrum with
segment
特徴量
H
s
2
... Φ tK
話者性の維持
比較的安定している母音を維持することで話者性を保つ
母音の出力副辞書は障害者,子音の出力副辞書は健常者
自然性
2者択一
による
対比較
Preference Score
カテゴライズ辞書行列
(平均ベクトルの集合)
a
e
i
o
u
p,t,k,b,d,g,s
s,h,z
m,n,N
j,w
r
0.8
評価実験
音素カテゴリ副辞書
音素
0.7
Copy
辞書選択型NMFによる声質変換
カテゴリ
a
e
i
o
u
破裂音
摩擦音
鼻音
半母音
流音
0.6
Parallel data
問題点:障害者の話者性は別人健常者の話者性に
「自分らしい声で話したい」という障害者のニーズに応えられない
音素カテゴリ別副辞書行列
(Exemplar)
A
Estimate
activities
)]
Preference Score
m 1
0.5
1
Source dictionary
s
mean vector of target source spectrum
y t   hm (xt )[μ
0.4
入力スペクトルは,入力辞書行列の基底と重みの線形結合で表
される.
選択された基底を,対応する出力辞書行列の基底と置き換える
ことで,出力話者スペクトルへ変換される.
X
(Y)
m
0.3
oi
Time [Sec]
非負値行列因子分解
s
s
s
1 L
s
d ( X , Α H )  (1 ).  H
Target
training
speech
M
0.2
i
NMF声質変換
声質変換
Source
training
speech
k
話者性
XABによる
対比較
Proposed
1
0.8
0.6
0.4
0.2
0
1
0.8
0.6
0.4
0.2
0
GMM
NMF
GMM
Proposed
NMF
NMF
GMM
Proposed
NMF
source
Proposed
GMM
Proposed GMM