スライド 1

3-Q-31
構音障害者を対象とした混合正規分布モデルに基づく統
計的声質変換に関する研究
石井 良,滝口 哲也,有木 康雄(神戸大学)
研究背景・目的
構音障害
構音障害とは
言葉を正しく明瞭に発音できない症状
構音障害の原因の一つ:脳性麻痺
出生前や出生時に受けた外傷のため筋肉の制御が難しい
アテトーゼ(不随意運動)が生じる
特にアテトーゼの生じやすい状況
-意図的動作時
-緊張状態
聴覚・言語障害者は全国に約34万人(平成18年度厚生労
働省)
福祉分野における情報技術の発展の重要性
構音障害者の講演の補助等
手足の不自由などで音声に頼るしかない場合
構音障害者の声質変換が実現
Frequency
構音障害者の雇用機会の増加,社会的
自立につながる
特徴量抽出・学習
STRAIGHT
[H. Kawahara, 1997]
健常者音声
スペクトル
非周期成分
デ
ー
タ
間
の
ア
ラ
イ
ン
メ
ン
ト
処
理
DCT
DCT
低次48次元
を抽出
基本周波数
スペクトル
障害者音声
非周期成分
DCT
低次48次元
DCT
を抽出
基本周波数
構音障害者
Frequency
健常者
Time
Time
GMM
・混合正規分布
G
M
M
を
学
習
P( Xt , Yt | λ
μ
( X, Y )
m
・健常者,障害者の108単語のパラレルデータセットで学習
(GMMの混合数は16~64)
・アラインメント処理は各単語の特徴量間のユークリッド距離に基
づくDPマッチング
・標本化周波数12kHz
・障害者音声10単語を変換
・静かな部屋でのヘッドホンによる両耳受聴
・音声の聴き取りやすさを5段階で評価(1:非常に聴き取りづら
い~5;非常に聴き取りやすい)
( X, Y )
μ

μ
)  αm N ([X , Y ] ; μ
T
t
m 1
( X)
m
(Y)
m



T T
t
( XX )

( X,Y )

m


m  (YX )
m


( XY )
m
( YY )
m
M
y t   hm (xt )[μ
m 1
(Y)
m
 m
αm N (xt ; μ

M
( YX )
( X)
m
α
N
(
x
;
μ
i
t
i 1
(
, m
( X)
i
( XX ) 1
m
( XX )
, i
) (x t  μ
)
( XX )
)
アラインメント
・アラインメント成功例(あかちゃん)
実験結果
5
構音障害者の音声は,
子音部が存在しない場合
が多々ある
MOS
4
・アラインメント失敗例(こんにゃく)
3
2
1
0
健常者
障害者
16
24
32
64
(混合数)
問題点と今後の課題
アラインメントの問題の検討
明瞭度という点におけるGMMによる変換音声の問題
( X,Y )
m
, m



( X)
m
( X, Y )
)
Xt :入力特徴量
Yt :出力特徴量
・変換式
hm (xt ) 
実験条件
M
)]