スライド 1

固有空間法を用いた構音障害者の母音声質変換の検討
ISS-P-166
石井良,滝口哲也,有木康雄(神戸大学)
研究背景・目的
学習・変換過程
聴覚・言語障害者は全国に約３４万人（平成１８年度厚生労
働省）
福祉分野における情報技術の発展の重要性
構音障害者の講演の補助等
手足の不自由などで音声に頼るしかない場合
構音障害者の声質変換が実現
学習ステップ
xt  [ xt1,, xtd ]
T
障害者
yt  [ yt1,, ytd ]
T
y  [ y1 ,, yd ]
構音障害者
各フレームに
対して実行
 u1,1  u1,d  


UY      
ud ,1 ud ,d  
xt ：障害者の
スペクトル包絡
y t ：健常者の
スペクトル包絡
音声に変換
声質変換１
学習データ
入力音声「アオイ」
• 障害者X：「ア」「イ」「ウ」「エ」「オ」各１０発話
• 健常者Y：「あ」「い」「う」「え」「お」各１０発話
変換
音がつぶれる
ˆ
Y  Y  U YU X
Frequency
*
Frequency
c  y  UYU aˆ
T
構音障害とは
言葉を正しく明瞭に発音できない症状
構音障害の原因の一つ：脳性麻痺
出生前や出生時に受けた外傷のため筋肉の制御が難しい
アテトーゼ（不随意運動）が生じる
特にアテトーゼの生じやすい状況
－意図的動作時
－緊張状態
T
Y
音素ごとの空間を対象とした声質変換を試みる
Time
Time
声質変換２
x
xa （a ：音素のインデックス）
特徴抽出
音声
特徴量
分離
基本周波数
非周期成分
スペクトル
包絡
変換なし
変換なし
パラメータ変換
非周期成分
スペクトル
包絡
y
ya
UY
U Ya

Y t
c  y  UYU aˆ
*
t
変換音声
アプローチ
Linear Facial Expression Transfer
With AAM [M. Hunty, 2010]
ˆ
X  XX
 X : 被験者Xの顔の平均



X
ˆ : 被験者Xの顔の変動成分


被験者Ｘ
Laugh
音素ごとに変換し
「ア」,「オ」,「イ」た後，結合する
「アオイ」
「あ」,「お」,「い」
「あおい」
実験結果
被験者：成人男女８名
実験環境：静かな部屋でヘッドホンによる両耳掲示
呈示音声：「あおい」，「おう」，「あい」の３単語
呈示方法：構音障害者の音声，直接変換法による変換音声，
提案手法による変換音声，健常者の音声を順に呈示
評価方法：音声の聴き取りやすさに関する５段階評価（１：非常に
聴き取りづらい～５：非常に聴き取りやすい）
実験結果
4.41
Direct Transfer(直接変換法)
X
X
3.33
ˆ
XX  X
Laugh
ˆ
Y  YX
2.83
1.96
A：構音障害者音声
B：直接変換法による変換音声
C：提案手法による変換音声
D：健常者音声
*
Y
（

Ya
c  y a  UYaU aˆ at
*
at
実験条件
合成
被験者Ｙ

Y t
*
t
構音障害
基本周波数
at  x  aˆ t
変換後の
スペクトルを生成
T
x  [ x1 ,, xd ]
構音障害者の雇用機会の増加，社会的
自立につながる
STRAIGHT
[H. Kawahara, 1997]
at  [at1,, atd ]
フレームごとに
変動成分を算出
T
健常者
健常者
変換ステップ
Y
ˆ)
(Y  Y  Y
U Y ：被験者Yの固有
空間への射影行列）
ˆ
XX  X
*
T ˆ
Y  Y  U YU Y X
声質変換に適用
今後の課題
子音声質変換
自動声質変換
他の障害者での有効性の確認

Download Report