スライド 1

固有空間法を用いた構音障害者の母音声質変換の検討
ISS-P-166
石井 良,滝口 哲也,有木 康雄(神戸大学)
研究背景・目的
学習・変換過程
聴覚・言語障害者は全国に約34万人(平成18年度厚生労
働省)
福祉分野における情報技術の発展の重要性
構音障害者の講演の補助等
手足の不自由などで音声に頼るしかない場合
構音障害者の声質変換が実現
学習ステップ
xt  [ xt1,, xtd ]
T
障害者
yt  [ yt1,, ytd ]
T
y  [ y1 ,, yd ]
構音障害者
各フレームに
対して実行
 u1,1  u1,d  


UY      
ud ,1 ud ,d  
xt :障害者の
スペクトル包絡
y t :健常者の
スペクトル包絡
音声に変換
声質変換1
学習データ
入力音声「アオイ」
• 障害者X:「ア」「イ」「ウ」「エ」「オ」各10発話
• 健常者Y:「あ」「い」「う」「え」「お」各10発話
変換
音がつぶれる
ˆ
Y  Y  U YU X
Frequency
*
Frequency
c  y  UYU aˆ
T
構音障害とは
言葉を正しく明瞭に発音できない症状
構音障害の原因の一つ:脳性麻痺
出生前や出生時に受けた外傷のため筋肉の制御が難しい
アテトーゼ(不随意運動)が生じる
特にアテトーゼの生じやすい状況
-意図的動作時
-緊張状態
T
Y
音素ごとの空間を対象とした声質変換を試みる
Time
Time
声質変換2
x
xa (a :音素のインデックス)
特徴抽出
音声
特徴量
分離
基本周波数
非周期成分
スペクトル
包絡
変換なし
変換なし
パラメータ変換
非周期成分
スペクトル
包絡
y
ya
UY
U Ya

Y t
c  y  UYU aˆ
*
t
変換音声
アプローチ
Linear Facial Expression Transfer
With AAM [M. Hunty, 2010]
ˆ
X  XX
 X : 被験者Xの顔の平均



X
ˆ : 被験者Xの顔の変動成分


被験者X
Laugh
音素ごとに変換し
「ア」,「オ」,「イ」 た後,結合する
「アオイ」
「あ」,「お」,「い」
「あおい」
実験結果
被験者:成人男女8名
実験環境:静かな部屋でヘッドホンによる両耳掲示
呈示音声:「あおい」,「おう」,「あい」の3単語
呈示方法:構音障害者の音声,直接変換法による変換音声,
提案手法による変換音声,健常者の音声を順に呈示
評価方法:音声の聴き取りやすさに関する5段階評価(1:非常に
聴き取りづらい~5:非常に聴き取りやすい)
実験結果
4.41
Direct Transfer(直接変換法)
X
X
3.33
ˆ
XX  X
Laugh
ˆ
Y  YX
2.83
1.96
A:構音障害者音声
B:直接変換法による変換音声
C:提案手法による変換音声
D:健常者音声
*
Y
(

Ya
c  y a  UYaU aˆ at
*
at
実験条件
合成
被験者Y

Y t
*
t
構音障害
基本周波数
at  x  aˆ t
変換後の
スペクトルを生成
T
x  [ x1 ,, xd ]
構音障害者の雇用機会の増加,社会的
自立につながる
STRAIGHT
[H. Kawahara, 1997]
at  [at1,, atd ]
フレームごとに
変動成分を算出
T
健常者
健常者
変換ステップ
Y
ˆ)
(Y  Y  Y
U Y :被験者Yの固有
空間への射影行列)
ˆ
XX  X
*
T ˆ
Y  Y  U YU Y X
声質変換に適用
今後の課題
子音声質変換
自動声質変換
他の障害者での有効性の確認