固有空間法を用いた構音障害者の母音声質変換の検討 ISS-P-166 石井 良,滝口 哲也,有木 康雄(神戸大学) 研究背景・目的 学習・変換過程 聴覚・言語障害者は全国に約34万人(平成18年度厚生労 働省) 福祉分野における情報技術の発展の重要性 構音障害者の講演の補助等 手足の不自由などで音声に頼るしかない場合 構音障害者の声質変換が実現 学習ステップ xt [ xt1,, xtd ] T 障害者 yt [ yt1,, ytd ] T y [ y1 ,, yd ] 構音障害者 各フレームに 対して実行 u1,1 u1,d UY ud ,1 ud ,d xt :障害者の スペクトル包絡 y t :健常者の スペクトル包絡 音声に変換 声質変換1 学習データ 入力音声「アオイ」 • 障害者X:「ア」「イ」「ウ」「エ」「オ」各10発話 • 健常者Y:「あ」「い」「う」「え」「お」各10発話 変換 音がつぶれる ˆ Y Y U YU X Frequency * Frequency c y UYU aˆ T 構音障害とは 言葉を正しく明瞭に発音できない症状 構音障害の原因の一つ:脳性麻痺 出生前や出生時に受けた外傷のため筋肉の制御が難しい アテトーゼ(不随意運動)が生じる 特にアテトーゼの生じやすい状況 -意図的動作時 -緊張状態 T Y 音素ごとの空間を対象とした声質変換を試みる Time Time 声質変換2 x xa (a :音素のインデックス) 特徴抽出 音声 特徴量 分離 基本周波数 非周期成分 スペクトル 包絡 変換なし 変換なし パラメータ変換 非周期成分 スペクトル 包絡 y ya UY U Ya Y t c y UYU aˆ * t 変換音声 アプローチ Linear Facial Expression Transfer With AAM [M. Hunty, 2010] ˆ X XX X : 被験者Xの顔の平均 X ˆ : 被験者Xの顔の変動成分 被験者X Laugh 音素ごとに変換し 「ア」,「オ」,「イ」 た後,結合する 「アオイ」 「あ」,「お」,「い」 「あおい」 実験結果 被験者:成人男女8名 実験環境:静かな部屋でヘッドホンによる両耳掲示 呈示音声:「あおい」,「おう」,「あい」の3単語 呈示方法:構音障害者の音声,直接変換法による変換音声, 提案手法による変換音声,健常者の音声を順に呈示 評価方法:音声の聴き取りやすさに関する5段階評価(1:非常に 聴き取りづらい~5:非常に聴き取りやすい) 実験結果 4.41 Direct Transfer(直接変換法) X X 3.33 ˆ XX X Laugh ˆ Y YX 2.83 1.96 A:構音障害者音声 B:直接変換法による変換音声 C:提案手法による変換音声 D:健常者音声 * Y ( Ya c y a UYaU aˆ at * at 実験条件 合成 被験者Y Y t * t 構音障害 基本周波数 at x aˆ t 変換後の スペクトルを生成 T x [ x1 ,, xd ] 構音障害者の雇用機会の増加,社会的 自立につながる STRAIGHT [H. Kawahara, 1997] at [at1,, atd ] フレームごとに 変動成分を算出 T 健常者 健常者 変換ステップ Y ˆ) (Y Y Y U Y :被験者Yの固有 空間への射影行列) ˆ XX X * T ˆ Y Y U YU Y X 声質変換に適用 今後の課題 子音声質変換 自動声質変換 他の障害者での有効性の確認
© Copyright 2024 ExpyDoc