スライド 1

スパース表現に基づく構音障害者の発話スタイル変動に
ロバストな特徴量抽出
1-P-4
☆吉岡利也,高島遼一,滝口哲也,有木康雄(神戸大)
研究背景・目的
構音障害
 構音障害とは
言葉を正しく明瞭に発音できない症状
 音声認識技術の様々な状況での利用
・カーナビゲーションの操作,駅での音声案内
・スマートフォンの音声検索システム
 本研究では,脳性マヒによる構音障害者を対象
意図的動作時にアテトーゼ(不随意運動)が生じる
 しかし,言語障害者を対象としているものは少ない
手足が不自由などで音声に頼るしかない
構音障害者を対象とした音声認識システムの実現
不安定になる
提案手法
比較的安定
NMF
アプローチ
 非負行列Vを,2つの非負行列W,Hの積に分解する手法
 スパース特徴量の推定
 判別に有効な少量の特徴量のみを抽出
W
V
① 前もって安定した発話のスペクトルを学習
② スパースな線形結合(結合係数がほぼ0)で近似表現
③ 結合係数の情報を特徴量に用いる
H
 音響信号に適用すると,
アクティビティ行列
結合係数の情報を含む
観測スペクトル
基底行列
提案手法の流れ
既知
様々なスペクトルパターンを含む
推定
H
V
W
安定した発話
のスペクトルを
学習
アクティビティ行列
観測スペクトル
特徴的な
基底だけを
抽出
基底行列
 教師ありNMFで結合係数を推定
DE V, WH    H 1
更新ルール

L1ノルム項
⇒非負制約を強める
⇒スパース性を向上

H  H. * W V. /WH . / W 1  
評価実験
実験データ
 50単語×5回発話
認識
モデル作成(学習)
比較手法
① MFCC+ΔMFCC(24次元)
② 提案手法(14次元)
③ MFCC+提案手法(26次元)
T

実験結果
 各発話における単語認識精度
Recognition rate [%]
T
教師ありNMF
と
主成分分析
を用いて
特徴量抽出
100
90
80
70
60
50
40
30
20
10
0
MFCC+Δ
Sparse
MFCC+Sparse
予備実験
 最適な次元数を決定
Recognition rate [%]
目的関数
基底行列
を学習
100
80
60
74
60 66
64 68 66 62 66
40
20
0
12
13
14
15
16
17
18
19
Number of dimensions
1st
78
74
88
2nd
88
68
88
3rd
94
74
96
4th
90
72
84
5th
88
74
84
まとめ・課題
不安定な第一発話において10%の改善
基底行列の作成方法を工夫