スライド 1

1-Q-6b
ランダムプロジェクションを用いた
構音障害音声の認識および誤り単語検出
☆吉岡利也,高島遼一,滝口哲也,有木康雄(神戸大)
研究背景・目的
NETファイル
近年,音声認識が新たな入力インタフェースとして注目されている.
構音障害者の発話スタイルは健常者と大きくことなる ⇒ 認識率10%以下
改善ポイント:①データベース,②音素体系,③特徴量
ランダムプロジェクション:
空間写像の手法.変換行列の各要素がある確率分布に従うランダムな値として
定義される. ⇒ 音声特徴量変換に応用.ノイズ音声で効果あり.
⇒ ランダム写像行列によって認識率にばらつきがある.
提案手法:
複数のRMを用いて特徴量変換.各々の特徴量で学習・認識を行い,各認識結
果に対して多数決をとることで最適な認識結果を得る.さらに,その投票結果に
基づいて認識結果の自動正誤判定を行う.
ランダムプロジェクション
y  Rx
: reduced-dimensional vector,
: original-dimensional vector,
: random matrix, n  k
x
R
/a k e g a t a/
<構音障害者>
ランダム写像行列 R
n次元ユークリッド空間からk次元ユークリッド空間に写像する.
y
<健常者>
1. 標準正規分布N(0,1)に従うn×kの行列Rを作成.
2. Gram-Schmidtの直交化手法を用いてRを直交化.
3. 列ベクトルを大きさ1で正規化.
yR
k
xR
n
元の空間上における任意の2点間のユークリッド距離が変換後も
高い確率で保存されるという性質がある.
提案手法
① ランダムプロジェクションによる音声特徴量変換
実験条件
構音障害者1名を対象とした孤立単語認識,および正誤判定実験
Speech feature
Random matrix
ASR
Result
② ROVER法を用いた特徴量統合(投票によって最適な認識結果を得る)
実験データ:
- ATR音素バランス単語(210単語),各単語5回連続発話
- 第2~5発話を学習データ,第1発話を評価データに用いる
Random matrix 1
Speech feature
ASR
Random matrix 2
ASR
・
・
・
Random matrix N
・
・
・
ASR
ROVER
module
Best Result
音響モデル:monophone-HMM(5状態8混合)
③ 投票結果に基づく正誤判定
A) 正解の場合, ⇒ 少数の候補に票が集まる.
B) 不正解の場合,⇒ 複数の候補に票がばらける.
⇒ 投票結果の第1候補と第2候補の投票数で正誤判定.
音声特徴量:
① MFCC[12dim.] + ΔMFCC[12dim.]
② MFCC[12dim.] to RP[12dim.] + ΔMFCC[12dim.]
実験結果・考察
単語認識実験
ランダム写像行列の数:20, 40, 60, 80, 100と変化
ベースライン:76.67%
82
80
Word Accuracy [%]
80
79.05
79.52
80.48
正誤判定実験
1. 第2~5発話に対して提案手法②を適用(leave-one-out).
2. 各単語の投票結果を用いて非線形SVMを学習.
3. 第1発話に対して正解か誤りかを判定.
80.48
Number of
random matrices
78
76
Min.
Mean
Max.
Rover
Baseline
74
72
70
68
66
64
20
40
60
80
Number of random matrices
100
平均認識率(Mean.)ではベースラインに及ばない.
ROVER用いて認識結果を統合 ⇒ 安定して高い認識率が得られる.
20~40個程度の統合で十分.
20
40
60
80
100
T/P
Rate [%]
92.3
95.8
92.8
92.9
92.3
T/N
Rate [%]
42.9
43.2
60.5
58.5
56.1
Acc.
[%]
82.4
84.8
86.2
86.2
85.2
正解単語に関しては高い精度で分類可能.
不正解単語の場合,分類精度が大きく劣化 ⇒ 投票数だけでは困難?
今後の予定
•音声認識に適したランダム写像行列の選択・生成
•不正解単語に関する,分類精度の向上