スライド 1

ランダムプロジェクションを用いた音響モデルの線形変換
(22)
◎吉井 麻里子,滝口 哲也,有木 康雄(神戸大),
研究の背景・目的
■さまざまな環境下において頑健な音声特徴量抽出手法
■ランダムプロジェクション:高次元空間における任意の2点間のユークリッド距離が,射影先の低次元空間においてもほぼ保存される,
という性質を持つ空間写像の手法 → 音声特徴量抽出に用いることで、音声認識の向上を目指す → RMにより認識率にばらつき
■ランダムプロジェクション特徴量の統合 → ROVERを用いた音声特徴量統合
■音響モデルに対してランダムプロジェクションを行うことで、モデル学習コストを削減
ランダムプロジェクション
ランダム写像行列 R
1. 標準正規分布N(0,1)に従う n×k の行列Rを作成
2. グラムシュミットの直交化手法を用いてRを直交化し、
列ベクトルを大きさ1で正規化
■N 次元ユークリッド空間からd 次元ユーク
リッド空間へランダムに写像する空間写像
の手法
x  Rn
: reduced-dimensional vector, x  R
N
: original-dimensional vector, n  R
R : random matrix, d  N
■ランダムプロジェクションは,元の空間上
における任意の2点間のユークリッド距離が
変換後も高い確率で保存されるという性質
を持つ
d
x
n
(1   ) || u  v || || f (u)  f (v) ||  (1   ) || u  v ||
2
2
0   1 ,
ランダム写像関数 f : R
N
u, v : R の任意の2点
音声特徴量
2
R ,
N
d
(1)
MFCC(12dim.) -> RP(12dim.)
(2)
MFCC+⊿+⊿⊿(36dim.) -> RP(36dim.)
(3)
MFCC(12dim.) -> Segment(11frame, 132dim.) -> RP(36dim.)
(4)
Gavor(60dim.) -> RP(36dim.)
(5)
Gavor+⊿+⊿⊿(180dim.) -> RP(36dim.)
実験条件
RPによる音響モデル変換と特徴量変換
自動車内音声認識の評価用データベース
CENSREC-3 (Corpus and Environments
for Noisy Speech RECognition)・Condition4
を使用(16kHz・16bit・Monaural)
■ROVERを用いた音響モデルの線形変換による特徴量統合
Test data
Speech feature
Random matrix 1
Random matrix 1
Test data
Speech feature
Training data
Speech feature
Recog.
Random matrix 2
Random matrix 2
Recog.
・
・
・
・
・
・
Speech feature
Random matrix N
HMM
Test data
Random matrix N
ROVER
module
Best
Result
□評価データ音声は50単語、学習データ音声は音
素バランス文を使用
□単語音声の認識は音素HMMにより行う。それぞ
れ5状態32混合の分布
□得られた特徴量はあらかじめ平均0・分散1に正
規化しておく
Recog.
実験と考察
■特徴量に対してランダムプロジェクションを行いHMMを学習
features-RP
100
80
60
40
81.44
76.14
79.2
78.47
78.8
76.17
77.66
73.67
73.99
70.17
67.28 66.57 68.68 70.6471.57 72.77
65.96 64.0170.1
58.32
(1)
(2)
(3)
(4)
(5)
(6)
69.51
64.44
78.45
75.33
29.38
20
0
mfcc[12] -> RP(12) mfcc[12]_D_A ->
RP(36)
baseline
RP-min.
mfcc[12] ->
FBANK[24]_n -> FBANK[24]_n ->
seg(11)[132] -> G1[60] -> RP(36) G1[60]_D_A[180] RP(36)
> RP(36)
RP-mean
RP-max.
RP-rover
■学習されたHMMに対してランダムプロジェクションを行いRP特徴量で認識
HMM-RP
100
80
60
78.27 78.21
72.34
78.03
77.09 78.01
76.7
72.73
75.03
74.89
77.72
72.86
71.9
76.14
68.79 68.72
70.52
68.1 71.63
67.28
65.96
64.45
61.22
58.32
40
■学習データ:アイドリング走行時3608音声
■評価データ:低速・高速走行時8836音声
29.38
■音声特徴量に対してRPを行うことで従来よ
り高い音声認識率が得られた
■ROVERによる統合を行うことで安定して高
い認識率が得られた
■学習されたHMMに対してRPを行い学習コ
ストを抑えた場合も、音声特徴量に対してRPを
行ったときと同様に効果が確認できた
□高次元特徴から作成されたHMMは学習
が十分でないため、セグメント特徴量132次
元やGAVOR+Δ+ΔΔ特徴量180次元の場
合は認識率が低下
→HMMの線形変換後に再学習を行うことで
対応可能と考えられる
20
0
mfcc[12] -> RP(12) mfcc[12]_D_A ->
RP(36)
baseline
RP-min.
mfcc[12] ->
FBANK[24]_n -> FBANK[24]_n ->
seg(11)[132] -> G1[60] -> RP(36) G1[60]_D_A[180] RP(36)
> RP(36)
RP-mean
RP-max.
RP-rover
■今後の予定
○RPによる特徴量空間の変化に対する考察
○音声認識に適したランダム写像行列の選
択・生成