スライド 1 - CS17 Ariki Laboratory, Kobe

制約付き非負行列因子分解を用い
た
音声特徴抽出の検討
神戸大学大学院 工学研究科
朴 玄信,滝口哲也,有木康雄
発表構成
 研究背景・目的
 非負行列因子分解(NMF: Nonnegative Matrix Factorization)
 モデル,初期化,更新ルール,制約
 提案手法
 相関情報を用いたNMFの初期化
 NMFを用いた音声特徴抽出
 評価実験
 NMFの誤差による評価
 単語音声認識率による評価
 まとめ・今後の課題
第10回音声言語シンポジウム
www.***.com
研究背景・目的
 音声認識システムの性能向上のため,
観測信号から重要な音声特徴だけを抽出する手法が必要
 PCAやICAなど統計的手法に基づく事前知識を用いた
データ依存型特徴抽出法が有効
 非負行列因子分解(NMF)は局所的特徴抽出に有効
 画像などの高次元空間上のデータから局所的基底(パーツ)
 音源分離などにも応用
 音声認識のための,NMFを用いた特徴抽出
 相関情報を用いた,NMFの初期化
第10回音声言語シンポジウム
www.***.com
非負行列因子分解(NMF) 1/2
X  WH
X 
mn

X
n本
m次元サンプル
W 
mr

H 
W
r本
基底ベクトル
r n

(r  m  n)
H
n本
r次元係数サンプル
第10回音声言語シンポジウム
www.***.com
非負行列因子分解(NMF) 2/2
目的関数(XとWH間)
 ユークリッド距離,カルバック・ライブラー情報量
更新ルール(WとHの要素ごと)
 加算ルール,乗算ルール
スパースネス制約
 Wに対して,以下のパースネス尺度を満たすように射影
sparseness(w ) 
m  ( | wi |) /
2
w
 i
m 1
第10回音声言語シンポジウム
www.***.com
NMFの初期化手法
 Random-based
 WとHを,N(0,1)に従うランダム値の絶対値で初期化
 Clustering-based
 (Spherical) K-Means clustering [S.Wild(2004), Y.Xue(2008)]
 Wをクラスタの中心ベクトルで構成,Hはランダム
 SVD-based
 NNDSVD (Non-Negative Double Singular Value Decomposition)
[C.Boutsidis(2008)]
 WとHを,Xの特異ベクトルで構成
 ただし,負の成分には,0か,Xの平均値を代入
第10回音声言語シンポジウム
www.***.com
相関伝播初期化 (1/2)
X
X0
W
1
0
0
0
0 0 0
1 0 0
0 1 0
0 0 1
X1
1 0 0
0 1 0
0.2 0.4 0.4
0 0 1
X2
0.4 0.6
1 0
0.48 0.32
0 1
H
H0 = X 0
H1
和相関
相関行列
1 0.1
0.1 1
0.2 0.4
0.3 0.1
0.2
0.4
1
0.4
1 0.4 0.6
0.4 1 0.1
0.6 0.1 1
0.3
0.1
0.4
1
0.6
0.6
1
0.8
1
0.5
0.7
H2
第10回音声言語シンポジウム
www.***.com
相関伝播初期化 (2/2)
 相関伝播初期化の定式化
 d : 最大和相関を持つ次元 c: d次元とl次元間の相関比
行列因子Wと Hの更新
wi ,l  wi ,l  wi ,d  cl
hl , j  hl , j  hd , j  cl
データ行列 Xの更新
xi , j  [ W H]i , j  [ W H]i , j  wi ,d hd , j { (c  (
2
l
wi ,l
wi ,d

hl , j
hd , j
)cl )  1}
 相関伝播初期化の特徴
 局所的な初期解(W)
 ランダム要素なし
 比較的早い計算スピード
第10回音声言語シンポジウム
www.***.com
NMFを用いた音声特徴抽出
特徴抽出フロー
Speech
signal
Pre-emphasis/
windowing
FFT
|.|2
Mel
filter
DCT
MFCC
NMF
Proposed
Feature
log
定式化
X  WH
1
ht  ( W W) W xt
T
T
DCTやPCAの高次特徴も考慮した特徴抽出
第10回音声言語シンポジウム
www.***.com
実験条件
 データ行列X
 24 x 5,075 (対数メルフィルタバンク出力 x ランダムサンプル数 )
 音素と話者のバランスがとれたランダムサンプリング
 NMF更新
 乗算ルールとスパースネス制約による,2万回更新
 スパースネス制約は,0.2~0.7
 NMF初期化手法の比較
 RANDOM, SKM, NNDSVD, CP
 単語音声認識
 男女10人から,学習データ26,200単語,テストデータ10,000単語
 音響モデル:54個のモノフォンHMM,3状態20混合
 音声特徴抽出法の比較(24次元(12+Δ12),平均0正規化)
 DCT(MFCC), PCA, ICA, NMF
第10回音声言語シンポジウム
www.***.com
初期化手法による基底Wと誤差
初期化
RANDOM
SKM
NNDSVD
CP
誤差
3.5E+06
1.5E+06
2.0E+05
1.7E+04
第10回音声言語シンポジウム
www.***.com
2万回更新後の基底Wの変化
第10回音声言語シンポジウム
www.***.com
2万回更新後の誤差
第10回音声言語シンポジウム
www.***.com
NMFを用いた単語認識
第10回音声言語シンポジウム
www.***.com
特徴抽出手法の比較(変換行列,認識率)
第10回音声言語シンポジウム
www.***.com
まとめ
 相関伝播初期化は誤差最小化に有効
 中程度スパースネス制約
 NMFによる特徴量は,PCAによる特徴量と同等の性能
 弱いスパースネス制約 -> 局所的より大局的特徴が有効?
 今後の課題
 対角分散共分散用いるため,NMFの直交化(離散コサイン変換など)
 パワースペクトル空間上でのNMF (メルフィルタバンクの代わりとして)
 NMFの初期化手法と更新ルールとの関係について
第10回音声言語シンポジウム
www.***.com
第10回音声言語シンポジウム
www.***.com
行列W
初期
MSE
DIV
SC_W0.2
第10回音声言語シンポジウム
www.***.com
NMF推定誤差(|X-WH|F)
ERROR
RAND
SKM
SVD
SVDa
CP
CPa
Initial
3.75E+06
1.25E+05
2.78E+02
1.98E+05
2.16E+04
2.04E+06
MSE
23.84
23.88
73.35
23.95
45.45
23.82
DIV
40.45
40.50
127.62
40.65
73.42
40.39
SC_0.2
24.01
24.00
57.06
24.05
23.96
23.99
SC_0.4
23.82
23.84
123.51
23.87
23.81
23.81
第10回音声言語シンポジウム
www.***.com
単語認識結果
clean
RAND
SKM
SVD
SVDa
CP
CPa
MSE
95.4
96.0
93.7
95.7
91.7
96.4
DIV
96.0
95.9
93.4
95.6
91.7
96.6
SC_0.2
96.1
96.1
90.2
95.7
96.3
96.3
SC_0.4
95.0
94.3
90.9
95.2
96.1
95.9
第10回音声言語シンポジウム
www.***.com