制約付き非負行列因子分解を用い た 音声特徴抽出の検討 神戸大学大学院 工学研究科 朴 玄信,滝口哲也,有木康雄 発表構成 研究背景・目的 非負行列因子分解(NMF: Nonnegative Matrix Factorization) モデル,初期化,更新ルール,制約 提案手法 相関情報を用いたNMFの初期化 NMFを用いた音声特徴抽出 評価実験 NMFの誤差による評価 単語音声認識率による評価 まとめ・今後の課題 第10回音声言語シンポジウム www.***.com 研究背景・目的 音声認識システムの性能向上のため, 観測信号から重要な音声特徴だけを抽出する手法が必要 PCAやICAなど統計的手法に基づく事前知識を用いた データ依存型特徴抽出法が有効 非負行列因子分解(NMF)は局所的特徴抽出に有効 画像などの高次元空間上のデータから局所的基底(パーツ) 音源分離などにも応用 音声認識のための,NMFを用いた特徴抽出 相関情報を用いた,NMFの初期化 第10回音声言語シンポジウム www.***.com 非負行列因子分解(NMF) 1/2 X WH X mn X n本 m次元サンプル W mr H W r本 基底ベクトル r n (r m n) H n本 r次元係数サンプル 第10回音声言語シンポジウム www.***.com 非負行列因子分解(NMF) 2/2 目的関数(XとWH間) ユークリッド距離,カルバック・ライブラー情報量 更新ルール(WとHの要素ごと) 加算ルール,乗算ルール スパースネス制約 Wに対して,以下のパースネス尺度を満たすように射影 sparseness(w ) m ( | wi |) / 2 w i m 1 第10回音声言語シンポジウム www.***.com NMFの初期化手法 Random-based WとHを,N(0,1)に従うランダム値の絶対値で初期化 Clustering-based (Spherical) K-Means clustering [S.Wild(2004), Y.Xue(2008)] Wをクラスタの中心ベクトルで構成,Hはランダム SVD-based NNDSVD (Non-Negative Double Singular Value Decomposition) [C.Boutsidis(2008)] WとHを,Xの特異ベクトルで構成 ただし,負の成分には,0か,Xの平均値を代入 第10回音声言語シンポジウム www.***.com 相関伝播初期化 (1/2) X X0 W 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 X1 1 0 0 0 1 0 0.2 0.4 0.4 0 0 1 X2 0.4 0.6 1 0 0.48 0.32 0 1 H H0 = X 0 H1 和相関 相関行列 1 0.1 0.1 1 0.2 0.4 0.3 0.1 0.2 0.4 1 0.4 1 0.4 0.6 0.4 1 0.1 0.6 0.1 1 0.3 0.1 0.4 1 0.6 0.6 1 0.8 1 0.5 0.7 H2 第10回音声言語シンポジウム www.***.com 相関伝播初期化 (2/2) 相関伝播初期化の定式化 d : 最大和相関を持つ次元 c: d次元とl次元間の相関比 行列因子Wと Hの更新 wi ,l wi ,l wi ,d cl hl , j hl , j hd , j cl データ行列 Xの更新 xi , j [ W H]i , j [ W H]i , j wi ,d hd , j { (c ( 2 l wi ,l wi ,d hl , j hd , j )cl ) 1} 相関伝播初期化の特徴 局所的な初期解(W) ランダム要素なし 比較的早い計算スピード 第10回音声言語シンポジウム www.***.com NMFを用いた音声特徴抽出 特徴抽出フロー Speech signal Pre-emphasis/ windowing FFT |.|2 Mel filter DCT MFCC NMF Proposed Feature log 定式化 X WH 1 ht ( W W) W xt T T DCTやPCAの高次特徴も考慮した特徴抽出 第10回音声言語シンポジウム www.***.com 実験条件 データ行列X 24 x 5,075 (対数メルフィルタバンク出力 x ランダムサンプル数 ) 音素と話者のバランスがとれたランダムサンプリング NMF更新 乗算ルールとスパースネス制約による,2万回更新 スパースネス制約は,0.2~0.7 NMF初期化手法の比較 RANDOM, SKM, NNDSVD, CP 単語音声認識 男女10人から,学習データ26,200単語,テストデータ10,000単語 音響モデル:54個のモノフォンHMM,3状態20混合 音声特徴抽出法の比較(24次元(12+Δ12),平均0正規化) DCT(MFCC), PCA, ICA, NMF 第10回音声言語シンポジウム www.***.com 初期化手法による基底Wと誤差 初期化 RANDOM SKM NNDSVD CP 誤差 3.5E+06 1.5E+06 2.0E+05 1.7E+04 第10回音声言語シンポジウム www.***.com 2万回更新後の基底Wの変化 第10回音声言語シンポジウム www.***.com 2万回更新後の誤差 第10回音声言語シンポジウム www.***.com NMFを用いた単語認識 第10回音声言語シンポジウム www.***.com 特徴抽出手法の比較(変換行列,認識率) 第10回音声言語シンポジウム www.***.com まとめ 相関伝播初期化は誤差最小化に有効 中程度スパースネス制約 NMFによる特徴量は,PCAによる特徴量と同等の性能 弱いスパースネス制約 -> 局所的より大局的特徴が有効? 今後の課題 対角分散共分散用いるため,NMFの直交化(離散コサイン変換など) パワースペクトル空間上でのNMF (メルフィルタバンクの代わりとして) NMFの初期化手法と更新ルールとの関係について 第10回音声言語シンポジウム www.***.com 第10回音声言語シンポジウム www.***.com 行列W 初期 MSE DIV SC_W0.2 第10回音声言語シンポジウム www.***.com NMF推定誤差(|X-WH|F) ERROR RAND SKM SVD SVDa CP CPa Initial 3.75E+06 1.25E+05 2.78E+02 1.98E+05 2.16E+04 2.04E+06 MSE 23.84 23.88 73.35 23.95 45.45 23.82 DIV 40.45 40.50 127.62 40.65 73.42 40.39 SC_0.2 24.01 24.00 57.06 24.05 23.96 23.99 SC_0.4 23.82 23.84 123.51 23.87 23.81 23.81 第10回音声言語シンポジウム www.***.com 単語認識結果 clean RAND SKM SVD SVDa CP CPa MSE 95.4 96.0 93.7 95.7 91.7 96.4 DIV 96.0 95.9 93.4 95.6 91.7 96.6 SC_0.2 96.1 96.1 90.2 95.7 96.3 96.3 SC_0.4 95.0 94.3 90.9 95.2 96.1 95.9 第10回音声言語シンポジウム www.***.com
© Copyright 2025 ExpyDoc