3次キュムラント 音声特徴を用いた 音声区間検出 神戸大学自然科学研究科 松田博義 研究目的 ・音声 目的話者の発話 ・非音声 音楽,車内雑音,etc… VAD (Voice Activity Detection) 音声区間 非音声区間 マイクから得られた音声 実環境における問題点 目的音声に重畳する各種の雑音による認識性能の劣化 音声区間のみを検出(VAD : Voice Activity Detection)することが必 要 VAD (Voice Activity Detection) VAD 音声区間 音声データ 音声特徴 抽出 尤度比 (信頼値) 計算 平滑化 及び 閾値処理 非音声区間 提案内容 ・3次キュムラント音声特徴の使用 ・MFCCとの統合 3次キュムラントによる音声特徴 J.C. Segura他 キュムラント(累積数) “Bispectrum Estimators for Voice Activity Detection and Speech Recognition”, Lecture Notes in Artificial Inteligence,No. 817, 2005. 確率分布の形状を示す指標. 正規分布は3次以上のキュムラントはすべて0となる 3次キュムラントによる音声特徴 雑音は音声に比べると乱数に近い 雑音の3次以上のキュムラントは0に近くなる M k E[ x ] x k p( x)dx キュムラント k G ( ) E[ x ] x x p( x)dx x 指標 d n logG( ) n d n 平均 dc( ) 1 d 2次 分散 d 2c( ) 2 d 2 3次 歪度 3 M3 3M 2 M1 2M13 4次 尖度 4 M 4 4M3M1 3M 22 12M 2 M12 6M14 キュムラント 1次 0 0 0 d n c( ) d n 1 dG( ) G ( ) d d 1 dG( ) d G( ) d 0 0 0 M1 M 2 M12 3次キュムラントの拡張 3次キュムラントをフレーム間での相関をとるように拡張 1 N 1 Cxk x l E[ x0 xk xl ] x0 (ti ) xk (ti ) xl (ti ) N i 0 x j (t ) y j (t ) E[ x j ] K, lは現在処理しているフレームからの遅延 各フレームから,k,lについての2次元のデータが得られる 音声 l遅延 フレーム 現在 k遅延 処理している フレーム 音声フレーム 時間 3次キュムラントによる音声特徴 得られた3次キュムラントに対し,2次元離散フーリエ変換を 行う Cˆ xk xl (n, m) M M C k M l M xk xl w(k , l ) exp( j (n k ml )) 2次元離散フーリエ変換されたものからPCAを用い,数点抽 出することにより,3次元キュムラントによる音声特徴とする. PCAは,フーリエ変換を行ったデータの対象性を考え,全体の4分の 1のデータを用いた 適用例 雑音の 3次キュムラント及び 2次元フーリエ変換図 雑音重畳音声の 3次キュムラント及び 2次元フーリエ変換図 MFCCとの統合 MFCCとキュムラント特徴を統合(初期統合) MFCC:フレーム内特徴 補完しあっている キュムラント:フレーム間特徴 音声 データ MFCC (n次元) 統合特徴(n+m次元) 3次キュムラント 音声特徴(m次元) GMM GMM-ストリーム重み MFCCとキュムラントを統合する際,最適なストリーム重み を用いた MFCCは固定で,キュムラントに関する重みのみを変更した 100 97 94 正答率 適合率 91 88 85 0.05 0.1 0.2 0.3 0.6 キュムラント特徴に対するストリーム重み 1 尤度比判定 GMMより得られた尤度 を用い,対数尤度比を 計算 前後の数フレームで平 滑化を行い,閾値判定 Lxi log L(i) Ps xi | Modelspeech Pn xi | Modelnoise j i n 2 j i n 2 L( j ) L’(x)≧θ:音声 L’(x)<θ:非音声 θ:閾値 区間処理 音声 得られた音声区間のうち一定時間以下の区間を削 除することにより最終的な音声区間を得る 検出 された 区間 検出 検出 された 検出された区間 された 区間 区間 時間 検出 された 区間 実験条件 学習データ テストデータ 音声:雑音を重畳させた文章の発話データ.男性8名×150発話,女 性8名×150発話 非音声:一般道路走行時における車内雑音データ5分弱 アイドリング時,高速道路走行時における車内での発話データ.各 データとも男性4名女性4名,各話者100発話,計800発話 評価方法 検出された区間の始端終端があらかじめ与えておいたラベルと合致 すれば正解,そうでないものは誤検出とする recall 発話区間であると正し く検出された区間の数 発話区間の総数 precision 発話区間であると正し く検出された区間の数 検出された区間の総数 比較対象 MFCC フレーム幅:32[ms],シフト幅:8[ms],CMS, Δ無 フレーム幅:32[ms],シフト幅:8[ms],CMS, Δ有 キュムラント フレーム幅:32[ms],シフト幅:1[ms],最大30フレーム遅 延までを計算 初期統合による統合特徴 キュムラント+MFCC(Δ無) キュムラント+MFCC(Δ有) 実験結果-アイドリング時 100 97 94 recall precision 91 88 85 MFCC MFCC+Δ Cum Cum+MFCC 実験結果:アイドリング時 SN比:15~25dB,平均18dB Cum+MFCC+Δ 実験結果-高速道路走行時 100 95 90 recall precision 85 80 75 MFCC MFCC+Δ Cum Cum+MFCC 実験結果:高速道路走行時 SN比:0~10dB,平均6dB Cum+MFCC+Δ 考察 キュムラント単体では従来手法であるMFCCを上回ることは できなかった キュムラント特徴は,正規分布を仮定した値になっていない オーバーフィッティングがおこっている 今回は無理矢理,平均0,分散1にすることにより実験を行った 学習の際,非常に分散の小さい分布が現れ,無視されるようになったも のもある キュムラントと,MFCCを統合することにより結果は改善され た キュムラントによるフレーム間での特徴,MFCCによるフレーム内で の特徴が互いに補完しあったため. まとめ 3次キュムラントによる音声特徴抽出の使用,及び MFCCとの統合 キュムラント特徴単体では,MFCCを上回ることが できなかったが,特徴の初期統合によりそれらを改 善することができた 今後の予定 SN比,環境を変えての実験 適切な学習データで学習 音声認識への適用
© Copyright 2025 ExpyDoc