ランダムプロジェクションを用いた音声特徴量抽出 1-P-16 ◎吉井 麻里子,滝口 哲也,有木 康雄(神戸大), Jeff BILMES(University of Washington) 研究の背景・目的 特徴量抽 出 入力 ■従来のMFCC特徴量は雑音環境下において認識精度が定価 →さまざまな環境下において頑健な音声特徴量抽出手法 ■ランダムプロジェクション:高次元空間における任意の2点間のユークリッド距離 が,射影先の低次元空間においてもほぼ保存される,という性質を持つ空間写像の 手法 →音声特徴量抽出に用いることで、音声認識の向上を目指す 音声信号 音響モデル学 習 音声特徴量: Mel Frequency Cepstral Coefficients (MFCC) Speech STFT 出力 認識率 音響モデル: Hidden Markov Model (HMM) 従来手法 Mel Filter Bank Log DCT ランダムプロジェクション ■n 次元ユークリッド空間からk 次元ユーク ■ランダムプロジェクションの性質 リッド空間へランダムに写像する空間写像 □変換によるベクトル間類似度のゆ の手法 がみを考え、二つのベクトルの内積 ■写像行列は,各成分が独立にある確率分 を類似度とする 布に従うランダムなd×N 行列として定義 □RPによりベクトルがそれぞれ n>x, m->y と変換されたとき、変換後 d の類似度は、 x : reduced-dimensional vector, x R N T T T n : original-dimensional vector, n R x y n R Rm R : random matrix, d N T □ここで、 R R を考える □Rの列ベクトル ri が単位長である とき、次のようにかける x Rn R R I where ij ri rj for i j, and ii 0 for all i 実験条件 特徴量抽出 ■音声特徴量抽出において、ランダムプロジェクションを適用する ■様々な特徴量との統合(2-D Gabor Filtering, Segmentation) (1) speech FFT Mel log DCT ⊿,⊿⊿ RP (2) speech FFT Mel log DCT RP + DCT ⊿,⊿⊿ speech FFT と書くことができる。したがって削減 次元数 d が大きいほど、 は0に近 づき、ベクトル間類似度は単位行列に 近づく T T (3) □ ri と r j が直交に近くなればなる ほど, は0に近くなり,ベクトルの類 似度は保存される □Rの分布を平均0の正規分布である 2 と仮定すると、 の平均は0、分散 は、 2 1/ d Mel log Gabor (4) speech FFT Mel log Gabor (5) speech FFT Mel log DCT (6) speech FFT Mel log DCT 自動車内音声認識の評価用データベース CENSREC-3 (Corpus and Environments for Noisy Speech RECognition)・Condition4 を使用(16kHz・16bit・Monaural) ■学習データ:アイドリング走行時3608音声 ■評価データ:低速・高速走行時8836音声 RP ⊿,⊿⊿ RP ⊿,⊿⊿ RP Seg(5) RP □評価データ音声は50単語、学習データ音声は音 素バランス文を使用 □単語音声の認識は音素HMMにより行う。それぞ れ5状態32混合の分布 □得られた特徴量はあらかじめ平均0・分散1に正 規化しておく 実験 ■複数のRによる認識率の変化 Word Accuracy [%] ■単語音声認識率 90 80 70 60 50 40 30 20 10 0 76.14 77.64 77.06 67.28 58.99 まとめ (1) 74.04 70.29 (2) (3) 79.04 (4) 73.64 (5) (6) Features [dimension] □ランダムプロジェクション変換前の特徴量で の認識率より、高い認識率が得られる □MFCC特徴量とランダムプロジェクションの組 み合わせにより、MFCC単独よりも認識率の高 い特徴量が得られている (1) MFCC_D_A -> RP[36] max 77.64 Mean 75.918 min 75.11 (2) (MFCC->RP) + (MFCC)⊿⊿[36] 77.06 76.522 75.6 (3) Gobor[60] -> RP[60] 70.29 67.81 64.18 (4) Gabor_D_A[180] -> RP[36] 74.04 70.722 67.87 (5) MFCC[12] -> RP[12]_D_A 79.04 75.9055 70.93 (6) MFCC[12] -> Seg(5) -> RP[60] 73.64 72.0485 68.87 □ランダムマトリックスを複数作成し、それぞれ の認識率を計算したところ、認識率にばらつき が生じた □平均0・分散1の正規分布を用いてランダム マトリックスを求めているため、無限通りのラン ダムマトリックスが存在する まとめ ■ランダムプロジェクションによる 様々な特徴量の統合により多くの性 質を保存した特徴量生成の可能性 ■無限通りのランダムマトリックスか ら、認識率の高くなるようなランダム マトリックスをどのように選択するか が課題 今後の方向 ■様々な特徴量とランダムプロジェ クションの組み合わせ ■シミュレーションを行い最も良いラ ンダムマトリックスを探す ■ランダムマトリックス生成のアルゴ リズムを探究
© Copyright 2024 ExpyDoc