音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討 高島遼一,滝口哲也,有木康雄 神戸大学大学院 研究背景 音源位置推定技術の役割 音声強調・雑音抑圧のための前処理 対話ロボット,会議システム,etc. 従来の音源位置推定法 複数のマイクを用いて観測される信号間の位相差を利用 c d sin :時間差 c :音速 d c マイクロホンアレー(マイク数32) www.***.com 研究目的 単一マイクで音源位置推定は行えるか? システムの縮小化,複数マイクの手法との複合 研究目的: 位相差などの相互情報を用いない,単一マイクでも行え る音源位置推定の実現 提案手法 音響伝達特性を用いた単一チャネル音源位置推定法 www.***.com アプローチ 音響伝達特性 HB S HA S 位置B O Microphone 音響伝達特性 位置A •音声Sは,マイクで観測されるまでに,音声の減衰や残響等の影響を受ける 音響伝達特性 •音響伝達特性は,音源の位置ごとに異なる特性をもつ あらかじめ音源位置毎の音響伝達特性を学習しておけば,評価音声につい てもその音響伝達特性を識別することで音源位置を推定できる www.***.com 提案手法の流れ 1 2 3 ステップ2 ステップ1 音 源 位 置 i H train 学習データ Oi train i Otrain 単一マイク 学習 (SVM) 観測信号Oから 音響伝達特性H を推定する 評価データ Otest Otest 音響伝達 特性を識別 (SVM) Htest 識別結果 ˆ STEP1:音響伝達特性の推定 観測信号Oから音響伝達特性Hを推定する STEP2:音響伝達特性の識別 推定された音響伝達特性をSVM (Support Vector Machine)で学習 識別する www.***.com 音響伝達特性の推定 www.***.com 観測信号の定式化 時間領域 o(t ) s(t ) h(t ) : 周波数 短時間フーリエ変換 周波数領域 O(; n) S (; n) H (; n) t : 時刻 n : フレーム d : ケプストラムの次元 対数変換 logO(; n) log S (; n) log H (; n) 離散コサイン変換 ケプストラム領域 Ocep d ; n Hcep d ; n Scep d ; n 統計モデル化 モデル領域 On Hcep n S 未知 : モデルパラメータ 処理は全てMFCC領域で行われる 実際の環境ではSは未知であるため,Sの代わりにSの統計モデルを 用いて最尤推定法でHを推定する. www.***.com 音響伝達特性の推定 クリーン音声Sの生成確率をHMM (Hidden Markov Model) であらかじめ学習 PrS , b, c | S ab( n1),b( n) wb( n),c( n) N S (n); b( n),c( n) , b( n),c( n) n 観測信号Oの事後確率をクリーン音声HMMを用いて表す a : 状態遷移確率 b : 状態 c : 混合要素 w : 混合重み (O = S + H の仮定を用いて) PrO, b, c | H , S ab( n1),b( n) wb( n),c ( n) N O(n); b( n),c( n) H (n), b( n),c ( n) n 観測信号に対するHの尤度が最大となるようにHを推定する Hˆ arg max PrO | H , S H arg max PrO, b, c | H , S H b c (解はEMアルゴリズムによって推定される) www.***.com 音響伝達特性推定の流れ 観測信号 Od ; n 音素認識 クリーン音声の 音素HMM S (a) (i) 認識結果(ラベル) i, k, i, o, i 音響伝達特性を推定 Hˆ arg max Pr(O | H , S ) H 音素HMMを連結 連結HMM ・・・ (i) (u) Hˆ (k) (i) (o) (i) ・・・ 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う 3.音素認識の結果を元に音素HMMを連結する 4.連結されたHMMを用いて音響伝達特性を推定する www.***.com 音響伝達特性の識別 www.***.com クラスごとに異なる特徴量重みの決定 MFCC各次元の中でも、クラスによって識別に有効な 次元とそうでない次元が含まれる クラスごとに異なる、次元重みの設定 クラスごとの次元重みをMKL (Multiple Kernel Learning) を用いて学習し、SVM (Support Vector Machine) で識別 を行う www.***.com SVMによるクラス識別とカーネル関数 SVMは通常、カーネル関数を用いて非線形な識別関数を生成する。 x x1 , x2 ,, xD :写像関数 D次元特徴ベクトル x 高次元特徴ベクトル 高次元空間での内積を様々な種類のカーネル関数、パラメータで表現 (カーネルトリック) x,x K x, x 内積 カーネル関数 カーネル関数の例 x x 2 K x, x exp 2 ガウシアンカーネル K x, x x x 1 多項式カーネル p www.***.com MKL (Multiple Kernel Learning) 複数のサブカーネルを線形結合し、新たなカーネル関数を作 成する手法 K x, x n kn x,x n : n番目のカーネルの重み n 各サブカーネルの重みβは,一般的にSVMの枠組み(マージ ン最大化)で学習される. MKL-SVM 通常のSVM max i i 1 i j yi y j k xi , x j 2 i, j i yi i 0 s.t. 0 i C max i i 1 i j yi y j l l kl xi , x j 2 i, j i yi i 0, l l 1 s.t. 0 i C , l 0 次元毎にサブカーネルを定義することで,特徴次元の重みを 学習する K x, x d kd xd , xd d 特定の次元 www.***.com 実験環境 音声データ ATR研究用音声データベースより男声話者1名 3,120 mm RWCP実環境音声・音響データベースで収録されたインパルス応答を クリーン音声に畳み込んで作成(特定話者実験) 6,660 mm 残響時間:300 msec (残響可変室) 音源方向:30, 90, 130° :sound source :microphone (3クラス識別) 音源距離:一律約2m 4,330 mm www.***.com 4,180 mm 観測信号データ 分析条件 特徴量 MFCC:16次元 サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec 音響伝達特性の推定 クリーン音声の学習データ数: 2620単語 音素数:54 HMMの状態数:3 混合数:32 位置の識別 学習データ数:50単語 テストデータ数:1000単語 SVMのカーネル関数: ガウシアンカーネル SVMのスラック変数C:1 カーネル関数のパラメータ:実験的に決定 www.***.com 比較手法 GMM(混合数8)による識別と、以下3種類のSVMの 手法を比較 各カーネルの関数は 同じだが、パラメータ は異なる 各カーネルの種類も パラメータも等しい x1 x1 x2 x2 xD k x,x 従来の 単一カーネルSVM xD k x1 , x1 K x,x k x , x 2 2 k xD , xD 同一のカーネルを 次元ごと独立に計算 してMKL統合 x2 1 2 xD D x1 k1 x1 , x1 k2 x2 , x2 K x,x k D xD , xD カーネルのパラメータ を次元ごとに変えてMKL統合 www.***.com 実験結果 MKL-SVMによる識別手法が従来のSVM、GMMを上回った カーネル関数のパラメータを次元ごとに変化させることで、若 干精度が向上 Localization accuracy [%] 95 91.2 92 90.0 GMM 従来の単一カーネルSVM 89 85.7 MKL-SVM 86 84.2 83 カーネルパラメータを次元毎に 変えたMKL-SVM 80 www.***.com 位置毎の次元重みと音響伝達特性の分布 30° 90° and 30° and 130° 90° 130° Cepstral coefficient 30° 90° 130° Cepstral order 次 位 30° 0.00 0.06 0.07 0.07 0.07 0.06 0.07 0.07 0.06 0.08 0.06 0.06 0.06 0.07 0.07 0.07 元 置 90° 0.00 0.06 0.06 0.06 0.07 0.08 0.10 0.07 0.06 0.07 0.07 0.06 0.06 0.06 0.07 0.06 重毎 み の 130° 0.01 0.05 0.09 0.07 0.05 0.11 0.06 0.11 0.05 0.07 0.06 0.05 0.05 0.06 www.***.com 0.05 0.07 マイクの位置のずれに対する頑健性の評価 Localization accuracy [%] テスト時に、マイクの位置を学習時の位置からずらして収録し て識別精度を測定 マイクの位置が10cmずれた時点で15~20%精度低下 100 91.2 90.0 85.7 84.2 90 GMM 80 従来の単一カーネルSVM 70 67.9 64.0 62.0 60 67.1 65.9 64.0 54.5 50 MKL-SVM カーネルパラメータを次元毎 に変えたMKL-SVM 40 0 10 20 Gap of position of mic. [cm] www.***.com まとめ 次元ごとにサブカーネルを定義し、MKLで統合させる ことで、音響伝達特性MFCCの次元重みを自動的に 学習させた 以前用いていたGMMによる識別や従来のSVMに比 べて高い識別精度が得られた 今後の課題 収録環境が変化した場合、精度が大幅に低下 音響伝達特性の正確な推定 www.***.com ご清聴ありがとうございました www.***.com 200cm 10cm マイクロホンアレー 音源位置 実験に使用するマイク www.***.com
© Copyright 2024 ExpyDoc