音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討 電子情報通信学会 音声研究会 2011年1月27, 28日 高島遼一,滝口哲也,有木康雄 神戸大学大学院 研究背景 音源位置推定技術の役割 音声強調・雑音抑圧のための前処理 対話ロボット,会議システム,etc. 従来の音源位置推定法 複数のマイクを用いて観測される信号間の位相差を利用 c d sin :時間差 c :音速 d c マイクロホンアレー(マイク数32) www.***.com 研究目的 単一マイクで音源位置推定は行えるか? システムの縮小化,複数マイクの手法との複合 研究目的: 位相差などのマイク間の情報を用いない,単一マイクで も行える音源位置推定の実現 提案手法 音響伝達特性を用いた単一チャネル音源位置推定法 www.***.com アプローチ 音響伝達特性 HB S HA S 位置B O Microphone 音響伝達特性 位置A •音声Sは,マイクで観測されるまでに,音声の減衰や残響等の影響を受ける 音響伝達特性 •音響伝達特性は,音源の位置ごとに異なる特性をもつ あらかじめ音源位置毎の音響伝達特性を学習しておけば,評価音声につい てもその音響伝達特性を識別することで音源位置を推定できる www.***.com 提案手法の流れ 1 2 3 ステップ2 ステップ1 音 源 位 置 i H train 学習データ Oi train i Otrain 単一マイク 学習 (SVM) 観測信号Oから 音響伝達特性H を推定する 評価データ Otest Otest 音響伝達 特性を識別 (SVM) Htest 識別結果 ˆ STEP1:音響伝達特性の推定 観測信号Oから音響伝達特性Hを推定する STEP2:音響伝達特性の識別 推定された音響伝達特性をSVM (Support Vector Machine)で学習 識別する www.***.com 音響伝達特性の推定 www.***.com 観測信号の定式化 時間領域 o(t ) s(t ) h(t ) : 周波数 短時間フーリエ変換 周波数領域 O(; n) S (; n) H (; n) t : 時刻 n : フレーム d : ケプストラムの次元 対数変換 logO(; n) log S (; n) log H (; n) 離散コサイン変換 ケプストラム領域 Ocep d ; n Hcep d ; n Scep d ; n 統計モデル化 モデル領域 On Hcep n S 未知 : モデルパラメータ 処理は全てMFCC領域で行われる 実際の環境ではSは未知であるため,Sの代わりにSの統計モデルを用いて最尤 推定法でHを推定する. www.***.com SはHMM (Hidden Markov Model)でモデル化する 音響伝達特性の推定(1/2) 観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法) Hˆ arg max PrO | H , S S : クリーン音声HMMのパラメータ H 解はEMアルゴリズムによって求められる Q Hˆ | H E[logPr O, b, c | Hˆ , S | H , S ] PrO, b, c | H , S b c log Pr O, b, c | Hˆ , S PrO | H , S Q関数の同時確率 Pr O, b, c | Hˆ , S は、以下のように展開される Pr O, b, c | Hˆ , S n ab n 1,b n wb n ,c n Pr On | bn , cn ; Hˆ , S a : 状態遷移確率 b : 状態 c : 混合要素 w : 混合重み www.***.com n : フレーム番号 音響伝達特性の推定(2/2) a : 状態遷移確率 Pr O, b, c | Hˆ , S n ab n 1,b n wb n ,c n Pr On | bn , cn ; Hˆ , S b : 状態 c : 混合要素 w : 混合重み n : フレーム番号 ケプストラム領域での O = S + H という仮定より Pr On | bn, cn; Hˆ , S N O(n); b( n),c ( n) H (n), b( n),c ( n) 状態b(n),混合要素c(n) におけるOの確率分布 クリーン音声の正規分布が Hだけシフトされた これらをQ関数に代入し、Q Hˆ | H / Hˆ 0 を解く Hˆ (d ; n) b c b,c n O(d ; n) b ( n ),c ( n ) d b c b2( n ),c ( n ) d b,c n 2 b ( n ),c ( n ) d b,c n Pr O, bn, cn | Hˆ , S www.***.com 音響伝達特性推定の流れ 観測信号 Od ; n 音素認識 クリーン音声の 音素HMM S (a) (i) 認識結果(ラベル) i, k, i, o, i 音響伝達特性を推定 Hˆ arg max Pr(O | H , S ) H 音素HMMを連結 連結HMM ・・・ (i) (u) Hˆ (k) (i) (o) (i) ・・・ 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う 3.音素認識の結果を元に音素HMMを連結する 4.連結されたHMMを用いて音響伝達特性を推定する www.***.com 音響伝達特性の識別 www.***.com クラスごとに異なる特徴量重みの決定 MFCC各次元の中には、その位置のインパルス応答 の影響を強く受ける次元と、そうでない次元が存在す る 影響の大小は、音源の位置によって多少異なる クラス(音源位置)毎に異なる特徴次元の重み付け クラスごとの次元重みをMKL (Multiple Kernel Learning) を用いて学習し、SVM (Support Vector Machine) で識別 を行う www.***.com SVMによるクラス識別とカーネル関数 SVMは通常、カーネル関数を用いて非線形な識別関数を生成する。 x x1 , x2 ,, xD :写像関数 D次元特徴ベクトル x 高次元特徴ベクトル 高次元空間での内積を様々な種類のカーネル関数、パラメータで表現 (カーネルトリック) x,x K x, x 内積 カーネル関数 カーネル関数の例 x x 2 K x, x exp 2 ガウシアンカーネル K x, x x x 1 多項式カーネル p www.***.com MKL (Multiple Kernel Learning) (1/3) 複数のサブカーネルを線形結合し、新たなカーネル 関数を作成する手法 : n番目のカーネルの重み K x, x n kn x,x n n 各サブカーネルの重みβは,一般的にSVMの枠組 み(マージン最大化)で学習される. MKL-SVM 通常のSVM max i i 1 i j yi y j k xi , x j 2 i, j i yi i 0 s.t. 0 i C max i i 1 i j yi y j l l kl xi , x j 2 i, j i yi i 0, l l 1 s.t. 0 i C , l 0 www.***.com MKL (Multiple Kernel Learning) (2/3) 基本的な使い方 通常のSVM・・・最適なカーネルを実験的に見つける MKL・・・様々なカーネルを用意しておけば、識別に有効なカーネルを 自動的に重み付けしてくれる K x, x k x,x n n n H 1 H 2 H 1 k H, H H D 従来の単一カーネルSVM H 2 1 2 H D N k1 Η,H k2 Η, H k H, H k N Η, H MKL-SVM www.***.com MKL (Multiple Kernel Learning) (3/3) 応用・・・特徴量統合における特徴量重みの学習 M. Varma, et al., ICCV 2007 x= 特徴ベクトルa 特徴ベクトルb 特徴ベクトルc ・・・ K x, x 1 k1 a,a + 2 k2 b, b + 3 k3 c, c + ・・・ 提案法・・・音響伝達特性MFCCの次元重み付けへの利用 K H, H d kd H d , H d d H 1 H 2 1 2 H D N 音響伝達特性の特定の次元 k1 Η,H k2 Η, H k N Η, H 通常のMKL-SVM k H, H H 1 H 2 H D 1 2 D k1 H 1, H 1 k2 H 2, H 2 k H, H kD H D, H D www.***.com 提案手法におけるMKL-SVM 実験環境 音声データ ATR研究用音声データベースより男声話者1名 3,120 mm RWCP実環境音声・音響データベースで収録されたインパルス応答を クリーン音声に畳み込んで作成(特定話者実験) 6,660 mm 残響時間:300 msec (残響可変室) 音源方向:30, 90, 130° :sound source :microphone (3クラス識別) 音源距離:一律約2m 4,330 mm www.***.com 4,180 mm 観測信号データ 分析条件 特徴量 MFCC:16次元 サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec 音響伝達特性の推定 クリーン音声の学習データ数: 2620単語 音素数:54 HMMの状態数:3 混合数:32 位置の識別 学習データ数:50単語 テストデータ数:1000単語 SVMのカーネル関数: ガウシアンカーネル SVMの学習誤りに対する重み係数C:1 カーネル関数のパラメータ:実験的に決定 www.***.com 比較手法 GMM(混合数8)による識別と、従来のSVM、提案手法で比較 H 1 H 2 H 1 k H, H H D 従来の単一カーネルSVM H 2 H D 1 2 D k1 H 1, H 1 k2 H 2, H 2 k H, H kD H D, H D 提案手法 提案手法については、 次元毎に同じカーネルのパラメータを設定 1 2 D 次元毎に異なるカーネルのパラメータを設定 1 2 D の2種類の場合で比較 www.***.com 実験結果 提案手法による識別手法が従来のSVM、GMMを上回った カーネル関数のパラメータを次元ごとに変化させることで、若 干精度が向上 Localization accuracy [%] 95 91.2 92 GMM 90.0 従来の単一カーネルSVM 89 85.7 86 84.2 83 次元毎に同一のカーネルを設 定した提案手法 次元毎に異なるカーネルを設 定した提案手法 80 www.***.com 位置毎の次元重みと音響伝達特性の分布 90° 130° Cepstral coefficient 30° Cepstral order 次位 元置 重毎 みの 30° 0.00 0.07 0.07 0.07 0.08 90° 0.00 0.06 0.10 0.07 0.07 130° 0.01 0.07 0.06 0.11 0.07 www.***.com マイクの位置のずれに対する頑健性の評価 Localization accuracy [%] テスト時に、マイクの位置を学習時の位置からずらして収録して識別精度 を測定 マイクの位置が10cmずれた時点で15~20%精度が低下 100 90 80 70 60 50 40 91.2 90.0 85.7 84.2 67.9 67.1 65.9 64.0 64.0 62.0 0 10 学習時のマイクの位置 (0cm) 54.5 20 Gap of position of mic. [cm] テスト時のマイクの位置 (10cm, 20cm) GMM 従来の単一カーネルSVM 次元毎に同一のカーネルを設定した提案手法 次元毎に異なるカーネルを設定した提案手法 www.***.com まとめ 次元ごとにサブカーネルを定義し、MKLで統合させる ことで、音響伝達特性MFCCの次元重みを自動的に 学習させた 以前用いていたGMMによる識別や従来のSVMに比 べて高い識別精度が得られた 今後の課題 収録環境が変化した場合、精度が大幅に低下 収録環境の適応 音響伝達特性の正確な推定 www.***.com ご清聴ありがとうございました www.***.com 位置毎の次元重みと音響伝達特性の分布 30° 90° and 30° and 130° 90° 130° Cepstral coefficient 30° 90° 130° Cepstral order 次 位 30° 0.00 0.06 0.07 0.07 0.07 0.06 0.07 0.07 0.06 0.08 0.06 0.06 0.06 0.07 0.07 0.07 元 置 90° 0.00 0.06 0.06 0.06 0.07 0.08 0.10 0.07 0.06 0.07 0.07 0.06 0.06 0.06 0.07 0.06 重毎 み の 130° 0.01 0.05 0.09 0.07 0.05 0.11 0.06 0.11 0.05 0.07 0.06 0.05 0.05 0.06 www.***.com 0.05 0.07 200cm 10cm マイクロホンアレー 音源位置 実験に使用するマイク www.***.com RWCPデータベースより参照 インパルス応答収録風景 www.***.com 音響伝達特性を分離せずに、観測信号だけで位置を 学習した場合との比較 Localization accuracy [%] 観測信号は、位置と無関係なテキスト情報の影響を受けて しまう 92 90.0 91.2 88 83.7 84 80.1 80 MKL-SVM with an identical kernel dimensionally MKL-SVM with different kernels dimensionally 76 Acoustic transfer function Observed speech www.***.com 実環境での実験 識別方法は、MKL-SVMではなく、GMMを使用 残響時間 約350 ms SN比 約42 dB 音源距離 1.5 m 音源方向 40, 90, 130° 提案法(単一マイク):87.6 % CSP法(2chマイク):100% マイク間隔 30 cm www.***.com 実環境実験の収録環境 3170 mm 130 1000 mm 1500 mm Table Desk 90 300 mm 1500 mm 40 6260 mm www.***.com 0 cm 0 deg 15 cm 45 deg www.***.com 30 cm 90 deg スピーカーの位置が、学習時の位置からずれた場合 ずれ幅15cm 提案法: 87.6 % ⇒ 59.4 % (-28.2 %) CSP法: 100 % ⇒ 100% ずれ幅 30cm 提案法: 87.6 % ⇒ 54.1 % (-33.5 %) CSP法: 100 % ⇒ 100% スピーカーの位置は同じで、発話方向が異なる場合 45° 提案法: 87.6 % ⇒ 80.3 % (-7.3 %) CSP法: 100 % ⇒ 100% 90° 提案法: 87.6 % ⇒ 65.1 % (-22.5 %) CSP法: 100 % ⇒ 87.7% (-12.3 %) www.***.com MKL (Multiple Kernel Learning) (2/3) 基本的な使い方 通常のSVM・・・最適なカーネルを実験的に見つける MKL・・・様々なカーネルを用意しておけば、識別に有効なカーネルを 自動的に重み付けしてくれる K x, x k x,x n n n 応用・・・特徴量統合における重み付け βがそれぞれの特徴ベクトルの重みを表すことになる M. Varma, et al., ICCV 2007 x= 色特徴ベクトルa 形特徴ベクトルb 勾配特徴ベクトルc ・・・ K x, x 1 k1 a,a + 2 k2 b, b + 3 k3 c, c + ・・・ 提案法・・・音響伝達特性MFCCの次元重み付けへの利用 K H, H d kd H d , H d d 音響伝達特性の特定の次元 www.***.com
© Copyright 2024 ExpyDoc