3-Q-13 HMMを用いた音響伝達特性の推定と音源位置推定 高島遼一,滝口哲也,有木康雄 (神戸大) 単一マイクによる音源位置推定のためのアプローチ 研究の背景 従来の音源位置推定法 固定されたマイクロフォンアレーによって各マイクロフォンにおける 観測信号の位相差から音源位置を推定 Cepstral coefficient (MFCC 10th order) クリーン音声に畳み込まれる音響伝達特性は音源位置毎に異なる値を持つ c d sin s(t ) d s (t ) ot ht st O() H () S () : 到来時間差 c : 音速 32-channel arrays 音源位置30°と90°における 音響伝達特性のMFCC 音源位置ごとに異なる 音響伝達特性 研究の目的 マイク一つで音源位置推定が行えないだろうか? Cepstral coefficient (MFCC 7th order) 音源位置毎に音響伝達特性を学習しておけば,学習済みの場所から到来する 音声はその音響伝達特性を判別することで音源位置を推定することができる 単一マイクの利点 低コスト化やシステムの縮小化などが期待できる 提案手法 位置毎の音響伝達特性の学習方法 ・・・ 単一マイク O 位置θのトレーニング データ(残響信号) 3 最尤推定法により 認識結果(ラベル) 音響伝達特性を推定 i, k, i, o, i Hˆ arg max PrO | H , S 1 音素認識 (a) H 2 認識結果を元に 音素HMMを連結 (i) 推定された伝達特性 をGMMで学習 H S ・・・ ・・・ ・・・ (k) (i) 単一マイク O 最尤推定法により 音響伝達特性を推定 Hˆ 6 H ④ 推定された音響伝達特性を用いてθのGMMを学習する. 最も尤度の高い音響伝達特性GMM の位置を音源位置として出力 ・・・ H ˆ ˆ arg max Pr H | (i) (o) (i) ① θから到来するトレーニングデータを,あらかじめ学習しておいたクリーン 音声ケプストラムの音素HMMを用いて音素認識を行う. ② 認識結果を元に音素HMMを連結する. ③ 連結されたクリーン音声HMMを用いて残響信号に対して尤度が最も高く なるように音響伝達特性HをEMアルゴリズムを用いて推定する. Hˆ arg max PrO | H , S 5 位置θから到来 したテストデータ 位置毎の音響 伝達特性GMM 位置θの音響 伝達特性GMM 30 50 音源位置の推定方法 30 50 連結HMM クリーン音声の 音素HMM Hˆ 4 H ⑤ テストデータも同様の方法で音響伝達特性を推定する. ⑥ 推定された音響伝達特性と位置毎のGMMの尤度を計算し,最も尤度が 高い位置を音源位置として出力する. ˆ ˆ arg max Pr H | 評価実験 Localization accuracy [%] 100 •男声話者5人による単語データにインパルス応答を畳み 込んでシミュレーション実験を行った. 比較手法1 音響伝達特性の推定を行わず,残響信号をそのまま 用いてGMMを学習する. 比較手法2 クリーン音声HMMの代わりにクリーン音声GMMを用いて 音響伝達特性を推定する. 80 66.968.3 55.8 60 62.863.1 55.4 54.6 50.0 平均二乗誤差 42.1 40 HMM GMM 2096.14 2264.33 推定された音響伝達特性の平均二乗誤差 20 3-position 5-position 7-position 9-position Number of positions 比較手法1 比較手法2 提案手法 Cepstral coefficient (MFCC 10th order) Cepstral coefficient (MFCC 10th order) 85.887.2 77.9 まとめ ・HMMにより推定した音響伝達特性 を用いて単一マイクによる音源位置 推定を行った. ・位置の数が増えると位置推定の 精度が低下した 音源位置の数ごとの音源位置推定精度 実験条件 ・特徴量:MFCC 16次元 ・サンプリング周波数:12kHz ・テストデータ数:1000単語×5話者(特定話者実験) ・クリーン音声HMM(提案手法) 音素数:54 状態数:3 混合数:32 学習データ数:2620単語 ・クリーン音声GMM(比較手法2) 混合数:32 学習データ数:2620単語 ・位置毎の伝達特性及び残響信号(比較手法1)GMM 混合数:16 学習データ数:50単語 H 今後の課題 ・音響伝達特性の判別に適した 特徴量,判別方法の検討 Cepstral coefficient (MFCC 7 order) Cepstral coefficient (MFCC 7 order) ・顔の向きなど,環境が変わった 音源位置毎(位置数3,7)の音響伝達特性の平均MFCC ときなどの実験 th th (音響伝達特性はHcep Ocep Scepに正解のSを代入して求めた)
© Copyright 2024 ExpyDoc