音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 尤度判定による音源位置推定 研究の背景 従来の音源位置推定法 固定されたマイクロフォンアレーによって各マイクロフォンにおける 観測信号の位相差から音源位置を推定 位置毎に発話された音声を学習し,テストデータに対して,尤度が最も 高いモデルの位置を音源位置として出力する. [1] 住田他,音講論 (春),1-P-8,pp. 771-772,2008. b c Ob Oc 30-channel arrays a 32-channel arrays b 尤度比較 O b c 位置毎の 音声GMM 研究の目的 マイク一つで音源位置推定が行えないだろうか? 位置毎に異なる音響伝達特性が位置毎に音声の性質を変形させる O() H () S () 提案手法 音源位置ごとに異なる 音響伝達特性 2音源における観測信号 1 ,2 1 話者(音源)が複数の場合 位置の組み合わせ毎にモデルを作成して尤度を比較する 学習が困難 ・音源数2,位置数3の場合,位置の組み合わせは9通り ・それぞれの組み合わせについて,同時に発話してもらう必要がある 2 () H1 () S1 () H 2 () S2 () O S1 , S 2 をGMM (Gaussian Mixture Model), 1 学習 Oa a 2 をSingle Gaussian Model でそれぞれモデル化し, H1 , H 2 モデル合成によりあらゆる組み合わせの観測信号 O のモデルを作成する. Clean speech Training data for each position GMM 1 S X1 1 Training data for each position 2 X2 Estimation of the acoustic transfer function ˆ 1 S 1.話者ごとのクリーン音声GMMをケプストラム領域であらかじめ学習 2 2.クリーン音声GMMを用いてトレーニングデータから最尤推定法 により音響伝達特性を推定 Hˆ arg maxPrO | H , s H Training of the acoustic transfer function model for each position (2 ) ( 1 ) H 1 2 1 ( 1 ) X Clean speech GMM 2 ˆ H2 Training of the acoustic transfer function model for each position S 研究のゴール 尤度判定による方法で複数音源(2音源)の位置推定を行う Estimation of the acoustic transfer function H1 H 1 , 2 S 3.位置毎の音響伝達特性を正規分布で学習 4.クリーン音声モデルと伝達特性を足し合わせて話者ごとの 残響音声モデルを作成 X H S 2 cep (2 ) X 1 2 IDCT IDCT Exp Exp cep 5.各モデルに逆コサイン変換,指数変換を適用して,ケプストラム 領域からスペクトル領域に変換 X lin expIDCTX cep 6.話者毎の残響音声モデルを足し合わせて観測信号モデルを作成 Olin X1,lin X 2,lin Log DCT cep 7.観測信号モデルに対数変換,コサイン変換を適用して,スペクトル 領域からケプストラム領域に変換 O DCT logO ( 1 , 2 ) O Composite GMM of observed signal cep lin 8.全ての位置の組み合わせについて観測信号モデルを作成し,テストデータに対して 1 , 2 最も尤度の高い位置の組み合わせを出力 ˆ ˆ , arg maxPr O | Localization Accuracy [%] 60 56.1 56.7 50 55.3 43.6 40 51.6 44.5 39.1 33.6 32.4 S-H model X model O model 30 20 10 0 比較手法2:O-Model 全ての手順を省き,複数の話者によって同時に発話されたときの 観測信号から直接位置毎の観測信号モデルを作成する 1 5 10 Number of training sentence 両方の話者の位置が正解した場合の正解率 Localization Accuracy [%] 100 実験条件 特徴量:MFCC 16次元 サンプリング周波数:12kHz 音源数:2個 位置数:3箇所(位置の組み合わせは9通り存在) クリーン音声モデルの混合数:64混合 その他のモデルの混合数:トレーニングデータの文章数により調節 2 1 , 2 O まとめ 評価実験 比較手法1:X-Model 手順1~4を行わずに,残響音声から直接残響音声モデルを作成 する(クリーン音声モデルの学習が不必要) 1 80 60 78.6 78.6 57.4 56.8 78.8 68.2 63.7 74.9 69.5 S-H model X model O model 40 20 0 1 5 10 Number of training sentence 少なくとも片方の位置が正解した場合の正解率 単一マイクによる複数音源の 位置推定法の提案を行った. 比較手法と比べて,トレーニング データが少ない場合において, 優位性が顕著に現れた. →学習過程で発話者に負担を かけさせない 今後の課題 他の手法に比べて優位でも精度 は6割程度. 観測信号から音韻特徴を消す方 法について検討
© Copyright 2024 ExpyDoc