音響伝達特性を用いたシングルチャネル音源位置推定における未学習位置の推定 1-Q-8 ☆高島遼一，滝口哲也，有木康雄（神戸大院）音響伝達特性の識別に基づくシングルチャネル音源位置推定研究の背景従来の音源位置推定法固定されたマイクロフォンアレーによって各マイクロフォンにおける観測信号の位相差から音源位置を推定  d sin   s(t ) ocep(d )  hcep(d )  scep(d ) 音源位置30°と90°における音響伝達特性のMFCC 音源位置毎に音響伝達特性を学習しておけば，評価したい音声もその音響伝達特性を判別することで音源位置を推定することができる問題点：学習した位置しか識別できない単一マイクの利点低コスト化やシステムの縮小化などが期待できる解決法：回帰分析を用いて未知の位置を推定する音響伝達特性の推定手法提案手法提案手法の流れ１. 音源位置毎に発話された音声信号を収録し、音響伝達特性を推定する２. 推定した音響伝達特性と位置のラベルから、回帰係数を学習する３. ある位置で発話されたテスト音声についても音響伝達特性を推定し、音響伝達特性を回帰式に入力することで、その位置を推定する l 評価データ otest h 観測信号Oから音響伝達特性H を推定する htest 回帰係数 F h の学習回帰式により音源位置を推定 otest 識別位置 lˆ  F (htest ) 重回帰分析による音響伝達特性から位置へのマッピング伝達特性 h と位置のラベル l のペアからなる学習データを用いて、その間の回帰モデルを学習する l  F (h)  Ah  b 回帰パラメータは最小二乗法で求められる min n ln  Anh  b hˆ  arg max Pro | h, s  h 解はEMアルゴリズムによって求められる    W  LH HH W  b A   Pr o, b, c | hˆ , s  n abn1 ,bn wbn ,cn   240 Loudspeaker Microphones 240 706 90 インパルス応答を用いた場合 Microphone Predicted position [cm] (vertical) -90 (horizontal)  回帰分析・実験は水平方向・垂直方向それぞれ独立に行った・30cm間隔の伝達特性を学習に用い、 15cm間隔の伝達特性を評価・-90～0 と 0～90 の範囲で別々の回帰モデルを学習させた 630 0    分析条件・特徴量：MFCC 16次元・サンプリング周波数：12kHz ・テストデータ数：50単語×位置数・クリーン音声HMMの学習音素数：54 状態数：3 混合数：32 学習データ数：2620単語 -90  ˆ | h / hˆ  0 を解くこれらをQ関数に代入し、Q h od ,n  b,c,d b c  b,c,n  b2,c,d hˆd ,n   b,c,n  Pron , b, c |, s   b ,c , n b c  b2,c,d 評価実験 15 n :フレーム番号クリーン音声HMMの平均値にHを加算 11  H  h1 h N  Loudspeaker  b : 状態 c : 混合要素 a : 状態遷移確率  w : 混合重み   Pr on | bn , cn ; hˆ n , s s    : 平均値ベクトル   : (対角) 共分散行列ケプストラム領域でのo=s+hという仮定より  2 L  l1 lN    s s ˆ ˆ Pr on | bn , cn ; hn , s  N on ; bn ,cn  hn , bn ,cn これを解くと以下のような回帰パラメータが得られる T  同時確率は以下のように展開される A,b T 1  Q hˆ | h  E[log Pr o, b, c | hˆ , s | h, s ] Pro, b, c | h, s   b c  log Pr o, b, c | hˆ , s Pro | h, s  100 80 60 40 20 0 -20 -40 -60 -80 -100 -90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90 90 Predicted position [cm] •それぞれの位置で収録したインパルス応答と、それをATRデータベース音声からの単語データに畳みこむことで作成した残響音声の両方で評価推定した音響伝達特性・インパルス応答を用いた場合と、推定した伝達特性を用いた場合を用いた場合では回帰関数の形が異なる⇒伝達特性の推定誤差の影響今後の課題・より少ない位置での回帰パラメータの学習・重回帰分析以外の推定方法について検討 100 80 60 40 20 0 -20 -40 -60 -80 -100 -90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90 Actual position [cm] 315 226 Predicted position [cm] otrain li train ① 観測信号に対して音素認識を行い、音素ラベルを得る ② 音素ラベルを元に、音素HMMを連結する ③ 連結したクリーン音声HMMを用いて、観測信号oに対して、尤度が最大となるように、hを推定する Actual position [cm] Predicted position [cm] 音源学習データ l i o train 位置 li (Unit: cm) Cepstral coefficient (MFCC 7th order) 音源位置ごとに異なる音響伝達特性 32-channel arrays 研究の目的マイク一つで音源位置推定が行えないだろうか？単一マイク o()  h()  s() ケプストラム領域  : 到来時間差 c : 音速 d s(t   ) 周波数領域 Cepstral coefficient (MFCC 10th order)  c クリーン音声に畳み込まれる音響伝達特性は音源位置毎に異なる値を持つ Actual position [cm] 水平方向の回帰分析結果 Actual position [cm] 垂直方向の回帰分析結果