3-P-5 アクティブマイクロフォンによる 音響伝達特性を用いたシングルチャネル音源方向推定 高島遼一,滝口哲也,有木康雄 (神戸大) アクティブマイクロフォン 研究の背景 Parabolic reflector 従来の音声を用いたインターフェース • マイクは位置や向きが変わらず常に固定されている. 人間の場合… • 様々な状況に合わせて耳の位置や方向を変えている. Microphone 研究の目的 マイクが動くことによってどのような利点が得られるか? Rotation manually Signal 従来の音源方向推定法 固定されたマイクロフォンアレーによって各マイクロフォンにおける 観測信号の位相差から音源方向を推定 90 deg 30-channel arrays 120 deg 32-channel arrays 音源方向の検出 放物面の正面から信号が到来している場合 観測信号の音響伝達特性は,反射板が音源方向を向 いたときのみ異なった値となる. •反射波は全て焦点に向かう H p ( ) H r ( ) ( ˆ) H ( ) otherwise H p ( ) xn (t ) s(t ) hn (t ) x0 (t ) s(t ) h0 (t ) O Focal point (Microphone) o(t ) x0 (t ) n 1 xn (t ) s(t ) h0 n 1 s(t ) hn (t ) N O( ) S ( ) H 0 ( ) S ( ) e S ( ) H 0 ( ) e j 2 j 2 S () H p () Hr () n 1 H n ( ) N H ( ) n n 1 N ˆ arg max H H H p ( ):反射板に依存しない伝達関数 H r ( ):反射板により追加される伝達関数 O() H () S () logO( ) log H ( ) log S ( ) •反射波が焦点に向かうことはない •焦点における観測信号 O() S () H0 () S () H p () 逆フーリエ変換して移項 Hcep d Ocep d Scep d s w, μ, Σ 正面から信号が到来し ている時のみ 伝達関数に H r ( )が加わる Other degrees 30 and 150 degrees Cepstral coefficient (MFCC 1st order) ガンマイクの音響伝達特性のプロット Cepstral coefficient (MFCC 2rd order) •音響伝達特性(H)のプロット Cepstral coefficient (MFCC 2rd order) 音源方向:90° 音源距離:2m マイクの角度:30°~150°の7方向 反射板:直径24cm,焦点距離9cm 特徴量:MFCC(2次元) サンプリング周波数:12kHz クリーン音声GMM:64混合 GMMに用いたデータ数:50文 Target direction Non-target direction Cepstral coefficient (MFCC 1st order) 正解のSを与えてHを求めた場合 これまで固定されていたマイクに 「動く」という概念を加えることによって 通常複数のマイクが必要であった 音源方向推定をマイク一つで行うこと が可能となった. 音響伝達特性を用いることによって パワーを用いた場合に比べて高い精 度が得られた 99.0 100 86.0 80 Proposed 60 35.8 23.5 38.0 28.8 20 Power (Parabola mic.) Power (Shotgun mic.) 100 98 100 99.3 93.3 90 87 80 H computed using true clean speech 70 H estimated using GMM 60 1.0 0 2.0 3.0 Speech length [sec] 提案手法とパワー(パラボラ,ガンマイク) を用いた手法との比較結果 2.0 3.0 Speech length [s] 正解のクリーン音声を用いた場合と クリーン音声GMMを用いた場合の比較 Cepstral coefficient (MFCC 2rd order) 94.3 Direction accuracy [%] Direction Accuracy [%] H まとめ 実験条件 1.0 Hˆ arg maxPrO | H , s [3] 住田他,”単一マイクロホンを用いた音響伝達特性の尤度判定による音源位置推定”,音講論 (春),1-P-8,pp. 771-772,2008. 評価実験 21.8 29.0 音源方向以外の平均ベクトル 観測信号はケプストラム領域においてはクリーン音声と音響伝達特性の 加算によって表される. ただし,実際の環境ではSは観測できないため,代わりにクリーン音声の GMM (Gaussian mixture model)を作成しておき,Oに対して,そのGMMの 尤度が最大となるようにHを推定する. 正面以外の方向から信号が到来している場合 Focal point (Microphone) 音響伝達特性の推定 :時間差 音源方向の平均ベクトル 2 x0 (t ):直接波 xn (t ):反射波 (n>0) s (t ) :クリーン音声 hn (t ) :インパルス応答 N : アクティブマイクの角 度 ˆ : 音源方向 そこで,以下の式を用いて最も離れた場所に 位置する音響伝達特性を見つけ,それに対 応する角度を音源方向として出力する 反射波と直接波の時間 差は ( ) nの値によらず一定 Parabolic surface •焦点における観測信号 40 180 deg 反射板と無指向性マイクロフォンが一緒に回転し,各方向での観測 信号を比較することにより,音源方向を検出する. パラボラ反射板 100 150 deg Target direction Non-target direction Cepstral coefficient (MFCC 1st order) クリーン音声GMMによりHを推定した場合 今後の課題 •実際の使用では角度毎の入力音声 が異なる •短い収録時間での方向推定 •雑音環境下や残響環境下での方向 推定 •周波数帯域ごとに詳しく音響伝達 特性の変化を調査
© Copyright 2024 ExpyDoc