スライド 1

3-P-5
アクティブマイクロフォンによる
音響伝達特性を用いたシングルチャネル音源方向推定
高島遼一,滝口哲也,有木康雄 (神戸大)
アクティブマイクロフォン
研究の背景
Parabolic
reflector
従来の音声を用いたインターフェース
• マイクは位置や向きが変わらず常に固定されている.
人間の場合…
• 様々な状況に合わせて耳の位置や方向を変えている.
Microphone
研究の目的
マイクが動くことによってどのような利点が得られるか?
Rotation
manually
Signal
従来の音源方向推定法
固定されたマイクロフォンアレーによって各マイクロフォンにおける
観測信号の位相差から音源方向を推定
90 deg
30-channel arrays
120 deg
32-channel arrays
音源方向の検出
放物面の正面から信号が到来している場合
観測信号の音響伝達特性は,反射板が音源方向を向
いたときのみ異なった値となる.
•反射波は全て焦点に向かう
 H p ( )  H r ( ) (  ˆ)
H  ( )  
otherwise
 H p ( ) xn (t )  s(t  )  hn (t )
x0 (t )  s(t )  h0 (t )
O
Focal point
(Microphone)
o(t )  x0 (t )  n 1 xn (t )
 s(t )  h0  n 1 s(t   )  hn (t )
N
O( )  S ( )  H 0 ( )  S ( )  e

 S ( )  H 0 ( )  e
 j 2
 j 2

 S ()  H p ()  Hr ()
 n 1 H n ( )
N
H
(

)
n
n 1
N
ˆ  arg max H  H  

H p ( ):反射板に依存しない伝達関数
H r ( ):反射板により追加される伝達関数
O()  H ()  S ()
logO( )  log H ( )  log S ( )
•反射波が焦点に向かうことはない
•焦点における観測信号
O()  S ()  H0 ()  S ()  H p ()
逆フーリエ変換して移項
Hcep d   Ocep d   Scep d 
s w, μ, Σ
正面から信号が到来し ている時のみ
伝達関数に H r ( )が加わる
Other degrees
30 and 150 degrees
Cepstral coefficient (MFCC 1st order)
ガンマイクの音響伝達特性のプロット
Cepstral coefficient (MFCC 2rd order)
•音響伝達特性(H)のプロット
Cepstral coefficient (MFCC 2rd order)
音源方向:90°
音源距離:2m
マイクの角度:30°~150°の7方向
反射板:直径24cm,焦点距離9cm
特徴量:MFCC(2次元)
サンプリング周波数:12kHz
クリーン音声GMM:64混合
GMMに用いたデータ数:50文
Target direction
Non-target direction
Cepstral coefficient (MFCC 1st order)
正解のSを与えてHを求めた場合
これまで固定されていたマイクに
「動く」という概念を加えることによって
通常複数のマイクが必要であった
音源方向推定をマイク一つで行うこと
が可能となった.
音響伝達特性を用いることによって
パワーを用いた場合に比べて高い精
度が得られた
99.0
100
86.0
80
Proposed
60
35.8
23.5
38.0
28.8
20
Power
(Parabola mic.)
Power
(Shotgun mic.)
100
98
100 99.3
93.3
90
87
80
H computed
using true
clean speech
70
H estimated
using GMM
60
1.0
0
2.0
3.0
Speech length [sec]
提案手法とパワー(パラボラ,ガンマイク)
を用いた手法との比較結果
2.0
3.0
Speech length [s]
正解のクリーン音声を用いた場合と
クリーン音声GMMを用いた場合の比較
Cepstral coefficient (MFCC 2rd order)
94.3
Direction accuracy [%]
Direction Accuracy [%]
H
まとめ
実験条件
1.0
Hˆ  arg maxPrO | H , s 
[3] 住田他,”単一マイクロホンを用いた音響伝達特性の尤度判定による音源位置推定”,音講論 (春),1-P-8,pp. 771-772,2008.
評価実験
21.8 29.0
音源方向以外の平均ベクトル
観測信号はケプストラム領域においてはクリーン音声と音響伝達特性の
加算によって表される.
ただし,実際の環境ではSは観測できないため,代わりにクリーン音声の
GMM (Gaussian mixture model)を作成しておき,Oに対して,そのGMMの
尤度が最大となるようにHを推定する.
正面以外の方向から信号が到来している場合
Focal point
(Microphone)

音響伝達特性の推定
 :時間差

音源方向の平均ベクトル
2
x0 (t ):直接波
xn (t ):反射波 (n>0)
s (t ) :クリーン音声
hn (t ) :インパルス応答
N
 : アクティブマイクの角
度


ˆ : 音源方向



そこで,以下の式を用いて最も離れた場所に
位置する音響伝達特性を見つけ,それに対
応する角度を音源方向として出力する
 反射波と直接波の時間 差は 


(  )
 nの値によらず一定 
Parabolic
surface
•焦点における観測信号
40
180 deg
反射板と無指向性マイクロフォンが一緒に回転し,各方向での観測
信号を比較することにより,音源方向を検出する.
パラボラ反射板
100
150 deg
Target direction
Non-target direction
Cepstral coefficient (MFCC 1st order)
クリーン音声GMMによりHを推定した場合
今後の課題
•実際の使用では角度毎の入力音声
が異なる
•短い収録時間での方向推定
•雑音環境下や残響環境下での方向
推定
•周波数帯域ごとに詳しく音響伝達
特性の変化を調査