スライド 1

3-P-23
アクティブマイクロフォンによる
音響伝達特性を用いたシングルチャネル音源方向推定
高島遼一,滝口哲也,有木康雄 (神戸大)
アクティブマイクロフォン
研究の背景
Parabolic
reflector
従来の音声を用いたインターフェース
• マイクは位置や向きが変わらず常に固定されている.
人間の場合…
• 様々な状況に合わせて耳の位置や方向を変えている.
Microphone
研究の目的
マイクが動くことによってどのような利点が得られるか?
Rotation
manually
Signal
従来の音源方向推定法
固定されたマイクロフォンアレーによって各マイクロフォンにおける
観測信号の位相差から音源方向を推定
90 deg
30-channel arrays
120 deg
150 deg
180 deg
反射板と無指向性マイクロフォンが一緒に回転し,各方向での観測
信号を比較することにより,音源方向を検出する.
32-channel arrays
パラボラ反射板
k-meansによる音源方向の検出
放物面の正面から信号が到来している場合
観測信号の音響伝達特性は,反射板が音源方向を向
いたときのみ異なった値となる.
•反射波は全て焦点に向かう
 H p ( )  H r ( ) (  ˆ)
H  ( )  
otherwise
 H p ( ) xn (t )  s(t  )  hn (t )
x0 (t )  s(t )  h0 (t )
O
Focal point
(Microphone)
o(t )  x0 (t )  n 1 xn (t )
x0 (t ):直接波
xn (t ):反射波 (n>0)
s (t ) :クリーン音声
hn (t ) :インパルス応答
N
 s(t )  h0  n 1 s(t   )  hn (t )
N
O( )  S ( )  H 0 ( )  S ( )  e

 S ( )  H 0 ( )  e
 j 2

 j 2
 S ()  H p ()  Hr ()
 n 1 H n ( )
N
H
(

)
n
n 1
N
if N1  N 2
H  C1 Hˆ  
if N1  N 2
H  C2  :時間差

O()  H ()  S ()
logO( )  log H ( )  log S ( )
O()  S ()  H0 ()  S ()  H p ()
逆フーリエ変換して移項
Hcep d   Ocep d   Scep d 
正面から信号が到来し ている時のみ
•音響伝達特性(H)のMFCC1次元目と2次元目のプロット
speaker
これまで固定されていたマイクに,
「動く」という概念を加えることによって,
通常複数のマイクが必要であった
音源方向推定をマイク一つで行うことが
可能となった.
Cepstral coefficient (MFCC 1st order)
Cepstral coefficient (MFCC 1st order)
正解のSを与えてHを求めた場合
クリーン音声GMMによりHを推定した場合
•音源方向クラスとして検出された割合(MFCC 1,2次元目を使用)
100.0
80
60
40
20
0.0
0.0
0.0
100.0
100
0.0
0.0
0.0
0
Detected rate [%]
100
Detected rate [%]
音源方向:90°
音源距離:2m
マイクの角度:30°~150°の7方向
反射板:直径24cm,焦点距離9cm
特徴量:MFCC(16次元)
サンプリング周波数:16kHz
データ長:1秒
データ数:300セグメント
クリーン音声GMM:64混合
GMMに用いたデータ数:50文
まとめ
Cepstral coefficient (MFCC 2rd order)
2m
80
58.7
60
40
20
0.0
0.0
1.0
30
50
70
0.0
0.0
130
150
0
30
50
70
90
110
H
[3] 住田他,”単一マイクロホンを用いた音響伝達特性の尤度判定による音源位置推定”,音講論 (春),1-P-8,pp. 771-772,2008.
Cepstral coefficient (MFCC 2rd order)
mic. with reflector
Hˆ  arg max PrO | H , GMM s 
GMMs w, μ, Σ
伝達関数に H r ( )が加わる
実験条件
音源方向以外の平均ベクトル
観測信号はケプストラム領域においてはクリーン音声と音響伝達特性の
加算によって表される.
ただし,実際の環境ではSは観測できないため,代わりにクリーン音声の
GMM (Gaussian mixture model)を作成しておき,Oに対して,そのGMMの
尤度が最大となるようにHを推定する.
•反射波が焦点に向かうことはない
•焦点における観測信号
評価実験
 N1 : クラスC1のデータ数 


 N : クラスC のデータ数
2
 2

音響伝達特性の推定
H p ( ):反射板に依存しない伝達関数
H r ( ):反射板により追加される伝達関数
正面以外の方向から信号が到来している場合
Focal point
(Microphone)
角度毎の伝達関数をk-meansにより,音源方向の伝達
関数と音源方向以外の伝達関数にクラスタリングする.
音源方向の平均ベクトル
そのとき,属するデータの数が少ない方の
クラスを音源方向クラスとし,そのクラスのデータ
に対応する角度を音源方向として出力する.
 反射波と直接波の時間 差は 


(  )
 nの値によらず一定 
Parabolic
surface
•焦点における観測信号
 : アクティブマイクの角
度


ˆ : 音源方向



130
150
Direction [degree]
正解のSを与えてHを求めた場合
90
110
Direction [degree]
クリーン音声GMMによりHを推定した場合
今後の課題
•実際の使用では角度毎の入力音声が
異なる
•角度毎に収録する必要があるため,
できるだけ早い収録時間での推定が
必要
•部屋の残響に対する頑健性の調査
•また,音源方向推定だけでなく,雑音
除去や音源分離などへの応用につい
ても研究を行う.