多面体マイクロホンアレイを用いた実環境下における優決定 ブラインド

2-P-7
多面体マイクロホンアレイを用いた実環境下における優決定
ブラインド音源信号分離∗
☆小笠原基,西野隆典,武田一哉 (名大)
1
観測信号
(60次元)
はじめに
複数の音源が存在する音響空間において,各音源信
号を分離抽出し,音源位置を探索する技術である「音
響空間符号化」は,様々なアプリケーションにおいて
非常に有用である.これまでに,実環境でも頑健に動
作する音響空間符号化システムの構築を目的とし,多
数マイクロホンを小型の多面体構造に密集させた正
十二面体マイクロホンアレイを開発した [1].このデ
バイスの特徴として,1) 各面に設置されたマイクロ
ホン間での振幅差が大きいこと,2) 各面内に設置さ
れたマイクロホン間では空間エイリアシングが生じ
ることなく位相情報を抽出できることが挙げられる.
また本研究ではこれまで,FDICA の permutation 問
題に対し,伝播特性の振幅類似度と位相類似度を周
波数の関数として重み付けした類似尺度を用いて解
決する手法を提案した [2].
従来までの音源分離の研究では,分離したい目的
信号の位置は既知という条件や,音源数が既知の条
件を扱うものが多かった.本稿では,実環境でも事前
情報なしに頑健に動作する音響空間符号化システム
について報告する.これは指向性のある初期反射音
に対し,多数マイクロホンを用いて FDICA を優決定
問題として動作させることで,適切な死角を形成で
きるようにしたものである.また本システムは音源
数が未知でも動作するように音源数推定のアルゴリ
ズムも含む.提案手法による音源分離実験を行った結
果,信号対干渉信号比 (Signal-to-Interference ratio :
SIR) が従来手法と比較して最大で 10dB 程度の改善
がみられ,提案手法の有効性を示した.
2
正十二面体マイクロホンアレイを用いた
ブラインド音響空間符号化
本研究で提案するブラインド音響空間符号化のフ
ローチャートを Fig.1 に示し,その処理の詳細を以降
の節で述べる.
2.1 音源数推定と優決定音源信号分離
本研究ではマイクロホン数が音源数より多い優決定
問題として音源分離問題を扱うことで,音源数が未知
でも動作する音響空間符号化システムを構築する.音
源信号分離には FDICA を用いるが,残響の存在する
実環境下では,実際に音波を放出する音源の数よりも
大きな次元で ICA を実行した方が分離性能が向上す
ることが予備実験の結果からわかっている.Fig.2 は
予備実験の結果の一例であり,実際の音源数よりも大
きな次元で ICA を実行した方が分離性能が高くなる
ことが示されている.このことから,実際に音場内に
存在する直接音の数を正確に推定する必要はなく,直
接音と反射音の次元を合わせた仮想音源の次元 Q を
おおよそ推定できればよいことがわかる.この仮想音
源の次元 Q は,時間周波数領域での観測信号 X(f, τ )
の空間相関行列 R(f ) の固有値を閾値処理することで
∗
STFT
正十二面体
マイクロホンアレイ
固有値分布による
仮想音源数 Q 推定
w
+(
Depermutation
を -means アルゴリズム
によりグルーピング
f )
k
J k (w + (
f
),
部分空間信号 (Q 次元
部分空間信号
次元)
w
+(
最終出力
J
(分離信号と音源位置)
b(
Scaling
(Projection back)
分離信号から支配的な
音源数に次元削減
ck )
を階層型クラスタリング
によりグルーピング
分離信号 (K 次元
分離信号
次元)
wq (
1
f α ),
wq (
+
2
f β ))
伝播特性 w f 推定
までの周波数特性)
+( )
f )
+
( FDICA )
クラスタ数
既知
= a ( f ) D a + b( f ) D p
音源位置推定
周波数領域
独立成分分析
部分空間法 (PCA)
による次元削減
クラスタ数
未知
= (a( fα ) + a( f β ) )D a + (b( fα ) + b( f β ) ) D p
(音源からマイクロホン
分離フィルタW の
擬似逆行列より算出
(f)
Fig. 1 ブラインド音響空間符号化のフローチャート.
35
3 音源
4 音源
5 音源
6 音源
8 音源
10 音源
12 音源
平均
]B30
[dR
IS25
善
20
改
均
平15
10
3
8
13
18
23
28
33
38
ICAの入力次元Q
43
48
53
58
Fig. 2 仮想音源の次数 Q を変化させた場合の発話信
号に対する分離信号の改善 SIR.(残響時間 300msec)
得る.つまり各周波数ごとに閾値 ThPCA [dB] を上回っ
た固有値の数をカウントし,その最大値を Q とする.
この時,固有値の和は 1 になるような正規化処理を
行っておく.そして Q 次元に削減された部分空間信
号に対して ICA を実行し,分離信号 Y(f, τ ) を得る.
その後 Scaling 問題を Projection back
法 [3] で解決し]
[∑
2
た後に,分離信号のパワー P (f ) = E
τ |Y (f, τ )|
が閾値 ThICA [dB] を上回った数をカウントし,各周波
数ごとに実効的な音源数を推定する.
2.2 伝搬特性グルーピングによる depermutation
FDICA の問題点である permutation 問題に対し,
本手法では空間的に類似度の高い周波数成分を,伝播
特性を用いてグルーピングすることで解決する.こ
の時,振幅類似度と位相類似度を周波数の関数とし
て重み付けした類似尺度を用いる [2].グルーピング
のアルゴリズムとして,非階層型クラスタリングの
代表的なものである k-means アルゴリズムと,ボト
ムアップ処理である階層型クラスタリングの 2 種類
を用いる.k-means アルゴリズムは出力したいクラ
スタ数が決まっている時に用いることが可能であり,
収束が早いという利点があるが初期値依存性が非常
に大きいという欠点も持つ.それに対し階層型クラ
スタリングは,演算量は k-mean アルゴリズムよりも
比較的多いが,クラスタ数が未知でも動作する.階
層型クラスタリングではクラスタ間の類似度評価に,
最近接メンバ間の類似度を比較するものと,セント
ロイド間の類似度を評価するものの 2 種類を用いる.
k-means アルゴリズムでは以下の式 (1) で与えられる
類似尺度 Jk を用いる.
(
)
Jk w+ (f ), ck = a(f ) Da + b(f ) Dp
(1)
Overdetermined blind source separation with polyhedral microphone array in real environment by OGASAWARA Motoki, NISHINO Takanori and TAKEDA Kazuya (Nagoya Univ.)
日本音響学会講演論文集
- 805 -
2010年3月
24
Table 1 最適な重み付け関数の形状
グルーピング
アルゴリズム
パラメータ n
k-means
0.8
階層型
最近接比較
10
階層型
セントロイド比較
0.4
残響時間
信号長
PCA 閾値 ThPCA
ICA 後閾値 ThICA
depermutation 手法
評価尺度
22
]B30
d[
IRS25
善
改均
平20
]B18
d[16
IRS14
善12
改均
平10
20
Table 2 ブラインド音源分離性能の評価実験条件
サンプリング周波数
マイクロホン数 M
音源信号 (音源数 N )
35
40 kHz
60
発話 (3,4,5,6,8,10,12)
楽器 (4,4,5,6)
300 msec (講義室)
5秒
-80 dB
-3 dB
音源信号既知
提案法 (k-means)
提案法 (階層型最近接比較)
提案法 (階層型セントロイド比較)
従来法 ([Sawada et al. [5]])
改善 SIR [dB]
15
10
3
4
5
音源信号既知
提案法 (k-means)
提案法 (階層型最近接)
提案法 (階層型セントロイド)
従来法
6
8
10
12
音源数
音源信号既知
提案法 (k-means)
提案法 (階層型最近接)
提案法 (階層型セントロイド)
4
従来法
4 (ポップス) 4 (ロック)
5
6
音源数
8
6
Fig. 3 発話信号に対す Fig. 4 楽器信号に対す
る分離性能.
る分離性能.
正十二面体マイクロホンアレイ
話者8名
これは分離フィルタの擬似逆行列から算出した伝搬
特性 w+ (f ) から ck への類似度に対応している.ま
た階層型アルゴリズムでは以下の式 (2) で与えられる
類似尺度 Jb を用いる.
(
) (
)
(
)
Jb
wq+ (fα ),wq+ (fβ )
1
2
90
1
0.8
0.6
= a(fα )+a(fβ ) Da + b(fα )+b(fβ ) Dp
0.4
0.2
(2)
これは wq+1 (fα ) と wq+2 (fβ ) 間の両方向の類似度であ
る.ここで Da と Dp はそれぞれ振幅特徴量と位相特
徴量の類似度である [2].また a(f ) と b(f ) は次式で
定義される重み付け関数である.
{ f /I }n
a(f ) =
,
Fs /2
b(f ) = 1 − a(f )
(3)
ここで I と n は重み関数の形状を変化させるパラメー
タであり,Fs はサンプリング周波数である.
予備実験の結果,depermutation 性能が最大になる
I の値は 1.5 であり,n は Table1 に示す値となった.
2.3
音源位置推定
音源位置推定には,文献 [4] で提案されている手法
を用いた.これは遠距離場を仮定して音源方向ベク
トルを推定する手法であり,音源到来方向推定に対応
する.
3
3.1
音源分離性能評価実験
実験条件
音響空間符号化システムの性能評価として,シミュ
レーションにより音源分離性能を改善 SIR で評価した.
また音源位置推定精度を評価した.音源信号には 3∼
12 音源の発話と楽器を用い,同一平面で同心円上に
配置した.また提案手法の比較実験として,伝播特性
の振幅と位相類似度を同時に複素平面上でユークリッ
ド距離で評価し,k-means アルゴリズムでグルーピン
グを行う従来法 [5] と,音源信号既知で permutation
問題を解決した場合でも評価した.その他の実験条
件を Fig.2 に示す.なお重み関数の形状に関しては,
前節で示した予備実験で結果の最も良かったものを
用いた.
3.2
0
-0.2
-0.4
-0.6
-0.8
y
1
0.8
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
-1x
)]% 80
[ 70
率解
正語60
単( 50
度解40
了語30
単
20
10
0
混合信号 分離信号
Fig. 5 実話者に対する音響空間符号化実験.中心に
マイクロホンアレイが配置されている.*印はパワー
が大きな分離信号成分を示しており,実話者の位置を
推定している.また○印はパワーが小さな分離信号
成分である.右図は了解度による評価の結果である.
性がないことに起因していると考えられる.また音
源位置推定精度は,結果が最も良かったのは階層型
クラスタリングセントロイド比較手法で,平均推定
誤差が方位角方向で 5.4 [deg.],仰角方向で 4.2 [deg.]
であった.また Fig.5 の上図に示すように実環境で実
際の話者の同時発話を収録し,音源方向推定まで含
めて音響空間符号化を行った.聴感上,8 名全ての話
者の発話が良好に分離抽出されており,5 名の被験者
にて分離信号の了解度を単語正解率で評価した結果,
60 ポイント以上の向上が見られた.また Fig.5 の下
図に示すように話者位置も推定できており,提案手法
の有効性が示された.
4
まとめと今後の課題
本研究では正十二面体マイクロホンアレイを用い
た実環境で頑健に動作する音響空間符号化システム
を提案した.多数マイクロホンを用いた優決定問題と
することで,残響下でも良好に動作することを示し
た.今後の課題は,システムのリアルタイム動作や,
音源の移動への追従を行っていく必要がある.
参考文献
実験結果
発話と楽器信号に関して,Fig.3 と Fig.4 に結果を
それぞれ示す.どちらの場合も,提案法は従来法より
も分離性能の向上が見られ,中でも階層型クラスタ
リングセントロイド比較の手法が最も分離性能がよ
かった.これは階層型クラスタリングでは初期値依存
日本音響学会講演論文集
100
- 806 -
[1] 小笠原ら,音講論 (秋),pp.761-764,2009.
[2] M. Ogasawara et al., ICASSP, 2010 (accepted).
[3] N. Murata et al., NOLTA98, vol. 3, pp. 923–
926, 1998.
[4] S. Araki et al., ICASSP, vol. 5, pp. 33–36, 2006.
[5] H. Sawada et al., IEEE Trans. Audio, Speech,
and Language Processing, vol. 14, no.6, pp.
2165–2173, 2006.
2010年3月