2-P-7 多面体マイクロホンアレイを用いた実環境下における優決定 ブラインド音源信号分離∗ ☆小笠原基,西野隆典,武田一哉 (名大) 1 観測信号 (60次元) はじめに 複数の音源が存在する音響空間において,各音源信 号を分離抽出し,音源位置を探索する技術である「音 響空間符号化」は,様々なアプリケーションにおいて 非常に有用である.これまでに,実環境でも頑健に動 作する音響空間符号化システムの構築を目的とし,多 数マイクロホンを小型の多面体構造に密集させた正 十二面体マイクロホンアレイを開発した [1].このデ バイスの特徴として,1) 各面に設置されたマイクロ ホン間での振幅差が大きいこと,2) 各面内に設置さ れたマイクロホン間では空間エイリアシングが生じ ることなく位相情報を抽出できることが挙げられる. また本研究ではこれまで,FDICA の permutation 問 題に対し,伝播特性の振幅類似度と位相類似度を周 波数の関数として重み付けした類似尺度を用いて解 決する手法を提案した [2]. 従来までの音源分離の研究では,分離したい目的 信号の位置は既知という条件や,音源数が既知の条 件を扱うものが多かった.本稿では,実環境でも事前 情報なしに頑健に動作する音響空間符号化システム について報告する.これは指向性のある初期反射音 に対し,多数マイクロホンを用いて FDICA を優決定 問題として動作させることで,適切な死角を形成で きるようにしたものである.また本システムは音源 数が未知でも動作するように音源数推定のアルゴリ ズムも含む.提案手法による音源分離実験を行った結 果,信号対干渉信号比 (Signal-to-Interference ratio : SIR) が従来手法と比較して最大で 10dB 程度の改善 がみられ,提案手法の有効性を示した. 2 正十二面体マイクロホンアレイを用いた ブラインド音響空間符号化 本研究で提案するブラインド音響空間符号化のフ ローチャートを Fig.1 に示し,その処理の詳細を以降 の節で述べる. 2.1 音源数推定と優決定音源信号分離 本研究ではマイクロホン数が音源数より多い優決定 問題として音源分離問題を扱うことで,音源数が未知 でも動作する音響空間符号化システムを構築する.音 源信号分離には FDICA を用いるが,残響の存在する 実環境下では,実際に音波を放出する音源の数よりも 大きな次元で ICA を実行した方が分離性能が向上す ることが予備実験の結果からわかっている.Fig.2 は 予備実験の結果の一例であり,実際の音源数よりも大 きな次元で ICA を実行した方が分離性能が高くなる ことが示されている.このことから,実際に音場内に 存在する直接音の数を正確に推定する必要はなく,直 接音と反射音の次元を合わせた仮想音源の次元 Q を おおよそ推定できればよいことがわかる.この仮想音 源の次元 Q は,時間周波数領域での観測信号 X(f, τ ) の空間相関行列 R(f ) の固有値を閾値処理することで ∗ STFT 正十二面体 マイクロホンアレイ 固有値分布による 仮想音源数 Q 推定 w +( Depermutation を -means アルゴリズム によりグルーピング f ) k J k (w + ( f ), 部分空間信号 (Q 次元 部分空間信号 次元) w +( 最終出力 J (分離信号と音源位置) b( Scaling (Projection back) 分離信号から支配的な 音源数に次元削減 ck ) を階層型クラスタリング によりグルーピング 分離信号 (K 次元 分離信号 次元) wq ( 1 f α ), wq ( + 2 f β )) 伝播特性 w f 推定 までの周波数特性) +( ) f ) + ( FDICA ) クラスタ数 既知 = a ( f ) D a + b( f ) D p 音源位置推定 周波数領域 独立成分分析 部分空間法 (PCA) による次元削減 クラスタ数 未知 = (a( fα ) + a( f β ) )D a + (b( fα ) + b( f β ) ) D p (音源からマイクロホン 分離フィルタW の 擬似逆行列より算出 (f) Fig. 1 ブラインド音響空間符号化のフローチャート. 35 3 音源 4 音源 5 音源 6 音源 8 音源 10 音源 12 音源 平均 ]B30 [dR IS25 善 20 改 均 平15 10 3 8 13 18 23 28 33 38 ICAの入力次元Q 43 48 53 58 Fig. 2 仮想音源の次数 Q を変化させた場合の発話信 号に対する分離信号の改善 SIR.(残響時間 300msec) 得る.つまり各周波数ごとに閾値 ThPCA [dB] を上回っ た固有値の数をカウントし,その最大値を Q とする. この時,固有値の和は 1 になるような正規化処理を 行っておく.そして Q 次元に削減された部分空間信 号に対して ICA を実行し,分離信号 Y(f, τ ) を得る. その後 Scaling 問題を Projection back 法 [3] で解決し] [∑ 2 た後に,分離信号のパワー P (f ) = E τ |Y (f, τ )| が閾値 ThICA [dB] を上回った数をカウントし,各周波 数ごとに実効的な音源数を推定する. 2.2 伝搬特性グルーピングによる depermutation FDICA の問題点である permutation 問題に対し, 本手法では空間的に類似度の高い周波数成分を,伝播 特性を用いてグルーピングすることで解決する.こ の時,振幅類似度と位相類似度を周波数の関数とし て重み付けした類似尺度を用いる [2].グルーピング のアルゴリズムとして,非階層型クラスタリングの 代表的なものである k-means アルゴリズムと,ボト ムアップ処理である階層型クラスタリングの 2 種類 を用いる.k-means アルゴリズムは出力したいクラ スタ数が決まっている時に用いることが可能であり, 収束が早いという利点があるが初期値依存性が非常 に大きいという欠点も持つ.それに対し階層型クラ スタリングは,演算量は k-mean アルゴリズムよりも 比較的多いが,クラスタ数が未知でも動作する.階 層型クラスタリングではクラスタ間の類似度評価に, 最近接メンバ間の類似度を比較するものと,セント ロイド間の類似度を評価するものの 2 種類を用いる. k-means アルゴリズムでは以下の式 (1) で与えられる 類似尺度 Jk を用いる. ( ) Jk w+ (f ), ck = a(f ) Da + b(f ) Dp (1) Overdetermined blind source separation with polyhedral microphone array in real environment by OGASAWARA Motoki, NISHINO Takanori and TAKEDA Kazuya (Nagoya Univ.) 日本音響学会講演論文集 - 805 - 2010年3月 24 Table 1 最適な重み付け関数の形状 グルーピング アルゴリズム パラメータ n k-means 0.8 階層型 最近接比較 10 階層型 セントロイド比較 0.4 残響時間 信号長 PCA 閾値 ThPCA ICA 後閾値 ThICA depermutation 手法 評価尺度 22 ]B30 d[ IRS25 善 改均 平20 ]B18 d[16 IRS14 善12 改均 平10 20 Table 2 ブラインド音源分離性能の評価実験条件 サンプリング周波数 マイクロホン数 M 音源信号 (音源数 N ) 35 40 kHz 60 発話 (3,4,5,6,8,10,12) 楽器 (4,4,5,6) 300 msec (講義室) 5秒 -80 dB -3 dB 音源信号既知 提案法 (k-means) 提案法 (階層型最近接比較) 提案法 (階層型セントロイド比較) 従来法 ([Sawada et al. [5]]) 改善 SIR [dB] 15 10 3 4 5 音源信号既知 提案法 (k-means) 提案法 (階層型最近接) 提案法 (階層型セントロイド) 従来法 6 8 10 12 音源数 音源信号既知 提案法 (k-means) 提案法 (階層型最近接) 提案法 (階層型セントロイド) 4 従来法 4 (ポップス) 4 (ロック) 5 6 音源数 8 6 Fig. 3 発話信号に対す Fig. 4 楽器信号に対す る分離性能. る分離性能. 正十二面体マイクロホンアレイ 話者8名 これは分離フィルタの擬似逆行列から算出した伝搬 特性 w+ (f ) から ck への類似度に対応している.ま た階層型アルゴリズムでは以下の式 (2) で与えられる 類似尺度 Jb を用いる. ( ) ( ) ( ) Jb wq+ (fα ),wq+ (fβ ) 1 2 90 1 0.8 0.6 = a(fα )+a(fβ ) Da + b(fα )+b(fβ ) Dp 0.4 0.2 (2) これは wq+1 (fα ) と wq+2 (fβ ) 間の両方向の類似度であ る.ここで Da と Dp はそれぞれ振幅特徴量と位相特 徴量の類似度である [2].また a(f ) と b(f ) は次式で 定義される重み付け関数である. { f /I }n a(f ) = , Fs /2 b(f ) = 1 − a(f ) (3) ここで I と n は重み関数の形状を変化させるパラメー タであり,Fs はサンプリング周波数である. 予備実験の結果,depermutation 性能が最大になる I の値は 1.5 であり,n は Table1 に示す値となった. 2.3 音源位置推定 音源位置推定には,文献 [4] で提案されている手法 を用いた.これは遠距離場を仮定して音源方向ベク トルを推定する手法であり,音源到来方向推定に対応 する. 3 3.1 音源分離性能評価実験 実験条件 音響空間符号化システムの性能評価として,シミュ レーションにより音源分離性能を改善 SIR で評価した. また音源位置推定精度を評価した.音源信号には 3∼ 12 音源の発話と楽器を用い,同一平面で同心円上に 配置した.また提案手法の比較実験として,伝播特性 の振幅と位相類似度を同時に複素平面上でユークリッ ド距離で評価し,k-means アルゴリズムでグルーピン グを行う従来法 [5] と,音源信号既知で permutation 問題を解決した場合でも評価した.その他の実験条 件を Fig.2 に示す.なお重み関数の形状に関しては, 前節で示した予備実験で結果の最も良かったものを 用いた. 3.2 0 -0.2 -0.4 -0.6 -0.8 y 1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 -1 -1x )]% 80 [ 70 率解 正語60 単( 50 度解40 了語30 単 20 10 0 混合信号 分離信号 Fig. 5 実話者に対する音響空間符号化実験.中心に マイクロホンアレイが配置されている.*印はパワー が大きな分離信号成分を示しており,実話者の位置を 推定している.また○印はパワーが小さな分離信号 成分である.右図は了解度による評価の結果である. 性がないことに起因していると考えられる.また音 源位置推定精度は,結果が最も良かったのは階層型 クラスタリングセントロイド比較手法で,平均推定 誤差が方位角方向で 5.4 [deg.],仰角方向で 4.2 [deg.] であった.また Fig.5 の上図に示すように実環境で実 際の話者の同時発話を収録し,音源方向推定まで含 めて音響空間符号化を行った.聴感上,8 名全ての話 者の発話が良好に分離抽出されており,5 名の被験者 にて分離信号の了解度を単語正解率で評価した結果, 60 ポイント以上の向上が見られた.また Fig.5 の下 図に示すように話者位置も推定できており,提案手法 の有効性が示された. 4 まとめと今後の課題 本研究では正十二面体マイクロホンアレイを用い た実環境で頑健に動作する音響空間符号化システム を提案した.多数マイクロホンを用いた優決定問題と することで,残響下でも良好に動作することを示し た.今後の課題は,システムのリアルタイム動作や, 音源の移動への追従を行っていく必要がある. 参考文献 実験結果 発話と楽器信号に関して,Fig.3 と Fig.4 に結果を それぞれ示す.どちらの場合も,提案法は従来法より も分離性能の向上が見られ,中でも階層型クラスタ リングセントロイド比較の手法が最も分離性能がよ かった.これは階層型クラスタリングでは初期値依存 日本音響学会講演論文集 100 - 806 - [1] 小笠原ら,音講論 (秋),pp.761-764,2009. [2] M. Ogasawara et al., ICASSP, 2010 (accepted). [3] N. Murata et al., NOLTA98, vol. 3, pp. 923– 926, 1998. [4] S. Araki et al., ICASSP, vol. 5, pp. 33–36, 2006. [5] H. Sawada et al., IEEE Trans. Audio, Speech, and Language Processing, vol. 14, no.6, pp. 2165–2173, 2006. 2010年3月
© Copyright 2024 ExpyDoc