開く - 東京電機大学

Annual Report
the Research Institute for Science and Technology
Tokyo Denki University
東京電機大学
総合研究所年報
マイクロホンアレーによる高 S/N 受音システムの開発
Development of High S/N Sound Acquisition System using Microphone Array
陶山 健仁
東京電機大学工学部電気工学科
Kenji Suyama
Department of Electrical Engineering, Faculty of Engineering, Tokyo DENKI University
In this paper, a target sound extraction method for the microphone array with two
elements is proposed. In the method, the frequency domain generalized sidelobe
canceller (FDGSC) is used for a reduction of the computational costs. Therefore, the
received sounds are expanded into the frequency domain by the discrete Fourier
transform (DFT). At each the frequency, the interior point least square (IPLS)
algorithm, which is able to guarantee the numerical stability at the learning, is
applied to update the weight factor for the target sound extraction in a situation of
being the moving noisy sound source. Several results of the numerical experiment
are shown for the performance of the proposed method.
1. はじめに
適応的に更新したほうがよい。その場合に使用する適
パソコンを用いた遠隔会議や音声認識等におけるハ
応アルゴリズムには,1.計算負荷が小さい,2.有色か
ンズフリー音声入力を目的として,2 つのマイクロホ
つ非定常信号である音声信号に対しても適用可能,3.
ン(以下,2ch マイクロホンアレー)を用いた音響信号処
雑音源の急激な移動に対して,数値的に安定に動作可
理技術が注目されている[1]。2ch マイクロホンアレー
能という条件が求められる。
は PC のサウンドカードのように,ステレオ入力を搭
一般に,GSC は時間領域で動作させることが多く,
載した機器であれば,容易に実現可能であるという利
FIR フィルタのタップ係数更新のための適応アルゴリ
点をもつ。その反面,空間的解像度が低いため,十分
ズムとして,正規化 LMS(Least Mean Square)アルゴ
な目的音抽出性能(雑音除去性能)が得られないとい
リズム[3]が用いられる場合が多い。このアルゴリズム
う欠点を有する。そのため,遅延和アレーのような同
は演算量が少ないという利点の反面,雑音が音声のよ
期加算によるピーク形成だけでは十分な目的音抽出性
うな有色信号の場合,収束が遅いため,常時音源位置
能が得られないため,一般化サイドローブキャンセラ
が変動するような状況では,適用することが困難であ
(Generalized Sidelobe Canceller : GSC)のように適応
る。一方,タップ信号の相関行列の逆行列を再帰的に
的なヌル形成を用いて高 S/N 受音を行なう手法が盛ん
算出し,最小 2 乗解を導出する RLS(Recursive Least
に検討されている[2]。GSC は,固定ビームフォーマを
Square)アルゴリズムは,そのような状況においても
用いて目的音源方向に対する感度を一定に保ちながら,
高速な収束が可能である。しかしながら,タップ係数
サイドローブキャンセラを用いて雑音源方向にアレー
の個数の 2 乗のオーダーの計算量が必要であることや,
の指向特性のヌルを形成して雑音を除去する。ヌル方
音源位置の変動が原因として起こる過渡的状況におい
向は,ビームフォーマの出力とサイドローブキャンセ
て,数値的不安定性を伴うという欠点を有する。
ラの出力の 2 乗誤差を最小にすることによって調整す
本研究では,2チャネルマイクロホンアレーの受信音
る。雑音源が移動する場合は,雑音源方向にあわせて
を離散フーリエ変換(DFT)して,周波数領域で適応処
ヌルを形成する必要があるため,ヌルは学習によって
理を行う周波数領域で動作させる周波数領域一般化サ
.
陶山 健仁
イ ド ロ ー ブ キ ャ ン セ ラ (Frequency Domain
周波数領域で動作させることにより,演算量の低減お
Generalized Sidelobe Canceller: FDGSC)を用いるこ
よび処理の並列化が可能となる。フレーム k ,帯域 n に
とを考える。周波数領域で動作させることにより,各
おける u m (t ) の成分を U mn (k ) と書くことにする。FDGSC
周波数において調整すべきパラメータは1つだけとな
は各帯域において,(1) 固定ビームフォーマによる目
るとともに,処理の並列化も可能となる。このような
的音の同相化,(2) サイドローブキャンセラによる雑
FDGSCを用いた場合に,数値的な安定性を保証する内
音方向へのヌル形成を行なう。
点最小2乗アルゴリズムを適用する手法について検討
を行う。
2. 2ch マイクロホンアレーによる移動雑音除去
本節では,雑音源のみが移動する状況において,
FDGSC を用いて周波数領域上で適応処理を行うシステ
ムについて述べる。
図 2 FDGSCの構成
同相化処理では,目的音方向を正正面としているた
2.1 問題設定
め,2 つのマイクロホンの受信音には時間差がないた
図 1 に示すように,空間中に互いに無相関な音声で
め,両者を単純に加算した Dn ( k ) = {U1n (k ) + U 2 n ( k )} / 2
ある目的音源 s(t ) と雑音源 n(t ) が存在する。 s (t ) はマ
より,目的音方向から到来する音声を強調し,他の方
イクロホン 1 からみて正正面 (θ = 0) に固定し, n(t ) の
向から到来する音声を低減することによって,結果的
方向は時刻とともに変動するものとする。これらの音
に指向特性のピークを形成することが可能となる。し
響信号を 2 つのマイクロホンで受音しているとし,各
かしながら, Dn (k ) には,目的音成分のほかに雑音成
受信音を u1 (t ) ,u2 (t ) とする。2ch マイクロホンアレー
分が残るため,それを除去するために,
による移動雑音除去問題は u m (t ), (m = 1,2) から n(t ) を
U n (k ) = U1n (k ) − U 2 n ( k ) によって目的音成分を消去し
除去し, s (t ) を抽出する問題である。
た信号をサイドローブキャンセラに入力し, Dn (k ) に
含まれる雑音成分の推定値 Yn (k ) を,
Yn (k ) = Wn∗ (k )U n (k )
(1)
によって算出する。ここで, Wn (k ) は重み係数, ∗ は
複素共役を表わしている。
Wn (k ) の調整は適応的に行ない,フレーム k + 1 の重
み Wn (k + 1) は 2 乗誤差
2
図 1 2 チャネルマイクロホンアレー
2.2 周波数領域一般化サイドローブキャンセラによ
る手法
図1の問題設定において,有効な手法の1つがGSCに
よる手法である。GSCは雑音方向に対し,適応的に指
En (k ) = Dn (k ) − Yn ( k )
2
(2)
を最小にするように調整する。これによって,雑音方
向にヌルが形成されるように FDGSC が動作する。同
じ操作を全帯域に対して行ない,E n (k ) を逆 DFT する
ことで,目的音の推定値 e(t ) を出力することができる。
問題は, Wn (k ) の調整方法である。
向特性のヌルを形成することにより,雑音除去を実現
する。本研究では,図2に示すようなGSCを周波数領域
で動作させるFDGSCを適用する。FDGSCでは,受信音を
離散フーリエ変換(DFT)により,周波数領域に展開する。
3. 内点最小 2 乗アルゴリズムによる重みの調整
本研究で検討している Wn (k ) の更新に必要な条件は
以下の 2 つである。
マイクロホンアレーによる高 S/N 受音システムの開発
(1) 雑音が音声のような有色信号である場合も高速に
境界において必ず無限大に発散し,かつ対数関数の凸
性により,1 つの極小点をもつため,φ n (k ) の最小化を
収束する。
(2) 音源が移動した場合に数値的に安定な更新が可能
行なった場合は, Ω n (k ) の内点で必ず収束する。φ n (k )
は非線形関数であるが,Newton 法が凸関数に対して,
である。
計算負荷の小さいアルゴリズムとして有名な正規化
1 ステップで極小値付近に十分近づくことに着目し,
LMS アルゴリズムを用いた場合,2 つの条件を満たす
Wn (k ) の更新を行なう。すなわち, Wn (k + 1) を
ことは困難であることが知られている。一方,計算量
は増大するが,正規方程式を効率的に解くアルゴリズ
Wn (k + 1) = Wn (k ) − (∇ 2φn (k )) −1 ∇φn (k )
(6)
によって算出する。なお,更新の進行に応じて Ω n (k ) の
は満たすことが可能である。しかしながら,RLS アル
大きさを調整することにより,雑音源の移動に高速に
追従することが期待できる。IPLSアルゴリズムでは,
この機構を実現するために,スラック変数を
ゴリズムは過渡的状態において数値的不安定性を生ず
sn (k ) = γ n ( k ) − En (k ) = βR ∇ En ( k ) と調整することに
ムである RLS アルゴリズムを用いた場合,(1)の条件
2
2
ることが知られており,(2)の条件を満たすことは困難
よって実現している。ここで, β は Ω n (k ) の伸縮サイ
である。なお,FDGSC では,各帯域において更新す
ズを調整するパラメータである。
IPLS アルゴリズムの更新則を以下にまとめる。
初期化:
べきパラメータは Wn (k ) だけであるので,RLS アルゴ
Wn (0) = 0
リズムを用いた場合でも時間領域で動作させた場合と
pn (0) = 0
比べ,計算負荷を軽減することが可能である。
Rn (0) = 0
本研究では, Wn (k ) の数値的安定性を保証するため
に, Wn (k ) の大きさに制約を加え,かつ学習の発散を
∇ | En (0) |2 = 0
第 k フレーム:
1
k −1
pn (k − 1) + Dn∗ (k )U n ( k )
k
k
1 ∗
k −1
Rn (k − 1) + U n (k )U n ( k )
Rn ( k ) =
k
k
pn (k ) =
防ぐために E n (k ) の大きさにも制約を加えることを考
える。その条件の下で最小 2 乗解を算出するために,
内 点 最 小 2 乗 ア ル ゴ リ ズ ム (Interior Point Least
∇ | E n ( k ) | 2 = −2 p n (k ) + 2 Rn (k )
Square : IPLS)[4]を重み更新に適用する。IPLS アル
∇ 2 | E n ( k ) | 2 = 2 Rn ( k )
ゴリズムは,RLS アルゴリズムに制約条件を付加した
s n = γ n (k )− | E n (k ) | 2 = βR | ∇ | E n (k ) |2 |
ものであるため,(1)の条件も満たすことが可能である。
t n = R 2 − | Wn (k ) |2
IPLS アルゴリズムによる FDGSC の重み更新では,
次式の制約付最小化問題を考える。
min
E n (k )
∇φ n ( k ) =
∇ | E n (k ) | 2 2Wn (k )
+
s n (k )
t n (k )
∇ 2φ n (k ) =
2
sub.to E n ( k ) ≤ γ n (k )
2
2
(3)
Wn (k ) ≤ R , Wn (k ) ∈ C
2
1
(∇ | E n (k ) | 2 ) 2
s n2 ( k )
+
∇ 2 | E n (k ) | 2 4 | Wn (k ) |2
2
+
+
s n (k )
t n (k )
t n2 (k )
Wn (k + 1) = Wn (k ) − (∇ 2φ n (k )) −1 ∇φ n (k )
4.数値実験による目的音抽出性能の検証
ここで, γ n (k ) は En (k ) の上限, R 2 は Wn (k ) の上限
IPLS アルゴリズムの性能を検証するために,数値実
である。(3)式の問題に対する実行可能領域 Ω n (k ) は次
験を行なった。 s(t ) には女性音声を用いた。マイクロ
式となる。
ホン間隔は 80[mm],サンプリング周波数は 8[kHz],
2
Ω (k ) = {W (k ) ∈ C
n
n
1
2
En (k ) ≤ γ n (k ), Wn (k )
2
2
≤R }
2
フレーム長は 256 とした。また, n(t ) には s (t ) と同じ
(4)
IPLS アルゴリズムでは,(3)式の問題の解を求める
パワーの男性音声を用い,θ : [−20o ,−60o ] の範囲で正弦
状およびのこぎり波状に移動させた。正弦状移動では,
θ (t ) = −40 + 20 sin(2πt / 2.88)
かわりに, Ω n (k ) に対する対数障壁関数 φ n (k ) を
(7)
(5)
にしたがって音源を移動させた。この場合,半周期ご
と定義し,φ n (k ) の最小化を行なう。φ n (k ) は,Ω n (k ) の
とになめらかな変極点が存在する。のこぎり波状移動
φn (k ) = − log(γ n (k ) − En (k ) ) − log( R 2 − Wn (k ) )
2
2
.
陶山 健仁
では,
度が高く,数値的不安定性を生じていることがわかる。
θ (t ) = −60 + 40t / 3.85
(8)
一方,IPLS アルゴリズムでは,学習開始時や過渡状態
にしたがって,音源を移動させた。この場合,1 周期
において重み変動が小さく,数値的不安定性が生じて
ごとに急激な変極点が存在する。なお,予備実験によ
いないことが確認できた。
り,全ての数値実験において, β = 1 , R = 10 と設定し
た。また,比較として RLS アルゴリズムを適用した場
合についても検証した。
図 5 音声信号の正弦状移動に対する重み感度の変
動:(a) 雑音波形,(b) 重み感度,(c) 方向変化
図 3 正弦状移動に対する重み感度の変動:(a)
重み
感度,(b)音源移動方向
図 6 音声信号ののこぎり波状移動に対する重み感度
図 4 のこぎり波状移動に対する重み感度の変動:(a)
の変動:(a) 雑音波形,(b) 重み感度,(c) 方向変化
重み感度,(b)音源移動方向
4.2 音声信号の方向変化に対する重み感度
4.1 雑音源の移動に対する重み感度
雑音信号として音声信号を用いた場合の移動音源に
雑音源の移動に対する Wn (k ) の感度について検証し
対する重み感度を検証した。雑音源には目的音 s(t ) と
た。雑音の種類によらない重み変動を調べるため,雑
同じパワーをもつ音声信号(男声)を用い,重み感度
音源には目的音 s(t ) と同じパワーのガウス性白色雑音
は W (k ) を用いて評価した。
を用いた。 Wn (k ) の感度は全帯域における平均 2 乗値
図 6 に θ (t ) が(7)式にしたがって移動する場合,図 7
に θ (t ) が(8)式にしたがって移動する場合の重み感度
W (k )
W (k ) =
1
N
N −1
∑ | W (k ) |
n=0
n
2
(9)
の変動を示す。いずれの結果においても,RLS アルゴ
リズムを用いた場合,音源移動に対する重み変動に加
を用いた。図 4 に正弦状移動に対する結果,図 5 にの
え,例えば 6[s],11[s]付近の無音区間を経て再び再生
こぎり波状移動に対する結果を示す。この結果より,
されたときに重みの急激な変動がある。それに対し,
RLS アルゴリズムを用いた場合は,学習開始時や雑音
IPLS アルゴリズムを用いた場合は,学習開始時,無音
源方向が急激に変動する箇所に加え,例えば 6[s],11[s]
区間に関係なく重みの数値的安定性が保たれているこ
付近の無音区間を経て,再び再生されたときに重み感
とが確認できた。
マイクロホンアレーによる高 S/N 受音システムの開発
5.目的音方向推定への応用
実環境で本手法を用いる場合,目的音源方向も時刻
とともに変動することが考えられる。目的音源方向が
変動した場合,FDGSC のサイドローブキャンセラへの
入力に目的音成分が含まれるようになるため,固定ビ
ームフォーマの出力から目的音成分を消去するように
学習が行なわれ,結果的に出力 S/N の低下をまねくこ
とになる。そこで,本研究では,目的音成分をうまく
同相化できたとき,サイドローブキャンセラへの入力
図 7 音声信号の正弦状移動時の入力 S/N に対する出力
S/N
パワーが最小となることに注目し,次式のような制約
付最小化問題として定式化した。
min
E n (k ) =| U 1,n (k )e − jωnτ ( k ) − U 2,n (k ) |2
sub.to
En (k ) ≤ γ n (k )
2
2
(10)
τ 2 (k ) ≤ R 2
この問題に対しても,IPLS アルゴリズムをその逐次更
新則として適用し,その性能について検討をすすめて
いる[6]。
6. おわりに
図 8 音声信号ののこぎり波状移動時の入力 S/N に対す
る出力 S/N
本研究では,移動雑音源に対し適応的にヌルを形成
する FDGSC の重み更新則として IPLS アルゴリズム
を用いる手法に
4.3 IPLS アルゴリズムによる S/N の改善
ついて検討し,有効性を確認した。また,目的音源方
IPLS アルゴリズムを用いて,数値的安定性を保証
向推定に IPLS アルゴリズムを適用する手法について
することによる FDGSC の出力 S/N の改善性能について
も検討を行なった。今後は,実環境における本手法の
検証した。雑音源には音声信号(男声) を用いた。図 8
性能について検証する予定である。
に θ (t ) が(7) 式にしたがって移動する場合,図 9 に
θ (t ) が(8) 式にしたがって移動する場合の入力 S/N
参考文献
に対する出力 S/N を示す。いずれの結果においても,
[1] 谷川,浜田:“2 チャネルマイクロホンアレーの仮想多チ
重み感度の検証と同様に RLS アルゴリズムは学習開始
ャネル化による音声の到来方向推定法”
,信学論,vol. J82-A,
時や,方向変動時,無音区間を経た再生時等の状態変
no.2,pp.153-161,2002
化時に数値的不安定性を生じやすいため,出力 S/N は
[2] 川上,阿部,川又:
“一般化サイドローブキャンセラを用
低く,移動雑音除去には不向きであるといえる。一方,
いた 2 チャンネルマイクロホンアレーにおける適応話者追尾
IPLS アルゴリズムを用いた場合は,数値的安定性が保
アルゴリズムの提案”,信学技報,DSP2001-108,pp.61-68,
証されているため,状態変化時にも重みが急激に変動
2001
することなく,高 S/N 出力が得られることが確認でき
[3] S. Haykin: “Adaptive filter theory”,PRENTICE HALL,
た。
1991
[4] K.H.Afkhamie, Z.Q.Luo and K.M.Wong, “ Adaptive
.
linear
陶山 健仁
filtering
using
interior
point
optimization
techniques”,IEEE Trans. SP, vol.48,no.6,pp.1637-1648,
[6] 津村,陶山:
“内点最小 2 乗アルゴリズムを用いた移動話
者追尾”
,電子情報通信学会総合大会,A-10-9,2006
2000
[5] K. Suyama and K.Takahashi, “A talker tracking
method using two microphones based on the sound source
localization”, Proc. of EUSIPCO2005, ThuAMPO2, 2005
なお、本研究は東京電機大学総合研究所研究
Q04J-07 として行ったものである。