スライド 1

音響伝達特性を用いたシングルチャネル音源位置推定における
未学習位置の推定
1-Q-8
☆高島遼一,滝口哲也,有木康雄 (神戸大院)
音響伝達特性の識別に基づくシングルチャネル音源位置推定
研究の背景
従来の音源位置推定法
固定されたマイクロフォンアレーによって各マイクロフォンにおける
観測信号の位相差から音源位置を推定
 d sin 

s(t )
ocep(d )  hcep(d )  scep(d )
音源位置30°と90°における
音響伝達特性のMFCC
音源位置毎に音響伝達特性を学習しておけば,評価したい音声も
その音響伝達特性を判別することで音源位置を推定することができる
問題点:学習した位置しか識別できない
単一マイクの利点
低コスト化やシステムの縮小化などが期待できる
解決法:回帰分析を用いて未知の位置を推定する
音響伝達特性の推定手法
提案手法
提案手法の流れ
1. 音源位置毎に発話された音声信号を収録し、音響伝達特性を推定する
2. 推定した音響伝達特性と位置のラベルから、回帰係数を学習する
3. ある位置で発話されたテスト音声についても音響伝達特性を推定し、
音響伝達特性を回帰式に入力することで、その位置を推定する
l
評価データ otest
h
観測信号Oから
音響伝達特性H
を推定する
htest
回帰係数 F h
の学習
回帰式により
音源位置
を推定
otest
識別位置 lˆ  F (htest )
重回帰分析による音響伝達特性から位置へのマッピング
伝達特性 h と位置のラベル l のペアからなる学習データを用いて、その間
の回帰モデルを学習する
l  F (h)  Ah  b
回帰パラメータは最小二乗法で求められる
min n ln  Anh  b
hˆ  arg max Pro | h, s 
h
解はEMアルゴリズムによって求められる
 

W  LH HH
W  b A


Pr o, b, c | hˆ , s  n abn1 ,bn wbn ,cn
 
240
Loudspeaker
Microphones
240
706
90
インパルス
応答を
用いた場合
Microphone
Predicted position [cm]
(vertical)
-90
(horizontal)

回帰分析
・実験は水平方向・垂直方向それぞれ独立に行った
・30cm間隔の伝達特性を学習に用い、
15cm間隔の伝達特性を評価
・-90~0 と 0~90 の範囲で別々の回帰モデルを学習させた
630
0

 
分析条件
・特徴量:MFCC 16次元
・サンプリング周波数:12kHz
・テストデータ数:50単語×位置数
・クリーン音声HMMの学習
音素数:54 状態数:3 混合数:32 学習データ数:2620単語
-90

ˆ | h / hˆ  0 を解く
これらをQ関数に代入し、Q h
od ,n  b,c,d
b c  b,c,n  b2,c,d
hˆd ,n 
 b,c,n  Pron , b, c |, s 
 b ,c , n
b c  b2,c,d
評価実験
15
n :フレーム番号
クリーン音声HMMの平均値にHを加算
11 
H

h1 h N 
Loudspeaker

b : 状態
c : 混合要素
a : 状態遷移確率

w : 混合重み

 Pr on | bn , cn ; hˆ n , s s  
 : 平均値ベクトル

 : (対角) 共分散行列
ケプストラム領域でのo=s+hという仮定より

2
L  l1 lN 


s
s
ˆ
ˆ
Pr on | bn , cn ; hn , s  N on ; bn ,cn  hn , bn ,cn
これを解くと以下のような回帰パラメータが得られる
T

同時確率は以下のように展開される
A,b
T 1

Q hˆ | h  E[log Pr o, b, c | hˆ , s | h, s ]
Pro, b, c | h, s 
 b c
 log Pr o, b, c | hˆ , s
Pro | h, s 
100
80
60
40
20
0
-20
-40
-60
-80
-100
-90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90
90
Predicted position [cm]
•それぞれの位置で収録したインパルス応答と、それをATRデータベース
音声から
の単語データに畳みこむことで作成した残響音声の両方で評価
推定した
音響伝達特性
・インパルス応答を用いた場合と、推定した伝達特性を用いた場合
を用いた場合
では回帰関数の形が異なる⇒伝達特性の推定誤差の影響
今後の課題
・より少ない位置での回帰パラメータの学習
・重回帰分析以外の推定方法について検討
100
80
60
40
20
0
-20
-40
-60
-80
-100
-90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90
Actual position [cm]
315
226
Predicted position [cm]
otrain
li
train
① 観測信号に対して音素認識を行い、音素ラベルを得る
② 音素ラベルを元に、音素HMMを連結する
③ 連結したクリーン音声HMMを用いて、観測信号oに対して、尤度が
最大となるように、hを推定する
Actual position [cm]
Predicted position [cm]
音源 学習データ l
i
o
train
位置
li
(Unit: cm)
Cepstral coefficient (MFCC 7th order)
音源位置ごとに異なる音響伝達特性
32-channel arrays
研究の目的
マイク一つで音源位置推定が行えないだろうか?
単一
マイク
o()  h()  s()
ケプストラム領域
 : 到来時間差
c : 音速
d
s(t   )
周波数領域
Cepstral coefficient
(MFCC 10th order)
 c
クリーン音声に畳み込まれる音響伝達特性は音源位置毎に異なる値を持つ
Actual position [cm]
水平方向の回帰分析結果
Actual position [cm]
垂直方向の回帰分析結果