スライド 1

2-P-3 残響適応パラメータを用いた単一チャネル音源位置推定の検討
高島遼一,滝口哲也,有木康雄 (神戸大)
単一マイクによる音源位置推定のためのアプローチ
研究の背景
従来の音源位置推定法
固定されたマイクロフォンアレーによって各マイクロフォンにおける
観測信号の位相差から音源位置を推定
Cepstral coefficient (MFCC 10th order)
クリーン音声に畳み込まれる音響伝達特性は音源位置毎に異なる値を持つ
 c
 d sin 

s(t   )
周波数領域
d
s (t )
 : 到来時間差
c : 音速
O()  H ()  S ()
ケプストラム領域
Ocep (d )  Hcep (d )  Scep (d )
32-channel arrays
Cepstral coefficient (MFCC 7th order)
音源位置30°と90°における
音響伝達特性のMFCC
音源位置ごとに異なる
音響伝達特性
研究の目的
マイク一つで音源位置推定が行えないだろうか?
音源位置毎に音響伝達特性を学習しておけば,学習済みの場所から到来する
音声はその音響伝達特性を判別することで音源位置を推定することができる
単一マイクの利点
低コスト化やシステムの縮小化などが期待できる
提案手法
位置毎の音響伝達特性の学習方法

O SH
・・・

単一マイク
O
位置θのトレーニング
データ(残響信号)

3
残響適応により
認識結果(ラベル)
音響伝達特性を推定
i, k, i, o, i
Hˆ    arg max PrO  | H , S 
1
音素認識
(a)
H
2
認識結果を元に
音素HMMを連結
(i)
位置θの音響
伝達特性GMM
 
推定された伝達特性
をGMMで学習
H
S
・・・
・・・
・・・
(k)
(i)
単一マイク
O
 
最尤推定法により
音響伝達特性を推定
Hˆ
6
H
④ 推定された音響伝達特性を用いてθのGMMを学習する.
最も尤度の高い音響伝達特性GMM
の位置を音源位置として出力
・・・
 
H

 
ˆ
ˆ
  arg max Pr H | 

(i) (o) (i)
① θから到来するトレーニングデータを,あらかじめ学習しておいたクリーン
音声ケプストラムの音素HMMを用いて音素認識を行う.
② 認識結果を元に音素HMMを連結する.
③ 連結されたクリーン音声HMMを観測信号に残響適応を行ったときの適応
パラメータを音響伝達特性として用いる.
 
 
O 
S 
ˆ
H  arg max PrO | H , S 
  H
5
位置θから到来
したテストデータ
位置毎の音響
伝達特性GMM
 
  30   50
音源位置の推定方法
  30   50
Hˆ
4
連結HMM
クリーン音声の
音素HMM


H
⑤ テストデータも同様の方法で音響伝達特性を推定する.
⑥ 推定された音響伝達特性と位置毎のGMMの尤度を計算し,最も尤度が
高い位置を音源位置として出力する.


 
ˆ
ˆ
  arg max Pr H | 

H

評価実験
まとめ
・クリーン音声HMMの残響適応パラメータを用いて単一マイ
クによる音源位置推定を行った.
・音源位置判別誤りの原因は残響信号のモデル化が単純で
あり,前フレームの信号の加算性雑音としての影響を考慮
していないためと考えられる.
今後の課題
・残響信号のより詳細なモデル化
・特徴量の検討
Localization accuracy [%]
100
80
87.2
77.9
68.3
観測信号
63.1
55.4
55.8
60
50.0
42.1
40
音響伝達特性
(提案手法)
20
3-position
5-position 7-position
Number of positions
9-position
•HMMの連結に用いるラベルに正解の音素系列を与えた場合と比較
Localization accuracy [%]
•男声話者5人による単語データにインパルス応答を畳み
込んでシミュレーション実験を行った.
実験条件
・特徴量:MFCC 16次元
・サンプリング周波数:12kHz
・テストデータ数:1000単語×5話者(特定話者実験)
・クリーン音声HMM(提案手法)
音素数:54 状態数:3 混合数:32
学習データ数:2620単語
・位置毎の伝達特性及び残響信号GMM
混合数:16 学習データ数:50単語
•残響信号をそのまま用いて位置を学習した場合と比較
100
90
87.287.7
平均二乗誤差
80
音素認識結果
68.369.8
70
正解の音素系列
65.4
63.1
57.7
55.4
60
50
3-position
5-position
7-position
9-position
Number of positions
音素認識結果
正解の音素系列
2096.14
1968.36
推定された音響伝達特性の
平均二乗誤差