スライド 1

音響伝達特性モデルを用いた
シングルチャネル音源位置推定の検討
2-P-34
高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大)
尤度判定による音源位置推定
研究の背景
従来の音源位置推定法
固定されたマイクロフォンアレーによって各マイクロフォンにおける
観測信号の位相差から音源位置を推定
位置毎に発話された音声を学習し,テストデータに対して,尤度が最も
高いモデルの位置を音源位置として出力する.
[1] 住田他,音講論 (春),1-P-8,pp. 771-772,2008.
b
c
Ob
Oc
30-channel arrays
a
32-channel arrays
b
尤度比較
O
b
c
位置毎の
音声GMM
研究の目的
マイク一つで音源位置推定が行えないだろうか?
位置毎に異なる音響伝達特性が位置毎に音声の性質を変形させる
O()  H ()  S ()
提案手法
音源位置ごとに異なる
音響伝達特性
2音源における観測信号
1 ,2 
1 
話者(音源)が複数の場合
位置の組み合わせ毎にモデルを作成して尤度を比較する
学習が困難
・音源数2,位置数3の場合,位置の組み合わせは9通り
・それぞれの組み合わせについて,同時に発話してもらう必要がある
2 
()  H1 ()  S1 ()  H 2 ()  S2 ()
O
S1 , S 2 をGMM (Gaussian Mixture Model),
1 
学習
Oa

a
 2 
をSingle Gaussian Model でそれぞれモデル化し,
H1 , H 2
モデル合成によりあらゆる組み合わせの観測信号 O
のモデルを作成する.
Clean speech Training data for
each position
GMM
1 
S
X1
1
Training data for
each position
 2 
X2
Estimation of the
acoustic transfer function
ˆ 1 
S
1.話者ごとのクリーン音声GMMをケプストラム領域であらかじめ学習
2
2.クリーン音声GMMを用いてトレーニングデータから最尤推定法
により音響伝達特性を推定
Hˆ  arg maxPrO | H , s 
H
Training of the acoustic
transfer function model
for each position
(2 )
( 1 )
H
1
2
1
( 1 )
X
Clean speech
GMM
 2 
ˆ
H2
Training of the acoustic
transfer function model
for each position
S
研究のゴール
尤度判定による方法で複数音源(2音源)の位置推定を行う
Estimation of the
acoustic transfer function
H1
H
1 , 2 
S
3.位置毎の音響伝達特性を正規分布で学習
4.クリーン音声モデルと伝達特性を足し合わせて話者ごとの
残響音声モデルを作成
X  H S
2
cep
(2 )
X
1
2
IDCT
IDCT
Exp
Exp
cep
5.各モデルに逆コサイン変換,指数変換を適用して,ケプストラム
領域からスペクトル領域に変換
X lin  expIDCTX cep 
6.話者毎の残響音声モデルを足し合わせて観測信号モデルを作成
Olin  X1,lin  X 2,lin
Log
DCT
cep
7.観測信号モデルに対数変換,コサイン変換を適用して,スペクトル
領域からケプストラム領域に変換 O  DCT logO
( 1 , 2 )
O
Composite GMM
of observed signal

cep
lin

8.全ての位置の組み合わせについて観測信号モデルを作成し,テストデータに対して
1 , 2 
最も尤度の高い位置の組み合わせを出力
ˆ
ˆ
 ,  arg maxPr O | 

Localization Accuracy [%]
60
56.1
56.7
50
55.3
43.6
40
51.6
44.5
39.1
33.6 32.4
S-H model
X model
O model
30
20
10
0
比較手法2:O-Model
全ての手順を省き,複数の話者によって同時に発話されたときの
観測信号から直接位置毎の観測信号モデルを作成する
1
5
10
Number of training sentence
両方の話者の位置が正解した場合の正解率
Localization Accuracy [%]
100
実験条件
特徴量:MFCC 16次元
サンプリング周波数:12kHz
音源数:2個
位置数:3箇所(位置の組み合わせは9通り存在)
クリーン音声モデルの混合数:64混合
その他のモデルの混合数:トレーニングデータの文章数により調節
2

1 , 2 

O

まとめ
評価実験
比較手法1:X-Model
手順1~4を行わずに,残響音声から直接残響音声モデルを作成
する(クリーン音声モデルの学習が不必要)
1
80
60
78.6
78.6
57.4 56.8
78.8
68.2 63.7
74.9
69.5
S-H model
X model
O model
40
20
0
1
5
10
Number of training sentence
少なくとも片方の位置が正解した場合の正解率
単一マイクによる複数音源の
位置推定法の提案を行った.
比較手法と比べて,トレーニング
データが少ない場合において,
優位性が顕著に現れた.
→学習過程で発話者に負担を
かけさせない
今後の課題
他の手法に比べて優位でも精度
は6割程度.
観測信号から音韻特徴を消す方
法について検討