中間報告

音響伝達特性を用いたシングルチャネル
音源位置推定における局所的回帰に基づく
未学習位置の補間
第14回 音声言語シンポジウム
2012年12月20, 21日
高島遼一,滝口哲也,有木康雄
神戸大学大学院
研究背景・目的(1/4)
音源位置推定
 収録した音声から,その音源の位置を推定する
 話者位置推定 ⇒ 対話ロボット,音声強調など
 話者の推定
⇒ 議事録作成など
従来の音源位置推定法
 複数のマイクを用いて観測される信号間の位相差を利用
 c

 d sin 
 :時間差
c :音速
d
 c
マイクロホンアレー(マイク数32) www.***.com
研究背景・目的(2/4)
単一マイクによる音源位置推定法は,いまだ確立され
ていない
 システムの縮小化,複数マイクの手法との複合
位相差などのマイク間の情報を用いない,単一マイクで
も行える音源位置推定の実現
提案アプローチ
 音響伝達特性を用いた単一チャネル音源位置推定法
www.***.com
研究背景・目的(3/4)
先行研究
音響伝達特性の識別に基づくシングルチャネル音源位置推定
(Takashima, et al., ICASSP, 2010)
音響伝達特性
HB
S
HA
S
位置B
O
Microphone
音響伝達特性
位置A
音響伝達特性(インパルス応答)は,音源の位置ごとに異なる特性をもつ
音源位置毎に音響伝達特性を学習
評価音声について,その音響伝達特性を識別することで音源位置を推定
www.***.com
研究背景・目的(4/4)
先行研究ではパターン認識に基づき音源位置を推定
特徴量: 音響伝達特性 (MFCC:16次元)
クラス: 音源位置
•あらかじめ学習した位置しか
推定(認識)できない
位置A
位置Dの
伝達特性
=位置B
•位置Dを推定する(=クラスを作成する)
ためには位置Dの学習サンプルが必要
位置B
位置C
特徴量(伝達特性MFCC)空間
研究目的:
限られた位置の学習サンプルのみを用いて未学習位置の推定を行う
提案アプローチ:
回帰分析による未学習位置の推定
www.***.com
提案手法の流れ
音
源
位
置
1
O
O
O
学習データ
O
train
,
train

1
,1
train
2
, 2
train
3
, 3
train
train
train
train

3

評価データ
O
test
H
H
H
1
,1
train
2
, 2
train
3
, 3
train
train
train
train


単一マイク
2



O
音響伝達特性H
から座標θへの
回帰モデルf(H)を
学習
f H
観測信号Oから
音響伝達特性H
を推定
test



H
test

回帰モデル
を用いて
音響伝達特性
から位置を推定
ˆ  f H
test

ˆ
推定位置
www.***.com
回帰モデルの学習
回帰分析
説明変数: 音響伝達特性 (MFCC:16次元)
目的変数
目的変数 : 音源位置 (座標)
(位置 )
回帰分析手法
 線形回帰
重回帰分析
位置D
  f H

位置A
位置B
位置C
非線形回帰
説明変数
(伝達特性H)
Gaussian Process Regression (GPR) (C. E. Rasmussen, et al., 2006)
Support Vector Regression (SVR) (A.J. Smola, et al., 2004)
学習方法
局所的回帰
www.***.com
大域的回帰
 一般的な回帰モデル学習法
 あらかじめ学習サンプル全てを用いて一つの回帰関数を学習
する
 どの位置の推定においても単一の回帰関数が用いられる
 部屋内のあらゆる位置と音響伝達特性の関係をたった一つ
の関数で表現しきれるのか?
目的変数
(位置 )
  f H

位置A
位置B
位置C
説明変数
(伝達特性H)
www.***.com
局所的回帰
 学習データ全てをデータベースとして保持
 評価データ(入力)に対して,K近傍の学習データを取り出す
 取りだしたK近傍の学習データのみを用いて回帰関数を学習
する
 回帰関数は評価データが入力された後、入力値によって動的
に学習されることになる
目的変数
(位置 )
  f H

位置A
位置B
位置C
説明変数
(伝達特性H)
www.***.com
音響伝達特性の推定(1/3)
音
源
位
置
1
O
O
O
学習データ
O
train
,
train

1
,1
train
2
, 2
train
3
, 3
train
train
train
train

O
test
H
H
H
1
,1
train
2
, 2
train
3
, 3
train
train
train
train


単一マイク
評価データ



O
音響伝達特性H
から座標θへの
回帰モデルf(H)を
学習
f H
観測信号Oから
音響伝達特性H
を推定
test



H
test

回帰モデル
を用いて
音響伝達特性
から位置を推定
ˆ  f H
test

ˆ
推定位置
www.***.com
音響伝達特性の推定(2/3)
観測信号の定式化
ケプストラム領域での観測信号をクリーン音声と音響伝達特性の線形加
算モデルで仮定
時間領域
o (t )  s (t )  h (t )
短時間フーリエ変換
周波数領域 O ( ; n )  S ( ; n )  H ( ; n )
 : 周波数
t : 時刻
n : フレーム
d : ケプストラムの次元
対数変換
log O ( ; n )  log S ( ; n )  log H ( ; n )
離散コサイン変換
ケプストラム領域 O cep  d ; n   S cep  d ; n   H cep  d ; n 
未知
実際の環境ではSは未知であるため,Sの代わりにSの確率モデル(HMM)を用い
www.***.com
て最尤推定法でHを推定する.
音響伝達特性の推定(3/3)
観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法)
Hˆ  arg max Pr O | H ,  S

 S : クリーン音声 HMM のパラメータ
H
解はEMアルゴリズムによって求められる

Hˆ  arg max Q Hˆ | H
H


b : 状態

 arg max E [log Pr O , b , c | Hˆ ,  S | H ,  S ]
c : 混合要素
H
音響伝達特性の更新式は以下のように求められる
Hˆ ( d ) 
 b  c  b ,c
O ( d ; n )   b ,c d 
 
b
 b ,c d 
 : 平均
 b ,c
 : 分散 (対角共分散を仮定
2
c

d : ケプストラムの次元
2
b ,c
d 
2
)
 b , c  Pr b , c | O , H ,  S  : 負担率
www.***.com
実験条件(1/2)
6.3 m
各音源位置にてインパルス応答
を測定し,クリーン音声に畳み込む
ことで残響信号をシミュレートした
1.8 m
-90 cm
Loudspeaker
クリーン音声はATR音声データベース
を使用
2.4 m
15 cm
-90 cm
0
90 cm
2.4 m
7.0 m
90 cm
Loudspeaker
Microphones
Microphone
3.15 m
www.***.com
実験条件(2/2)
 特徴量
 MFCC:16次元
 サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec
 回帰モデルの学習
 50 単語 (× 学習位置数)
 局所的回帰における近傍サンプル数 K = 75
 位置の推定
 Text closed : 評価データは学習単語と同じ発話(インパルス応答を畳
み込む前のクリーン音声)からなる50単語
 Text open : 評価データは学習単語と異なる発話からなる116単語
 音響伝達特性の推定
 クリーン音声の学習データ数: 2620単語 (上記の単語は含めない)
 音素数:54 HMMの状態数:3 混合数:32
www.***.com
垂直軸(奥行き)移動における位置推定
 スピーカの水平軸は0 cm(正面)に固定(既知とする)
 位置を奥行き方向に-90~90cm,15cm間隔で収録
 計 13 位置
-90 cm
-75 cm
・・・
 -90, -60, -30, 0, 30, 60, 90 cm (30cm間隔)を学習
 学習位置数: 7位置
 未学習位置 : 6位置
-75, -45, -15, 15, 45, 75 cm
 既学習位置数 : 7位置
90, -60, -30, 0, 30, 60, 90 cm
・・・
 -90, -75, -60, ..., 0, ..., 60, 75, 90 cm (15cm間隔)をテスト
0cm
75cm
90cm
www.***.com
Microphone
垂直軸(奥行き)移動の位置推定結果
相関係数で評価
推定された位置と実際の位置が等しければ 1.0 を取る
全ての位置を評価対象とした場合
Text closed
未学習位置のみを評価対象とした場合
Text open
Text closed
Text open
重回帰
0.90
0.69
重回帰
0.89
0.70
GPR
0.98
0.80
GPR
0.94
0.82
SVR
0.97
0.83
SVR
0.94
0.86
www.***.com
垂直軸(奥行き)移動の位置推定結果
推定された位置 [cm]
SVR (Support Vector Regression) による位置推定結果
青 : 未学習位置
緑 : 既学習位置
赤 : 正解の位置
100
100
75
75
50
50
25
25
0
0
-25
-25
-50
-50
-75
-75
-100
-90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90
実際の位置 [cm]
Text closed
-100
-90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90
実際の位置 [cm]
Text open
www.***.com
水平軸移動における位置推定
 スピーカの垂直軸(奥行き)は0 cmに固定(既知とする)
 位置を奥行き方向に-90~90cm,15cm間隔で収録
 計 13 位置
 -90, -60, -30, 0, 30, 60, 90 cm
(30cm間隔)を学習
Loudspeaker
-90 -75 ・・・ 0cm
・・・75 90cm
 学習位置数: 7位置
 -90, -75, -60, ..., 0, ..., 60, 75, 90 cm
(15cm間隔)をテスト
 未学習位置 : 6位置
-75, -45, -15, 15, 45, 75 cm
 既学習位置数 : 7位置
90, -60, -30, 0, 30, 60, 90 cm
2.4 m
Microphone
www.***.com
水平軸移動の位置推定結果
相関係数で評価
推定された位置と実際の位置が等しければ 1.0 を取る
全ての位置を評価対象とした場合
Text closed
未学習位置のみを評価対象とした場合
Text open
Text closed
Text open
重回帰
0.72
0.48
重回帰
0.57
0.39
GPR
0.92
0.56
GPR
0.77
0.49
SVR
0.92
0.58
SVR
0.82
0.51
www.***.com
水平軸移動の位置推定結果
推定された位置 [cm]
SVR (Support Vector Regression) による位置推定結果
青 : 未学習位置
緑 : 既学習位置
赤 : 正解の位置
100
100
75
75
50
50
25
25
0
0
-25
-25
-50
-50
-75
-75
-100
-90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90
実際の位置 [cm]
Text closed
-100
-90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90
実際の位置 [cm]
Text open
www.***.com
考察・まとめ
 音響伝達特性を用いることで単一マイクで音源位置を推定す
る手法を提案
 回帰モデルを用いることで未学習位置を含めた位置の推定を
検討
 垂直(奥行き)方向の位置推定において比較的高い相関を確
認
 Text open の場合では音響伝達特性の推定誤差が影響
 今後の課題
 水平・垂直の両方を含めた2次元位置の推定
 より少ない学習位置での推定
 音響伝達特性の正確な推定
www.***.com
ご清聴ありがとうございました
www.***.com
音源方向推定実験(付録)
www.***.com
音源方向推定実験
 スピーカと音源の距離は約 2 m に固定(既知とする)
 音源方向を 10°~170°,20°間隔で収録
 計 9 位置
 10, 50, 90, 130, 170° (40°間隔)を学習
 学習位置数: 5位置
90

50

 10, 30, ..., 90, 110, ..., 170°(20°間隔)をテスト
 未学習位置 : 4位置
30, 70, 110, 150°
 既学習位置数 : 5位置
10, 50, 90, 130, 170°
インパルス応答はRWCPデータベースの
ものを使用(他の実験とは異なる部屋環境)
30
170

10

microphone
www.***.com

音源方向推定結果
相関係数で評価
推定された位置と実際の位置が等しければ 1.0 を取る
全ての位置を評価対象とした場合
Text closed
未学習位置のみを評価対象とした場合
Text open
Text closed
Text open
重回帰
0.74
0.56
重回帰
0.68
0.53
GPR
0.86
0.66
GPR
0.62
0.58
SVR
0.83
0.70
SVR
0.67
0.61
www.***.com
音源方向推定結果
推定された位置 [degree]
SVR (Support Vector Regression) による位置推定結果
青 : 未学習位置
緑 : 既学習位置
赤 : 正解の位置
180
180
160
160
140
140
120
120
100
100
80
80
60
60
40
40
20
20
0
10
30
50
70
90
110 130 150 170
実際の位置 [degree]
Text closed
0
10
30
50
70
90
110 130 150 170
実際の位置 [degree]
Text open
www.***.com
音響伝達特性の推定
www.***.com
観測信号の定式化
時間領域
o (t )  s (t )  h (t )
 : 周波数
短時間フーリエ変換
t : 時刻
周波数領域 O ( ; n )  S ( ; n )  H ( ; n )
対数変換
n : フレーム
d : ケプストラムの次元
log O ( ; n )  log S ( ; n )  log H ( ; n )
離散コサイン変換
ケプストラム領域 O cep  d ; n   H cep  d ; n   S cep  d ; n 
統計モデル化
モデル領域
 O  n   H cep  n    S
未知
 : モデルパラメータ
処理は全てMFCC領域で行われる
実際の環境ではSは未知であるため,Sの代わりにSの統計モデルを用いて最尤
推定法でHを推定する.
www.***.com
SはHMM (Hidden Markov Model)でモデル化する
音響伝達特性の推定(1/2)
観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法)
Hˆ  arg max Pr O | H ,  S

 S : クリーン音声 HMM のパラメータ
H
解はEMアルゴリズムによって求められる




Q Hˆ | H  E [log Pr O , b , c | Hˆ ,  S | H ,  S ]

 
b
Pr O , b , c | H ,  S 
c
Pr O | H ,  S 

 log Pr O , b , c | Hˆ ,  S

Q関数の同時確率 Pr O , b , c | H ,  S  は、以下のように展開される
ˆ

  a    w    
 Pr O  n  | b  n , c  n ; Hˆ ,  
Pr O , b , c | Hˆ ,  S 
n
b n 1 , b n
b n ,c n
S
a : 状態遷移確率
b : 状態
c : 混合要素
w : 混合重み
www.***.com
n : フレーム番号
音響伝達特性の推定(2/2)

a : 状態遷移確率
  a    w    
 Pr O  n  | b  n , c  n ; Hˆ ,  
Pr O , b , c | Hˆ ,  S 
n
b n 1 , b n
b : 状態
b n ,c n
c : 混合要素
S
w : 混合重み
n : フレーム番号
ケプストラム領域での O = S + H という仮定より


Pr O n  | b n , c n ; Hˆ ,  S  N O ( n );  b ( n ), c ( n )  H ( n ),  b ( n ), c ( n ) 
状態b(n),混合要素c(n)
におけるOの確率分布
クリーン音声の正規分布が
Hだけシフトされた
これらをQ関数に代入し、 Q Hˆ | H  /  Hˆ  0 を解く
Hˆ ( d ; n ) 
 b  c  b ,c n 
 
b
O ( d ; n )   b ( n ), c ( n )  d 
 b ( n ), c ( n )  d 
2
 b ,c n 
c
 b ( n ), c ( n )  d 

 b , c  n   Pr O , b n , c  n  | Hˆ ,  S
2
www.***.com

音響伝達特性推定の流れ
観測信号
O d ; n 

音素認識
クリーン音声の
音素HMM
認識結果(ラベル)
i, k, i, o, i
音響伝達特性を推定
H
音素HMMを連結
連結HMM
S
(a)
(i)
・・・
(i)
(u)
Hˆ
Hˆ  arg max Pr( O | H ,  S )
(k)
(i)
(o) (i)
・・・
1.あらかじめクリーン音声の音素HMMを用意しておく
2.観測信号の音素認識を行う
3.音素認識の結果を元に音素HMMを連結する
4.連結されたHMMを用いて音響伝達特性を推定する
www.***.com
位置推定実験(付録)
www.***.com
y軸(奥行き)移動の実験
 スピーカのx軸は0(正面)に固定
 位置をy軸(奥行き)方向に-90~90cm、15cm間隔で収録
-90 cm
-75 cm
 -90, -75, -60, -45, -30, -15, 0,
15, 30, 45, 60, 75, 90 cm (15cm間隔)をテスト
・・・
 -90, -60, -30, 0, 30, 60, 90 cm (30cm間隔)を学習
Loudspeaker
0cm
 未学習位置は-75, -45, -15, 15, 45, 75 cm
90cm
学習データ : 50単語 x 位置
評価データ : 116単語 x 位置
www.***.com
Microphone
33
y軸 (奥行き)推定結果
Root Mean Square Error (RMSE) で評価
推定された位置と実際の位置との平均誤差 (cm)を表す
数値は (未学習位置のRMSE / 既学習位置のRMSE)
Hsub (伝達特性が正確に推定されている)
RMSE(cm) K = 50
K = 150
K = 250
大域的
重回帰
19.6 / 18.6 20.3 / 19.9 22.1 / 22.1 23.5 / 25.1
GPR
12.2 / 11.6 14.3 / 14.1 16.1 / 15.4 17.4 / 16.3
SVR
7.7 / 9.1
13.3 / 17.8 16.8 / 20.8 19.4 / 23.7
Hest (伝達特性には推定誤差が含まれる)
RMSE(cm) K = 50
K = 150
K = 250
大域的
重回帰
34.7 / 33.6 30.5 / 31.6 30.2 / 32.8 30.3 / 34.6
GPR
21.2 / 22.8 22.7 / 25.0 23.7 / 25.9 24.3 / 26.3
SVR
17.7 / 19.2 22.0 / 26.6 24.0 / 28.7 26.9 / 31.6
www.***.com
34
y軸 (奥行き)推定結果
最も誤差が小さかった条件下での推定結果
Hest (伝達特性には推定誤差が含まれる)
110
110
90
90
70
70
50
50
30
30
推定値 [cm]
推定値 [cm]
Hsub (伝達特性が正確に推定されている)
10
-10
10
-10
-30
-30
-50
-50
-70
-70
-90
-90
-110
-110 -90 -70 -50 -30 -10
10
実測値 [cm]
30
50
70
90
110
-110
-110 -90 -70 -50 -30 -10
10
30
50
70
90
110
実測値 [cm]
www.***.com
35
x軸(水平)移動の実験
 スピーカのy軸は0に固定
 位置をx軸(水平)方向に-90~90cm、15cm間隔で収録
 -90, -60, -30, 0, 30, 60, 90 cm (30cm間隔)を学習
Loudspeaker
-90 -75 ・・・ 0cm
90cm
 -90, -75, -60, -45, -30, -15, 0,
15, 30, 45, 60, 75, 90 cm (15cm間隔)をテスト
 未学習位置は-75, -45, -15, 15, 45, 75 cm
学習データ : 50単語 x 位置
評価データ : 116単語 x 位置
2.4 m
Microphone
www.***.com
36
x軸 (水平移動)推定結果
Root Mean Square Error (RMSE) で評価
推定された位置と実際の位置との平均誤差 (cm)を表す
数値は (未学習位置のRMSE / 既学習位置のRMSE)
Hsub (伝達特性が正確に推定されている)
RMSE(cm) K = 50
K = 150
K = 250
大域的
重回帰
52.3 / 47.4 35.4 / 35.1 33.5 / 33.8 34.1 / 35.3
GPR
31.4 / 29.0 35.0 / 31.6 34.8 / 31.4 34.8 / 31.4
SVR
25.6 / 26.7 27.8 / 29.3 28.6 / 30.9 28.8 / 31.3
Hest (伝達特性には推定誤差が含まれる)
RMSE(cm) K = 50
K = 150
K = 250
大域的
重回帰
54.2 / 55.5 42.1 / 41.5 41.0 / 41.2 41.0 / 42.5
GPR
39.6 / 40.2 41.8 / 41.3 41.5 / 41.1 41.7 / 41.4
SVR
36.1 / 38.0 36.4 / 38.2 37.3 / 38.6 38.3 / 39.1
www.***.com
37
x軸 (水平移動)推定結果
最も誤差が小さかった条件下での推定結果
Hest (伝達特性には推定誤差が含まれる)
Hsub (伝達特性が正確に推定されている)
110
110
90
90
70
70
50
50
30
推定値 [cm]
推定値 [cm]
30
10
-10
10
-10
-30
-30
-50
-50
-70
-70
-90
-90
-110
-110 -90 -70 -50 -30 -10
10
実測値 [cm]
30
50
70
90
110
-110
-110 -90 -70 -50 -30 -10
10
30
50
70
90
110
実測値 [cm]
www.***.com
38
音源方向推定の実験
 スピーカと音源の距離は約 2 m に固定
 音源方向を 10°~170°、20°間隔で収録
 10, 50, 90, 130, 170° (40°間隔)を学習
90
 10, 30, 50, 70, 90, 110, 130, 150, 170°
(30°間隔)をテスト

50

30

 未学習位置は 30, 70, 110, 150°
170
学習データ : 50単語 x 位置
評価データ : 116単語 x 位置
10


microphone
www.***.com
39
音源方向の推定結果
Root Mean Square Error (RMSE) で評価
推定された位置と実際の位置との平均誤差 (角度)を表す
数値は (未学習位置のRMSE / 既学習位置のRMSE)
Hsub (伝達特性が正確に推定されている)
RMSE(角度)
K = 50
重回帰
63.9 / 12.1 63.6 / 14.5 65.3 / 17.0
GPR
28.5 / 10.7 22.9 / 11.4 22.0 / 11.4
SVR
20.3 / 10.8 18.9 / 12.1 22.7 / 12.2
K = 150
大域的
Hest (伝達特性には推定誤差が含まれる)
RMSE(角度)
K = 50
重回帰
50.3 / 49.2 42.6 / 41.7 42.2 / 42.8
GPR
32.7 / 40.9 33.7 / 42.3 33.4 / 43.4
SVR
29.4 / 31.5 31.6 / 35.3 32.5 / 37.1
K = 150
大域的
www.***.com
40
音源方向の推定結果
最も誤差が小さかった条件下での推定結果
Hest (伝達特性には推定誤差が含まれる)
Hsub (伝達特性が正確に推定されている)
190
190
170
170
150
150
130
110
110
推定値 [degree]
推定値 [degree]
130
90
70
70
50
50
30
30
10
10
-10
-10
90
10
30
50
70
90
110 130 150 170 190
実測値 [degree]
-10
-10
10
30
50
70
90
110 130 150 170 190
実測値 [degree]
www.***.com
41