Document

音響モデルを利用したシングルチャネルに
よる音源方向推定
06/12/15 電子情報通信学会応用音響研究会
住田雄司，滝口哲也，有木康雄（神戸大）
発表の流れ

研究背景


従来手法



単一マイクロホンによる音源方向推定
評価実験


マイクロホンアレーによる音源方向推定
従来手法の問題点
提案手法


音源方向推定の目的
提案手法による評価実験と考察
まとめ，今後の課題
研究背景

音源方向推定の目的

指向性マイクロホンを用いた目的音の強調



話者方向の推定



発話者方向にマイクロホンの指向性を形成
ノイズ方向にマイクロホンの死角を形成
ロボットの対話
会議システム
環境の認識


音源の探査
移動物体の検出
さまざまな状況において，音源方向推定の技術が必要とされている！
従来手法（1）

時間差の情報を用いた音源方向推定
例；2つのマイクロホンを用いて，
θ方向からの信号を受信


M1
x1 (t )
d
M2
x2 (t )
12    Ex1 t x2 t      G12  e jt d
R     G12  e jt d
12   : 相互相関関数
G12   : x1と x2のクロススペクトル
R  : 一般化相互相関関数
   : 周波数重み
1
e.g. CSP   
G12  
相関関数を最大にする時間差τとマイク間距離 d
から，信号の到来方向θを求める．
従来手法（2）

強度差の情報を用いた音源方向推定
[1]
例；2つのマイクロホンを用いて，
θ方向からの信号を受信
deg.


M1
x1 (t )
d
5dB/div.
例；カージオイド指向性
M2
x2 (t )
指向性マイクロホンを用いて，方向別の強度差から，
信号の到来方向θを求める．
[1]羽入敏樹他, “複数の指向性マイクロホンの方向別感度差を
利用した音源探査,” 音講論, 3-9-3, pp.781-782, 2006-3
従来手法の問題点

複数のマイクロホンを用いてアレーを形成．これにより生じる到来信号の
時間差・強度差の情報により方向を推定していた．
複数のマイクロホンが
必要不可欠！

単一マイクロホンで方向推定ができれば…



コスト削減
マイクロホンの設置は容易
信号の同期を取らなくてもよいetc.
本研究では，単一マイクロホンに
よる音源方向の推定を目指す！
ウェアラブルなどの超小型の世界，産業におけるコスト重視の
世界では，とりわけ単一マイクロホンであることが重要といえる．
提案手法の概要

どのようにして単一マイクロホンで音源方向を推定するのか？
3
2
到来信号の時間差・強度差といった情報
は使えない！
1
H2
H3
H1
H1
H3
H2
H1~3のモデル
H1 ? H 2 ? H 3 ?

arg maxPr(H | H )
予め，方向ごとの音響伝達特性モデルを
作成しておく．入力音声があれば，そこから
音響伝達特性を推定し，各モデルと比較を
行う．最も尤度が大きかった方向を到来方
向として出力する．


θ方向より到来する音声から，どのようにして音響伝達特性を推定するのか？
クリーン音声モデル（e.g. Gaussian Mixture Model） → 予め学習しておくことが可能

EMアルゴリズム（Expectation Maximization）
を用いて，θ方向からの音響伝達特性を推定．

音響伝達特性の推定（1）
Acoustical
transfer function
Clean speech
S
H
Observed speech
O
対象とする環境のモデル
O(; t )  S (; t )  H ()
logO(; t )  log S (; t )  log H ( )
N S ;  , 
Ocep i; t   Scep i; t   Hcep i; t 
OとSが分かれば，Hは推定可能
実際の場面では，クリーンな音声信号を観
測することはできない！
Sの代わりに，予め準備可能なクリーン音声
モデルを用いて，ケプストラム領域において
尤度最大基準に基づきOからHを分離する．
音響伝達特性の推定（2）
音響伝達特性の時系列データを，観測信号に対して，
そのモデルの尤度が最大となるようにして求める．
Hˆ  arg max PrO S , H 
H

 D O  Hˆ  
t ,i
n , m ,i
ˆ )    (n, m)  t ,i
Q(H, Η
t
2 2 n,m,i
 i 1
t 1 n 1 m1

T
 t (n, m) 
N
 n ,m N S t ; μ n,m ,  n,m 
M

m 1
N
Hˆ t ,i 
M
n,m
N S t ; μ n ,m ,  n,m 


 : モデルパラメータの集合
 : 分布の重み
D : 次元数
T :フレーム数
M
  (n, m)
n 1 m 1
  [2]
2
t
Ot ,i   n ,m ,i

2
M
M : 混合数
n , m ,i
 t (n, m)

2

n , m ,i
n 1 m 1
N
N : 状態数
[2]A.Sankar and C-H.Lee, “A maximum-likelihood approach to
stochastic matching for robust speech recognition,” IEEE Trans.
Speech and Audio Processing，vol.4, no.3, pp.190-202, 1996.
提案手法のフローチャート
Train
Test
各方向からの音声入力（数単語）
ある方向から音声が到来
S
S
クリーン音声GMMを用いて，
尤度最大基準により音響伝達特性を推定
Hˆ
各方向における音響伝達特性GMMを構築
H 
Hˆ
・入力の音響伝達特性と，各方向における音響伝達特性GMMを比較．
ˆ  arg max P Hˆ  

ˆ
H
・最も尤度が大きかった方向  を出力．



評価実験

実験環境

ドライソースにインパルス応答を畳み込んで実環境をシミュレーション



30deg.，90deg.，130deg. 3方向のうちの1方向より音声が到来する．
予め各方向のモデルを作成しておき，到来方向の判別を行う．
パラメータ

サンプリング周波数
12 [kHz]
窓関数
Hamming
窓の長さ
32 [ms]
フレームシフト
8 [ms]
特徴量
MFCC（16次元）
音声データと音響モデル
話者
クリーン音声の音響モデル
音響伝達特性の音響モデル
クリーン音声の学習データ
音響伝達特性の学習データ
テストデータ
特定話者（男性1名）
GMM（64混合）
GMM（1，2，4混合）
2620単語
10単語
1000単語
実験室
*


音源とマイクロホンの
距離： 2 [m]
残響時間： 300 [ms]
*http://tosa.mri.co.jp/sounddb/micarray/index.htm
実験結果（1）
方向別，混合数別の正解率 [%]

1 Mixture

2 Mixtures
4 Mixtures
30deg.
89.5
91.9
88.1
90deg.
18.0
58.9
67.0
130deg.
96.1
95.2
94.2
2方向（30deg.，90deg.）に限定した場合
1 Mixture
2 Mixtures
4 Mixtures
30deg.
100
100
100
90deg.
62.9
89.5
93.5
実験結果（2）

2方向における音響伝達特性の時間変化（音声:aisatsu）

発話区間は0.35 ～ 1.05 [sec]
MFCC-2
MFCC-6
実験結果（3）
それぞれの方向，混合数における識別率の比較
100
90
80
70
60
50
40
30
20
10
0
90deg.より音声到来
方向識別率[%]
方向識別率[%]
30deg.より音声到来
1mix
30°
2mix
90°
4mix
130°
100
90
80
70
60
50
40
30
20
10
0
130deg.より音声到来
方向識別率[%]

1mix
30°
2mix
90°
4mix
130°
100
90
80
70
60
50
40
30
20
10
0
1mix
30°
2mix
90°
4mix
130°
90deg.より音声が到来した場合に，130deg.と誤識別されることが多い！
誤識別の原因の考察（1）
音響伝達特性モデルの比較
Cepstral coefficient (mean)

単一正規分布における，方向毎の平均と分散の比較
20
15
10
5
0
-5
-10
-15
-20
・90deg.の平均値は他の2方向と
-25
-30
比較して，特に異なっている．
30°
90°
130°
・ある次元においては，3方向の
1 3 5 7 9 11 13 15
平均値がほぼ等しく，別の次元では
Cepstral order
全く違うといった状況が見受けられる．
Cepstral coefficient (var)

300
250
200
150
100
50
・低次元では90deg.の分散が大きく，
高次元では130deg.の分散が比較的
0
大きい．
1 3 5 7 9 11 13 15
→ 90deg.における正解率の低さ，
Cepstral order
130deg.への誤識別の多さの原因？
30°
90°
130°
誤識別の原因の考察（2）
音響伝達特性モデルの比較

15
10
5
30°
90°
130°
0
-5
250
200
30°
90°
130°
150
100
15
13
11
9
7
5
3
1
15
13
11
9
7
5
-15
300
50
・残響がない場合には，方向毎の平均と分散の違いが
ほとんど見受けられない．
0
→ 残響・反射といった要素が，方向毎の音響伝達特性を
特徴付けている？
Cepstral order
Cepstral order
3
-10
1
Cepstral coefficient (mean)

単一正規分布における，方向毎の平均と分散の比較
残響なし
Cepstral coefficient (var)

まとめ



様々な状況において，音源方向推定技術は必要とされている．
到来信号の時間差，強度差などを用いた従来の推定方法では，
複数のマイクロホンという条件が必要不可欠だった．
単一マイクロホンによる音源方向推定法を提案




クリーン音声GMMとEMアルゴリズムを用いて，観測された音声から
音響伝達特性を推定
各方向の音響伝達特性モデルを作成
入力音声から音響伝達特性を推定し，これらのモデルと比較して，
最も尤度が大きかった方向を到来方向として出力する．
評価実験より，単一マイクロホンによる音源方向推定の可能性を提示
今後の課題

方向数の増加，角度幅の縮小


文章による学習・テスト


単語単位では短すぎて安定しないのではないか？
→ モデルの分散増加
指向性マイクロホンの導入


現在はまだ3方向，角度の幅も40deg.，60deg.と開いている
無指向性マイクロホンと識別率を比較
識別方法の工夫


LDA，SVM，AdaBoostの導入etc.
正解率の向上
Thank you very much
for your attention!!
補足資料
実験結果：補足（1）

各方向におけるインパルス応答の比較

残響時間 300 [ms] の場合
30deg.
90deg.
130deg.
実験結果：補足（2）

各方向におけるインパルス応答の比較

残響時間が無しの場合
30deg.
90deg.
130deg.
マイクロホンアレー
*
今回の実験では，20番のマイクロホンのインパルス応答を使用
*http://tosa.mri.co.jp/sounddb/micarray/index.htm
実験機材の詳細
*
*http://tosa.mri.co.jp/soun
ddb/micarray/index.htm
無響室
*
*http://tosa.mri.co.jp/sounddb/micarray/index.htm
インパルス応答の畳み込み
ドライソース（本来発声した原音）にある部屋で測定したインパルス応答を畳み込むと，
その部屋で発生したかのように再現することができる．
h(t )
s (t )
M
o(t )   s(t  i)h(i)
i 1
o(t )
M : インパルス応答長
このままだと計算量が膨大なので…
O( f )  S ( f ) H ( f )
MFCC（Mel Frequency Cepstrum Coefficient）

音の高さに対する人間の感覚尺度 → メル尺度（Mel Scale）
Mel ( f )  2595 log10 (1 

f
)
700
周波数の対数におおよそ対応
人間の周波数に対する音の高さの感覚

低周波数 → 細かい
レ
ベ
ル
高周波数 → 粗い
・・・
m1
m2
各帯域フィルタの出力 m j と，
離散コサイン変換（DCT）を用い
て，MFCC係数が計算される．
・・・
mj
m j 1
mN
メル周波数
2 N
  i



cMFCC (i) 
m
cos
j

0
.
5



j
N j 1
 N

EMアルゴリズム

観測データをxとすると，HMMにおける状態遷移のような直接観測できないデー
タyが存在する場合に，xの尤度を最大にするようなモデルパラメータθを求めると
きなどに用いる．
max Pr( x |  )

実際には観測不可能なyが関係しているため，上式は容易には解けない．
そこで，式で解けるように以下のようなQ関数を定義する．

Q( ,ˆ)  E log Pr(x, y | ˆ) | x,

EMアルゴリズムのステップ

1.
2.
3.
4.
パラメータ  の初期値を設定
Q( ,ˆ) 関数の最大にするような ˆ を選択
 を ˆ で更新
収束条件を満たしていれば終了．そうでなければ2に戻る．
Template

template

Download Report