Document

音響モデルを利用したシングルチャネルに
よる音源方向推定
06/12/15 電子情報通信学会 応用音響研究会
住田 雄司,滝口哲也,有木康雄(神戸大)
発表の流れ

研究背景


従来手法



単一マイクロホンによる音源方向推定
評価実験


マイクロホンアレーによる音源方向推定
従来手法の問題点
提案手法


音源方向推定の目的
提案手法による評価実験と考察
まとめ,今後の課題
研究背景

音源方向推定の目的

指向性マイクロホンを用いた目的音の強調



話者方向の推定



発話者方向にマイクロホンの指向性を形成
ノイズ方向にマイクロホンの死角を形成
ロボットの対話
会議システム
環境の認識


音源の探査
移動物体の検出
さまざまな状況において,音源方向推定の技術が必要とされている!
従来手法(1)

時間差の情報を用いた音源方向推定
例;2つのマイクロホンを用いて,
θ方向からの信号を受信


M1
x1 (t )
d
M2
x2 (t )
12    Ex1 t x2 t      G12  e jt d
R     G12  e jt d
12   : 相互相関関数
G12   : x1と x2のクロススペクトル
R  : 一般化相互相関関数
   : 周波数重み
1
e.g. CSP   
G12  
相関関数を最大にする時間差τとマイク間距離 d
から,信号の到来方向θを求める.
従来手法(2)

強度差の情報を用いた音源方向推定
[1]
例;2つのマイクロホンを用いて,
θ方向からの信号を受信
deg.


M1
x1 (t )
d
5dB/div.
例;カージオイド指向性
M2
x2 (t )
指向性マイクロホンを用いて,方向別の強度差から,
信号の到来方向θを求める.
[1]羽入敏樹他, “複数の指向性マイクロホンの方向別感度差を
利用した音源探査,” 音講論, 3-9-3, pp.781-782, 2006-3
従来手法の問題点

複数のマイクロホンを用いてアレーを形成.これにより生じる到来信号の
時間差・強度差の情報により方向を推定していた.
複数のマイクロホンが
必要不可欠!

単一マイクロホンで方向推定ができれば…



コスト削減
マイクロホンの設置は容易
信号の同期を取らなくてもよいetc.
本研究では,単一マイクロホンに
よる音源方向の推定を目指す!
ウェアラブルなどの超小型の世界,産業におけるコスト重視の
世界では,とりわけ単一マイクロホンであることが重要といえる.
提案手法の概要

どのようにして単一マイクロホンで音源方向を推定するのか?
3
2
到来信号の時間差・強度差といった情報
は使えない!
1
H2
H3
H1
H1
H3
H2
H1~3のモデル
H1 ? H 2 ? H 3 ?

arg maxPr(H | H )
予め,方向ごとの音響伝達特性モデルを
作成しておく.入力音声があれば,そこから
音響伝達特性を推定し,各モデルと比較を
行う.最も尤度が大きかった方向を到来方
向として出力する.


θ方向より到来する音声から,どのようにして音響伝達特性を推定するのか?
クリーン音声モデル(e.g. Gaussian Mixture Model) → 予め学習しておくことが可能

EMアルゴリズム(Expectation Maximization)
を用いて,θ方向からの音響伝達特性を推定.

音響伝達特性の推定(1)
Acoustical
transfer function
Clean speech
S
H
Observed speech
O
対象とする環境のモデル
O(; t )  S (; t )  H ()
logO(; t )  log S (; t )  log H ( )
N S ;  , 
Ocep i; t   Scep i; t   Hcep i; t 
OとSが分かれば,Hは推定可能
実際の場面では,クリーンな音声信号を観
測することはできない!
Sの代わりに,予め準備可能なクリーン音声
モデルを用いて,ケプストラム領域において
尤度最大基準に基づきOからHを分離する.
音響伝達特性の推定(2)
音響伝達特性の時系列データを,観測信号に対して,
そのモデルの尤度が最大となるようにして求める.
Hˆ  arg max PrO S , H 
H

 D O  Hˆ  
t ,i
n , m ,i
ˆ )    (n, m)  t ,i
Q(H, Η
t
2 2 n,m,i
 i 1
t 1 n 1 m1

T
 t (n, m) 
N
 n ,m N S t ; μ n,m ,  n,m 
M

m 1
N
Hˆ t ,i 
M
n,m
N S t ; μ n ,m ,  n,m 


 : モデルパラメータの集 合
 : 分布の重み
D : 次元数
T :フレーム数
M
  (n, m)
n 1 m 1
  [2]
2
t
Ot ,i   n ,m ,i

2
M
M : 混合数
n , m ,i
 t (n, m)

2

n , m ,i
n 1 m 1
N
N : 状態数
[2]A.Sankar and C-H.Lee, “A maximum-likelihood approach to
stochastic matching for robust speech recognition,” IEEE Trans.
Speech and Audio Processing,vol.4, no.3, pp.190-202, 1996.
提案手法のフローチャート
Train
Test
各方向からの音声入力(数単語)
ある方向から音声が到来
S
S
クリーン音声GMMを用いて,
尤度最大基準により音響伝達特性を推定
Hˆ
各方向における音響伝達特性GMMを構築
H 
Hˆ
・入力の音響伝達特性と,各方向における音響伝達特性GMMを比較.
ˆ  arg max P Hˆ  

ˆ
H
・最も尤度が大きかった方向  を出力.



評価実験

実験環境

ドライソースにインパルス応答を畳み込んで実環境をシミュレーション



30deg.,90deg.,130deg. 3方向のうちの1方向より音声が到来する.
予め各方向のモデルを作成しておき,到来方向の判別を行う.
パラメータ

サンプリング周波数
12 [kHz]
窓関数
Hamming
窓の長さ
32 [ms]
フレームシフト
8 [ms]
特徴量
MFCC(16次元)
音声データと音響モデル
話者
クリーン音声の音響モデル
音響伝達特性の音響モデル
クリーン音声の学習データ
音響伝達特性の学習データ
テストデータ
特定話者(男性1名)
GMM(64混合)
GMM(1,2,4混合)
2620単語
10単語
1000単語
実験室
*


音源とマイクロホンの
距離: 2 [m]
残響時間: 300 [ms]
*http://tosa.mri.co.jp/sounddb/micarray/index.htm
実験結果(1)
方向別,混合数別の正解率 [%]

1 Mixture

2 Mixtures
4 Mixtures
30deg.
89.5
91.9
88.1
90deg.
18.0
58.9
67.0
130deg.
96.1
95.2
94.2
2方向(30deg.,90deg.)に限定した場合
1 Mixture
2 Mixtures
4 Mixtures
30deg.
100
100
100
90deg.
62.9
89.5
93.5
実験結果(2)

2方向における音響伝達特性の時間変化(音声:aisatsu)

発話区間は0.35 ~ 1.05 [sec]
MFCC-2
MFCC-6
実験結果(3)
それぞれの方向,混合数における識別率の比較
100
90
80
70
60
50
40
30
20
10
0
90deg.より音声到来
方向識別率[%]
方向識別率[%]
30deg.より音声到来
1mix
30°
2mix
90°
4mix
130°
100
90
80
70
60
50
40
30
20
10
0
130deg.より音声到来
方向識別率[%]

1mix
30°
2mix
90°
4mix
130°
100
90
80
70
60
50
40
30
20
10
0
1mix
30°
2mix
90°
4mix
130°
90deg.より音声が到来した場合に,130deg.と誤識別されることが多い!
誤識別の原因の考察(1)
音響伝達特性モデルの比較
Cepstral coefficient (mean)

単一正規分布における,方向毎の平均と分散の比較
20
15
10
5
0
-5
-10
-15
-20
・90deg.の平均値は他の2方向と
-25
-30
比較して,特に異なっている.
30°
90°
130°
・ある次元においては,3方向の
1 3 5 7 9 11 13 15
平均値がほぼ等しく,別の次元では
Cepstral order
全く違うといった状況が見受けられる.
Cepstral coefficient (var)

300
250
200
150
100
50
・低次元では90deg.の分散が大きく,
高次元では130deg.の分散が比較的
0
大きい.
1 3 5 7 9 11 13 15
→ 90deg.における正解率の低さ,
Cepstral order
130deg.への誤識別の多さの原因?
30°
90°
130°
誤識別の原因の考察(2)
音響伝達特性モデルの比較

15
10
5
30°
90°
130°
0
-5
250
200
30°
90°
130°
150
100
15
13
11
9
7
5
3
1
15
13
11
9
7
5
-15
300
50
・残響がない場合には,方向毎の平均と分散の違いが
ほとんど見受けられない.
0
→ 残響・反射といった要素が,方向毎の音響伝達特性を
特徴付けている?
Cepstral order
Cepstral order
3
-10
1
Cepstral coefficient (mean)

単一正規分布における,方向毎の平均と分散の比較
残響なし
Cepstral coefficient (var)

まとめ



様々な状況において,音源方向推定技術は必要とされている.
到来信号の時間差,強度差などを用いた従来の推定方法では,
複数のマイクロホンという条件が必要不可欠だった.
単一マイクロホンによる音源方向推定法を提案




クリーン音声GMMとEMアルゴリズムを用いて,観測された音声から
音響伝達特性を推定
各方向の音響伝達特性モデルを作成
入力音声から音響伝達特性を推定し,これらのモデルと比較して,
最も尤度が大きかった方向を到来方向として出力する.
評価実験より,単一マイクロホンによる音源方向推定の可能性を提示
今後の課題

方向数の増加,角度幅の縮小


文章による学習・テスト


単語単位では短すぎて安定しないのではないか?
→ モデルの分散増加
指向性マイクロホンの導入


現在はまだ3方向,角度の幅も40deg.,60deg.と開いている
無指向性マイクロホンと識別率を比較
識別方法の工夫


LDA,SVM,AdaBoostの導入etc.
正解率の向上
Thank you very much
for your attention!!
補足資料
実験結果:補足(1)

各方向におけるインパルス応答の比較

残響時間 300 [ms] の場合
30deg.
90deg.
130deg.
実験結果:補足(2)

各方向におけるインパルス応答の比較

残響時間が無しの場合
30deg.
90deg.
130deg.
マイクロホンアレー
*
今回の実験では,20番のマイクロホンのインパルス応答を使用
*http://tosa.mri.co.jp/sounddb/micarray/index.htm
実験機材の詳細
*
*http://tosa.mri.co.jp/soun
ddb/micarray/index.htm
無響室
*
*http://tosa.mri.co.jp/sounddb/micarray/index.htm
インパルス応答の畳み込み
ドライソース(本来発声した原音)にある部屋で測定したインパルス応答を畳み込むと,
その部屋で発生したかのように再現することができる.
h(t )
s (t )
M
o(t )   s(t  i)h(i)
i 1
o(t )
M : インパルス応答長
このままだと計算量が膨大なので…
O( f )  S ( f ) H ( f )
MFCC(Mel Frequency Cepstrum Coefficient)

音の高さに対する人間の感覚尺度 → メル尺度(Mel Scale)
Mel ( f )  2595 log10 (1 

f
)
700
周波数の対数におおよそ対応
人間の周波数に対する音の高さの感覚

低周波数 → 細かい
レ
ベ
ル
高周波数 → 粗い
・・・
m1
m2
各帯域フィルタの出力 m j と,
離散コサイン変換(DCT)を用い
て,MFCC係数が計算される.
・・・
mj
m j 1
mN
メル周波数
2 N
  i



cMFCC (i) 
m
cos
j

0
.
5



j
N j 1
 N

EMアルゴリズム

観測データをxとすると,HMMにおける状態遷移のような直接観測できないデー
タyが存在する場合に,xの尤度を最大にするようなモデルパラメータθを求めると
きなどに用いる.
max Pr( x |  )

実際には観測不可能なyが関係しているため,上式は容易には解けない.
そこで,式で解けるように以下のようなQ関数を定義する.

Q( ,ˆ)  E log Pr(x, y | ˆ) | x,

EMアルゴリズムのステップ

1.
2.
3.
4.
パラメータ  の初期値を設定
Q( ,ˆ) 関数の最大にするような ˆ を選択
 を ˆ で更新
収束条件を満たしていれば終了.そうでなければ2に戻る.
Template

template