音響モデルを利用したシングルチャネルに よる音源方向推定 06/12/15 電子情報通信学会 応用音響研究会 住田 雄司,滝口哲也,有木康雄(神戸大) 発表の流れ 研究背景 従来手法 単一マイクロホンによる音源方向推定 評価実験 マイクロホンアレーによる音源方向推定 従来手法の問題点 提案手法 音源方向推定の目的 提案手法による評価実験と考察 まとめ,今後の課題 研究背景 音源方向推定の目的 指向性マイクロホンを用いた目的音の強調 話者方向の推定 発話者方向にマイクロホンの指向性を形成 ノイズ方向にマイクロホンの死角を形成 ロボットの対話 会議システム 環境の認識 音源の探査 移動物体の検出 さまざまな状況において,音源方向推定の技術が必要とされている! 従来手法(1) 時間差の情報を用いた音源方向推定 例;2つのマイクロホンを用いて, θ方向からの信号を受信 M1 x1 (t ) d M2 x2 (t ) 12 Ex1 t x2 t G12 e jt d R G12 e jt d 12 : 相互相関関数 G12 : x1と x2のクロススペクトル R : 一般化相互相関関数 : 周波数重み 1 e.g. CSP G12 相関関数を最大にする時間差τとマイク間距離 d から,信号の到来方向θを求める. 従来手法(2) 強度差の情報を用いた音源方向推定 [1] 例;2つのマイクロホンを用いて, θ方向からの信号を受信 deg. M1 x1 (t ) d 5dB/div. 例;カージオイド指向性 M2 x2 (t ) 指向性マイクロホンを用いて,方向別の強度差から, 信号の到来方向θを求める. [1]羽入敏樹他, “複数の指向性マイクロホンの方向別感度差を 利用した音源探査,” 音講論, 3-9-3, pp.781-782, 2006-3 従来手法の問題点 複数のマイクロホンを用いてアレーを形成.これにより生じる到来信号の 時間差・強度差の情報により方向を推定していた. 複数のマイクロホンが 必要不可欠! 単一マイクロホンで方向推定ができれば… コスト削減 マイクロホンの設置は容易 信号の同期を取らなくてもよいetc. 本研究では,単一マイクロホンに よる音源方向の推定を目指す! ウェアラブルなどの超小型の世界,産業におけるコスト重視の 世界では,とりわけ単一マイクロホンであることが重要といえる. 提案手法の概要 どのようにして単一マイクロホンで音源方向を推定するのか? 3 2 到来信号の時間差・強度差といった情報 は使えない! 1 H2 H3 H1 H1 H3 H2 H1~3のモデル H1 ? H 2 ? H 3 ? arg maxPr(H | H ) 予め,方向ごとの音響伝達特性モデルを 作成しておく.入力音声があれば,そこから 音響伝達特性を推定し,各モデルと比較を 行う.最も尤度が大きかった方向を到来方 向として出力する. θ方向より到来する音声から,どのようにして音響伝達特性を推定するのか? クリーン音声モデル(e.g. Gaussian Mixture Model) → 予め学習しておくことが可能 EMアルゴリズム(Expectation Maximization) を用いて,θ方向からの音響伝達特性を推定. 音響伝達特性の推定(1) Acoustical transfer function Clean speech S H Observed speech O 対象とする環境のモデル O(; t ) S (; t ) H () logO(; t ) log S (; t ) log H ( ) N S ; , Ocep i; t Scep i; t Hcep i; t OとSが分かれば,Hは推定可能 実際の場面では,クリーンな音声信号を観 測することはできない! Sの代わりに,予め準備可能なクリーン音声 モデルを用いて,ケプストラム領域において 尤度最大基準に基づきOからHを分離する. 音響伝達特性の推定(2) 音響伝達特性の時系列データを,観測信号に対して, そのモデルの尤度が最大となるようにして求める. Hˆ arg max PrO S , H H D O Hˆ t ,i n , m ,i ˆ ) (n, m) t ,i Q(H, Η t 2 2 n,m,i i 1 t 1 n 1 m1 T t (n, m) N n ,m N S t ; μ n,m , n,m M m 1 N Hˆ t ,i M n,m N S t ; μ n ,m , n,m : モデルパラメータの集 合 : 分布の重み D : 次元数 T :フレーム数 M (n, m) n 1 m 1 [2] 2 t Ot ,i n ,m ,i 2 M M : 混合数 n , m ,i t (n, m) 2 n , m ,i n 1 m 1 N N : 状態数 [2]A.Sankar and C-H.Lee, “A maximum-likelihood approach to stochastic matching for robust speech recognition,” IEEE Trans. Speech and Audio Processing,vol.4, no.3, pp.190-202, 1996. 提案手法のフローチャート Train Test 各方向からの音声入力(数単語) ある方向から音声が到来 S S クリーン音声GMMを用いて, 尤度最大基準により音響伝達特性を推定 Hˆ 各方向における音響伝達特性GMMを構築 H Hˆ ・入力の音響伝達特性と,各方向における音響伝達特性GMMを比較. ˆ arg max P Hˆ ˆ H ・最も尤度が大きかった方向 を出力. 評価実験 実験環境 ドライソースにインパルス応答を畳み込んで実環境をシミュレーション 30deg.,90deg.,130deg. 3方向のうちの1方向より音声が到来する. 予め各方向のモデルを作成しておき,到来方向の判別を行う. パラメータ サンプリング周波数 12 [kHz] 窓関数 Hamming 窓の長さ 32 [ms] フレームシフト 8 [ms] 特徴量 MFCC(16次元) 音声データと音響モデル 話者 クリーン音声の音響モデル 音響伝達特性の音響モデル クリーン音声の学習データ 音響伝達特性の学習データ テストデータ 特定話者(男性1名) GMM(64混合) GMM(1,2,4混合) 2620単語 10単語 1000単語 実験室 * 音源とマイクロホンの 距離: 2 [m] 残響時間: 300 [ms] *http://tosa.mri.co.jp/sounddb/micarray/index.htm 実験結果(1) 方向別,混合数別の正解率 [%] 1 Mixture 2 Mixtures 4 Mixtures 30deg. 89.5 91.9 88.1 90deg. 18.0 58.9 67.0 130deg. 96.1 95.2 94.2 2方向(30deg.,90deg.)に限定した場合 1 Mixture 2 Mixtures 4 Mixtures 30deg. 100 100 100 90deg. 62.9 89.5 93.5 実験結果(2) 2方向における音響伝達特性の時間変化(音声:aisatsu) 発話区間は0.35 ~ 1.05 [sec] MFCC-2 MFCC-6 実験結果(3) それぞれの方向,混合数における識別率の比較 100 90 80 70 60 50 40 30 20 10 0 90deg.より音声到来 方向識別率[%] 方向識別率[%] 30deg.より音声到来 1mix 30° 2mix 90° 4mix 130° 100 90 80 70 60 50 40 30 20 10 0 130deg.より音声到来 方向識別率[%] 1mix 30° 2mix 90° 4mix 130° 100 90 80 70 60 50 40 30 20 10 0 1mix 30° 2mix 90° 4mix 130° 90deg.より音声が到来した場合に,130deg.と誤識別されることが多い! 誤識別の原因の考察(1) 音響伝達特性モデルの比較 Cepstral coefficient (mean) 単一正規分布における,方向毎の平均と分散の比較 20 15 10 5 0 -5 -10 -15 -20 ・90deg.の平均値は他の2方向と -25 -30 比較して,特に異なっている. 30° 90° 130° ・ある次元においては,3方向の 1 3 5 7 9 11 13 15 平均値がほぼ等しく,別の次元では Cepstral order 全く違うといった状況が見受けられる. Cepstral coefficient (var) 300 250 200 150 100 50 ・低次元では90deg.の分散が大きく, 高次元では130deg.の分散が比較的 0 大きい. 1 3 5 7 9 11 13 15 → 90deg.における正解率の低さ, Cepstral order 130deg.への誤識別の多さの原因? 30° 90° 130° 誤識別の原因の考察(2) 音響伝達特性モデルの比較 15 10 5 30° 90° 130° 0 -5 250 200 30° 90° 130° 150 100 15 13 11 9 7 5 3 1 15 13 11 9 7 5 -15 300 50 ・残響がない場合には,方向毎の平均と分散の違いが ほとんど見受けられない. 0 → 残響・反射といった要素が,方向毎の音響伝達特性を 特徴付けている? Cepstral order Cepstral order 3 -10 1 Cepstral coefficient (mean) 単一正規分布における,方向毎の平均と分散の比較 残響なし Cepstral coefficient (var) まとめ 様々な状況において,音源方向推定技術は必要とされている. 到来信号の時間差,強度差などを用いた従来の推定方法では, 複数のマイクロホンという条件が必要不可欠だった. 単一マイクロホンによる音源方向推定法を提案 クリーン音声GMMとEMアルゴリズムを用いて,観測された音声から 音響伝達特性を推定 各方向の音響伝達特性モデルを作成 入力音声から音響伝達特性を推定し,これらのモデルと比較して, 最も尤度が大きかった方向を到来方向として出力する. 評価実験より,単一マイクロホンによる音源方向推定の可能性を提示 今後の課題 方向数の増加,角度幅の縮小 文章による学習・テスト 単語単位では短すぎて安定しないのではないか? → モデルの分散増加 指向性マイクロホンの導入 現在はまだ3方向,角度の幅も40deg.,60deg.と開いている 無指向性マイクロホンと識別率を比較 識別方法の工夫 LDA,SVM,AdaBoostの導入etc. 正解率の向上 Thank you very much for your attention!! 補足資料 実験結果:補足(1) 各方向におけるインパルス応答の比較 残響時間 300 [ms] の場合 30deg. 90deg. 130deg. 実験結果:補足(2) 各方向におけるインパルス応答の比較 残響時間が無しの場合 30deg. 90deg. 130deg. マイクロホンアレー * 今回の実験では,20番のマイクロホンのインパルス応答を使用 *http://tosa.mri.co.jp/sounddb/micarray/index.htm 実験機材の詳細 * *http://tosa.mri.co.jp/soun ddb/micarray/index.htm 無響室 * *http://tosa.mri.co.jp/sounddb/micarray/index.htm インパルス応答の畳み込み ドライソース(本来発声した原音)にある部屋で測定したインパルス応答を畳み込むと, その部屋で発生したかのように再現することができる. h(t ) s (t ) M o(t ) s(t i)h(i) i 1 o(t ) M : インパルス応答長 このままだと計算量が膨大なので… O( f ) S ( f ) H ( f ) MFCC(Mel Frequency Cepstrum Coefficient) 音の高さに対する人間の感覚尺度 → メル尺度(Mel Scale) Mel ( f ) 2595 log10 (1 f ) 700 周波数の対数におおよそ対応 人間の周波数に対する音の高さの感覚 低周波数 → 細かい レ ベ ル 高周波数 → 粗い ・・・ m1 m2 各帯域フィルタの出力 m j と, 離散コサイン変換(DCT)を用い て,MFCC係数が計算される. ・・・ mj m j 1 mN メル周波数 2 N i cMFCC (i) m cos j 0 . 5 j N j 1 N EMアルゴリズム 観測データをxとすると,HMMにおける状態遷移のような直接観測できないデー タyが存在する場合に,xの尤度を最大にするようなモデルパラメータθを求めると きなどに用いる. max Pr( x | ) 実際には観測不可能なyが関係しているため,上式は容易には解けない. そこで,式で解けるように以下のようなQ関数を定義する. Q( ,ˆ) E log Pr(x, y | ˆ) | x, EMアルゴリズムのステップ 1. 2. 3. 4. パラメータ の初期値を設定 Q( ,ˆ) 関数の最大にするような ˆ を選択 を ˆ で更新 収束条件を満たしていれば終了.そうでなければ2に戻る. Template template
© Copyright 2025 ExpyDoc