3-Q-20 音響モデルを利用したシングルチャネルによる音源方向推定の検討住田雄司, 滝口哲也, 有木康雄(神戸大) 研究の背景実環境では，雑音の影響により音声認識率が著しく低下する．・発話者の方向を推定することにより，その方向にマイクロホンの指向特性を形成して発話音声を強調する．・雑音の方向を推定することにより，その方向にマイクロホンの死角を形成して雑音を抑圧する．従来の方法では，複数のマイクロホンによる到来信号の時間差から方向を推定していた． → 単一マイクロホンで方向を推定することはできないのだろうか？単一マイクロホンによる方向推定の利点本研究の目的・コスト削減・設置の容易さ・モジュール間の整合性単一マイクロホンによる音源方向推定提案手法単一マイクロホンで方向を推定するにはどのようにすればよいのか？提案手法のフローチャート Train Test クリーン音声 GMM 推定したい方向からの入力音声各方向からの入力音声（数単語）その方向における音響伝達特性信号の時間差の代わりに，音響伝達特性による比較を行う！音響伝達特性はどのようにして推定するのか？ Acoustical Clean speech transfer function Observed speech S H O logO(; t )  log S (; t )  log H ( ) OとSが既知であればHを求めることができるが，Sは実際に観測することができない．そこで，Sの代わりに予め学習可能なクリーン音声GMM（Gaussian Mixture Model）を用いて，尤度最大基準に基づきHを推定する．  H cep   Ot ,i  H t,i   n,m,i  Q(H, Η)    t (n, m)   2 2 n,m,i t 1 n 1 m 1  i 1  t (n, m)  H t,i  M M  n,m N S t ; μ n ,m ,  n,m  M   t (n, m) Ot ,i   n ,m ,i n 1 m 1  2 n , m ,i  t (n, m)  2 n 1 m 1  n , m ,i N 2 D  n ,m N S t ; μ n,m ,  n,m  m 1 N N M 各方向における音響伝達特性 GMM     : モデルパラメータの集合  : 分布の重み D : 次元数 T :フレーム数 N : 状態数 M : 混合数具体的には，推定したい方向から数単語の音声を観測し，クリーン音声GMMとEMアルゴリズムを用いてHを推定する． 100 90 80 70 60 50 40 30 20 10 0 2方向における識別率 1mix 2mix 30° 実験環境クリーン音声の音響モデル音響伝達特性の音響モデルクリーン音声の学習データ音響伝達特性推定の学習データテストデータ GMM（64混合） GMM（1，2，4混合） 2620単語 10単語 1000単語 90° 130° 30° 2m 部屋の残響 : 300 [ms] 方向識別率[%] 特定話者（男性1名） MFCC（16次元） 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 1mix 30° 2mix 90° 30°の方向から音声到来 1mix 30° 90° 90°の方向から音声到来音声データ・音響モデル話者特徴量 4mix 4mix 130° 2mix 90° 4mix 130° 130°の方向から音声到来方向識別率[%] 評価実験入力音声の音響伝達特性と，各方向における音響伝達特性モデルを比較 ↓ 最も尤度が大きい方向を到来方向として出力 H t,i 方向識別率[%]  Hˆ cep  arg max P O Scep , H cep 各方向における音響伝達特性方向識別率[%] O(; t )  S (; t )  H () T H t,i 100 90 80 70 60 50 40 30 20 10 0 1mix 30° 2mix 90° 4mix 130°