音響伝達特性を用いたシングルチャネル 音源位置推定における局所的回帰に基づく 未学習位置の補間 第14回 音声言語シンポジウム 2012年12月20, 21日 高島遼一,滝口哲也,有木康雄 神戸大学大学院 研究背景・目的(1/4) 音源位置推定 収録した音声から,その音源の位置を推定する 話者位置推定 ⇒ 対話ロボット,音声強調など 話者の推定 ⇒ 議事録作成など 従来の音源位置推定法 複数のマイクを用いて観測される信号間の位相差を利用 c d sin :時間差 c :音速 d c マイクロホンアレー(マイク数32) www.***.com 研究背景・目的(2/4) 単一マイクによる音源位置推定法は,いまだ確立され ていない システムの縮小化,複数マイクの手法との複合 位相差などのマイク間の情報を用いない,単一マイクで も行える音源位置推定の実現 提案アプローチ 音響伝達特性を用いた単一チャネル音源位置推定法 www.***.com 研究背景・目的(3/4) 先行研究 音響伝達特性の識別に基づくシングルチャネル音源位置推定 (Takashima, et al., ICASSP, 2010) 音響伝達特性 HB S HA S 位置B O Microphone 音響伝達特性 位置A 音響伝達特性(インパルス応答)は,音源の位置ごとに異なる特性をもつ 音源位置毎に音響伝達特性を学習 評価音声について,その音響伝達特性を識別することで音源位置を推定 www.***.com 研究背景・目的(4/4) 先行研究ではパターン認識に基づき音源位置を推定 特徴量: 音響伝達特性 (MFCC:16次元) クラス: 音源位置 •あらかじめ学習した位置しか 推定(認識)できない 位置A 位置Dの 伝達特性 =位置B •位置Dを推定する(=クラスを作成する) ためには位置Dの学習サンプルが必要 位置B 位置C 特徴量(伝達特性MFCC)空間 研究目的: 限られた位置の学習サンプルのみを用いて未学習位置の推定を行う 提案アプローチ: 回帰分析による未学習位置の推定 www.***.com 提案手法の流れ 音 源 位 置 1 O O O 学習データ O train , train 1 ,1 train 2 , 2 train 3 , 3 train train train train 3 評価データ O test H H H 1 ,1 train 2 , 2 train 3 , 3 train train train train 単一マイク 2 O 音響伝達特性H から座標θへの 回帰モデルf(H)を 学習 f H 観測信号Oから 音響伝達特性H を推定 test H test 回帰モデル を用いて 音響伝達特性 から位置を推定 ˆ f H test ˆ 推定位置 www.***.com 回帰モデルの学習 回帰分析 説明変数: 音響伝達特性 (MFCC:16次元) 目的変数 目的変数 : 音源位置 (座標) (位置 ) 回帰分析手法 線形回帰 重回帰分析 位置D f H 位置A 位置B 位置C 非線形回帰 説明変数 (伝達特性H) Gaussian Process Regression (GPR) (C. E. Rasmussen, et al., 2006) Support Vector Regression (SVR) (A.J. Smola, et al., 2004) 学習方法 局所的回帰 www.***.com 大域的回帰 一般的な回帰モデル学習法 あらかじめ学習サンプル全てを用いて一つの回帰関数を学習 する どの位置の推定においても単一の回帰関数が用いられる 部屋内のあらゆる位置と音響伝達特性の関係をたった一つ の関数で表現しきれるのか? 目的変数 (位置 ) f H 位置A 位置B 位置C 説明変数 (伝達特性H) www.***.com 局所的回帰 学習データ全てをデータベースとして保持 評価データ(入力)に対して,K近傍の学習データを取り出す 取りだしたK近傍の学習データのみを用いて回帰関数を学習 する 回帰関数は評価データが入力された後、入力値によって動的 に学習されることになる 目的変数 (位置 ) f H 位置A 位置B 位置C 説明変数 (伝達特性H) www.***.com 音響伝達特性の推定(1/3) 音 源 位 置 1 O O O 学習データ O train , train 1 ,1 train 2 , 2 train 3 , 3 train train train train O test H H H 1 ,1 train 2 , 2 train 3 , 3 train train train train 単一マイク 評価データ O 音響伝達特性H から座標θへの 回帰モデルf(H)を 学習 f H 観測信号Oから 音響伝達特性H を推定 test H test 回帰モデル を用いて 音響伝達特性 から位置を推定 ˆ f H test ˆ 推定位置 www.***.com 音響伝達特性の推定(2/3) 観測信号の定式化 ケプストラム領域での観測信号をクリーン音声と音響伝達特性の線形加 算モデルで仮定 時間領域 o (t ) s (t ) h (t ) 短時間フーリエ変換 周波数領域 O ( ; n ) S ( ; n ) H ( ; n ) : 周波数 t : 時刻 n : フレーム d : ケプストラムの次元 対数変換 log O ( ; n ) log S ( ; n ) log H ( ; n ) 離散コサイン変換 ケプストラム領域 O cep d ; n S cep d ; n H cep d ; n 未知 実際の環境ではSは未知であるため,Sの代わりにSの確率モデル(HMM)を用い www.***.com て最尤推定法でHを推定する. 音響伝達特性の推定(3/3) 観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法) Hˆ arg max Pr O | H , S S : クリーン音声 HMM のパラメータ H 解はEMアルゴリズムによって求められる Hˆ arg max Q Hˆ | H H b : 状態 arg max E [log Pr O , b , c | Hˆ , S | H , S ] c : 混合要素 H 音響伝達特性の更新式は以下のように求められる Hˆ ( d ) b c b ,c O ( d ; n ) b ,c d b b ,c d : 平均 b ,c : 分散 (対角共分散を仮定 2 c d : ケプストラムの次元 2 b ,c d 2 ) b , c Pr b , c | O , H , S : 負担率 www.***.com 実験条件(1/2) 6.3 m 各音源位置にてインパルス応答 を測定し,クリーン音声に畳み込む ことで残響信号をシミュレートした 1.8 m -90 cm Loudspeaker クリーン音声はATR音声データベース を使用 2.4 m 15 cm -90 cm 0 90 cm 2.4 m 7.0 m 90 cm Loudspeaker Microphones Microphone 3.15 m www.***.com 実験条件(2/2) 特徴量 MFCC:16次元 サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec 回帰モデルの学習 50 単語 (× 学習位置数) 局所的回帰における近傍サンプル数 K = 75 位置の推定 Text closed : 評価データは学習単語と同じ発話(インパルス応答を畳 み込む前のクリーン音声)からなる50単語 Text open : 評価データは学習単語と異なる発話からなる116単語 音響伝達特性の推定 クリーン音声の学習データ数: 2620単語 (上記の単語は含めない) 音素数:54 HMMの状態数:3 混合数:32 www.***.com 垂直軸(奥行き)移動における位置推定 スピーカの水平軸は0 cm(正面)に固定(既知とする) 位置を奥行き方向に-90~90cm,15cm間隔で収録 計 13 位置 -90 cm -75 cm ・・・ -90, -60, -30, 0, 30, 60, 90 cm (30cm間隔)を学習 学習位置数: 7位置 未学習位置 : 6位置 -75, -45, -15, 15, 45, 75 cm 既学習位置数 : 7位置 90, -60, -30, 0, 30, 60, 90 cm ・・・ -90, -75, -60, ..., 0, ..., 60, 75, 90 cm (15cm間隔)をテスト 0cm 75cm 90cm www.***.com Microphone 垂直軸(奥行き)移動の位置推定結果 相関係数で評価 推定された位置と実際の位置が等しければ 1.0 を取る 全ての位置を評価対象とした場合 Text closed 未学習位置のみを評価対象とした場合 Text open Text closed Text open 重回帰 0.90 0.69 重回帰 0.89 0.70 GPR 0.98 0.80 GPR 0.94 0.82 SVR 0.97 0.83 SVR 0.94 0.86 www.***.com 垂直軸(奥行き)移動の位置推定結果 推定された位置 [cm] SVR (Support Vector Regression) による位置推定結果 青 : 未学習位置 緑 : 既学習位置 赤 : 正解の位置 100 100 75 75 50 50 25 25 0 0 -25 -25 -50 -50 -75 -75 -100 -90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90 実際の位置 [cm] Text closed -100 -90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90 実際の位置 [cm] Text open www.***.com 水平軸移動における位置推定 スピーカの垂直軸(奥行き)は0 cmに固定(既知とする) 位置を奥行き方向に-90~90cm,15cm間隔で収録 計 13 位置 -90, -60, -30, 0, 30, 60, 90 cm (30cm間隔)を学習 Loudspeaker -90 -75 ・・・ 0cm ・・・75 90cm 学習位置数: 7位置 -90, -75, -60, ..., 0, ..., 60, 75, 90 cm (15cm間隔)をテスト 未学習位置 : 6位置 -75, -45, -15, 15, 45, 75 cm 既学習位置数 : 7位置 90, -60, -30, 0, 30, 60, 90 cm 2.4 m Microphone www.***.com 水平軸移動の位置推定結果 相関係数で評価 推定された位置と実際の位置が等しければ 1.0 を取る 全ての位置を評価対象とした場合 Text closed 未学習位置のみを評価対象とした場合 Text open Text closed Text open 重回帰 0.72 0.48 重回帰 0.57 0.39 GPR 0.92 0.56 GPR 0.77 0.49 SVR 0.92 0.58 SVR 0.82 0.51 www.***.com 水平軸移動の位置推定結果 推定された位置 [cm] SVR (Support Vector Regression) による位置推定結果 青 : 未学習位置 緑 : 既学習位置 赤 : 正解の位置 100 100 75 75 50 50 25 25 0 0 -25 -25 -50 -50 -75 -75 -100 -90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90 実際の位置 [cm] Text closed -100 -90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90 実際の位置 [cm] Text open www.***.com 考察・まとめ 音響伝達特性を用いることで単一マイクで音源位置を推定す る手法を提案 回帰モデルを用いることで未学習位置を含めた位置の推定を 検討 垂直(奥行き)方向の位置推定において比較的高い相関を確 認 Text open の場合では音響伝達特性の推定誤差が影響 今後の課題 水平・垂直の両方を含めた2次元位置の推定 より少ない学習位置での推定 音響伝達特性の正確な推定 www.***.com ご清聴ありがとうございました www.***.com 音源方向推定実験(付録) www.***.com 音源方向推定実験 スピーカと音源の距離は約 2 m に固定(既知とする) 音源方向を 10°~170°,20°間隔で収録 計 9 位置 10, 50, 90, 130, 170° (40°間隔)を学習 学習位置数: 5位置 90 50 10, 30, ..., 90, 110, ..., 170°(20°間隔)をテスト 未学習位置 : 4位置 30, 70, 110, 150° 既学習位置数 : 5位置 10, 50, 90, 130, 170° インパルス応答はRWCPデータベースの ものを使用(他の実験とは異なる部屋環境) 30 170 10 microphone www.***.com 音源方向推定結果 相関係数で評価 推定された位置と実際の位置が等しければ 1.0 を取る 全ての位置を評価対象とした場合 Text closed 未学習位置のみを評価対象とした場合 Text open Text closed Text open 重回帰 0.74 0.56 重回帰 0.68 0.53 GPR 0.86 0.66 GPR 0.62 0.58 SVR 0.83 0.70 SVR 0.67 0.61 www.***.com 音源方向推定結果 推定された位置 [degree] SVR (Support Vector Regression) による位置推定結果 青 : 未学習位置 緑 : 既学習位置 赤 : 正解の位置 180 180 160 160 140 140 120 120 100 100 80 80 60 60 40 40 20 20 0 10 30 50 70 90 110 130 150 170 実際の位置 [degree] Text closed 0 10 30 50 70 90 110 130 150 170 実際の位置 [degree] Text open www.***.com 音響伝達特性の推定 www.***.com 観測信号の定式化 時間領域 o (t ) s (t ) h (t ) : 周波数 短時間フーリエ変換 t : 時刻 周波数領域 O ( ; n ) S ( ; n ) H ( ; n ) 対数変換 n : フレーム d : ケプストラムの次元 log O ( ; n ) log S ( ; n ) log H ( ; n ) 離散コサイン変換 ケプストラム領域 O cep d ; n H cep d ; n S cep d ; n 統計モデル化 モデル領域 O n H cep n S 未知 : モデルパラメータ 処理は全てMFCC領域で行われる 実際の環境ではSは未知であるため,Sの代わりにSの統計モデルを用いて最尤 推定法でHを推定する. www.***.com SはHMM (Hidden Markov Model)でモデル化する 音響伝達特性の推定(1/2) 観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法) Hˆ arg max Pr O | H , S S : クリーン音声 HMM のパラメータ H 解はEMアルゴリズムによって求められる Q Hˆ | H E [log Pr O , b , c | Hˆ , S | H , S ] b Pr O , b , c | H , S c Pr O | H , S log Pr O , b , c | Hˆ , S Q関数の同時確率 Pr O , b , c | H , S は、以下のように展開される ˆ a w Pr O n | b n , c n ; Hˆ , Pr O , b , c | Hˆ , S n b n 1 , b n b n ,c n S a : 状態遷移確率 b : 状態 c : 混合要素 w : 混合重み www.***.com n : フレーム番号 音響伝達特性の推定(2/2) a : 状態遷移確率 a w Pr O n | b n , c n ; Hˆ , Pr O , b , c | Hˆ , S n b n 1 , b n b : 状態 b n ,c n c : 混合要素 S w : 混合重み n : フレーム番号 ケプストラム領域での O = S + H という仮定より Pr O n | b n , c n ; Hˆ , S N O ( n ); b ( n ), c ( n ) H ( n ), b ( n ), c ( n ) 状態b(n),混合要素c(n) におけるOの確率分布 クリーン音声の正規分布が Hだけシフトされた これらをQ関数に代入し、 Q Hˆ | H / Hˆ 0 を解く Hˆ ( d ; n ) b c b ,c n b O ( d ; n ) b ( n ), c ( n ) d b ( n ), c ( n ) d 2 b ,c n c b ( n ), c ( n ) d b , c n Pr O , b n , c n | Hˆ , S 2 www.***.com 音響伝達特性推定の流れ 観測信号 O d ; n 音素認識 クリーン音声の 音素HMM 認識結果(ラベル) i, k, i, o, i 音響伝達特性を推定 H 音素HMMを連結 連結HMM S (a) (i) ・・・ (i) (u) Hˆ Hˆ arg max Pr( O | H , S ) (k) (i) (o) (i) ・・・ 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う 3.音素認識の結果を元に音素HMMを連結する 4.連結されたHMMを用いて音響伝達特性を推定する www.***.com 位置推定実験(付録) www.***.com y軸(奥行き)移動の実験 スピーカのx軸は0(正面)に固定 位置をy軸(奥行き)方向に-90~90cm、15cm間隔で収録 -90 cm -75 cm -90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90 cm (15cm間隔)をテスト ・・・ -90, -60, -30, 0, 30, 60, 90 cm (30cm間隔)を学習 Loudspeaker 0cm 未学習位置は-75, -45, -15, 15, 45, 75 cm 90cm 学習データ : 50単語 x 位置 評価データ : 116単語 x 位置 www.***.com Microphone 33 y軸 (奥行き)推定結果 Root Mean Square Error (RMSE) で評価 推定された位置と実際の位置との平均誤差 (cm)を表す 数値は (未学習位置のRMSE / 既学習位置のRMSE) Hsub (伝達特性が正確に推定されている) RMSE(cm) K = 50 K = 150 K = 250 大域的 重回帰 19.6 / 18.6 20.3 / 19.9 22.1 / 22.1 23.5 / 25.1 GPR 12.2 / 11.6 14.3 / 14.1 16.1 / 15.4 17.4 / 16.3 SVR 7.7 / 9.1 13.3 / 17.8 16.8 / 20.8 19.4 / 23.7 Hest (伝達特性には推定誤差が含まれる) RMSE(cm) K = 50 K = 150 K = 250 大域的 重回帰 34.7 / 33.6 30.5 / 31.6 30.2 / 32.8 30.3 / 34.6 GPR 21.2 / 22.8 22.7 / 25.0 23.7 / 25.9 24.3 / 26.3 SVR 17.7 / 19.2 22.0 / 26.6 24.0 / 28.7 26.9 / 31.6 www.***.com 34 y軸 (奥行き)推定結果 最も誤差が小さかった条件下での推定結果 Hest (伝達特性には推定誤差が含まれる) 110 110 90 90 70 70 50 50 30 30 推定値 [cm] 推定値 [cm] Hsub (伝達特性が正確に推定されている) 10 -10 10 -10 -30 -30 -50 -50 -70 -70 -90 -90 -110 -110 -90 -70 -50 -30 -10 10 実測値 [cm] 30 50 70 90 110 -110 -110 -90 -70 -50 -30 -10 10 30 50 70 90 110 実測値 [cm] www.***.com 35 x軸(水平)移動の実験 スピーカのy軸は0に固定 位置をx軸(水平)方向に-90~90cm、15cm間隔で収録 -90, -60, -30, 0, 30, 60, 90 cm (30cm間隔)を学習 Loudspeaker -90 -75 ・・・ 0cm 90cm -90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90 cm (15cm間隔)をテスト 未学習位置は-75, -45, -15, 15, 45, 75 cm 学習データ : 50単語 x 位置 評価データ : 116単語 x 位置 2.4 m Microphone www.***.com 36 x軸 (水平移動)推定結果 Root Mean Square Error (RMSE) で評価 推定された位置と実際の位置との平均誤差 (cm)を表す 数値は (未学習位置のRMSE / 既学習位置のRMSE) Hsub (伝達特性が正確に推定されている) RMSE(cm) K = 50 K = 150 K = 250 大域的 重回帰 52.3 / 47.4 35.4 / 35.1 33.5 / 33.8 34.1 / 35.3 GPR 31.4 / 29.0 35.0 / 31.6 34.8 / 31.4 34.8 / 31.4 SVR 25.6 / 26.7 27.8 / 29.3 28.6 / 30.9 28.8 / 31.3 Hest (伝達特性には推定誤差が含まれる) RMSE(cm) K = 50 K = 150 K = 250 大域的 重回帰 54.2 / 55.5 42.1 / 41.5 41.0 / 41.2 41.0 / 42.5 GPR 39.6 / 40.2 41.8 / 41.3 41.5 / 41.1 41.7 / 41.4 SVR 36.1 / 38.0 36.4 / 38.2 37.3 / 38.6 38.3 / 39.1 www.***.com 37 x軸 (水平移動)推定結果 最も誤差が小さかった条件下での推定結果 Hest (伝達特性には推定誤差が含まれる) Hsub (伝達特性が正確に推定されている) 110 110 90 90 70 70 50 50 30 推定値 [cm] 推定値 [cm] 30 10 -10 10 -10 -30 -30 -50 -50 -70 -70 -90 -90 -110 -110 -90 -70 -50 -30 -10 10 実測値 [cm] 30 50 70 90 110 -110 -110 -90 -70 -50 -30 -10 10 30 50 70 90 110 実測値 [cm] www.***.com 38 音源方向推定の実験 スピーカと音源の距離は約 2 m に固定 音源方向を 10°~170°、20°間隔で収録 10, 50, 90, 130, 170° (40°間隔)を学習 90 10, 30, 50, 70, 90, 110, 130, 150, 170° (30°間隔)をテスト 50 30 未学習位置は 30, 70, 110, 150° 170 学習データ : 50単語 x 位置 評価データ : 116単語 x 位置 10 microphone www.***.com 39 音源方向の推定結果 Root Mean Square Error (RMSE) で評価 推定された位置と実際の位置との平均誤差 (角度)を表す 数値は (未学習位置のRMSE / 既学習位置のRMSE) Hsub (伝達特性が正確に推定されている) RMSE(角度) K = 50 重回帰 63.9 / 12.1 63.6 / 14.5 65.3 / 17.0 GPR 28.5 / 10.7 22.9 / 11.4 22.0 / 11.4 SVR 20.3 / 10.8 18.9 / 12.1 22.7 / 12.2 K = 150 大域的 Hest (伝達特性には推定誤差が含まれる) RMSE(角度) K = 50 重回帰 50.3 / 49.2 42.6 / 41.7 42.2 / 42.8 GPR 32.7 / 40.9 33.7 / 42.3 33.4 / 43.4 SVR 29.4 / 31.5 31.6 / 35.3 32.5 / 37.1 K = 150 大域的 www.***.com 40 音源方向の推定結果 最も誤差が小さかった条件下での推定結果 Hest (伝達特性には推定誤差が含まれる) Hsub (伝達特性が正確に推定されている) 190 190 170 170 150 150 130 110 110 推定値 [degree] 推定値 [degree] 130 90 70 70 50 50 30 30 10 10 -10 -10 90 10 30 50 70 90 110 130 150 170 190 実測値 [degree] -10 -10 10 30 50 70 90 110 130 150 170 190 実測値 [degree] www.***.com 41
© Copyright 2024 ExpyDoc