Adaboostと音声・ 唇GMMによる 発話区間検出 神戸大学工学部情報知能工学科 松田博義・増田健・ 有木康雄・滝口哲也(神戸大)・ 神谷昌宏(富士通テン) はじめに 研究背景 目的話者 以外の 発話区間 目的話者の 発話区間 音声 雑音 本研究の目的 目的話者の 発話区間 目的話者 以外の 発話区間 時間 音声区間検出と唇開閉判断を統合することにより目的話者の発話区 間のみを検出する 目的話者の発話,目的話者以外の発話,雑音が入ってくる中で目的話 者の発話区間だけを検出 音声による発話区間検出(VAD) VAD : Voice Activity Detection 音声特徴抽出 MFCC 尤度計算手法 GMM (Mel Frequency Cepstrum Coefficient) 判定法 (Gaussian Mixture Model) Lxi log Ps xi | Modelspeech Pn xi | Modelnoise L(x)≧θ:音声 L(x)<θ:非音声 θ:閾値 VAD (Voice Activity Detection) VAD流れ図 男声 GMM 音声モデル 女性 GMM 音声 判定 対数尤度比計算 MFCC x L(x)を計算 非音声 走行音 GMM ウィンカー音 GMM etc… 非音声モデル 唇画像情報による目的話者判定 ・目的話者発話 ・目的話者以外の発話 ・発話を伴わない唇の動き ・雑音 領域抽出 開閉判定 発話区間集合 統合 目的話者発話 音声区間検出 領域追跡 動静判定 発話区間集合 GMMによる唇領域の開閉判定 AdaBoostにより抽出された唇領域に適用する あらかじめ作成したおいた2つのGMM(混合正規分布)を 用いて,唇領域の開閉尤度比を求める f open (x) f close (x) ブロック分割 nフレームの出力領域 尤度比: Val ( x 特徴ベクトル xn n ) f open (x n ) 〔 f close ( x n ) ・ Val Close ・ Val Open 〕 AdaBoost 入力画像から目的領域を検出する検出器を,学習データか ら作成する手法 複数の弱判別器を組み合わせて作られた強判別器をカスケード状 に接続することで最終的な検出器を得る 入力画像 弱判別器 f 1 a1 弱判別器 f 2 学習 データ a2 強判別器 Fi F am 弱判別器 f m F1 a :弱判別器 に対する重み T F2 F T Fn F 非目的領域 T 目的領域 正規化相関法による唇領域の追跡 直前フレームで追跡,抽出された唇領域をテンプレートとし て利用し,探索領域から正規化相関値が最大となる領域を 抽出する 探索領域:(AdaBoost法によって抽出された唇領域の周辺領域) テンプレート ( a, b) (a, b) V ( a, b) V (a, b) max[V (a, b)] V ( a, b) 追跡,抽出された唇領域 {t (i, j ) t }{s(a i, b j ) s} {t (i, j ) t } {s(a i, b j ) s} iw j h 2 iw j h 2 iw j h 差分和による動静判定 正規化相関法より追跡,抽出された唇領域を利用 唇の位置合わせが達成されたとみなす 抽出した領域と参照領域の差分和から,唇領域におけ る明度値分布の変化量を求める i w j h Val | {s(i, j ) t (i, j )}| i 0 j 0 参照領域 s(i, j ):抽出領域 t (i, j ) :参照領域 抽出領域 Val Move Val Stop 音声区間検出と唇開閉検出の統合 統合は音声から得られた発話区間を,唇画像から 得られた情報とAndをとることにより得られる 唇領域検出 (AdaBoost) 開閉判断 (GMM) 静動判断 And 目的話者の 発話区間検出 発話データ And GMMによる音声区間検出 統合例 目的話者以外の発話 実際の統合の様子 音声データから 得られた発話区間 唇画像から 得られた情報 検出された 区間 検出された 区間 発話 発話 あくびなど 統合結果 検出された 区間 検出された 区間 検出された 区間 発話 Andをとる 検出された 区間 時間 実験条件 テストデータ 車内でドライバーを目的話者とする アイドリング時,昼間,車内での発話データ100発話 ドライバー以外の人がしゃべった音声として,各発話区間 の間に音声を埋め込んでおく ドライバー 以外の 発話区間 ドライバーの 発話区間 音声 ドライバーの 発話区間 ドライバー 以外の 発話区間 時間 正答率,および適合率は以下の式で計算される 正答率 発話区間であると正し く検出された区間の数 発話区間の総数 適合率 発話区間であると正し く検出された区間の数 検出された区間の総数 実験結果 100 90 80 70 60 50 40 30 20 10 0 音声のみ GMMによる唇開 閉判断+音声 提案手法(開閉判 断+動静判定+音 声区間検出) 正答率 適合率 まとめ 音声区間検出と唇画像から得られた情報を統合することに より,目的話者の発話区間のみを検出した 唇画像判定で,GMMのみを用いて開閉判断を行うと適合率 はほとんど向上しなかった 動静判定を取り入れた 結果は正答率94%,適合率90%程度 今後の課題 音声のSN比を変えての実験 動画像のぶれに対する対応 あくびの検出 付録 走行時の音声区間検出結果 一般道路を走行中に発 話したデータ ウィンカー音など有 SN比は5~15[dB]程度 96 95 94 93 音声区間検出結果 92 91 90 正答率 適合率
© Copyright 2024 ExpyDoc