Adaboostと音声･唇GMMによる発話区間検出神戸大学工学部情報知能工学科松田博義・増田健・有木康雄・滝口哲也(神戸大)・神谷昌宏(富士通テン) はじめに  研究背景目的話者以外の発話区間目的話者の発話区間音声  雑音本研究の目的  目的話者の発話区間目的話者以外の発話区間時間音声区間検出と唇開閉判断を統合することにより目的話者の発話区間のみを検出する  目的話者の発話，目的話者以外の発話，雑音が入ってくる中で目的話者の発話区間だけを検出音声による発話区間検出(VAD)   VAD : Voice Activity Detection 音声特徴抽出  MFCC  尤度計算手法  GMM  (Mel Frequency Cepstrum Coefficient) 判定法 (Gaussian Mixture Model) Lxi   log Ps xi | Modelspeech  Pn xi | Modelnoise  L(x)≧θ:音声 L(x)＜θ:非音声 θ:閾値 VAD (Voice Activity Detection)  VAD流れ図男声 GMM 音声モデル女性 GMM 音声判定対数尤度比計算 MFCC x L(x)を計算非音声走行音 GMM ウィンカー音 GMM etc… 非音声モデル唇画像情報による目的話者判定・目的話者発話・目的話者以外の発話・発話を伴わない唇の動き・雑音領域抽出開閉判定発話区間集合統合目的話者発話音声区間検出領域追跡動静判定発話区間集合 GMMによる唇領域の開閉判定   AdaBoostにより抽出された唇領域に適用するあらかじめ作成したおいた2つのGMM（混合正規分布）を用いて，唇領域の開閉尤度比を求める  f open (x)  f close (x) ブロック分割 nフレームの出力領域尤度比： Val ( x 特徴ベクトル xn n ) f open (x n ) 〔 f close ( x n ) ･ Val    Close ･ Val    Open 〕 AdaBoost  入力画像から目的領域を検出する検出器を，学習データから作成する手法  複数の弱判別器を組み合わせて作られた強判別器をカスケード状に接続することで最終的な検出器を得る入力画像弱判別器 f 1 a1 弱判別器 f 2 学習データ a2 強判別器 Fi F am 弱判別器 f m F1 a :弱判別器に対する重み T F2 F T Fn F 非目的領域 T 目的領域正規化相関法による唇領域の追跡  直前フレームで追跡，抽出された唇領域をテンプレートとして利用し，探索領域から正規化相関値が最大となる領域を抽出する探索領域：（AdaBoost法によって抽出された唇領域の周辺領域）テンプレート ( a, b) (a, b) V ( a, b) V (a, b)  max[V (a, b)] V ( a, b)  追跡，抽出された唇領域   {t (i, j )  t }{s(a  i, b  j )  s}   {t (i, j )  t }   {s(a  i, b  j )  s} iw j h 2 iw j h 2 iw j h 差分和による動静判定  正規化相関法より追跡，抽出された唇領域を利用   唇の位置合わせが達成されたとみなす抽出した領域と参照領域の差分和から，唇領域における明度値分布の変化量を求める i  w j h Val  | {s(i, j )  t (i, j )}| i 0 j 0 参照領域 s(i, j )：抽出領域 t (i, j ) ：参照領域抽出領域 Val   Move Val   Stop 音声区間検出と唇開閉検出の統合  統合は音声から得られた発話区間を，唇画像から得られた情報とAndをとることにより得られる唇領域検出 (AdaBoost) 開閉判断 (GMM) 静動判断 And 目的話者の発話区間検出発話データ And GMMによる音声区間検出統合例目的話者以外の発話  実際の統合の様子音声データから得られた発話区間唇画像から得られた情報検出された区間検出された区間発話発話あくびなど統合結果検出された区間検出された区間検出された区間発話 Andをとる検出された区間時間実験条件  テストデータ  車内でドライバーを目的話者とする  アイドリング時，昼間，車内での発話データ100発話  ドライバー以外の人がしゃべった音声として，各発話区間の間に音声を埋め込んでおくドライバー以外の発話区間ドライバーの発話区間音声ドライバーの発話区間ドライバー以外の発話区間時間  正答率，および適合率は以下の式で計算される正答率  発話区間であると正しく検出された区間の数発話区間の総数適合率  発話区間であると正しく検出された区間の数検出された区間の総数実験結果 100 90 80 70 60 50 40 30 20 10 0 音声のみ GMMによる唇開閉判断+音声提案手法(開閉判断+動静判定+音声区間検出) 正答率適合率まとめ   音声区間検出と唇画像から得られた情報を統合することにより，目的話者の発話区間のみを検出した唇画像判定で，GMMのみを用いて開閉判断を行うと適合率はほとんど向上しなかった    動静判定を取り入れた結果は正答率94％，適合率90％程度今後の課題    音声のSN比を変えての実験動画像のぶれに対する対応あくびの検出付録走行時の音声区間検出結果  一般道路を走行中に発話したデータ  ウィンカー音など有  SN比は5～15[dB]程度 96 95 94 93 音声区間検出結果 92 91 90 正答率適合率