スライド 1

IS2-5
AAMによる顔方位を考慮した発話認識
駒井祐人,有木康雄,滝口哲也 (神戸大)
手法の流れ
概要
研究の目的
リップリーディングにおいて、顔が横を向いても、正面で発話
したときと同程度の精度で認識したい
従来の研究
方位ごとの特徴量を学習、方位ごとに認識
横顔から正面顔への変換行列を学習
顔検出
顔特徴点探索
モデル生成
入力動画
結果出力
任意の顔方位に対して認識することができない
方位正規化
認識(HMM)
提案内容
Active Appearance Models(AAM)を用いて、横顔を正面顔に
変換することで、任意の横顔に対して、正面顔と同じように発
話内容の認識を行う
唇特徴抽出
cパラメータ
q3 q4
q1 q2
顔方位推定
顔方位の正規化
特徴量抽出
顔方位正規化のための回帰モデル式
Active Appearance Models (AAM)
Shape(顔の形状)とTexture(テクスチャ)の変化を低次元の
ベクトルCで表現したモデル
顔方位とパラメータcには相関があり、比例している
c  c0  c1 cos  c2 sin 
Cパラメータ
y  y Qc
-40
-30
-20
0.8
0.6
0.4
0.2
0
-10 -0.2 0
-0.4
-0.6
-0.8
10
20
30
40
顔方位
顔方位推定
様々な顔方位や唇の動きを表現できる
回帰式より、入力画像のcが得られたとき、推定角度は
 sin  

  tan 
' 
 cos  
AAM の探索
'
入力画像とモデル画像との誤差が最小となるように計算
1
'
顔方位の正規化
推定した顔方位から残差ベクトルを計算する。
cres  c'c0  c1 cos  c 2 sin  
このときのパラメータベクトルcを唇特徴量として用いる
新しい角度θに顔方位を変換したいとき
c   c0  c1 cos  c2 sin   cres
評価実験
顔方位の変換例
実験内容
顔方位の変換例
正面顔での発話を学習し、横顔からの発話を認識する
実験条件
発話内容 :
方位
:
話者
:
解像度 :
画像特徴量
認識器 :
右15℃
ATR音素バランス単語 216単語×10セット
正面,右15℃,右30℃
特定話者1名
320×240, 30fps
: cパラメータ+⊿+⊿⊿
ワード型HMM(状態数15, 混合数8)
右30℃
実験結果
正面
右15℃
30℃
方位正規化なし
95.3
4
1
方位正規化あり
95.6
62.3
20.3
方位正規化+次元抽出
94.6
70.1
48.0
方位正規化+次元抽出
+変換誤差学習
94.6
81.0
70.6
まとめ
AAMによって横顔からの発話を正面顔からの発話に変換
することで、顔方位が30℃程度変わっても、比較的認識率
が改善することができた
今後の課題
複数名での実験
顔方位のある画像に対するAAMの正確な適用
連続音声認識への拡張