IS2-5 AAMによる顔方位を考慮した発話認識 駒井祐人,有木康雄,滝口哲也 (神戸大) 手法の流れ 概要 研究の目的 リップリーディングにおいて、顔が横を向いても、正面で発話 したときと同程度の精度で認識したい 従来の研究 方位ごとの特徴量を学習、方位ごとに認識 横顔から正面顔への変換行列を学習 顔検出 顔特徴点探索 モデル生成 入力動画 結果出力 任意の顔方位に対して認識することができない 方位正規化 認識(HMM) 提案内容 Active Appearance Models(AAM)を用いて、横顔を正面顔に 変換することで、任意の横顔に対して、正面顔と同じように発 話内容の認識を行う 唇特徴抽出 cパラメータ q3 q4 q1 q2 顔方位推定 顔方位の正規化 特徴量抽出 顔方位正規化のための回帰モデル式 Active Appearance Models (AAM) Shape(顔の形状)とTexture(テクスチャ)の変化を低次元の ベクトルCで表現したモデル 顔方位とパラメータcには相関があり、比例している c c0 c1 cos c2 sin Cパラメータ y y Qc -40 -30 -20 0.8 0.6 0.4 0.2 0 -10 -0.2 0 -0.4 -0.6 -0.8 10 20 30 40 顔方位 顔方位推定 様々な顔方位や唇の動きを表現できる 回帰式より、入力画像のcが得られたとき、推定角度は sin tan ' cos AAM の探索 ' 入力画像とモデル画像との誤差が最小となるように計算 1 ' 顔方位の正規化 推定した顔方位から残差ベクトルを計算する。 cres c'c0 c1 cos c 2 sin このときのパラメータベクトルcを唇特徴量として用いる 新しい角度θに顔方位を変換したいとき c c0 c1 cos c2 sin cres 評価実験 顔方位の変換例 実験内容 顔方位の変換例 正面顔での発話を学習し、横顔からの発話を認識する 実験条件 発話内容 : 方位 : 話者 : 解像度 : 画像特徴量 認識器 : 右15℃ ATR音素バランス単語 216単語×10セット 正面,右15℃,右30℃ 特定話者1名 320×240, 30fps : cパラメータ+⊿+⊿⊿ ワード型HMM(状態数15, 混合数8) 右30℃ 実験結果 正面 右15℃ 30℃ 方位正規化なし 95.3 4 1 方位正規化あり 95.6 62.3 20.3 方位正規化+次元抽出 94.6 70.1 48.0 方位正規化+次元抽出 +変換誤差学習 94.6 81.0 70.6 まとめ AAMによって横顔からの発話を正面顔からの発話に変換 することで、顔方位が30℃程度変わっても、比較的認識率 が改善することができた 今後の課題 複数名での実験 顔方位のある画像に対するAAMの正確な適用 連続音声認識への拡張
© Copyright 2024 ExpyDoc