顔特徴点移動量・点間距離変化量 の組み合わせに基づく顔表情認識 神戸大学工学部 宮原正典・滝口哲也・有木康雄 研究の背景 人とシステムのコミュニケーション→表情認識の必要性 Ekmanらは,基本6表情が,人間にとって普遍的な表情で あることを示した 怒り 嫌悪 恐怖 喜び 悲しみ 驚き 基本6表情を基底とし,複雑な表情を表現する試みもある 基本6表情認識とその精度向上は重要な課題 従来の研究とその問題点 顔の特徴的な点の動きを特徴量とするもの 特徴点が抽出できれば、比較的良好な認識精度 Gabor+EBGM等の手法で特徴点の自動抽出は可能 問題点 顔のどの点のどのような動きに着目すればよいかは, 主観的に決められているものが多い 認識に重要な特徴を自動的に発見することができれば表 情認識性能の向上が期待できる 提案手法(特徴ベクトルの定義) x Ai , y Ai 特徴点移動量 ベクトル m(68次元) mi [ xBi x Ai y Bi y Ai ]T d Ai xBi , y Bi 特徴点間距離変化量 ベクトル d (561次元) d i d Bi d Ai d Bi 全 特 徴 量 ベ ク ト ル v ( 6 2 9 次 元 ) 提案手法(組み合わせ最適化) 局所探索法(Local Search) 初期解aを定め,その解近傍を評価関数Rで評価し, もっとも優れているものと解を入れ替え,評価の改 善が見られなくなるまで探索を繰り返す手法 全特徴ベクトルv 初期解a 評価が最大 の近傍 R(a)=0.73 R(a)=0.70 aの近傍 a1 R(a1)=0.71 a4 R(a4)=0.74 R(a4)=0.65 a7 R(a7)=0.72 R(a7)=0.73 a2 R(a2)=0.68 a5 R(a5)=0.70 R(a5)=0.72 a8 R(a8)=0.69 R(a8)=0.72 a3 R(a3)=0.75 R(a3)=0.70 a6 R(a6)=0.73 R(a6)=0.71 a9 R(a9)=0.74 R(a9)=0.70 提案手法(解の評価) 評価基準・・・その特徴を用いたときのCV法による6表情認識率 従来の6表情認識に使われている認識器 • ニューラルネットワーク(NN) • サポートベクターマシーン(SVM) 近傍1個あたりの評価時間(秒) NN 2 7×10 SVM 2 5×10 近傍数は,20次元固定の場合でも12180個 NNやSVMだと探索1周に約3ヶ月かかる ⇒一般回帰ニューラルネットワーク(Specht,1991)を採用 一般回帰ニューラルネット(GRNN) x 入 力 デ ー タ x 教師ラベルt 1 1番目の学習データx 1 0 or 1 z x1 怒り / t1 嫌悪 / x2 恐怖 / t2 xP tP ∑ 入力層 第1隠れ層 第2隠れ層 / 喜び / 悲しみ / 驚き 総和ニューロン 出力層 出力関数z(x) Di2 t i exp 2 i 1 2 z ( x) P Di2 exp 2 i 1 2 P Di2 (x xi )T (x xi ) 提案手法(認識器の使い分け) GRNNの特徴 学習は必要なく,テストには学習データ数に比例した 時間がかかるが,トータルでみるとNNやSVMよりも 高速(本研究の条件では100倍程度) 認識性能自体はNNやSVMよりも若干劣る GRNNを評価関数とする局所探索法で,最適な特徴を発見し, その特徴を用いて,GRNN,NN,SVMのいずれかで 最終的な6表情認識を行う 実験内容 JAFFE(10人183枚)とCMU(93人328枚)データベースを使用 怒り 半分はCVに,残り半分は終了判定にのみ用いる 嫌悪 恐怖 喜び 悲しみ 怒り 驚き 恐怖 喜び 初期解として,従来手法で用いられている20次元の特徴ベク トルを使用し,局所探索の解は20次元で固定 GRNNを評価関数に用いた局所探索法で最適(近似)解を発 見した後,GRNN,NN,SVMで6表情(怒り,嫌悪,恐怖,喜び, 悲しみ,驚き)の認識 実験結果 初期解 認識器別,特徴量別の6表情認識率 100.0% 6表情認識率 80.0% 77.5% 71.5% 74.3% 77.1% 79.5% 74.3% 最適解 60.0% 40.0% 20.0% 0.0% GRNN NN SVM まとめ 考察 人間が主観で選んだ特徴よりも,局所探索法による 最適な特徴を用いた方が認識性能が向上 高速なGRNNを用いて特徴量の探索を行い,認識 性能の高いSVMで認識を行うことで,性能向上 今後の方針 顔特徴点の自動抽出の実装 最適解の探索方法の改良 より複雑な感情・関心度などの認識 提案手法の流れ 特徴抽出 組み合わせ 最適化 全特徴ベクトル 6表情認識 最適な特徴ベクトル ニューラルネットワーク(NN) y x z 怒り 嫌悪 恐怖 喜び 悲しみ 驚き 入力層 隠れ層 出力層 一般回帰ニューラルネット(GRNN) x z x1 t1 x2 t2 xP tP / 怒り / 嫌悪 / 恐怖 / 喜び / 悲しみ / 驚き ∑ 入力層 第1隠れ層 第2隠れ層 出力層 Di2 t i exp 2 i 1 2 z ( x) P Di2 exp 2 i 1 2 P Di2 (x xi )T (x xi ) サポートベクターマシーン(SVM) Margin Class1 H1 Class-1 H2 Support Vector 初期解 実験結果 全特徴 初期解 最適解 100.0% 6表情認識率 80.0% 79.5% 76.3%77.5% 74.3%75.5%77.1% 74.3%77.1% 71.5% 60.0% 最適解 40.0% 20.0% 0.0% GRNN NN SVM 感情別認識結果 100.0% 95.0% 89.0% 90.0% 96.0%96.0% 87.0% 85.0% 80.0% 70.0% 60.0% 50.0% 40.0% 63.0% 52.0% 50.0% 50.0% 54.0% 初期解 最適解 37.0% 30.0% 20.0% 10.0% 0.0% 怒り 嫌悪 恐怖 喜び 悲しみ 驚き Confusion Matrix(初期解+SVM) 悲 怒 嫌 恐 幸 驚 し り 悪 怖 せ き み 正 解 数 画 像 数 認 識 率 怒り 10 8 1 0 8 0 10 27 0.37 嫌悪 6 12 1 0 5 0 12 24 0.50 恐怖 1 1 22 4 11 2 22 41 0.54 幸せ 1 0 1 55 5 0 55 62 0.89 悲しみ 4 0 2 0 39 1 39 46 0.85 驚き 0 0 0 2 47 49 0.96 185 249 0.743 合計 0 47 Confusion Matrix(最適解+SVM) 悲 怒 嫌 恐 幸 驚 し り 悪 怖 せ き み 正 解 数 画 像 数 認 識 率 怒り 14 8 0 1 4 0 14 27 0.52 嫌悪 8 12 1 0 3 0 12 24 0.50 恐怖 1 0 26 4 8 2 26 41 0.63 幸せ 0 0 1 59 2 0 59 62 0.95 悲しみ 4 0 2 0 40 0 40 46 0.87 驚き 0 0 0 2 47 49 0.96 198 249 0.795 合計 0 47 使用したデータベースの詳細 人 数 画 像 数 怒 り 嫌 悪 恐 怖 喜 び 悲 し み 驚 き JAFFE 10 183 30 29 32 31 31 30 CMU 93 328 32 28 47 90 57 74 JAFFE 日本人女性のみ,無表情+6表情の静止画 CMU 各国男女,無表情→6表情の動画から切り出し
© Copyright 2024 ExpyDoc