顔特徴点移動量・点間距離変化量の組み合わせに基づく

顔特徴点移動量・点間距離変化量
の組み合わせに基づく顔表情認識
神戸大学工学部
宮原正典・滝口哲也・有木康雄
研究の背景

人とシステムのコミュニケーション→表情認識の必要性

Ekmanらは,基本6表情が,人間にとって普遍的な表情で
あることを示した
怒り

嫌悪
恐怖
喜び
悲しみ
驚き
基本6表情を基底とし,複雑な表情を表現する試みもある
基本6表情認識とその精度向上は重要な課題
従来の研究とその問題点

顔の特徴的な点の動きを特徴量とするもの


特徴点が抽出できれば、比較的良好な認識精度
Gabor+EBGM等の手法で特徴点の自動抽出は可能
問題点 顔のどの点のどのような動きに着目すればよいかは,
主観的に決められているものが多い
認識に重要な特徴を自動的に発見することができれば表
情認識性能の向上が期待できる
提案手法(特徴ベクトルの定義)
x Ai , y Ai 
特徴点移動量
ベクトル m(68次元)
mi  [ xBi  x Ai y Bi  y Ai ]T
d Ai
xBi , y Bi 
特徴点間距離変化量
ベクトル d (561次元)
d i  d Bi  d Ai
d Bi
全
特
徴
量
ベ
ク
ト
ル
v
(
6
2
9
次
元
)
提案手法(組み合わせ最適化)

局所探索法(Local Search)
 初期解aを定め,その解近傍を評価関数Rで評価し,
もっとも優れているものと解を入れ替え,評価の改
善が見られなくなるまで探索を繰り返す手法
全特徴ベクトルv
初期解a
評価が最大
の近傍
R(a)=0.73
R(a)=0.70
aの近傍
a1
R(a1)=0.71
a4
R(a4)=0.74
R(a4)=0.65
a7
R(a7)=0.72
R(a7)=0.73
a2
R(a2)=0.68
a5
R(a5)=0.70
R(a5)=0.72
a8
R(a8)=0.69
R(a8)=0.72
a3
R(a3)=0.75
R(a3)=0.70
a6
R(a6)=0.73
R(a6)=0.71
a9
R(a9)=0.74
R(a9)=0.70
提案手法(解の評価)

評価基準・・・その特徴を用いたときのCV法による6表情認識率
 従来の6表情認識に使われている認識器
• ニューラルネットワーク(NN)
• サポートベクターマシーン(SVM)
近傍1個あたりの評価時間(秒)

NN
2
7×10
SVM
2
5×10
近傍数は,20次元固定の場合でも12180個

NNやSVMだと探索1周に約3ヶ月かかる
⇒一般回帰ニューラルネットワーク(Specht,1991)を採用
一般回帰ニューラルネット(GRNN)
x
入
力
デ
ー
タ
x
教師ラベルt
1
1番目の学習データx
1
0 or 1
z
x1
怒り
/
t1
嫌悪
/
x2
恐怖
/
t2
xP
tP
∑
入力層
第1隠れ層
第2隠れ層
/
喜び
/
悲しみ
/
驚き
総和ニューロン
出力層
出力関数z(x)
 Di2 
t i exp 2 

i 1
 2 
z ( x)  P
 Di2 
exp 2 

i 1
 2 
P
Di2  (x  xi )T (x  xi )
提案手法(認識器の使い分け)

GRNNの特徴
 学習は必要なく,テストには学習データ数に比例した
時間がかかるが,トータルでみるとNNやSVMよりも
高速(本研究の条件では100倍程度)
 認識性能自体はNNやSVMよりも若干劣る
GRNNを評価関数とする局所探索法で,最適な特徴を発見し,
その特徴を用いて,GRNN,NN,SVMのいずれかで
最終的な6表情認識を行う
実験内容

JAFFE(10人183枚)とCMU(93人328枚)データベースを使用

怒り


半分はCVに,残り半分は終了判定にのみ用いる
嫌悪
恐怖
喜び
悲しみ
怒り
驚き
恐怖
喜び
初期解として,従来手法で用いられている20次元の特徴ベク
トルを使用し,局所探索の解は20次元で固定
GRNNを評価関数に用いた局所探索法で最適(近似)解を発
見した後,GRNN,NN,SVMで6表情(怒り,嫌悪,恐怖,喜び,
悲しみ,驚き)の認識
実験結果
初期解
認識器別,特徴量別の6表情認識率
100.0%
6表情認識率
80.0%
77.5%
71.5%
74.3%
77.1%
79.5%
74.3%
最適解
60.0%
40.0%
20.0%
0.0%
GRNN
NN
SVM
まとめ

考察
 人間が主観で選んだ特徴よりも,局所探索法による
最適な特徴を用いた方が認識性能が向上
 高速なGRNNを用いて特徴量の探索を行い,認識
性能の高いSVMで認識を行うことで,性能向上

今後の方針
 顔特徴点の自動抽出の実装
 最適解の探索方法の改良
 より複雑な感情・関心度などの認識
提案手法の流れ
特徴抽出
組み合わせ
最適化
全特徴ベクトル
6表情認識
最適な特徴ベクトル
ニューラルネットワーク(NN)
y
x
z
怒り
嫌悪
恐怖
喜び
悲しみ
驚き
入力層
隠れ層
出力層
一般回帰ニューラルネット(GRNN)
x
z
x1
t1
x2
t2
xP
tP
/
怒り
/
嫌悪
/
恐怖
/
喜び
/
悲しみ
/
驚き
∑
入力層
第1隠れ層
第2隠れ層
出力層
 Di2 
t i exp 2 

i 1
 2 
z ( x)  P
 Di2 
exp 2 

i 1
 2 
P
Di2  (x  xi )T (x  xi )
サポートベクターマシーン(SVM)
Margin
Class1
H1
Class-1
H2
Support Vector
初期解
実験結果
全特徴
初期解
最適解
100.0%
6表情認識率
80.0%
79.5%
76.3%77.5% 74.3%75.5%77.1% 74.3%77.1%
71.5%
60.0%
最適解
40.0%
20.0%
0.0%
GRNN
NN
SVM
感情別認識結果
100.0%
95.0%
89.0%
90.0%
96.0%96.0%
87.0%
85.0%
80.0%
70.0%
60.0%
50.0%
40.0%
63.0%
52.0% 50.0% 50.0% 54.0%
初期解
最適解
37.0%
30.0%
20.0%
10.0%
0.0%
怒り
嫌悪
恐怖
喜び
悲しみ
驚き
Confusion Matrix(初期解+SVM)
悲
怒 嫌 恐 幸
驚
し
り 悪 怖 せ
き
み
正
解
数
画
像
数
認
識
率
怒り
10 8
1
0
8
0
10
27
0.37
嫌悪
6 12 1
0
5
0
12
24
0.50
恐怖
1
1 22 4 11 2
22
41
0.54
幸せ
1
0
1 55 5
0
55
62
0.89
悲しみ
4
0
2
0 39 1
39
46
0.85
驚き
0
0
0
2
47
49
0.96
185
249
0.743
合計
0 47
Confusion Matrix(最適解+SVM)
悲
怒 嫌 恐 幸
驚
し
り 悪 怖 せ
き
み
正
解
数
画
像
数
認
識
率
怒り
14 8
0
1
4
0
14
27
0.52
嫌悪
8 12 1
0
3
0
12
24
0.50
恐怖
1
0 26 4
8
2
26
41
0.63
幸せ
0
0
1 59 2
0
59
62
0.95
悲しみ
4
0
2
0 40 0
40
46
0.87
驚き
0
0
0
2
47
49
0.96
198
249
0.795
合計
0 47
使用したデータベースの詳細
人
数
画
像
数
怒
り
嫌
悪
恐
怖
喜
び
悲
し
み
驚
き
JAFFE
10
183
30
29
32
31
31
30
CMU
93
328
32
28
47
90
57
74

JAFFE


日本人女性のみ,無表情+6表情の静止画
CMU

各国男女,無表情→6表情の動画から切り出し