スライド 1

顔表情クラスタリングによる
映像コンテンツへのタギング
神戸大学大学院 工学研究科 情報知能学専攻
CS17 メディア工学講座 有木研究室
宮原 正典,青木政樹,滝口哲也,有木康雄
研究の背景
 テレビのディジタル放送開始→多チャンネル化
 YouTubeなど動画共有サイトの発達
 ユーザが視聴可能な映像コンテンツが増大
 見たい番組を簡単に探すのが困難に
 番組自動推薦システムの必要性
⇒ ユーザの好みを自動的に把握する必要
平成20年度 情報処理学会
関西支部大会
www.***.com
-2-
従来システム[Miyahara, MMM2008]
 ディスプレイにカメラを取り付ける
Display
Webcam
PC
User
 映像を視聴するユーザーの顔を撮
影し続ける
 顔表情の認識を行い,映像コンテ
ンツと同期させることで,どのシーン
に関心があるかを把握できる
想定環境上面図
平成20年度 情報処理学会
関西支部大会
www.***.com
-3-
従来システム[Miyahara, MMM2008]の概要
顔領域抽出
特徴抽出
顔表情認識
AdaBoost
Tag
EBGM
・Neutral
SVM
個人認識
・Positive
・Negative
User’s profile
・Rejective
無表情画像
個人ごとの顔表情識別器
平成20年度 情報処理学会
関西支部大会
www.***.com
-4-
顔表情のクラス分類(タグ)定義
クラス名
内容
Neutral (Neu)
無表情
Positive (Pos)
喜び,笑い,快,など
Negative (Neg)
怒り,嫌悪,不快,など
Rejective (Rej)
画面に顔を向けていない,
顔の一部が隠れている,
顔が傾いている,など
平成20年度 情報処理学会
関西支部大会
www.***.com
-5-
デモ映像
平成20年度 情報処理学会
関西支部大会
www.***.com
-6-
システムの問題点
システムを初めて利用するユーザは…
 予め30分程度映像を視聴し,それに顔表情分類のタグを
フレームごとに手動でつける必要がある
※個人ごとに大きく異なる感情表出を学習するため
⇒しかしこの作業はユーザにとって負担が大きい
平成20年度 情報処理学会
関西支部大会
www.***.com
-7-
提案手法:
クラスタリングによる手動タギングの負荷低減
Clustering (automatically)
Cluster A
Cluster B
Cluster C
Cluster D
= Neutral
= Positive
= Neutral
= Negative
Tagging (manually)
ユーザはフレームではなく,クラスタにタグをつければよくなる
平成20年度 情報処理学会
関西支部大会
www.***.com
-8-
pLSAによるクラスタリング
pLSA
 pLSA [Hofmann, 1999] をクラスタリングに用いる
 もともとは言語の分野で用いられていたが,近年,動画
像中の行動分類などにも用いられる[Niebles, 2006]
 顔動画の各フレームを文書d ,量子化された特徴量を単
語w として,dとwの同時確率を、隠れトピック(顔表情)z
を用いて表現する
 共起テーブルから確率分布をEMアルゴリズムで求める
 P(zk|d)が最大となるkをそのフレームの属するクラスタと
する
平成20年度 情報処理学会
関西支部大会
www.***.com
-9-
実験条件
手動タギング
 17分*4本の動画(15fps)を視聴し手動タギングを行う(正解用)
フレーム数
Neu
Pos
Neg
Rej
合計
49865
7665
3719
1466
62715
クラスタリング
 まず,顔動画から各フレームでの特徴量を求める
 クラスタリングには,隠れトピック数K=10としてpLSAを用いる
 ユーザは各クラスタに属する顔画像を見て,タギング
⇒クラスタリングによる分類タグと,手動でつけられたタグ(正解
ラベル)がどれだけ一致するかを評価する
平成20年度 情報処理学会
関西支部大会
www.***.com
-10-
実験結果
1
適合率(precision)
再現率(recall)
0.9
0.8
0.7
0.6
0.5
0.4
 平均適合率78.44%
 平均再現率79.86%
0.3
0.2
0.1
0
Neu
Pos
Neg
Rej
平成20年度 情報処理学会
関西支部大会
www.***.com
-11-
まとめと今後の予定
まとめ
 教師なしのクラスタリングを用いることで,ユーザのわずか
な負担でシステムを利用することが可能となった
今後
 クラスタの数が動的に決まるようにする
 より詳細な,多数の表情分類
 隠れトピックの混合比率を利用して,複合的な表情の表現
 教師データを有効に活用する
平成20年度 情報処理学会
関西支部大会
www.***.com
-12-