スライド 1

聞き手の非言語的反応と
協調的アノテーションに基づく
ミーティングキャプチャシステム
京都大学大学院情報学研究科
勝木弘,角康之,西田豊明
はじめに
ミーティング
– 知識交流や新たな知を創造する重要な場
– 記録・構造化による知的活動支援
• 参加者への負担、制限が厳しい
• 話し手の発話内容や振る舞いに注目
参加者の非言語インタラクションと、メモや書き込み
といった聞き手の行う協調的アノテーションをもとに、
ミーティングの知識コンテンツ化をおこなう
知識流通
実世界会話場
提示・支援
会話記録
ミーティング
DB
知識コンテンツ化
・会話シーン認識
・インデクス付与
支援システム
3
対象とするミーティング
•
•
•
•
5人前後(4~8人)によるグループミーティング
プレゼンテーションによる研究発表
負担にならない程度のセンサ
写真撮影・書き込みようの端末を保持
獲得する非言語行動
• 視線検出、顔認識
全方位カメラorカメラ
+モーションキャプチャ
•
•
•
•
音声検出 -環境マイク
うなずき検出 -加速度センサを利用
(本棚,ホワイトボードの利用 )
協調的アノテーション
– Photochatで行われる写真撮影や書き込み
5
ネットワークカメラ
スクリーン
俯瞰映像用
ホワイトボード監視用
◯◯◯について
・xxxxxxx
・vvvvvvv
・tttttttttt
本棚監視用
俯瞰映像用
本棚
加速度センサ
モーションキャプチャ
ホワイトボード
・・・・・・
全方位カメラ・マイク
ワイヤレスマイク
俯瞰映像用
PhotoChat
俯瞰映像用
システム構成図
カメラアレイ
全方位カメラ
加速度センサ
マイク
Photochat
フレーム補完
マスク処理
正規化
発話区間検出
同期処理
顔認識
首振り検出
顔追跡
ノイズ除去
映像圧縮
動作検出
3次元ベクトル化
視線
うなずき
操作抽出
文字認識
パターン分類
キーワード抽出
発話
協調的アノテーション
非言語インタラクションパターン検出
会話シーン認識
知識コンテンツ化
協調的アノテーション
• チャットの性質[1,2]
– デジタル的なバックチャネル
– 対面議論に対して時間的・内容的な制約をうける
• Photochatをによる写真撮影・書き込み
• デジタルバックチャネルとしての利用(聞き手の興味・
関心などの反応を見る)
• 単語を拾うことによるキーワード取得
[1]Digital backchannels in shared physical spaces: experiences at an academic conference (McCarthy CHI2005)
[2]超メディア参照機能を有するチャット併用会議のためのチャットシステム (小林・西本 ,wiss2009)
Photochat
• 写真撮影・手書きメモ機能
• リアルタイム共有
• 写真上での仮想的な会話
⇒参加者の興味や感心を反映
[角 et al. 08]
メモ
疑問・応答
会話
マーク・感想
非言語行動の検出-視線1-
•
•
•
•
全方位カメラLadybug2
OKAO Visionによる顔認識・視線方向認識
顔追跡とエラー訂正処理
2次元情報→3次元上の顔の位置と視線方向
2048 (ピクセル)
Ladybug2
1024
(ピクセル)
全方位カメラ
非言語行動の検出-視線2-
• モーションキャプチャによる顔方向計算
• 頭の中心線を通るfront – back の2点を下に
傾けた方向
• 傾きは約40度
• 帽子の被り具合
で多少変動あり
Head_back
Head_front
衝突判定
• 顔方向≠視線方向
• 上下左右に範囲を持たせる必要がある
– 例:左右20度、上下10度
• 状況によって範囲は変動する
– 立場の違い:話し手、聞き手、…
– 対象の距離:近い、遠い、…
• 要:妥当性の検証
非言語行動の検出-うなずき-
頭部につけた加速度センサからうなずき動作を検出する
1.
2.
3.
加速度センサの傾きを補正
鉛直方向の動きを窓幅600ミリ秒で分散をとり,抽出する
首振り動作以外の動きを除去する
-顔方向を変える動作
顔方向を変える動作
首振り動作区間
加速度の
二乗和
分散
垂直方向の動作区間
[斎賀 et al. 10]
14
非言語行動の検出-その他-
• 発話
各自が身につけたマイクによる発話区間検出(パワー)
• 協調的アノテーション
撮影、書き込み、閲覧といった操作
操作パターンなどによる仮想会話の分類
撮影時の頭部方向より対象物の推定(スライド、人)
• 本棚、ホワイトボードの利用
カメラ映像の差分による行動検出
知識コンテンツ化:会話シーン認識
• 再利用性の高い重要シーンの獲得
– 再利用性の高いシーンを得るには参加者の意図に沿うことが重要
– 非言語情報から会話の状況や参加者の意図を掴む
– 意味情報までは踏み込まない(キーワード単語の利用程度)
・参加者間の非言語インタラクション
– 発話交替、視線集中,うなずきの同期,…
・参加者のつける意味的アノテーション
– メモ・写真情報+それ自体の持つデジタルチャット的な反応
特徴的な会話シーンの獲得
16
知識コンテンツ化:会話シーン認識
• 重要なスライド
– スライドに対してみんなが目をむけている
– Photochat上での注目が高い
– 振り返りが多い
– (盛り上がったシーンが含まれている)
– (議論が活発に行われた)
– (説明が長く行われた)
知識コンテンツ化:インデクス付与
会話シーンのもつ情報インデクス
 スライドやメモから得たシーンに出てきたキーワード
 会話状況
– 盛り上がり、注目が集まっているなどの特徴的な会話状況
 非言語インタラクション
 協調的アノテーション
 ミーティング・参加者情報:
 誰が発表しているのか、どんなミーティングなのか
これらのインデクスを利用してミーティングの構造化や、
現在の状況と照らし合わせた提示を行う
収録
•
•
•
•
7人による勉強会の様子を収録
10分程度の発表+議論 × 3人
Photochatは6名が使用
ネットワークカメラ不具合により環境カメラは3
視点のみ
• 加速度センサ不使用
例
• 盛り上がってるシーン(16:54)
– 発表者の発言に何人かがどっと反応したシーン
– 発表論文を「なんか実装してみたかったらしい」みた
いな感じでばさっと
• 一番盛り上がっていた?(ぱっと見)Photochatの
写真がとられたあたり(29:31)
– 発表論文のデモビデオを流すシーン
– 論文読む前にまずは見てくださいと紹介されてる
まとめ
聞き手反応に着目した知識コンテンツ化をお
こなうミーティングキャプチャシステム
視線、うなずき、などといった非言語行動の
検出
参加者の非言語インタラクション、協調的アノ
テーションを利用したインデキシング
今後の課題
• 収録した知識コンテンツを閲覧するためのブ
ラウジング環境
• 実世界に対しての提示
⇒DBと閲覧用ブラウジングサイトの構築
Photochatによるリンク提示
• インデキシングの充実・体系化
Backとfrontを結んだ線
Head_front
Head_back
約40度
真正面を見ている時の視線
Real Line / Virtual Line
C君 6月の学会で似た研究
がありましたね
http://www.kuis.kyoto…..
RT @A君 似た研究を..
Live
Bさん RW @A君
ID:0001#photo-20100113
Capture!
A君 似た研究をどこかで..
A君 ID:0001 #photo20100113
Capture!
つぶやき
→