固定カメラからの音声・画像情報を用いた映像コンテンツの生成 IS-2-08 足立順滝口哲也研究背景有木康雄（神戸大学）処理の流れ 一般家庭におけるカメラ撮影での問題点 撮影者の肉体的・体力的負担 撮影者が画面に映らない固定カメラによる自動撮影元映像 固定カメラ撮影での問題点 単調な映像(ズーム・パン等、カメラワークの欠如) 不必要なシーンを含む（撮りっぱなしの為） 視聴の際の編集や検索の手間発話区間検出音声データ映像の自動編集の必要性 映像内での会話部分映像との同期：音声系処理 ストーリーを理解するうえでの必要性 カメラワークへの指標発話方向推定カメラワーク顔画像検出ダイジェスト：画像系処理会話シーンを中心とした映像編集発話方向推定発話区間検出 ＣＳＰ法（Cross-power Spectrum Phase Analysis:白色化相互相関法）に基づく音源方向推定法 Real AdaBoostによる音声/非音声の識別 2chマイク間の音波到来時間差を利用して音源方向を推定 逐次的に学習機械を構成 重み付きリサンプリング 弱学習機の重み付き結合 τc 音声区間検出 CSP係数：CSP（ｋ） 到来時間差：τ 発話方向：θ サンプリング周波数：ｆ  発話区間毎に映像と同期させ、会話シーンを抜き出す 隣接するフレーム間でスムージング 一定時間以下の区間を削除 d Mi Mj  カメラワーク 各会話シーンでのカメラワークルール yi (n) １話者発話シーン：発話者（顔）にズームイン 複数話者発話シーン：全員が映るよう、ズームアウト y j (n) Mi Mj 各会話シーン毎に、発話（音源）方向を推定 話者数の判定ルール CSP係数≧β：１話者発話 CSP係数＜β：複数話者発話 CSP係数を利用して判定 適当な閾値βを定める １話者発話の場合、OpenCVにより、推定されている発話方向を中心に顔検出発話方向軸実験結果と考察・課題 使用データ：男性２話者(A,B)、 303.029[sec] 発話区間検出： 303.029[sec]→ 149範囲、192.252[sec] 誤検出：8区間 5.760[sec] 検出率：97% 顔検出：顔画像の中心座標を中心にズームイン 顔不検出：発話方向軸を中心にズームイン 発話方向推定：カメラワークルール 対象データ:141区間,186.492[sec] 発話方向を推定し、閾値βを利用してカメラワークを決定発話方向推定 CSP係数＜β 閾値β未満 CSP係数≧β 閾値β以上区間正答率顔画像検出ズームアウト不検出不検出発話方向軸を中心にズームイン検出検出顔画像を中心にズームインズームイン顔画像検出 0.16 0.12 CSP coefficient 0.1 閾値β 0.08 0.06 0.04 0.02 0 0 38.8 60.3 77.7 94 110.7 129.6 157 -0.02 Direction [degree] 発話方向軸角度ズームアウト顔画像検出 0.16 0.14 CSP coefficient 0.12 CSP 係数 0.1 閾値β 0.08 0.06 0.04 0.02 0 0 38.8 60.3 77.7 94 -0.02 Direction [degree] 角度 110.7 129.6 157 閾値β 0.1 0.08 閾値β 0.1 0.08 正解区間数 /全区間数 101[区間]/ 141[区間] 103[区間]/ 141[区間] 正解時間 /全時間 133.85[sec] /186.49[sec] 120.28[sec] /186.49[sec] 正答率 71.631% 73.05% 正答率 71.77% 65.50% 2話者の場合、カメラワークは3通り 被験者Aへズームイン 被験者Bへズームイン ズームアウト 考察 イスの音など発話ではない音に対しての誤検出 カメラワーク決定について正解タグを設け、正答率を求めた ズームイン区間でズームアウトになる不正解が多数（発話者は映像内） 発話者が映像内に映るために閾値βの設定が重要 0.14 CSP 係数時間正答率 生成された映像の評価 会話内容の理解度 映像時間感度 映像の単調さ ズームサイズの大きさ ショット区間の長さ カメラワークの見易さ 今後の課題 感情認識(音声・画像) → 会話内容も含めた編集 行動認識(画像) → 会話以外での重要シーンのピックアップ 人物認識(音声・画像) → パーソナライズされた映像編集