固定カメラからの音声・画像情報を用いた 映像コンテンツの生成 IS-2-08 足立順 滝口哲也 研究背景 有木康雄 (神戸大学) 処理の流れ 一般家庭におけるカメラ撮影での問題点 撮影者の肉体的・体力的負担 撮影者が画面に映らない 固定カメラによる自動撮影 元 映 像 固定カメラ撮影での問題点 単調な映像(ズーム・パン等、カメラワークの欠如) 不必要なシーンを含む(撮りっぱなしの為) 視聴の際の編集や検索の手間 発 話 区 間 検 出 音 声 デ ー タ 映像の自動編集の必要性 映像内での会話部分 映 像 と の 同 期 :音声系処理 ストーリーを理解するうえでの必要性 カメラワークへの指標 発 話 方 向 推 定 カ メ ラ ワ ー ク 顔 画 像 検 出 ダ イ ジ ェ ス ト :画像系処理 会話シーンを中心とした映像編集 発話方向推定 発話区間検出 CSP法(Cross-power Spectrum Phase Analysis:白色 化相互相関法)に基づく音源方向推定法 Real AdaBoostによる音声/非音声の識別 2chマイク間の音波到来時間差を利用して音源方向を推定 逐次的に学習機械を構成 重み付きリサンプリング 弱学習機の重み付き結合 τc 音声区間検出 CSP係数:CSP(k) 到来時間差:τ 発話方向:θ サンプリング周波数:f 発話区間毎に映像と同期させ、 会話シーンを抜き出す 隣接するフレーム間でスムージング 一定時間以下の区間を削除 d Mi Mj カメラワーク 各会話シーンでのカメラワークルール yi (n) 1話者発話シーン:発話者(顔)にズームイン 複数話者発話シーン:全員が映るよう、ズームアウト y j (n) Mi Mj 各会話シーン毎に、発話(音源)方向を推定 話者数の判定ルール CSP係数≧β:1話者発話 CSP係数<β:複数話者発話 CSP係数を利用して判定 適当な閾値βを定める 1話者発話の場合、OpenCVにより、推定されている発話方向 を中心に顔検出 発話方向軸 実験結果と考察・課題 使用データ:男性2話者(A,B)、 303.029[sec] 発話区間検出 : 303.029[sec]→ 149範囲、192.252[sec] 誤検出:8区間 5.760[sec] 検出率:97% 顔検出:顔画像の中心座標を中心にズームイン 顔不検出:発話方向軸を中心にズームイン 発話方向推定 : カメラワークルール 対象データ:141区間,186.492[sec] 発話方向を推定し、閾値βを利用してカメラワークを決定 発話方向推定 CSP係数<β 閾値β未満 CSP係数≧β 閾値β以上 区間正答率 顔画像検出 ズームアウト 不検出 不検出 発話方向軸を中心 にズームイン 検出 検出 顔画像を中心 にズームイン ズームイン 顔画像検出 0.16 0.12 CSP coefficient 0.1 閾値β 0.08 0.06 0.04 0.02 0 0 38.8 60.3 77.7 94 110.7 129.6 157 -0.02 Direction [degree] 発話方向軸 角度 ズームアウト 顔画像検出 0.16 0.14 CSP coefficient 0.12 CSP 係数 0.1 閾値β 0.08 0.06 0.04 0.02 0 0 38.8 60.3 77.7 94 -0.02 Direction [degree] 角度 110.7 129.6 157 閾値β 0.1 0.08 閾値β 0.1 0.08 正解区間数 /全区間数 101[区間]/ 141[区間] 103[区間]/ 141[区間] 正解時間 /全時間 133.85[sec] /186.49[sec] 120.28[sec] /186.49[sec] 正答率 71.631% 73.05% 正答率 71.77% 65.50% 2話者の場合、カメラワークは3通り 被験者Aへズームイン 被験者Bへズームイン ズームアウト 考察 イスの音など発話ではない音に対しての誤検出 カメラワーク決定について正解タグを設け、正答率を求めた ズームイン区間でズームアウトになる不正解が多数(発話者は映像内) 発話者が映像内に映るために閾値βの設定が重要 0.14 CSP 係数 時間正答率 生成された映像の評価 会話内容の理解度 映像時間感度 映像の単調さ ズームサイズの大きさ ショット区間の長さ カメラワークの見易さ 今後の課題 感情認識(音声・画像) → 会話内容も含めた編集 行動認識(画像) → 会話以外での重要シーンのピックアップ 人物認識(音声・画像) → パーソナライズされた映像編集
© Copyright 2025 ExpyDoc