多視点カメラを用いたインテグラル立体像の 生成手法

研究発表 3
多視点カメラを用いたインテグラル立体像の
生成手法
池谷健佑
Using a Multi−viewpoint Camera to Generate Integral
3D Images
Kensuke IKEYA
ABSTRACT
With the aim of developing a next­generation ultra­realistic broadcasting system, we are
researching integral 3D television, which produces natural­looking images that can be viewed
without special glasses. Integral 3D television generates spatially three­dimensional images by
using a combination of a lens array(consisting of small lenses)and a high­resolution display
to recreate the rays of light reflected from a visual object. A special dedicated camera is used
to produce integral 3D images. When capturing visual objects that are distant from the camera,
like players on a sports field, it has been difficult for the special dedicated camera to generate
3D images. In this paper, we introduce a method that allows integral 3D images to be formed
of remote visual objects by using a multi­viewpoint camera consisting of multiple ordinary TV
cameras to capture video from many different directions ( multi ­ viewpoint video ). In this
method, multiple 3 D models are produced by using a probability ­ based depth distance
estimation method to suppress the estimation errors. After converting these models into images
for integral 3D video generation, they are synthesized together to reduce the regions where the
camera view is occluded by other objects, thereby producing a defect­free integral 3D image.
The usefulness of this method is demonstrated with an example of integral 3 D content
produced from a broadcast sumo contest.
1.まえがき
位置による見え方の変化)を持ち,寝転んだ姿勢から
当所では,次世代の超高臨場感放送システムの実現
を目指して,自然で見やすく,特別なメガネが不要で
1)
でも立体映像を見ることができる。
これまでに試作したインテグラル立体テレビでは,
あるインテグラル立体テレビ の研究を進めている。イ
高解像度カメラとレンズアレーを組み合わせたインテ
ンテグラル立体テレビは,微小レンズで構成されたレ
グラル立体専用カメラ2)を用いて被写体からの光線を取
ンズアレーと高解像度ディスプレーを組み合わせるこ
得し,立体像を撮影する。立体像を適切な奥行き位置
とで,被写体からの光線を再現し,空間に立体像を再
に生成するために,インテグラル立体専用カメラの前
生するテレビである。水平,垂直方向に視差(視点の
方に奥行き位置を調整する奥行き制御レンズを設置し,
NHK技研 R&D/No.146/2014.8
49
研究発表 3
多視点カメラによる撮影
3次元モデルの生成と補正
要素画像への変換と合成
1図 提案手法の処理の流れ
そのレンズを通過した光線を取得する。この奥行き制
2.提案手法
御レンズは,遠方の被写体を撮影する場合,十分な視
多視点カメラを用いたインテグラル立体像の生成手
差を得るために口径を大きくする必要がある。そのた
法における処理の流れの概要を1図に示す。以下で各
め,番組制作現場への導入にはスペースが必要であり,
処理について述べる。
試作したインテグラル立体専用カメラでは,スポーツ
2.1 多視点カメラによる撮影
中継における選手など遠方の被写体を撮影することが
複数台のカメラを被写体に向けて配置し,全てのカ
メラに同期をかけて,被写体の多視点映像を撮影する。
困難であるという課題があった。
本研究発表では,複数台の一般的なテレビカメラで
撮影映像にカメラキャリブレーション6)*7を施し,カメ
構成された多視点カメラを用いて,さまざまな視点か
ラの位置や方向,焦点距離などのカメラパラメーター
らの映像(多視点映像)を撮影し,その映像から,遠
を取得する。
方の被写体に対してもインテグラル立体像を生成可能
2.2 多視点映像を用いた3次元モデルの生成
な手法を提案する。この提案手法では,多視点映像か
3)*1
らBelief Propagation(BP)
*2
を用いた距離推定手
*3
多視点映像から距離推定によって各視点の3次元モ
デルを生成する。多視点映像のうち隣り合う3台のカ
を生成する。そし
メラを1組として,それぞれを左,中央,右カメラと
て,新たに考案した,BPにおけるエネルギー分布の
呼ぶ。左と中央カメラを左ペア,中央と右カメラを右
法
により各視点の3次元モデル
せんど
尖度
*4
から距離推定結果の信頼度を評価する手法によ
り,距離推定エラーを抑制し,3次元モデルを補正す
る。さらに,各視点の3次元モデルを要素画像*5に変
*1 確率論に基づいて,画像全体で大局的に最適化した距離値を推定
する手法の1つ。
換し4)5),これらの画像を合成することで,オクルー
*2 多視点カメラの位置や方向の情報を用いて,撮影映像におけるカ
メラから被写体までの距離を画素ごとに推定する手法。
ジョン*6による欠落領域のないインテグラル立体像を
*3 被写体の形状を表す3次元データ。
生成する。本研究発表では,放送で利用された相撲の
*4 統計学において,分布のとがり具合を表す指標。
映像から生成したインテグラル立体コンテンツを例に,
*5 レンズアレーの1つのレンズが再現する光線情報を記述した画像。
本手法の有効性を示す。
50
NHK技研 R&D/No.146/2014.8
*6 被写体などに遮蔽されカメラに映らない領域。
*7 カメラの位置,姿勢,焦点距離などのカメラパラメーターを推定
する処理。
ペアとし,それぞれのペアで距離推定を行って,中央
メラ画像の画素の特徴量を表す。本手法では,この特
カメラの映像における奥行き距離を推定する。距離推
徴量の算出にDAISY7)*10を用いる。
定結果には,オクルージョンによって奥行き距離を推
次に,メッセージを(4)
式より生成する。
定できない領域が生じるため,それぞれのペアの距離
推定結果を用いてその領域を補完した後,3次元モデ
ルを生成する。
距離推定には,BPを用いた距離推定手法を利用する。
BPは,距離情報にMRF(Markov Random Field)モ
デル
(4)
*8
を仮定し,画像全体で大局的に最適化した奥行
き距離を推定する手法である。大局的に最適化するた
めに,隣接画素間で,メッセージと呼ばれるエネルギー
ここで,m はメッセージで初期値は0,t は反復回数,
N(p)/q は p の4近傍に含まれる画素のうち q 以外の
を繰り返し伝搬させる。このエネルギーは,画素にど
画素の集合,s はその集合の要素である画素を表す。
の距離値を割り当てるかという確率を表しており,割
(4)
式は漸化式になっており,繰り返しメッセージを
り当てられる確率が高い距離値には低いエネルギーが,
更新し,伝搬する。メッセージの更新および伝搬が T
確率が低い距離値には高いエネルギーが蓄積される。
回完了した段階で,画素 q の距離値 fq に関するエネル
BPを用いた距離推定手法では,初期エネルギーとして,
式より生成する。
ギー bq を(5)
メッセージの生成に必要なデータ項 D およびスムース
項 V を生成する。データ項とはステレオ画像の対応す
(5)
る画素間の誤差に関するエネルギー,スムース項とは
隣接画素間の距離情報の滑らかさに関するエネルギー
エネルギー bq が最小になる fq を画素 q の距離値と
,(2)
式に,ス
である。データ項 D の生成式を(1)
する。この距離推定を左右ペアで行い,オクルージョ
式に示す。
ムース項 V の生成式を(3)
ンによって奥行き距離を推定できない領域を,左右ペ
アそれぞれの距離推定結果を用いて補完する。まず,
(1)
(6)
式
各画素のエネルギー b のエネルギー分布より,
のようにオクルージョンの評価値 O を定義する。エネ
ルギー分布の例を2図に示す。
(2)
(6)
ここで,max(b)は b のエネルギー分布における最
大値,min(b)は最小値を表す。O はエネルギー分布
(3)
における最大値と最小値の落差に相当し,オクルージョ
ンの領域の画素ほど低い値となる特徴がある。左右ペ
ここで,p は処理対象の画素,q は p の4近傍(隣接
アそれぞれの距離推定結果における同座標の画素で
する上下左右)の画素のうちの1つで,メッセージの
O を比較し,値が大きい方の距離値を採用する。
伝搬先の画素である。fp は,画素 p の距離値,dp は
2.3 信頼度を用いた3次元モデルの補正
fp に対応する視差値
*9
であり,dp は,距離値,カメラ
距離推定結果には,距離推定エラーが生じることが
間の距離,およびカメラパラメーターから算出する。
ある。距離推定結果が正しいかを表す指標である信頼
fp には,画像に映っている全物体が収まるカメラから
度を算出し,距離推定エラーが生じている領域を判定
の奥行き範囲をサンプリングした距離値を設定する。
した後,エラーの抑制処理を行うことで3次元モデル
λ はデータ項に重み付けをするための係数,Tdata ,Tsmooth
式で定義する。
を補正する。信頼度 R を(7)
はデータ項およびスムース項の制限値,I は中央カメラ
*8
統計手法に基づいて画像処理を行う際のモデルの1つ。
画像の画素の特徴量(本手法では輝度の勾配情報)
,I’
*9
2台のカメラの画像における対象物体の位置の差異。
は左ペアであれば左カメラ画像,右ペアであれば右カ
*10 輝度の勾配情報に基づいて,画素ごとに特徴量を記述する手法。
NHK技研 R&D/No.146/2014.8
51
研究発表 3
40
48
b
44
エネルギー
エネルギー
b
46
42
40
30
20
10
38
36
0
1
101
201
距離値
301
1
401
101
f
201
距離値
301
401
f
(b)距離推定エラーとなった画素
(a)距離が正確に求まった画素
(尖度:R = 160.78)
(尖度:R =−0.96)
2図 エネルギー分布の例
(a)補正前 (b)補正後
3図 信頼度 R による3次元モデルの補正
=
−
+
−
−
−
−
2.4 3次元モデルから要素画像への変換
−
−
−
各視点の3次元モデルを変換して複数の要素画像を
生成する。4図に示すように,計算機内の仮想空間
(7)
に,3次元モデルを仮想ディスプレーや仮想レンズア
レーとともに配置する。そして,仮想ディスプレー上
せんど
R は b のエネルギー分布の尖度を表している。ここ
―
の対象画素と近傍の仮想レンズの光学主点*11を結ぶ光
で f は距離値,n は f の数,bf は f のエネルギー,b
線を追跡し,光線と3次元モデルとの交点の色情報を
は bf の平均値,s は bf の標準偏差を表す。R は距離推
対象画素に割り当てることで,要素画像を生成する。
定エラーが生じた画素ほど低い値となる特徴がある。
3次元モデルの形状が復元されておらず,光線と3次
2図に例を示す。2図(a)は,距離が正確に求まった
元モデルの交点が存在しなかった場合は,色情報は対
画素のエネルギー分布であり,その分布には鋭くピー
象画素に割り当てられない。実装にあたっては,光線
クが立ち,R は160.78と高い値となる。一方,2図(b)
を1本ずつ追跡する代わりに,4図に示すように3次
は,距離推定エラーが生じた画素であり,エネルギー
元モデルを斜投影して得られる斜投影画像を用いるこ
分布にピークが立つことはなく,R は−0.96と低い値と
とで,同方向の光線を一括して取得する。
なる。距離推定結果の各画素で R を求め,R が閾値よ
2.5 複数視点の要素画像の合成
り低かった領域を距離推定エラーが生じた領域と判定
複数の視点で得られた要素画像を合成し,オクルー
する。距離推定エラーと判定された領域は背景にある
ジョンによる欠落を補完した要素画像を生成する。全
と仮定し,3次元モデルを補正する。3図に補正前と
補正後の3次元モデルを示す。
52
NHK技研 R&D/No.146/2014.8
*11 光学系を薄い1枚のレンズで置き換えたときの,レンズと光軸と
の交点。
3次元モデル
要素画像
仮想カメラ
仮想
レンズアレー
仮想
ディスプレー
斜投影画像
4図 3次元モデルから要素画像への変換
Cam1
25m
Cam11
5図 実験における多視点カメラの配置
ての視点の要素画像における同じ座標の画素で,色情
にフィルタリング処理を行う4)。
報が割り当てられている画素の数を調べる。色情報が
2.6 インテグラル立体像の生成
割り当てられている画素が3つ以上あった場合は,そ
生成した要素画像を,高解像度ディスプレーにレン
れらの色情報の中間値を採用する。また2つの場合は,
ズアレーを装着したインテグラル立体テレビに表示す
インテグラル立体像を観測する視点により近いカメラ
ることで,インテグラル立体像を生成する。
の色情報を,1つの場合はその色情報を採用する。色
情報が割り当てられた画素がなかった場合は,近傍の
画素の色情報で内挿する。
3.実験
「第55回全日本相撲選手権大会」の番組の中で映像表
インテグラル立体方式の画像表示においては,サン
現技術として用いた多視点ハイビジョンシステム8)の撮
プリングされた有限数の光線によって立体像を生成す
影映像から,相撲のインテグラル立体コンテンツを生
るため,折り返し雑音が生じる。これを抑制するため
成した。5図に示すように11台の多視点カメラを配置
NHK技研 R&D/No.146/2014.8
53
研究発表 3
6図 異なる視点から観測したインテグラル立体像(左:左視点 中上:上視点 中下:下視点 右:右視点)
7図 相撲のインテグラル立体コンテンツ(再撮)
し,25m先の遠方の選手を撮影した。表示には3,840
×2,400画素の高解像度ディスプレーに160×118のレン
ズアレーを装着したインテグラル立体テレビを使用し
た。インテグラル立体テレビに表示した相撲シーンを,
上下左右の異なる視点から観測したインテグラル立体
像を6図に示す。6図の選手の頭部,および土俵の端
の部分の赤線は,運動視差*12が理解しやすいように手
動で描いたものである。また,相撲のインテグラル立
体コンテンツの再撮画像を7図に示す。
以上の実験の結果,遠方の選手のインテグラル立体
8図 多視点ロボットカメラシステム
像を生成することができ,スポーツ番組で扱うシーン
のインテグラル立体コンテンツを初めて生成できた。
インテグラル立体テレビの潜在的な発展性を確認する
6図からは,選手の頭部と土俵の端の部分における赤
ことができた。
線の位置関係より,インテグラル立体テレビの特徴で
ある水平,垂直方向の運動視差が再現されていること
4.まとめ
が分かる。7図のインテグラル立体コンテンツでは,
本研究発表では,多視点カメラを用いたインテグラ
ぶつかりあう選手の奥行き方向の位置関係や,手前か
ル立体像の生成手法を紹介した。提案手法により遠方
ら奥に滑らかに続く土俵の奥行きを再現することがで
の被写体のインテグラル立体像を生成することが可能
き,高い臨場感をもって選手の取組を表現できた。解
になり,実際に放送された相撲のシーンのインテグラ
像度が160×118(レンズアレーのレンズ数と同等)と
低いにもかかわらず,高い臨場感のある映像となり,
54
NHK技研 R&D/No.146/2014.8
*12 眼の位置を動かすこと等により,見え方が変化すること。
ル立体コンテンツを生成することができた。
一方,現在のテレビ番組を構成する映像は,パンフォ
を協調制御する多視点ロボットカメラシステム9)(8図)
の開発を進めている。今後は,このシステムを用いて,
ローやズームなどのカメラワークを用いて撮影されて
移動する被写体をパンフォローした多視点映像や,広
いる。3章で生成したインテグラル立体コンテンツで
い空間に点在する被写体の多視点映像を撮影し,カメ
は,多視点カメラを三脚に固定し,画角を固定して撮
ラワークを実現したインテグラル立体コンテンツを生
影した多視点映像を用いており,カメラワークは実現
成する予定である。
できていない。現在,複数台の可動式ロボットカメラ
参考文献
1)F. Okano,J. Arai,H. Hoshino and I. Yuyama:
“Three­dimensional Video System Based on Integral Photography,
”
Opt. Eng.,Vol.38,pp.1072­1077(1999)
2)J. Arai,F. Okano,M. Kawakita,M. Okui,Y. Haino,M. Yoshimura,M. Furuya and M. Sato:“Integral Three­
Dimensional Television Using a 33­Megapixel Imaging System,
”Journal of Display Technology,Vol.6,No.10,
pp.422­430(2010)
3)Pedro F. Felzenszwalb and Daniel P. Huttenlocher:
“Efficient Belief Propagation for Early Vision,
”CVPR,Vol.1,
pp.261­268(2004)
4)M. Katayama and Y. Iwadate:
“A Method for Converting Three­dimentional Models into Auto­stereoscopic Images
Based on Integral Photography,
”Proc. SPIE,Vol.6805,pp.68050 Z.1­68050 Z.8(2008)
5)Y. Iwadate and M. Katayama:
“Generating Integral Image from 3D Object by Using Oblique Projection,
”Proc. IDW
11,ITE,Nagoya,3Dp­1,pp.269­272(2011)
6)Noah Snavely,Steven M. Seitz and Richard Szeliski:
“Photo Tourism:Exploring Image Collections in 3D,
”ACM
Transactions on Graphics(Proceedings of SIGGRAPH 2006)
,Vol.25,No.3,pp.835­846(2006)
7)Engin Tola,Vincent Lepetit and Pascal Fua:“DAISY:An Efficient Dense Descriptor Applied to Wide­Baseline
Stereo,
”PAMI,Vol.32,No.5,pp.815­830(2010)
8)冨山,岩舘:
“多視点ハイビジョン映像生成システムの開発,
”映情学誌,Vol.64,No.4,pp.622­628(2010)
9)池谷,久富,片山,岩舘:
“被写体の動きをパンフォロー可能な多視点ロボットカメラシステム,
”映情学冬季大,9­3
(2011)
い け や けんすけ
池谷健佑
2006年入局。長野放送局を経て,2009年
から放送技術研究所において,3次元映像処
理の研究に従事。現在,放送技術研究所立体
映像研究部に所属。
NHK技研 R&D/No.146/2014.8
55