「動画フォーマットと私」 statcast

「動画フォーマットと私」
坂口 裕靖 映画では、フィルムという物理媒体に映
源的でした。
データが細かに前後することになり、長手
像と音声が空間的に分離して保存されてお
この流れはビデオシステムに持ち込まれ、
方向に一様な時間軸がとれるわけではあり
り、かつ長さ方向が時間にそのままマップ
映像トラックと音声トラックが空間的に分
ません。いずれにしろ、こういった物理デ
され(まあ、映像の方は間欠駆動により量
割されて、テープ上に記録されるようにな
ッキの場合は入力する信号と出力する信号
子化されてますが)
、同期が外れないように
ります。筆者が会社に入った頃、まだ 1 イ
が決まっていたのが当たり前でした。さて、
システムアップされていました。その後色々
ンチの V あ TR が主流で、2 インチのデッ
映像や音声をトラックとして抽象化し、フ
な付加機能が提案されますが、いずれもフ
キが何台か残りつつ、D1 が導入され始め
ァイルの頭からのバイト数を時間(の関数)
ィルムの空き部分、例えばパーフォレーシ
たというあたりでした。これらはいずれも
と見立ててデータを配置していくという形
ョンのスキマに二次元バーコードで圧縮し
テープの長手方向に時間軸を取り、空間的
で動画ファイルフォーマットが出てくるの
た音声を書き込むとか、パーフォレション
な位置合わせで時間的な位置合わせを行っ
は自然でしょう。初期の quicktime や avi
の外側、よく破れちゃう部分に二次元コー
ていると考えてよいでしょう。アナログの
は、そもそも OS 自体が TCP/IP のプロト
ドで圧縮した音声を書き込むとか、映像領
場合は読み出したらそのまま信号となって
コルスタックを持っていなかった時期に提
域とアナログ音声領域のスキマに同期信号
出ていきます(TBC が壊れた状態のアナロ
案されたこともあり、ネットとかマッシブ
を埋め込んで、外部音源と同期を取るなど、
グビデオの信号、今思うと大変味わい深い
リーパラレルといった状況は一切想定され
いずれの方法もフィルムの空間領域に信号
ものがありました ...)が、デジタルの場合
ていない、大変シンプルなものでした。当
を埋め込むことで、同期の問題を回避する
は数学的に補正してから出すことができる
初は非圧縮というか無圧縮というか無配慮
というやり方が踏襲されています。ことほ
ため、データを位置的に分散保存するなど
というか、である画像・音声ファイルが、
どさように、同期という問題はシビアで根
の工夫が行われています。このため、同じ
適当なカタマリで適宜配置されるようなフ
statcast
グランドプリンスホテル新高輪国際館パミール。品川のパミー
が多くて、実はちょっとがっかりでした。それでもキーノートで
ルは会社の近くにあるので、あのあたりでイベントが行われる際
はいくつか面白いプロジェクトが紹介され、その中でも筆者は
には結構お世話になっております。先日は AWSsummit Tokyo
statcast が気になりました。まあ不勉強で知らなかったわけで
2016(エイダブリュエスサミットウキョウ、トゥーサゥザン
すけど、球場にカメラとかレーダーとかを仕掛けて、画像認識お
シクスティーン ... 本当にこういうアナウンスが流れるんですよ)
よび電波でプレイヤーとかボールとかの動き・速度・加速度をキ
で行ってきました。今回は事務所から歩いていって、途中梅林で
ャプチャして、それをリアルタイムで伝送可能にする、というも
肉ソース焼きそばの大盛りを頼み、シャツにソースのシミを付け
のでした。いいですね、21 世紀ですね。MLBAM のサイトを見
つつ、CSL の前を通り過ぎ、坂をえっちらおっちら登って、幾
ると、2D カメラの映像にキャプチャしたボールの軌跡をマッチ
つもの高輪教会を通りすぎて東京高輪病院の入り口に到着。そこ
ムーブしつつオーバーラップして表示したりしてますが、今後い
から歩いて入ろうと思ったんだけど、大変迷いました。素直に一
ろんなスポーツでこういう方向の動きは進んでいくのではないで
旦新高輪のロビーに入って、中を移動したほうが早かった。あれ、
しょうか。逆バーチャルスタジオというか AR スタジオというか。
クルマで移動すべきところであって、歩くところじゃないですな。
こういったヘッドアップディスプレイ的な情報提示というもの
今回の AWS 以下略は、どちらかというと企業の情シス向け
は、今後重要なものになっていくのでしょうな。なんかこう、全
の色合いが強く、
「クラウドでも大丈夫ですよ」的なセッション
スポーツ F1 化という感じ。
26
FDI・2016・08
ォーマットでした。初期の「切手サイズ」
れはたまたまテレビが「静止画と音声のカ
での「動画ファイルフォーマット」は全く
の時代はまあそれでも物珍しさでなんとか
タマリ」以外伝送できないからこうなって
意味を持たなくなってしまいます。そもそ
なりましたが、ちょっと画角を大きくしよ
る、という半ば歴史的な理由によるものが
も、撮影した素材のどこにも「静止画のカ
うとすると、表示サイズの二乗でファイル
大きく、なんら本質的な必要性から出てき
タマリ」が無いのですから。音声のカタマ
容量が増えるため、データ圧縮の必要性が
たものではありません。例えば今後、スキ
リはありそうですが、なくてもどうにかな
大きくクローズアップされます。
ンとボーン、モーションデータで構成され
るかもしれません。
結局、動画ファイルフォーマット単体で
たアバターが 3D 空間を躍動するような伝
codec の考え方は、処理パイプライン
はいくつかの標準的な
「codec」
により圧縮・
送系が出てきた場合を考えてみましょう。
を固定しながら、アルゴリズムに自由度
解凍できるようにしておいて、この codec
3D 空間を「静止画と音声のカタマリ」と
を持たせる手段でした。ここでアルゴリ
を別途インストールする、という形で安定
してまるまるキャプチャすることは大変難
ズムだけでなく、入出力に自由度をもた
したように思います。codec によって圧縮
しいですが、これを予め用意したスキンと
せ、さらに計算量にも自由度をもたせると、
されたデータは、デコードアルゴリズムに
ボーン、そしてリアルタイムにその場でキ
youtube 的な何かに漸近していくことでし
従ってきちんと伸張しない限り、どう見て
ャプチャしたモーションデータと、背景と
ょう。ネット前提なら単一のデータチャン
も無意味なピクセル列のようにしか見えま
なる舞台を加えたデータ列に置き換えると、
クである必要はなくなり、マッシブリーパ
せん。codec を可換にすることにより、多
これってそもそも「三次元テレビ」が目指
ラレルなストレージに部分部分が保存され、
少の制約はあるものの、その枠内で任意の
したものではないでしょうか。
適宜読み出されるような何かであっても、
アルゴリズムを使えるようになったという
「そんなのモーションキャプチャの人形劇
全く問題になりません。
わけです。quicktime が Apple のスカリー
じゃん」というご指摘はごもっともですが、
となると、今後「映像」を規定するもの
により発表されたのが 1991 年、マイクロ
今の 4K カメラがとらえた演者の表情も、
は何なのか、考える必要がありそうです。
ソフトが後追いで avi を発表したのが翌年
薄っぺらな動画テクスチャが一枚あるだけ
VR やスマホも含めて、ディスプレイデバ
ですが、それから四半世紀使ってきたわけ
でしかないですよね? 4K カメラがとらえ
イス一般で定義できる部分であるなら、結
ですな。先日 quicktime は windows 版の
た動画テクスチャを「実物を撮影したがた
局はピクセルと音声の帯域幅という事にな
サポートを停止したため、命運つきました
めに、映像」と呼ぶのであれば、実物のモ
らざるを得ないかもしれません。動画テク
が。
ーションをキャプチャして、実物のテクス
スチャしかキャプチャできないデバイスが
一方で、動画ファイルフォーマットとし
チャをキャプチャして、実物から測定した
今後廃れるのか、それとも魔改造により別
て youtube を捉えてみましょう。もちろ
ボーンから再現されたキャラクタが創りだ
の展開を迎えるのか?我々は今その岐路を
ん youtube は「ファイル」を提供してま
す映像空間は、カメラの種類が違うだけで、
目の当たりにしているのかもしれません。
せんので、その方面の厳密な比較は不可能
やっぱり「映像」になるんじゃないでしょ
なわけです。とりあえず「フォーマット」
うか?もちろん、キャプチャするデータも
と し て の youtube を 捉 え て み る と、
「ブ
表情や手足から服のシワまで、ものすごく
ラウザで表示でき、必要なら既存のフォー
細かくスキャンしていく必要があるでしょ
マットにトランスコードできる」というこ
うし、それがそこらのプロシューマ機材で
と以外、なんら制約がないことに気が付き
簡単に実現できるとも思えません。が、そ
ます。youtube の内部フォーマットがど
うやって再現され
うなってるか、誰も気にしません。一方
た空間を任意の視
で youtoube の入力フォーマット、出力フ
点から、任意のタ
ォーマットは様々で、制約にはなっていま
イミングでリプレ
せん。特にブラウザのインターフェースで
イできるとしたら
考えると、ブラウザが動員できるすべての
どうでしょう。い
CPU パワーを援用することは不可能では
やー、個人的には
ありません。その結果、
「静止画と音声のカ
大変見てみたいで
タマリ」のみから構成されるような「動画」
すな。
に制限される必要がありません。
さて、このよう
現状、動画を表示するデバイスの大部分
なデータチャンク
は、結局データから「静止画と音声のカタ
を保持しようと思
マリ」に変換するものとなっています。こ
うと、従来の意味
Hiroyasu Sakaguchi
(株)IMAGICA イメージワークス
27
FDI・2016・08