コンピュータビジョン 第1回 自己紹介 東大 生研 1996 CMU 電総研 MIT 東大院 情報工 1986 高度交通システム 車両・事象認識 仮想現実感 仮想現実感 モデルの自動生成 ロボティクス 人まねロボット コンピュタビジョン 明るさ解析 1983 1982 1980 1978 所属 大学院 – 情報学環・学際情報学府 – 情報理工学系研究科・コンピュータ科学専攻 – 情報理工学系研究科・電子情報学専攻 研究所 – – – – 生産技術研究所 国際産学共同センター 空間情報科学研究センター 国立情報学研究所 コースについて 講師:池内克史 研究室: 生産技術研究所 E405 目黒区駒場 4-6-1 [email protected] 評価 – 出席 – プログラミング課題 – レポート課題 40% 30% 30% 内容 2次元画像処理 3次元再構成法 – 線画解釈 – 両眼立体視と明るさ解析 – 物体表現 プロジェクトの実際 – デジタルバイヨン – 人間行動観察学習 – 現場見学 本年度の予定 4月10日 4月17日 4月24日 5月 1日 5月 8日 5月15日 5月22日 5月29日 入門+2D画像処理 両眼立体視と明るさ解析 カラー解析 休講 物体認識 デジタルバイヨンプロジェクト 人間行動観察学習ロボット 研究の現場(生研公開) 本郷 本郷 本郷 UCB→本郷 本郷 ICRA→本郷 駒場 コンピュータビジョン 人間の視覚機能の代替アルゴリズムを設 計する分野 2次元画像(網膜画像)から3次元世界を再 構成 最大の応用分野はロボットが行動するた めの目 2次元画像と3次元世界 カメラ画像は,三次元の座標系から二次 元の画像座標系へ射影したもの 二次元画像 三次元世界 コンピュータビジョンパラダイム(Marr) 物体中心表現 3次元物体表現 各種3次元表現 観測者中心表現 2-1/2次元表現 統合処理 明るさ テクスチャ 線画 3D特徴抽出 (shape-from-x) 2次元画像 両眼立体視 動き デジタル画像処理(2D) デジタル画像とは アナログ情報 (フィルム,絵,実世界) 量子化&標本化 デジタル画像 – – – – デジタルカメラ 携帯電話 PCデータ, IT デジタル放送 標本化 アナログデータを離散的に領域分割 アナログデータ (時間軸と数値は連続) サンプリング間隔 サンプリングデータ (時間軸は離散的) 標本化(続き) 2-D デジタル画像の場合 サンプリング間隔によって画像解像度が決まる ピクセル (Pixel) 2-Dデジタル画像の単位 空間分割 0 1 columns n N-1 0 1 rows m M-1 Digital image M x N pixels 空間的標本化(解像度) 40 x 30 pixels 80 x 60 pixels 160 x 120 pixels 320 x 240 pixels 量子化 サンプリングされたデータの数値を離散的 に分ける サンプリングデータ (時間軸は離散的) 量子化ビット数: 3 bit = 8 level 8 bit = 256 level デジタルデータ (時間軸と数値の両方が離散的) 量子化(続き) 2-Dデジタル画像の場合 色は数値として表される (行列形式) 0 0 0 0 0 0 0 0 0 0 2 2 1 1 0 1 2 3 3 2 1 1 2 3 5 3 2 1 1 2 3 3 3 2 0 1 2 2 2 2 0 0 1 1 1 0 0 0 0 量子化ビット数によって色数が決まる 表現の色数 何色で十分か? 16.7 million colors 256 colors 16 colors 4 colors フィルタ処理 フィルタ 人間の視覚やコンピュータビジョンための 前処理 – ノイズ除去 – 画像強調 – 特徴抽出 FILTER ? 空間フィルタ・周波数フィルタ 空間領域での処理 – 隣接ピクセルとの演算 周波数領域での処理 – 画像をフーリエ変換 ノイズ除去 ノイズ源 – 取得時に発生 – 圧縮や伝送時に発生 平均値フィルタ 隣接点の値を平均して置き換える 0 5 4 6 4 0 5 4 6 4 3 7 7/ 9 8 8/ 9 5 5/ 9 5 1 3/ 9 1 7/ 9 1 8/ 9 5 5 5 9 9/ 9 10 10/ 9 8 8/ 9 8 1 5/ 9 1 9/ 9 110 /9 7 8 8 3 7 7/ 9 8 8/ 9 0 0/ 9 9 1 3/ 9 1 7/ 9 1 8/ 9 0 8 9 1 5 7 9 10 1 5 7 9 10 3x3 (5 x 5) (7 x 7) 平均値フィルタ(続き) 重み付け平均では 0 5 4 6 4 0 5 4 6 4 3 7 /716 16 8 / 16 5 /516 5 1 /316 2 /716 1 /816 5 5 5 18 /916 4010 / 16 16 8 / 16 8 2 /516 4 /916 2 10 / 816 8 8 3 7 /716 16 8 / 16 0 /016 9 1 /316 2 /716 1 /816 0 6 9 9 10 1 5 7 9 10 1 5 7 平均値フィルタ(続き) 例1 ガウスノイズの場合 ノイズ画像 (5% Gaussian) 平均値 重み付け平均値 平均値フィルタ(続き) 例2 ショットノイズの場合 ノイズ画像 (Random binary) 平均値 重み付け平均値 非線形フィルタ 最大値フィルタ – ウィンドウ内の最大値で置き換える 最小値フィルタ – ウィンドウ内の最小値で置き換える メディアン(中央値)フィルタ メディアンフィルタ ウィンドウ内の中央値で置き換える 0 5 4 6 4 3 7 8 5 5 5 9 10 8 8 3 7 8 0 9 1 5 7 9 10 7 8 5 9 10 8 7 8 0 0 5 3 7 5 ソート 9 3 7 1 5 4 10 9 88 8 10 88 7 87 5 70 6 4 5 5 8 8 中央値 0 8 9 9 10 メディアンフィルタ(続き) 例 3 x 3 フィルタ ガウスノイズ ショットノイズ エッジ エッジ 画像中の明るさ(数値)が急激に変化する部分 近傍ピクセルとの微分処理 (離散的には差分式) 物体認識などでは重要な特徴となる 微分処理であるためノイズに弱い ステップエッジ Intensity エッジの種類 ルーフエッジ Intensity x ピークエッジ Intensity x x 1-D エッジの微分 1回微分と2回微分 元信号 1回微分 2回微分 Fig. from Digital Image Processing (Springer) Gradient-base 1回微分のオペレータ f f f x, y , x y 離散的な差分式では f x m, n f m 1, n f m, n f y m, n f m, n 1 f m, n f x m, n f m 1, n f m 1, n f y m, n f m, n 1 f m, n 1 エッジの強さと方向が得られる 2 x 2 サイズ 3 x 3 サイズ Gradient-base (続き) オペレータの種類 – Roberts D 0 1 / 1 0 D\ 0 1 1 0 1 – Prewitt Dx 1 0 1 1 0 1 1 1 1 D y 0 0 0 1 1 1 1 0 – Sobel 1 0 1 Dx 2 0 2 1 0 1 1 2 1 D y 0 0 0 1 2 1 Gradient-base (続き) 例 Prewittオペレータ Dx Dy Laplacian operator 2回微分のオペレータ 1 0 1 0 2 Dx2 D y2 1 2 1 2 1 4 1 2 0 1 0 0 1 0 2 1 4 1 0 1 0 1 1 1 2 1 8 1 1 1 1 4 direction 8 direction エッジの強さが得られる D D D D 2 x 2 y x y Dx Dy Laplacian operator (続き) 例 Laplacianオペレータ 4 direction 8 direction Laplacian Of Gaussian 微分演算はノイズに対して弱い Gauss関数でぼかして(ノイズ除去)してか らLaplacianオペレータ 1 x 2 y 2 / 2 2 Gx, y e 2 Laplacian of Gaussian 1 x 2 y 2 x 2 y 2 / 2 2 2 e Gx, y 4 2 2 2 Laplacian Of Gaussian (続き) 例 LOGオペレータ 1 2 カメラモデル 数学的にモデル化 X m 画像中心:c 焦点距離:f y x レンズ中心:C Z Y M 画像座標系 カメラ座標系 三次元世界の点Mから画像上の点mをどのように対応付けるか 中心射影 ピンホールカメラモデル – レンズ系を針の穴(pinhole)とみなす X m 画像中心:c 焦点距離:f y x レンズ中心:C x f s y 0 1 0 Z Y M 画像座標系 カメラ座標系 0 f 0 X 0 0 Y 0 0 Z 1 0 1 (X,Y,Z):三次元空間の座標 (x,y):射影された画像上の座標 s:スカラー 中心射影(続き) 座標系の位置を入れ替えると X x f c C y Y Z m M カメラ座標系 画像座標系 よく使われているモデルであるが,非線形変換である 正射影(平行射影) 射影の近似(線形化) – カメラ↔物体間の距離に無関係 X X x 1 0 0 0 y 0 1 0 0 Y Z 1 0 0 0 1 1 x c C Z y Y m M カメラ座標系 画像座標系 (X,Y,Z):三次元空間の座標 (x,y):射影された画像上の座標 線画解析 線画抽出抽出 原画像 微分画像 線画画像 線画から奥行き情報 2次元の線画が与えられ 元の3次元物形状を推定 なぜひし形にみえずます にみえるのか? コンピュータが同じように 解釈するようにできない か? 稜線のタイプ 凸稜線:+ 凹稜線:- 輪郭線:矢印の方向に進むと右側に物体,左側が背景 線画のラベル付け 3D形状を知っていればラベル付けは容易 逆操作は可能か? 可能なラベル数(拘束なし) •9 本の線よりなる •各4 ラベルの可能性 →4x4x4x4x4x4x4x4x4=250,000の可能性 しかし! 現実は1通りしかない 250,000の可能性を減少させる必要あり! →3Dの知識による拘束の必要性 ハフマン・クロー頂点辞書 •他の可能性なし •208の可能性が12個に 限定 •L型 - 6個 •ARROW型 - 3個 •FORK型 - 3個 ラベル付けへの拘束 拘束なし --250,000の可能性 拘束あり 3ARROW - 3x3x3 3L - 6x6x6 1FORK - 3 →3x3x3x6x6x6x3=17,496の可能性 拘束伝播 線の両端での整合性 -> さらなる拘束 線画解釈の問題点 1. あいまい性の存在 2. 完全な線画抽出が前提 -> 不可能 3. 定性表現にしかすぎない 欠点1: ラベル付け不可能 ラベル付け可能な不可能物体 ラベル付けができても,その立体 が実現するわけではない 欠点3: 定性表現 ラベルが同じで合っても一意には 決まらない まとめ 2次元画像処理 – デジタル化 – フィルター処理 – エッジ抽出 コンピュータビジョン – 3次元情報の縮退 – 拘束の導出 – 線画解釈
© Copyright 2025 ExpyDoc