ビジュアル情報処理

コンピュータビジョン特論
Advanced Computer Vision
呉海元 准教授 加藤丈和講師
2007年度前期
期間・曜日・時限・教室
●期間:前期
●曜日:月曜日
●時限:4時限
●教室:A204
授業の概要
コンピュータを用いて、入力された画像を扱うた
めの、基礎知識を修得する。
・画像の特徴抽出と記述の手法を学ぶ。
・カメラを用いた3次元計測や認識の基礎を学
ぶ。
それぞれの原理と手法の有効性や制約をコン
ピュータビジョンなどの関連分野での最新動向
と共に紹介する。
授業の位置づけ
コンピュータビジョンにおける画像処理や理解
の技術について、基礎理論と最近の研究動
向を学ぶ。
授業の計画
1. 授業のガイダンス(加藤・呉)
2. 画像・映像の処理、認識、理解研究の歴史と現状(加藤・呉)
3. 画像特徴(点、直線、領域)の検出と識別-1(呉)
4. 画像特徴(点、直線、領域)の検出と識別-2(呉)
5. 画像特徴(点、直線、領域)の検出と識別-3(呉)
6. カラー情報の表現と解析(呉)
7. 対象追跡-1(加藤)
8. 対象追跡-2(加藤)
9. 視覚の幾何-1(呉)
10.視覚の幾何-2(呉)
11.視覚の幾何-3(呉)
12.カメラキャリブレーション(加藤)
13.物体認識-1(加藤)
14.物体認識-2(加藤)
15.総合復習(加藤・呉)
到達目標
講義中の課題,宿題のレポート,総合レポート
などを総合的に評価する.
講義内容の理解度が,6割,7割,8割以上であ
れば,それぞれ可(合格),良,優とする.
教科書・参考書
教科書:特になし
参考書:松山隆司、久野義徳、井宮淳
コンピュータビジョン-技術評論と将来展望
新技術コミュニケーションズ
授業HP:http://vrl.sys.wakayama-u.ac.jp/CV/
今日の講義内容
●コンピュータビジョンとは?
●デジタル画像とは?
●OpenCVとは?
コンピュータ・ビジョンとは?
◎3次元シーンが2次元平面に写像
→ カメラで2次元画像を撮影
Nice
sunset!
CV
◎2次元画像→3次元シーンという逆写像を行い
→ 画像から元の3次元シーンの情報を復元・認識
コンピュータ・ビジョンとは?
モデリング
ナビゲーション
認識
Scene/object modeling
Navigation
Object recognition
Event/action recognition
…
What is Computer Vision
Output:
Model
・
・
・
・
・
・
Real Scene
Cameras
Images
Why is Vision Difficult?
Consider the input...
From Kentaro Toyama
What Your Brain Does
Clinton greeting Lewinsky
Almost certain to be Bill Clinton
Person with
glasses in crowd
Gray hair
Pony tail
Dark brown hair
Right eye (open)
Left eye (open)
Dark circular overlay
Right ear
Neck
Nose
White shirt
Cheek
Monica’s mouth
Armani suit
(smiling)
Person
Lapel
contour
CNN caption
(Washington 1995?)
Clinton occluding
Illuminated
from above
Necklace
Monica Lewinsky
Woman’s dress suit
Some Possible Outputs
Input image
depth
or
segmentation
object pose
(facing away,
facing forward)
object
recognition
action
understanding
Why is Vision Difficult?
Consider the input...
Not this
From Kentaro Toyama
But this…(2次元配列、各元素(画素)に数値を格納)
01
03
03
00
00
00
02
02
02
01
02
01
01
02
02
00
00
01
01
00
00
02
01
00
00
00
00
04
01
00
00
03
00
00
00
01
03
01
04
04
02
01
01
00
01
02
00
02
00
30
22
0F
07
0E
0C
0B
10
15
12
11
10
0F
13
0F
10
12
13
19
1B
21
17
1A
15
13
1A
1E
1F
21
21
30
30
54
4B
38
21
1D
27
22
32
33
28
29
25
25
24
24
05
3A
1B
0B
09
0C
0B
14
12
0E
10
12
0F
15
14
16
1C
17
20
1C
1D
18
1B
18
1A
18
1C
29
29
2E
27
2E
32
34
30
2C
2A
1F
2F
27
22
36
31
20
28
23
1F
23
00
38
16
04
0E
09
0A
0F
0B
10
0F
0C
0D
0D
14
0F
10
1A
0F
13
1C
15
1A
1C
21
21
21
1F
27
23
20
2C
2E
1E
23
24
27
2B
2A
37
33
23
34
1C
2A
21
20
25
03
39
14
10
0C
09
05
0F
10
12
0E
11
12
18
16
13
11
19
14
13
1C
16
1A
1E
1E
26
28
27
27
29
28
29
36
3C
36
2E
22
20
28
33
29
31
24
2E
23
21
28
21
00
2D
0A
07
07
08
08
0D
0A
0C
10
13
0E
11
11
12
1A
18
26
21
1C
1D
2B
27
2E
31
3A
32
2A
2C
29
2A
39
3F
44
51
5C
21
21
1A
20
29
30
25
23
24
22
24
02
1D
08
09
08
08
09
0A
0D
0D
10
10
10
0D
13
10
0D
15
1B
1D
1B
15
1B
21
1B
28
30
26
2C
2A
2F
3B
36
3E
48
59
44
48
3B
1B
22
20
23
28
29
27
1B
21
00
15
0B
07
0A
07
0A
0E
0D
0C
0B
10
0E
11
13
1D
1A
20
18
12
1B
18
2A
1D
23
25
26
2E
36
34
2A
30
24
29
3C
4B
31
2F
45
35
19
19
19
28
26
28
22
22
00
10
0A
08
0A
08
0C
0A
0B
0C
0C
0B
0F
14
17
12
1A
29
20
18
1E
1E
32
3F
47
34
40
41
4D
44
44
4E
2D
27
2E
30
3F
40
2E
4A
30
1B
18
22
1E
22
27
24
03
0E
0D
09
0B
09
0A
0C
0D
0A
0F
10
13
10
12
21
25
20
2F
47
55
36
34
4E
4E
4C
4C
4A
50
5A
57
3C
5A
56
2D
27
33
2F
3A
1D
35
1E
28
1E
1D
1E
20
28
01
0C
0B
09
0F
09
0A
0C
0C
0B
0F
0F
13
12
17
15
28
3F
3D
3D
49
5B
46
32
23
1F
26
2C
34
39
42
40
46
38
34
39
1F
2D
40
20
1D
17
2A
20
34
2D
17
2F
01
0A
0B
08
0A
0A
08
0E
0B
0B
0E
0C
11
12
17
1E
33
1F
3E
47
49
29
2C
25
21
2B
18
34
42
4F
31
40
46
4C
35
2B
37
2A
33
2C
1E
1C
1D
1F
38
2D
1E
26
01
0A
0C
05
0C
05
0A
0A
0B
09
0C
11
13
14
28
21
30
37
42
45
36
2C
1B
1B
19
1C
2C
46
45
29
28
49
68
5C
29
2B
24
25
2D
2F
16
1F
1F
1F
1B
23
1B
23
01
0A
06
08
07
08
0A
0C
0C
0C
10
11
17
19
1E
1F
26
29
3B
3A
28
19
26
1B
49
8B
90
8A
95
90
8C
5E
30
44
58
24
23
2B
2F
1F
19
1F
1D
1D
1B
1D
20
1A
00
09
07
08
06
07
06
0B
0D
0F
0D
13
11
13
1A
1C
2B
39
45
27
2A
29
4C
93
99
9B
A1
A5
9B
9B
93
AE
8B
26
5B
29
36
2C
1F
1F
18
1F
1B
1B
22
25
22
1D
00
06
05
05
0B
07
08
09
0B
09
15
0D
0F
17
17
1D
3E
49
2E
3B
24
4F
40
46
5B
42
39
89
AA
A5
A3
9F
8C
94
0D
69
27
20
1E
3B
1C
1C
1E
1C
26
28
21
16
00
08
05
09
07
07
06
0A
0B
09
10
0F
14
13
19
2D
29
24
48
33
9F
AF
BA
AF
AA
9B
A0
9E
7E
86
AC
A4
A3
9A
36
37
24
25
1B
34
16
31
1B
29
18
27
1C
21
00
07
06
03
0B
09
06
09
0A
0D
09
0D
11
16
14
1A
35
33
70
A8
AD
BC
BB
AB
AC
A7
97
A3
AD
AA
60
B1
AC
A2
50
25
2B
25
20
1A
18
23
26
22
1A
2A
5E
B0
00
06
06
08
05
08
04
0A
0A
07
12
0D
11
16
12
2D
6C
8F
96
A6
AC
AF
B5
B1
B7
A1
B8
B0
B3
B2
BA
4E
A5
A2
34
29
4D
26
37
2A
23
1C
31
43
4C
5F
72
2C
00
06
06
05
0B
0A
06
0A
0A
0B
11
0B
14
20
4F
7C
83
93
9F
91
AA
AB
AE
AC
AF
B4
AA
B7
AA
B3
BD
AA
3E
A6
52
82
50
3E
3C
38
39
2F
39
37
33
24
23
26
00
05
03
02
08
08
02
09
0B
08
12
25
39
73
7D
7A
5E
B4
96
81
B1
9E
95
A4
A6
B0
B2
AF
B2
AE
B4
AA
A1
8E
9C
97
85
55
3F
44
10
13
16
17
1C
22
18
22
00
05
07
08
09
09
06
0B
0C
15
50
7A
84
68
74
95
7B
AE
6B
4B
9C
A1
94
93
9A
AA
A5
AB
A8
A0
AE
A0
AF
4E
A8
A1
90
5E
3C
1E
13
11
14
10
11
15
25
2C
00
07
04
08
07
06
07
0B
17
60
68
7F
88
87
85
6B
94
79
24
A1
8D
97
84
89
93
A0
A6
AB
B2
A3
A8
A4
A8
70
B5
AB
96
62
34
0C
0E
16
13
15
14
14
16
22
00
07
06
06
03
0A
04
05
15
5D
66
79
7E
89
91
30
8A
42
0F
75
5F
82
7A
91
8F
9D
A3
99
92
9C
A2
9C
82
99
AA
AC
86
6D
30
0C
0E
10
14
15
14
13
15
1D
00
04
05
06
08
03
04
0C
1C
61
89
6D
8C
93
93
48
5A
39
22
4B
3E
70
8A
86
85
92
98
97
98
94
62
94
A4
AC
B3
B2
A3
6D
24
06
1A
12
13
12
14
19
11
1A
00
05
09
04
04
09
04
0C
15
59
71
80
73
8B
8C
62
3D
73
4B
AC
98
9F
9A
90
7F
72
76
90
8E
79
91
A2
AC
A6
AE
A6
A5
6E
17
0C
15
16
15
10
10
15
0F
10
00
04
05
02
04
07
06
0A
0D
33
5E
6E
7A
83
7F
87
42
7D
C3
A1
B7
AE
B9
AA
A0
8E
92
A4
9E
43
5F
AB
A2
A2
A0
A6
99
68
0D
10
15
13
1B
14
10
16
17
1A
00
04
04
05
02
06
09
04
08
0D
3F
54
5C
69
6F
71
76
89
A4
B5
B7
AD
BB
9F
A4
97
96
94
8E
2B
52
A8
96
89
9C
A0
8D
5E
0B
12
13
19
22
15
18
15
15
1D
00
06
05
03
00
06
05
07
09
0A
08
0C
1E
43
5F
5C
5C
46
3F
79
A3
A5
AD
91
C2
71
98
85
44
25
4F
93
71
7E
8C
89
7A
43
0E
1B
1A
1B
1A
1B
17
17
14
1A
00
02
01
02
04
03
05
06
08
07
09
0D
05
07
0B
0A
13
12
4F
0C
31
92
9C
97
9F
A7
6D
7C
34
2D
3F
52
73
5B
62
69
4E
0D
11
21
18
17
1E
1E
1E
1A
14
13
00
01
04
05
02
05
08
03
05
08
0A
09
0A
0A
09
08
08
06
0C
0B
11
16
8A
AD
99
32
08
08
18
07
09
0E
08
11
0A
0F
0E
10
1E
21
2C
19
1B
15
29
1B
18
14
00
02
04
05
04
03
06
05
05
08
09
0A
0F
12
12
11
13
12
18
13
14
10
15
7F
4E
04
0D
07
05
0E
0D
0E
10
0E
12
10
1B
21
23
34
2E
1D
15
1A
20
34
1F
1C
00
02
02
00
00
01
04
07
05
05
0A
06
0E
0A
0D
0C
0F
12
16
0F
0A
07
09
0C
09
0A
07
07
06
05
0D
09
0B
10
14
1C
15
18
1B
32
19
13
13
11
1A
29
21
21
00
02
03
02
04
06
05
04
04
03
03
04
0C
0B
0C
09
0C
0F
0F
0B
0D
0E
09
0B
08
0A
08
08
0A
06
09
0B
0B
10
0D
18
20
32
25
20
0F
14
16
10
15
1B
1B
1B
00
02
03
02
03
02
04
05
02
06
03
02
05
06
02
04
04
08
05
02
04
0A
05
0E
0A
0D
0C
09
0D
0C
0E
0D
0B
17
16
14
0F
1A
14
0B
0D
10
0C
14
12
16
16
17
00
07
04
04
08
03
06
03
05
07
02
05
02
06
04
04
04
03
05
03
08
0C
0B
0B
0D
0D
0B
09
0D
0A
0E
10
0E
12
14
10
0F
13
0D
0E
10
10
0D
13
17
17
18
17
00
01
02
04
00
07
01
02
04
01
05
00
04
03
07
02
01
03
08
06
07
08
0D
0C
0C
09
0E
08
0D
0F
0B
0C
0F
0D
11
10
16
10
10
10
0E
12
11
14
0E
16
10
17
02
02
04
00
06
01
0A
01
04
03
05
05
03
04
04
06
05
03
05
07
07
05
0F
0C
0A
0D
0D
0C
0F
0D
12
0C
10
0C
10
0F
12
13
0F
0D
0E
11
0E
17
14
16
13
13
00
02
03
00
09
04
03
06
00
05
04
04
06
05
05
04
05
04
05
07
07
0B
0B
09
0C
0C
0D
0D
0C
09
0B
10
11
0D
0E
0C
13
15
12
0D
14
12
12
12
12
17
16
13
01
03
02
03
04
04
02
03
04
02
02
03
05
03
04
03
03
03
04
04
06
05
07
05
07
07
0A
0B
08
0C
0B
09
0A
0C
0D
0F
0B
10
0F
0F
0D
0D
0D
11
12
12
10
14
Why is Vision Difficult?
Variation in Appearance
関連分野

基礎部分
• 画像処理Image Processing
• 統計的パターン認識Statistical Pattern Recognition
• 人工知能Artificial Intelligence

関連領域
•
•
•
•
•
ロボッテックスRobotics
生物視覚Biological vision
医学画像Medical imaging
コンピュータグラフィックスComputer graphics
人・コンピュータ相互作用Human-computer interaction
デジタル画像とは

アナログ情報 (フィルム,絵,実世界)
標本化&量子化

デジタル画像
•
•
•
•
デジタルカメラ
携帯電話
PCデータ, IT
デジタル放送
標本化(1D)

アナログデータを離散的に領域分割
アナログデータ
(時間軸と数値は連続)
サンプリングデータ
(時間軸は離散的)
サンプリング間隔
t
t
標本化(2D)

2-D デジタル画像の場合
アナログデータ
(x-y軸と数値は連続)
サンプリングデータ
(x-y軸は離散的)
サンプリング間隔によって画像解像度が決まる
ピクセル (Pixel)
2-Dデジタル画像の単位
 空間分割
columns

0
1
n
N-1
0
1
rows
m
M-1
Digital image
M x N pixels
空間的標本化(解像度)
40 x 30
pixels
80 x 60
pixels
160 x 120
pixels
320 x 240
pixels
量子化(1D)

サンプリングされたデータの数値を離散的に
分ける
サンプリングデータ
(時間軸は離散的) 量子化ビット数:
3 bit = 8 level
8 bit = 256 level
t
デジタルデータ
(時間軸と数値の両方が離散的)
t
量子化(2D)

2-Dデジタル画像の場合
色は数値として表される
(行列形式)
0
0
0
0
0
0
0
0
0
0
2
2
1
1
0
1
2
3
3
2
1
1
2
3
5
3
2
1
1
2
3
3
3
2
0
1
2
2
2
2
0
0
1
1
1
0
0
0
0
量子化ビット数によって色数が決まる
1 2
1
リンゴの画像例 2
(解像度10×10)
3
4
5
6
7
8
9
10
Y
3 4 5
6
8 9 10 X
7
36
44
42
43
43
52
54
55
54
47
39
44
42
44
51
39
46
63
59
52
44
47
43
41
54 184
171
39
65
58
49
47
49
59 254 246
251 170
48
61
48
51
40 140 233 162
143 249
39
63
40
55
41
96 228 243
253 217
38
61
38
47
44
19 146 213
230
67
58
56
38
44
42
35
10
5
3
49
53
49
35
44
45
47
48
44
47
45
47
46
24
28
30
33
37
39
40
43
42
41
赤成分の明るさ
表現の色数

何色で十分か?
16.7 million
colors
256
colors
16
colors
4
colors
2次元画像と3次元世界

カメラ画像は,三次元の座標系から二次元の
画像座標系へ射影したもの
二次元画像
三次元世界
コンピュータビジョンパラダイム(Marr)
物体中心表現
3次元物体表現
各種3次元表現
観測者中心表現
2-1/2次元表現
統合処理
明るさ
テクスチャ
線画
3D特徴抽出
(shape-from-x)
2次元画像
両眼立体視
動き
コンピュータビジョンパラダイム(Marr)
物体中心表現
3次元物体表現
各種3次元表現
観測者中心表現
2-1/2次元表現
統合処理
明るさ
テクスチャ
線画
3D特徴抽出
(shape-from-x)
2次元画像
OpenCV
両眼立体視
動き