時空間データからのオブジェクトベース知識発見

時空間データからのオブジェクト
ベース知識発見
EMアルゴリズムによる雲画像からオブジェクト抽出
高知大学理学研究科 王帥 本田理恵
背景
• リモートセンシングやGISなどの様々な分
野において、時間・空間で変動するデータ
集合からのパターン発見が重要になって
いている。
– 空間データ内の特徴であるオブジェクトの属
性(位置、広がり、テクスチャなど)を時系列
データとして抽出
– 記述されたデータからのパターンの発見
– 予測への応用
本研究の目的
• 時系列画像からの不特定数・不定形状の
オブジェクトの抽出法の検討
– EMアルゴリズムによる混合密度分布推定
• ひまわり(GMS-5)の気象画像に適用
– 成分数不定性の問題の解決法
オブジェクト抽出の方法
任意の雲点の座標
Xi=(xi,yi)
原画像
2値画像
間引き画像
オブジェクト
多変量正規分布の混合分布でモデル化
q
P( X )    P( X | j )
j
j 1
p( X | j ) 
1
( 2 ) M
 1

exp ( X   j )T  j1 ( X   j )
 2

j
未知パラメータ
q: 成分数
{ωj、μj、Σj}
EMアルゴリズムによるパラメータ推定
q
P ( X )    j P( X | j )
p( X | j ) 
j 1
1
( 2 ) M
 1

exp ( X   j )T  j1 ( X   j )
 2

j
• 成分数qとモデルパラメータ{ωj、μj、Σj}の初期値を
与える。
• 下記、E、Mステップを繰り得してモデルパラメータを
求める。
– Eステップ
N
• 対数尤度 l   log P( X ) のパラメータの期待値を計算
– Mステップ
n 1
• 対数尤度を最大するパラメータを計算
実験環境
CPU
OS
Pentium Ⅲ 1GHz
TurboLinux Server6.5
メモリ
256Mb
データ個数
1243
反復回数
100
実行時間:約33分43秒
成分数の影響
成分数不定性の解決法
1. 異なる成分数での試行結果を評価して
最良のケースを選択
•
•
総当たり試行
逐次試行
2. 大きめの成分数を与えて複数回試行し、
重み係数の大きい安定成分のみ抽出
実験
アルゴリズム
1. 最大成分数qmaxを与える。
2. M回のEMアルゴリズム(異なる初期値)による推
定実行
3. 重み係数が閾値を超える成分のみ取り出す。
4. M回の試行の内、Q%以上出現した類似解のみ正
当な解として取り出す。
qmax=10
重み係数閾値=0.05
Q:パラメータ
試行結果1 (成分数10)
試行結果2 (成分数10)
試行結果3 (成分数10)
クラス
フ
ァ
イ
ル
1
2
3
4
5
6
7
8
9
10
1
9
37
112
8
46
43
105
63
111
48
167
136
156
40
149
82
184
107
35
123
2
10
36
112
9
47
43
105
63
112
48
156
52
133
83
183
109
24
119
3
14
36
118
9
53
44
106
63
114
48
156
46
136
84
4
14
36
118
9
53
44
107
56
156
43
155
87
184
112
24
120
5
14
36
118
9
53
44
114
56
156
40
150
83
184
107
24
121
6
8
36
120
9
46
43
111
55
157
49
182
109
24
119
7
15
35
119
9
58
45
158
32
183
105
24
121
8
9
36
125
11
46
43
9
125
11
105
63
167
136
113
56
103
53
167
136
11
150
83
184
111
24
120
157
39
149
82
184
107
24
121
13
173
113
85,
34
14
15
16
17
18
103
135
24
121
157
40
12
103
135
131
70
85
134
102
135
135
85
85
134
105
135
41
1
147
67
81
1
167
136
85
134
78
0
29
39
10回の試行結果の重ね合わせ (成分数10)
まとめ
• 不特定数・不定形状のオブジェクトを検出におい
てEMアルゴリズムは基本的に有効であるが、成
分数(オブジェクト数:未知)が解に大きな影響を
与えてしまう。
• 複数試行での安定成分検出の実験では、代表
的な成分は6割のケースで出現し、おおむね有
効なアルゴリズムであることがわかる。
• ただし表現の不定性や大量の計算時間の問題
がある。
• 今後、最適成分数を評価するアルゴリズムを再
検討する必要がある。
理想的な値
Fe.98070816.pgm
Fe.98070816の2値画像
Fe.98070816データ間引き3
成分数3
成分数4
成分数5