自己組織化マップと 隠れマルコフ モデルによる 時系列気象画像の

隠れマルコフモデルによる時系列気象
画像の時空間変動パターン表現
*本田理恵、勝吉進一、小西修**
*高知大学・数理情報科学
**はこだて未来大
2005 地球惑星関連合同学会
[email protected]
研究の背景
 地球惑星科学データ
 観測、シミュレーションから膨大な時
空間データが生成
 効率的なパターン、規則性などの
知識発見の方法が必要
気象衛星画像
(Kitamoto,
国立情報研究所)
 従来の手法
 可視化
→データが複雑、膨大になると困
難に
 時間、空間方向の情報圧縮
→未知のパターンの見落とし
マントル対流
シミュレーション
(Iwase 2001)
目的
 時系列画像からの時空間変動パターン抽出
に機械学習、データマイニング手法の利用
 ビデオの解析手法を適用
 自己組織化マップ(SOM)によるクラスタリング
 隠れマルコフモデル(HMM)による時間変動モデリング
 両者の組み合わせによる時空間クラスタリング
 ひまわりの時系列気象画像に適用し、有用性
を評価
隠れマルコフモデル
Hidden Markov Model (HMM)
 確率的な状態遷移と記号出力を備えた数学的モデル
 音声認識などの分野で広く利用
 o1 : 0 .5 
 o : 0 .5 
 3

0.4
隠され
た状態
記号
st-1
st
st+1
A
0.2
0.1
ot-1
ot
ot+1
st  S, ot  Σ
状態の有限集合
S  S i | i  1, , n
出力記号の有限集合
Σ  oi | i  1, , k 
n : 状態数
k : 信号の場合の数
0.1
0.5
0.5 0.4
0.3
0.5
B
C
0.8
0.0
0.3
 o : 0 .2 
 o : 0 .0 
1
 o : 0 .8 
 2

1
 o : 1 .0 
 2

状態遷移確率分布
A  aij | i  1, n, j  1, , n
記号出力確率分布
B  bi (o j ) | i  1, , n, j  1, , k 
初期状態確率分布
π   i | i  1, , n
手法の概略
空間パターンマイニング
クラスタリング
ラベリング
1 2 3 4 5
画像ラベルの系列
6 7 ・・・
733231・・・・
2段階自己組織化マップ(SOM)
(片岡、小西1997, Honda et al. 2001)
0.4
時間パターンマイニング
7332321・・・・
0.1
 o1 : 0 .5 
 o : 0 .5 
 3

A
0.2
0.1
0.5
0.5 0.4
0.3
0.5
B
C
0.8
0.0
0.3
 o : 0 .2 
 o : 0 .0 
1
 o : 0 .8 
 2

1
 o : 1 .0 
 2

隠れマルコフモデル
状態系列の復元
AABBBCC ・・・・
隠された状態の理解
(気象:季節などの
一定の気象期間)
HMMの結果をSOMマップに可
視化(時空間クラスタリング)
データ
 データ
 1997年1月1日~200年年12月31日の気象衛星ひまわりの日
本上空の赤外画像(雲を反映)(東大生産研、高知大)
 640pixels x 480pixels
 サンプリング間隔1日
 計1335枚(欠損ふくむ)
 ・画像の記号への変換
 クラスタリングとラベル付
 2段階ブロック化自己組織化マップ(片岡・小西1997、Honda et.al.
2001)
 移動する物体を含む画像のグループ化が可能

ブロックの特徴ベクトル

64pixels x 64pixels の FFT パワースペクトラム
SOMによるクラスタリングの結果
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
01124・・・・
クラスタラベルの時系列
Cluster ID
35
25
1997
1998
1999
2000
15
5
-5
1
101
201
Day of Year
301
HMM:モデル推定と状態系列の復元
 モデル推定
 Baum・Welchアルゴリズム+EMアルゴリズム
(URL)によるパラメータ推定
 状態数2-8の中で、情報量基準(BIC)を用いて最
適な状態数とそのモデルを選択
 14日,28日のセグメントに対して学習
 状態系列の復元
 Viterbiアルゴリズム
HMMモデル学習と選択
 最適な状態数の選択
 ベイズの情報量(BIC)
BIC= ‐2(最大対数尤度)+dklogn
(dk:モデルの自由度 n:出力記号数)
情報量基準の状態の妥当性検証(14日)
17000
情報量基準
16000
最適な状態数5
15000
14000
BIC
13000
12000
11000
10000
0
2
4
6
状態数
8
10
得られたモデル(状態数5)
春、秋
真冬
初夏、初秋
(梅雨、秋雨前線)
復元された状態系列
冬、夏の
前後
盛夏
state number
5
4
state5
3
2
1
1
92
183
day of the year(1997)
274
365
得られたモデル(状態数5)
春、秋
梅雨、秋雨前線
真冬
冬、夏の
前後
盛夏
まとめ
 SOM,HMMにより時系列気象画像から時空間変動パターンを抽出し
た
 HMMの状態をSOMに投影しなおすことにより、時空間クラスタリング
を実現
 従来の季節認識と若干異なる複数季節にわたる状態(5)と、鎖状の
状態遷移モデルが得られた
 他の一般的な時空間データへの適用
 厳密にはHMMのような統計的非正則問題に対してはBIC
の使用には問題があることが指摘
 モデル選択へのベイズ推定の適用
状態系列の復元
state number
5
4
state5
3
2
1
1
92
183
day of the year(1997)
274
365
実験結果1(学習データが28日の状態5のモデル)
状態1[0.2]
状態4[0.24]
状態2[0.7]
春、秋
状態5[0.14]
0.01
状態3[0.19]
状態6[0.17]
盛
情報量基準
情報量基準の状態の妥当性検証(14日)
17000
情報量基準
16000
15000
14000
BIC
13000
12000
11000
10000
0
2
4
6
状態数
8
10
得られたモデルの例
情報量基準
情報量基準のモデルの妥当性検証(学習データ14日)
17000
情報量基準
16000
15000
14000
AIC
BIC
13000
12000
11000
10000
0
2
4
6
状態数
8
10
システム概要
画像
SOM
学習
クラスタリング
AIC,BIC
知識発見
HMM
データ
1
2
3
4
7
8
9
・・・
5
6
・・
・
3
6
.
EMアルゴリズム
バウム・ウェルチ
アルゴリズム
パラメータ推定
隠れマルコフモデル
時系列気象画像の
クラスタID
記号系列ABCを出力する状態遷移系列は?
0.4
S1-S3-S2, S2-S1-S2,状態数2~8までにお
 A : 0.5 
C : 0.5


いての最適なモデル
記号ABCを
S2-S3-S2の3種類。それぞれの確率は、
出力する確率
状態遷移系列を
モデルのパラメータ
0.8×0.2×0.5×1.0×0.4×0.5=0.016
求めたい!!
推定には、バウム・
ウェルチアルゴリズム、
0.2×0.5×0.1×0.8×0.5×0.5=0.002
EMアルゴリズムを
0.1
使用
S2
0.2
0.2×0.5×0.5×1.0×0.4×0.5=0.01
0.5
0.3
0.5
最適な状態遷移系列
0.4
よって隠れマルコフモデルがABCを出力する確率は三つ
ビタビ・アルゴリズム
0.5
S1
S3
の合計0.028となる
0.8
0.0
0.3
 A : 0.2
 B : 0.8


 A : 0.0
 B : 1.0 


画像データの説明
ヒストグラムを用いた二段階SOM
Step1:時系列気象画像をm×nに
分割する
Step2:分割された画像を自己組織化
マップによって学習させる
Step3:学習データのクラスタIDの
ヒストグラムをつくる
Step4:ヒストグラムを再び自己組織化
マップにかけ学習する
Step5:学習データが集合し、クラスタ
に分けられる
時系列気象画像
SOM
SOM
1
6
2
3
4
7 ・・・・・・・・・・・・・
5
AIC,BIC
 AIC(赤池の情報量基準) BIC(ベイスの情報量基準)
:情報量基準によるモデルの妥当性検証
AIC=‐2(最大対数尤度)+2dk* 状態遷移確率の
フリ―パラメータ
BIC= ‐2(最大対数尤度)+dk*
記号出力確
log n 率のフリー
パラメータ
初期状態確率
のフリーパラ
メータ
*dk:フリーパラメータ=O(O‐1)+O(N-1)+O-1
O:状態数 N:記号数 n:モデルにかかわる出力記号の数
状態遷移系列の復元
 Viterbiアルゴリズム

HMMで最適な状態遷移系
列を求める
初期状態
A
S1→S2=0.5
S1→S3=0.5
S2→S1=0.1
S2→S2=0.4
S2→S3=0.5
B
C
S1
S1
0.8
最大の確率が得られた地点から
太い矢印を逆向きにたどると
S2→S3→S1
S1
0.2
従って最適な状態遷移系列は
0.2
[0.16]
0.8
[0.008]
S2
S2
S2
0.5
[0.1]
0.0
[0.0]
0.5
[0.016]
S3
S3
S3
0.0
[0.0]
1.0
[0.08]
S1→S3→S2となる
0.0
0.0
実験結果1(学習データが28日の状態5のモデル)
状態1[0.2](春,秋)
状態2[0.7](盛夏)
春、秋
状態4[0.24]
0.01
状態5[0.14]
状態3[0.19]
状態6[0.17]
盛
0.4
 o1 : 0 .5 
 o : 0 .5 
 3

S2
0.2
0.1
0.5
S1
0.8
 o1 : 0 .2 
 o : 0 .8 
 2

0.5
0.3
0.5
0.3
0.4
S3
0.0
o1 : 0.0 
 o : 1 .0 
 2
