部分時系列クラスタリングの 理論的基礎

Tokyo Research Laboratory
2A-1-2
部分時系列クラスタリングの
理論的基礎
IBM東京基礎研究所
井手 剛
| 2006/ / | 第20回 人工知能学会全国大会
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
目次
 問題を理解する
 滑走窓とずらし演算子の関係を理解する
 k平均クラスタリングを固有値問題に焼きなおしてみる
 正弦波効果を導出してみる
 実験結果


Page 2
う、うなり?!
白色雑音なのに正弦波?!
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
問題を理解する
Page 3
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
部分時系列クラスタリングとは: 1本の(長い)時系列から部分系列を多数
生成し、それらをクラスタリング。クラスタ中心=代表パターン、のはず。
 滑走窓方式で部分時系列を生成
 生成された部分系列を、独立なベク
トルとしてk平均クラスタリング
各クラスターの総和平均
が「クラスタ中心」
代表パターン
Page 4
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
正弦波効果とは: 滑走窓式部分時系列クラスタリング(STSC)を使ってパ
ターンを抽出すると、なぜか正弦波が出てくる!
 Keoghによる衝撃的な報告: “Clustering
of time series subsequences is
meaningless”, ICDM ’03
 k平均の結果、クラスタ中心は正弦波に!
元のパターンとは似ても似つかない
ほとんど入力時系列には依存しない


なぜ正弦波が出るのかは未解決問題
「なぜ」を問わぬ所に進歩はない!
Page 5
| 2006/ / |
こんなやつを30個
づつ連結。長い時
系列を作る
K平均STSC実行
クラスタ中心は正弦波に。
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
滑走窓とずらし演算子の関係を理解する
Page 6
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
時系列の最初と最後をつないで、リングにする。そのリングを1次元の周期
格子だと思うと、時系列は、格子上の「状態」として理解できる。
{xt | t  1,2,..,n}
x1 x2
xn
t2
tn
t1
格子点 l をひとつの基底 el だとみ
なし、時系列をn 次元ベクトルΓだ
と考えることにする。
格子点 l に値 xl を割り振る。
(人為的に)周期的境界条件を課す
Page 7
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
部分系列 spは格子上の並進演算子を使ってスマートに表現できる。
「ずらして、ちょん切る」
w
n
1
n
1
後ろに p 歩ずらして第 1 ~ w サイト
を切り出したもの
※並進演算子(ずらし演算子)は基底の外積を使って表せる
状態 e2 を l だけずらしている例。
Page 8
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
k平均クラスタリングを固有値問題に焼きなおしてみる
Page 9
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
k平均法は2乗誤差を最小化する算法。
その目的関数はρという行列を使ってシンプルに書ける。
k平均クラスタリングは、2乗誤差を最小にする算法。
Duda et al. の
教科書参照。
クラスタ中心
われわれの表記では下記のように美しく表せる。
ただし、
密度行列 と呼ぶ。
Page 10
| 2006/ / |
クラスタ中心に対応する
状態ベクトル
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
k平均法の目的関数の最小化は、
密度行列についての固有値問題を解くことで達成できる。
Eの最小化は、下記の固有値問題と同等(説明略)。
ρは、部分系列を並べた行列Hを使って表せる:
つまり、j 番目のクラスタ中心 u(j) は、行列HHTの固有ベ
クトルとしても求められる。
H=
(HのSVDとも同等。)
密度行列(= HHT)の固有値問題として正弦波効果を調べてみよう。
Page 11
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
正弦波効果を導出してみる
Page 12
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
密度行列はフーリエ表示でほとんど対角的となるので、
その固有状態はフーリエ状態(=正弦波)そのもの。
ρは並進演算子を使って表せる(略 ←Dirac記法で書かないとなかなか気づかない! )。
そのため、フーリエ基底が相性よさそう。基底の変更をする。
波数。
この { fq } を基底にして w×w行列を作ると、ρの主要項は対角行列になることを示せる:
(対角成分)=(各フーリエ成分のパワー)
特定のfqのパワーが大きいときに
は、非対角成分の寄与は小さい。
特に、w =n (部分系列長=全系列長)の時は第2項は厳密にゼロ。
定理
時系列の(窓幅wの)パワースペクトルにおいてある波数 f が支配的ならば、k 平均のクラ
スタ中心は波長 w / |q| の正弦波でよく近似される。これは入力時系列の詳細によらない。
Page 13
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
実験結果
Page 14
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
実験結果(1/3): CBFデータに対する理論の確認。パワースペクトルとクラ
スタリング結果の対応を理論は完全に説明する(k=3, w=128)。
CBFデータについてのパワースペクトル。
いずれも |q| = 1 にウェイトが集中。
波長wの正弦波が出るはず。
k平均クラ
スタ中心
波長wが3つ。
波長wが2つと、w/2がひとつ
SVD
Page 15
| 2006/ / |
↑固有ベクトル間の直交条件による
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
実験結果(2/3):もっと面白い例。Synthetic Control Chartという標準デー
タでは、「うなり」がクラスタ中心において観測される(k=2, w=60) 。
このようなインスタンスを100個づ
つ連結して、長い時系列を作る。
パワースペクトルはCBFデータと異
なるので、クラスタリング結果も異
なるはず。
|q| = 4, 5, 6 にピーク
この3つの波が干渉して「うなり」を起こす。
うなりの波長も含めて、理論は下記のクラスタリング結果を完全に説明する。
Page 16
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
実験結果(3/3): Normalデータだけをクラスタリングしたらどうなるか。窓幅
が全時系列長に近づくにつれ、正弦波が現れる(k=2, w=60と6000)。
k=2, w=60
k=2, w=n=6000 (全時系列長=部分系列長)
パワースペクトルがほぼフラットでも、ほぼ純粋な正弦波になる。
→ 波数混合は起こらず、一番強いパワーを持つ波数にウェイト集中。
Page 17
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
まとめ
Page 18
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
まとめ
 正弦波効果の理論的理解は、データマイニング、機械学習における未解決の重要
課題だった。
 1次元格子上での密度行列理論を展開することで、正弦波効果の理論的由来をあ
らわに示すことに初めて成功した。
 それは、ここ数年発展してきた spectral clusteringの理論の、新しい別の定式化
になっており、機械学習の観点で意義深い。
 本論文の結果は、正弦波の擬パターンを回避する方法を考える上での重要な出
発点となっており、工学的観点からも意義深い。
Page 19
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
ありがとうございました。
Page 20
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
時系列の最初と最後をつないで、リングにする。そのリングを1次元の周期
格子だと思うと、時系列は、格子上の「状態」として理解できる。
{xt | t  1,2,..,n}
x1 x2
xn
t2
tn
t1
格子点 l をひとつの基底 el だとみ
なし、時系列をn 次元ベクトルΓだ
と考えることにする。
格子点 l に値 xl を割り振る。
(人為的に)周期的境界条件を課す
Page 21
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
部分系列 spは格子上の並進演算子を使ってスマートに表現できる。
Dirac記号は、並進演算子を陽に書けるので猛烈に見通しがよくなる。
w
n
1
n
1
後ろにp歩ずらして第1~wサイトを切り出したもの
※並進演算子(ずらし演算子)の具体的表現
状態 | 2 >を l だけずらしている例。
Page 22
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
k平均法は2乗誤差を最小化する算法。
その目的関数はρという線形演算子でシンプルに書ける。
k平均クラスタリングは、2乗誤差を最小にする算法。
Duda et al. の
教科書参照。
クラスタ中心
われわれの表記では下記のように美しく表せる。
ただし、
統計力学の用語を流用し
て、密度演算子、と呼ぶ
Page 23
| 2006/ / |
クラスタ中心に対応する
状態ベクトル
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
k平均法の目的関数の最小化は、ρについての固有値問題を解くことで達成
できる。それは通常の行列演算で計算可能。
Eの最小化は、下記の固有値問題と同等(説明略)。
などを普通のw次元のベクトルに戻して書き表すことも
できる。
つまり、j 番目のクラスタ中心 u(j) は、行列HHTの固有ベ
クトルとしても求められる
H=
ρ(もしくはHHT)の固有値問題として正弦波効果を調べてみよう。
Page 24
| 2006/ / |
© Copyright IBM Corporation 2006
Tokyo Research Laboratory
密度演算子ρの行列表現を求める。 ρはフーリエ表示でほとんど対角的とな
るので、その固有状態はフーリエ状態(=正弦波)そのもの。
ρは並進演算子を使って表せる(略 ←Dirac記法で書かないとなかなか気づかない! )。
そのため、フーリエ基底が相性よさそう。基底の変更をする。
波数。
のような w×w行列を作ると、
特定のfqのパワーが大きい
ときには、非対角成分の寄
与は小さい。
フーリエ成分 fq のパワー
特に、w =n (部分系列長=全系列長)の時は第2項は厳密にゼロ。
定理
時系列の(窓幅wの)パワースペクトルにおいてある波数 f が支配的ならば、k 平均のクラ
スタ中心は波長 w / |q| の正弦波でよく近似される。これは入力時系列の詳細によらない。
Page 25
| 2006/ / |
© Copyright IBM Corporation 2006