縮約類似度行列を用いたスペクトラル手法による - 茨城大学

縮約類似度行列を用いたスペクトラル手法による
クラスタリング結果の改善
Ê ¬Ò Ñ ÒØ Ó ÐÙ×Ø Ö Ò Ê ×ÙÐØ× Ý ËÔ ØÖ Ð Å Ø Ó
Í× Ò Ø Ê Ù Ë Ñ Ð Ö ØÝ Å ØÖ Ü
新納浩幸 ½£
佐々木稔 ½
À ÖÓÝÙ Ë ÒÒÓÙ½ Ò Å ÒÓÖÙ Ë ×
½
½
茨城大学 工学部 情報工学科
½
Ô ÖØÑ ÒØ Ó ÓÑÔÙØ Ö Ò ÁÒ ÓÖÑ Ø ÓÒ Ë Ò ×¸ Á Ö
ÍÒ Ú Ö× ØÝ
×ØÖ Ø
ËÔ ØÖ Ð ÐÙ×Ø Ö Ò × ØÙ ÐÐÝ ÔÓÛ Ö Ùи ÙØ Ò × ØÓ ×ÓÐÚ Ø
ÒÚ ÐÙ ÔÖÓ Ð Ñ Ó Ø Ä ÔÐ
Ò
Ñ ØÖ Ü ÓÒÚ ÖØ
ÖÓÑ Ø × Ñ Ð Ö ØÝ Ñ ØÖ Ü ÓÖÖ ×ÔÓÒ Ò ØÓ Ø
Ú Ò Ø × Øº Ì Ö ÓÖ ¸ Û
ÒÒÓØ Ù× ×Ô ØÖ Ð ÐÙ×Ø Ö Ò ÓÖ Ð Ö
Ø × Øº ÁÒ Ø × Ô Ô Ö¸ Û ÔÖÓÔÓ× Ø Ñ Ø Ó ØÓ Ö Ù
Ø × Ñ Ð Ö ØÝ Ñ ØÖ Üº Ù× ×Ô ØÖ Ð ÐÙ×Ø Ö Ò ÓÖ Ð Ö
Ø × Øº ÀÓÛ Ú Ö ÓÙÖ Ñ Ø Ó × Ò ×
ÐÙ×Ø Ö Ò Ö ×ÙÐØ ÓÖ Ø Ø Ö Ù Ø ÓÒº Ì Ö ÓÖ ¸ ÓÙÖ Ñ Ø Ó × Ö Ö
× Ø Ñ Ø Ó ØÓ ÑÔÖÓÚ
Ø
Ú Ò ÐÙ×Ø Ö Ò Ö ×ÙÐغ
ÁÒ Ø
ÜÔ Ö Ñ Òظ Û Ù× × Ú Ò Ø × Ø× ØÓ Ú ÐÙ Ø ÓÙÖ Ñ Ø Ó º Ï ÓÑÔ Ö ÓÙÖ Ñ Ø Ó
Û Ø ¹Ñ Ò× Ò ×Ô ØÖ Ð ÐÙ×Ø Ö Ò ¸ Å Ùغ Ì
ÜÔ Ö Ñ ÒØ × ÓÛ ÓÙÖ Ñ Ø Ó ÑÔÖÓÚ × Ø
ÐÙ×Ø Ö Ò Ö ×ÙÐØ Ò Ö Ø
Ý ¹Ñ Ò׺
ÁÒ ÙØÙÖ Û Û ÐÐ ÒÚ ×Ø Ø Ø ÔÖÓÔ Ö Ö Ù Ø ÓÒ
Ö ¸ Ò ÑÔÖÓÚ Ø × Ñ Ð Ö ØÝ ¬Ò Ø ÓÒº
½
はじめに
スペクトラルクラスタリングは精度の高いクラスタ
リング手法である。しかしそこでは類似度行列のサイ
ズの固有値問題を解く必要があり、データ数が多い場
合、現実的には利用できない。本論文では縮約された
類似度行列(縮約類似度行列)を作成することで、対
象データセットに対するスペクトラルクラスタリング
を行う。ただしここで提案する縮約類似度行列の作成
方法は、ある程度妥当なクラスタリング結果を必要と
する。そのため提案する縮約類似度行列を利用してス
ペクトラルクラスタリングを行うことは、最初に得ら
れたクラスタリング結果を改善するという位置づけに
なる。
スペクトラルクラスタリングは、グラフ分割の観点
からクラスタリングを行う手法であり、その精度の高
さから近年活発に研究されている
¿ 。そこではグラ
フの最適な分割を求めるために、ある評価関数を設定
する。この評価関数の最適解がある固有値問題の解に
対応することを利用して、クラスタリングを行うのが
£ 連絡先:茨城大学工学部情報工学科
〒 ¿½ ¹ ½½ 茨城県日立市中成沢 ¹½¾¹½
× ÒÒÓÙ Ñܺ Ö º º Ô
スペクトルクラスタリングである。
スペクトラルクラスタリングの精度は高いが、実際
の処理には類似度行列のサイズ(つまりデータ数の自
乗のサイズ)の固有値問題を解く必要がある。このた
めデータ数が大きい場合、スペクトラルクラスタリン
グは現実的には利用できない ¾ 。ここではデータ数が
概ね ½¼¸¼¼¼ 以下のデータセットを想定しているが、こ
の程度のデータ数でもスペクトラルクラスタリングを
利用するのは無理がある。
本手法の概略を述べると、まずデータセットを ¹
Ñ Ò× でクラスタリングし、そこから各クラスタの重
心に近いデータだけをまとめて、1つのデータと見な
す。1点にまとめられるデータの集合を、論文
に
従って、ここでは ÓÑÑ ØØ と呼ぶ。 ÓÑÑ ØØ 以
外のデータはそのまま ½ 点となる。それらデータに対
して類似度行列を作成する。この際、 ÓÑÑ ØØ の大
きさ分だけデータサイズが縮約されるので、類似度行
列も縮約される。この縮約された類似度行列をここで
は縮約類似度行列と呼ぶ。
本手法の主張点はこの縮約類似度行列の作成方法に
ある。 ÓÑÑ ØØ が真に同じクラスタに属するデータ
で構成されることを仮定すれば、データ間の類似度は、
スペクトラルクラスタリングで利用する類似度行列の
拡張になるように設定できる。本論文ではこの点をま
ず示す。ただし上記の仮定は実際には成立していない
ので、類似度を近似する必要がある。その近似式を提
案する。
以上により、縮約類似度行列が作成でき、それを用
いてスペクトラルクラスタリングを行う。縮約類似度
行列を作成するために、 ¹Ñ Ò× 等でクラスタリング
を既に行っているので、スペクトラルクラスタリング
により得られたクラスタリング結果は、最初のクラス
タリング結果の改良と見なされる。
実験では つの文書データセットを用いて、本手法
の有効性を示す。本手法により大規模なデータに対し
てもスペクトラルクラスタリング手法を適用すること
が可能になる。適切な縮約の度合いの推定と近似式の
改良が今後の課題である。
¾
スペクトラルクラスタリングでは、データをグラフ
のノードとして表現し、ノード間のエッジの重みには
両端のデータ間の類似度を与える。類似度が ¼ の場合
は、エッジを張らない。このようにデータの集合をグ
ラフとして表した場合、クラスタリングとはエッジを
カットして、全体のグラフをいくつかのサブグラフに
分割することに対応する。その際に、サブグラフ内の
エッジは密になり、サブグラフ間でカットしたエッジ
は疎になるようなカットが望ましい。望ましいカット
を見つけるために,評価関数を設定する。この評価関
数の最適解がある固有値問題の解に対応することを利
用して,クラスタリングを行うのがスペクトラルクラ
スタリングである。評価関数はいくつか提案されてい
るが、ここでは Å ÙØ ¿ で提案されているものを利用
する。
まずサブグラフ と の類似度 ÙØ´
µ を以下で
定義する。
Ï´
µ
µ
´½µ
ここで関数 Ï ´
µ はサブグラフ と 間にあ
るエッジの重みの総和である。エッジの重みはノード
(データ)間の類似度を表すので、結局、関数 Ï ´
µ
はサブグラフ と
の類似度を表している。また,
Ï ´ µ Ï ´ µ と定義しておく。
Å ÙØ の評価関数は以下である。この式を最小化す
るようなサブグラフ と を見つけることが課題で
ある。
Å ÙØ
ÙØ´
Ï´
µ
µ
·
ÙØ´
Ï´
µ
µ
ÝÌ ´ Ï µÝ
ÝÌ ÏÝ
ÂÑ
´¿µ
ここで Ï はデータ間の類似度行列、また
´Ï µ
Ø
である。 は
´½ ½
½µ 、
は対角要素の行
列を意味する。つまり、
¡¡¡
¼
¡¡¡ ¼
¼
¼
¾ ¡¡¡
¡¡¡ ¡¡¡ ¡¡¡ ¡¡¡
¼
¼ ¡¡¡ Æ
¼
½
½
であり、 は 番目のデータとその他のデータ( 番目
のデータも含む)との類似度の和である。つまり は
ノード の
Ö である。
また Õ は Æ 次元ベクトルであり、各要素は か
の離散的な値を取る。 番目のデータがクラスタ に含
まれるなら、Õ の 番目の要素は 、クラスタ に含ま
スペクトラルクラスタリング
ÙØ´
上記の処理を再帰的に繰り返す。
式 ´¾µ の最小化の問題は、以下の式を最小化するベ
クトル Ý を求める問題と等価である。
´¾µ
スペクトラルクラスタリングは ¾ つのクラスタに分
割するのが基本である。目的のクラスタ数を得るまで、
れるなら
Õ
È
を取る。ここで
を意味し、
、
Õ
で
·
である。
あり、
¾
次に式 ´¿µ の最小化問題を解くために、Ý を連続値の
要素をとるベクトルと考える。このとき式 ´¿µ の最小
化問題は、以下の固有値問題を解くことで得られる。
Á ½
¾
Ï
½
¾
´ µ
この最小の固有値に対する固有ベクトルが式 ´¿µ を
最小にするが、最小の固有値は ¼ であり、その対応す
½ ¾ である。これは我々には意味
るベクトルは Ù½
がないので、ここから ¾ 番目に小さな固有値に対応す
る固有ベクトル Ù¾ を求め、それを近似解とする。この
ベクトルは
Ð Ö ベクトルと呼ばれる。
½ ¾ Ù¾ から Õ を得る。次に Õ の要素を
次に Õ
ソートして、ある値以上をクラスタ に、それより小
さい部分をクラスタ に対応させることでクラスタリ
ングが行える。実際には、Õ の要素が正ならクラスタ
に、負ならクラスタ に対応させる簡易な方法でも
概ねうまくゆく。
¿
縮約類似度行列
データセット のデータ数が Æ のとき、 に対す
る類似度行列 Ï は Æ Æ のサイズとなる。スペクト
ラルクラスタリングを用いて、 がクラスタ とクラ
スタ に分割されたとする。このときこの分割によっ
て式 ´¾µ の値が最小になる。
¢
そしてクラスタ
すことを考える。
のある部分集合
¼
½
まず ¼ とクラスタ
義する。
× Ñ´
¾
¼ を ½ 点 ¼ で表
¡¡¡ Ñ
内の点 との類似度を以下で定
¼ µ
Ñ
½
× Ñ´
µ
´ µ
次に ¼ とクラスタ 内の点で ¼ に含まれていない点、
¼ 内の点 との類似度を以下で定義する。
つまり
× Ñ´
¼
µ
Ñ
½
× Ñ´
µ
´ µ
最後に ¼ と ¼ の類似度を以下で定義する。
× Ñ´
¼
¼µ
Ñ Ñ
½
½
× Ñ´
µ
´ µ
式 ´ µ、´ µ、´ µ を用いて、 中の ¼ を ½ 点 ¼ で
表し、その結果できるデータセットを ¼ とする。この
¼ に対する縮約類似度行列 Ï ¼ を作成する。このとき
Ï ¼ のサイズは ´Æ Ñ · ½µ ´Æ Ñ · ½µ に縮約さ
れている。
に対するクラスタリング結果を ¼ のクラスタリ
ング結果に当てはめる。つまり ¼ 以外のデータのクラ
スタリング結果は のクラスタリング結果と同じであ
り、データ ¼ のクラスタは と考える。そして Ï ¼ を
用いて、式 ´¾µ の値を計算する。するとこの値は、
に対するクラスタリング結果を Ï を用いて計算した
式 ´¾µ の値と同じであることが容易に確認できる。
に対してはクラスタ とクラスタ の分割によっ
て、式 ´¾µ の値が最小になることを考えれば、縮約類
似度行列 Ï ¼ を用いて、スペクトラルクラスタリング
を行った場合でも先と同じクラスタ とクラスタ の
分割が得られる。
以上より式 ´ µ、´ µ、´ µ を用いて、クラスタ内の一
部のデータを縮約した縮約類似度行列が作成可能であ
る。これによって行列のサイズが小さくなり、スペク
トラルクラスタリングが可能となる。
ただし現実的にはクラスタ とクラスタ の分割が
不明であるので、縮約類似度行列 Ï ¼ を用いてスペク
トラルクラスタリングを行っても妥当な結果は得られ
ない。この問題への対処を以下に説明する。
¢
かし一般に正しいクラスタリング結果を得ることはで
きない。
ここでは縮約するデータの集合はクラスタ全体でなく
ても良いことに注目する。つまり先の ¼ は の部分集
合であり、 そのものである必要はない。必要なことは
¼ 内のデータが同じクラスタに属することである。こ
のような ¼ をここでは、論文
に従って ÓÑÑ ØØ
と呼ぶ。
そこで本論文では、まず ¹Ñ Ò× などの荒いクラス
タリング手法を用いることで、あるクラスタリング結
果を得る。次に、そのクラスタリング結果の信頼性の
高い部分を選出することで、 ÓÑÑ ØØ を作成する。
具体的には各クラスタの重心から近い距離のデータは、
そのクラスタに真に属すると考え、 ÓÑÑ ØØ のメン
バと見なすことにする。
ここでどの程度、重心から近ければ ÓÑÑ ØØ の
メンバとするかによって、縮約の程度が変化する。例
えば、重心から近い順に上位 割を ÓÑÑ ØØ のメ
ンバと考えれば、データ数を約 割カットした縮約が
可能となる。ただしその一方で実際には同じクラスタ
に属さないデータも ÓÑÑ ØØ に属するようになる。
その部分の誤りは以後の処理でも引き継ぎ、結果とし
て、最終的な精度が低くなる。
¿º¾ 重心を利用した類似度の近似
ÓÑÑ ØØ 群が作成できた場合、各 ÓÑÑ ØØ を縮
約した縮約類似度行列を作成するためには式 ´ µ、´ µ、
´ µ の計算を行わなくてはならない。しかし現実的には
ÓÑÑ ØØ 内に誤りが含まれるために、そのままの式
を使うと誤りが増大してしまう。
このために本論文では、 ¼ の重心 を利用して、以
下の近似式を用いる。
× Ñ´
¼ µ
Ñ ¡ × Ñ´
µ
´ µ
× Ñ´
¼
Ñ ¡ × Ñ´
µ
´ µ
× Ñ´
µ
¼ ¼µ
Ñ
¾
´½¼µ
クラスタリングの手順
ここでは提案するクラスタリングの手順をまとめる。
¿º½
荒いクラスタリングによる
Ø の作成
ÓÑÑ Ø¹
縮約類似度行列を作成するためにはデータセット
に対する正しいクラスタリング結果が必要である。し
×Ø Ô ½º データセット
と目的とするクラスタ数 Ã
を与え、 ¹Ñ Ò× によりクラスタリングを行う。
×Ø Ô ¾º ×Ø Ô ½º
によって得られた各クラスタに対し
て、そのクラスタの重心を求め、重心から距離の
近い順にそのクラスタの 割のデータを取り出
し、それをそのクラスタの ÓÑÑ ØØ とする。
×Ø Ô ¿º ×Ø Ô ¾º によって作成された
ÓÑÑ ØØ は Ã
個あるが、それぞれを ½ 点に縮約し、新たなデー
タセットを作成する。そのデータセットに対して、
式 ´ µ、´ µ、´½¼µ を用いて縮約類似度行列 Ï ¼ を
作成する。
×Ø Ô º Ï ¼ に対してスペクトラルクラスタリングを
行い、得られたクラスタリング結果中の1点に縮
約されたデータをもとに戻すことで、全体のクラ
スタリング結果を得る。
×Ø Ô º には注意が必要である。½ 点に縮約された
データが複数存在するが、それらはスペクトラルクラ
スタリングによってそれぞれ別個のクラスタに割り当
てられなくてはならないからである。
通常、½ 点に縮約されたデータは別個のクラスタに
割り当てられるはずであるが、½ 点に縮約されたデー
タどうしが同じクラスタに割り当てられることも考え
られる。そのため、ここではスペクトラルクラスタリ
ングで ¾ 分割を行う際に、½ 点に縮約されたデータが
少なくとも ½ 点クラスタに含まれるように調整する。
具体的には
Ð Ö ベクトルをソートして、ある点
でカットしたときに、片側だけに縮約されたデータが
集まった場合は、反対側のクラスタに最も近い縮約さ
れたデータを1点だけ反対側のクラスタに移動させる。
この処理によって最終的なクラスタリング結果には、
各クラスタに1点だけ縮約されたデータが入ることに
なる。
まず最初に ¹Ñ Ò× によりクラスタリングを行う。
得られた各クラスタからそのクラスタの重心までの距
離を利用して距離の近い上位 割を ÓÑÑ ØØ とし
た。次に式 ´ µ、´ µ、´½¼µ を用いて、縮約類似度行列
を作成した。
作成された縮約類似度行列を用いて、スペクトラル
クラスタリングを行い、最終的に得られたクラスタリン
グ結果をエントロピーと純度で評価した結果が表 ¿ と
表 である。当然、本手法はスペクトラルクラスタリン
グ ´Å Ùص の結果よりも精度は悪いが、 ¹Ñ Ò× よりも
精度は改善されている。また
Ñ × 、Ð ½¾、×ÔÓÖØ×、
Ó × Ð の つのデータセットに対してはデータ数が大
きく、スペクトラルクラスタリングを行うには現実的
には不可能である。
表 ¾ 実験結果(エントロピー)
データ名
ØÖ½¾
ØÖ¿½
ÑÑ
Ñ ×
Ð ½¾
×ÔÓÖØ×
Ó × Ð
Å ÙØ
¼º¿ ¼¼
¼º¾
¼º ½
¹Ñ Ò×
¼º ¿
¼º¿ ½
¼º
¼º
¼º ¾¿
¼º¿½ ¾
¼º
本手法
¼º¿ ¼
¼º¿ ½
¼º ¿
¼º
¼º
¼º¿¼
¼º ¾¾
表 ¿ 実験結果(純度)
データ名
ØÖ½¾
ØÖ¿½
ÑÑ
Ñ ×
Ð ½¾
×ÔÓÖØ×
Ó × Ð
Å ÙØ
¼º ¼ ½
¼º ¼¿
¼º
¹Ñ Ò×
¼º
¼
¼º ¼
¼º ¼½
¼º
¼º ¼½
¼º ¿
¼º ¿
本手法
¼º
½
¼º ¼¾
¼º
¼º
¼º ¼½
¼º
½
¼º
¼
実験
提案手法の効果を確認するために、 ÄÍÌÇ のサイ
ト½ で提供されている つのデータセット ´ØÖ½¾¸ ØÖ¿½¸
ÑѸ Ð ½¾¸ ×ÔÓÖØ׸ Ó × Ð¸
Ñ × µ を用いる。これら
のデータセットのデータ数、次元数、非ゼロ要素数、ク
ラスタ数を表 ½ にまとめる。
表 ½ データセット
データ名
データ数
次元数
非ゼロ
要素数
ØÖ½¾
ØÖ¿½
ÑÑ
Ñ ×
Ð ½¾
×ÔÓÖØ×
Ó × Ð
¿½¿
¾
¾ ¾½
¿
¾
¼
½½½ ¾
¼
½¼½¾
½¾ ¿ ¿
½ ½
¿½ ¾
½¾ ¿ ¿
½½
¼
¼¿
¼¼ ¾
¿½ ½
¿ ¼
½½¼
¼
¿
½
ØØÔ »» Ð ÖÓ׺ Ø ºÙÑÒº Ù»
クラス数
¾
¾
¾
½¼
ÓÑ » ÐÙØÓ» ÐÙØÓ» ÓÛÒÐÓ
考察
º½ 縮約の度合い
実験では縮約の度合いを 割減になるようにとった。
この 割というのは適当である。データセット ÑÑ に
対して、この縮約の度合いを ½ 割づつ変えながらエント
ロピーと純度を調べた。実験結果を図 ½ と図 ¾ に示す。
½¼¼± 縮約を行うと、それは ¹Ñ Ò× の結果をその
まま使うことになる。これがグラフの最も左側の位置
を表す。また全く縮約を行わない場合、それは全デー
タを対象にしてスペクトラルクラスタリング(Å ÙØ)
を行うことを意味する。これがグラフの最も右側の位
置を表す。
理論的には縮約の度合いが大きいほど、結果は ¹
Ñ Ò× に近くなり、縮約の度合いが小さいほど、結果
は Å ÙØ に近くなり、しかもその間は単調に増減する
0.99
0.985
k-means
0.98
0.975
0.97
Mcut
0.965
0.96
図 ½ 縮約に対するエントロピーの変化
0.585
Mcut
0.58
0.575
0.57
0.565
0.56
0.555
0.55
k-means
図 ¾ 縮約に対する純度の変化
はずである。図 ½ と図 ¾ に単調性はないが、その傾向
があることは確認できる。
実際に単調にならないのは、 ÓÑÑ ØØ 内に誤りが
含まれる点と、類似度の算出が近似であることが原因
である。
また、一般に Å ÙØ の方が精度が高いので、縮約の
程度は小さくした方が精度が高いが、縮約の程度が小
さいと計算の負荷を減らす効果も小さく、本来の意味
が失われる。どの程度の縮約の度合いにすれば良いか、
また現実的に有効な類似度の近似式の提案は、今後の
課題である。
º¾
クラスタリングの改善
縮約類似度行列を用いてスペクトラルクラスタリン
グが可能になるが、縮約類似度行列を作成するために、
荒いクラスタリングが必要となる。そのため縮約類似
度行列を用いたスペクトラルクラスタリングは縮約類
似度行列を作成するために行ったクラスタリング結果
を改善しないと意味がない。
クラスタリング結果の改善手法という位置づけで本
手法を見た場合、まず最初のクラスタリングで正解と
思われるものを固定して、分類が曖昧になるデータに
対してだけ、高精度のクラスタリング手法を行ってい
る形になる。
´ ÐÙ×Ø Ö Ò Ý
そのためここでのアプローチは
では Óѹ
ÓÑÑ ØØ µ の一種とも考えられる。
Ñ ØØ と呼ばれる各クラスタの核となるデータセット
を作り、各データは ÓÑÑ ØØ との距離によってどの
ÓÑÑ ØØ に属するかを判定することでクラスタリン
グを行う。各データの ÓÑÑ ØØ への割り当ては、単
連結法(最短距離法)によるクラスタリングと見なせ
る。一方、本手法においては ¹Ñ Ò× で得られたクラ
スタ中の信頼性のある集合を ÓÑÑ ØØ とし、各デー
タの振り分け部分にスペクトラルクラスタリングを利
用している。
またあるクラスタリング結果を部分的に調整するこ
とで、クラスタリング結果を改善する手法がいくつか
提案されている。論文 ½ の ¬Ö×Ø Ú Ð Ø ÓÒ や論文 ¿
のÄÒ
× Ö ¬Ò Ñ ÒØ は、基本的には、クラスタ内
のデータを別のクラスタに移動させた場合の評価値を
現在得られているクラスタリング結果から算出し、ク
ラスタ間で一部のデータを移動させることでクラスタ
リング結果を改善する。
また ¹Ñ Ò× 等の初期値依存性のあるクラスタリン
グ手法は最初に荒いクラスタリング結果を得ることで、
初期値を構成する手法が存在する 。その場合、それ
らの手法はクラスタリング結果の改善手法と位置づけ
られる。
また混合分布モデルを用いたクラスタリングにおい
ても、分散共分散行列のモデルを推定するために、最
初にクラスタリングを行う場合があり、これもクラス
タリング結果の改善手法と見なせる。
º¿ 精度が改善できない問題
本来、 ÓÑÑ ØØ に属さないデータはクラスタが曖
昧なデータであり、それらを正確にクラスタに分類す
ること自体が困難なタスクである。そのため、本手法
を用いても精度が改善できない場合も存在する。
本手法では最初のクラスタリングとして ¹Ñ Ò× を
用いているが、 ¹Ñ Ò× 自体はそれほど荒いクラスタ
リングではなく、標準的な精度が得られる。スペクトラ
ルクラスタリングが精度の高い手法であったとしても、
¹Ñ Ò× と精度的に差が生じないようなデータは存在
する。このような場合は、 ¹Ñ Ò× の結果を改善するこ
とは難しい。スペクトラルクラスタリングが ¹Ñ Ò×
よりも良い結果を出すようなタイプのデータセットに
対して本手法は効果を発揮するといえる。
º
大規模データセットに対するスペクトラ
ルクラスタリング
ここではデータ数が概ね ½¼¸¼¼¼ 以下のデータセット
に対するクラスタリングを考えたが、更に大きなデー
タセットに対しても利用可能である。
大規模データセットに対する従来のクラスタリング
手法は、サンプリングのアプローチと小規模クラスタ
生成のアプローチに大別できる。
サンプリングのアプローチでの代表的研究は Æ ら
の Ä Ê ÆË である 。これはその前身の Ä Ê
の改良版である。 Ä Ê ではランダムサンプルから
得たデータを È Å と呼ばれる ¹Ñ Ò× に類似のク
ラスタリング手法でクラスタリングする。次にランダ
ムサンプルで選ばれなかったデータを各クラスタとの
距離に基づいて割り振ることでクラスタリングを行う。
Ä Ê ÆË は Ä Ê が最初にランダムサンプルし
ている部分を、È Å の実行中に行うことで精度の向
上を図っている。
小規模クラスタ生成のアプローチの代表的研究は
Ò らの ÁÊ À
と À ÒÒ ÙÖ らの格子を用い
た手法
がある。 ÁÊ À では最初にデータを走査
し、 ¹ØÖ というデータの要約情報を作成する。以
後の処理は
¹ØÖ に対して行うことで、クラスタリ
ングが可能となる。 ¹ØÖ が小規模クラスタ群に対
応する。また格子を用いた手法とは各次元を Ä 個の区
間に離散化し、空間を Ä 個の格子に分割する。そして
各格子内のデータから小規模クラスタを生成する。Ä
がデータ数よりも小くなるように設定すれば、大規模
データに対するクラスタリングが可能となる。
どちらのアプローチにしても、中規模のクラスタリ
ングが核となるので、そこで本手法が利用可能になる。
実験によって提案する縮約類似度行列によりスペク
トラルクラスタリングが可能となることを示した。ま
た合計 個のデータセットを用いた実験では、最初に
行った ¹Ñ Ò× のクラスタリング結果を改善すること
ができた。
最適な縮約の度合いを推定することと類似度の近似
式を精緻にすることを今後の課題とする。
謝辞
本研究の一部は、日本学術振興会 科学研究費補助金
特定研究「日本語コーパス」(課題番号 ½ ¼½½¼¼½)に
よる補助のもとで行われた。
参考文献
½
ÁÒ Ö Ø Ëº
ÐÐÓÒ¸ ÙÕ Ò
Ù Ò¸ Ò Âº ÃÓ Òº ÁØ Ö¹
ØÚ
ÐÙ×Ø Ö Ò Ó À
Ñ ÒØ ÓÒ Ð Ì ÜØ
Ø
Ù ¹
Ñ ÒØ
Ý ÄÓ Ð Ë Ö º ÁÒ
¸ ÔÔº ½¿½ß½¿ ¸ ¾¼¼¾º
¾
ÁÒ Ö Ø
ÐÐÓÒ¸
ÙÕ Ò
Ù Ò¸ Ò
ÍÒ ¬
Î Û Ó Ã ÖÒ Ð ¹Ñ Ò׸ ËÔ
Ò
Ö Ô
ÙØ׺ ÁÒ
本論文では縮約類似度行列を用いたスペクトラルク
ラスタリングを提案した。
スペクトラルクラスタリングは高精度のクラスタリ
ング手法であるが、その実行には、類似度行列のサイ
ズの固有値問題を解く必要があり、計算負荷が高い。こ
こでは最初に ¹Ñ Ò× で荒いクラスタリングを行い、
各クラスタに対する ÓÑÑ ØØ を作成し、それを ½
点で表すことで縮約類似度行列を作成する。類似度の
設定をスペクトラルクラスタリングに特化した形にし
ている点が特徴である。
これによって大規模データセットに対してもスペク
トラルクラスタリングが可能となる。ただし最初に荒
いクラスタリング結果を得ているので、本手法はクラ
スタリング結果の改善手法と位置づけられる。
ÁÒØ ÖÒ ¹
Ö Ò ÃÙР׺
ØÖ Ð
ÐÙ×Ø Ö Ò
Ì ÍÒ Ú Ö× ØÝ Ó Ì Ü × Ø Ù×Ø Ò¸
Ô ÖØÑ ÒØ Ó ÓÑÔÙØ Ö Ë Ò ×º Ì Ò Ð Ê ÔÓÖØ
Ìʹ¼ ¹¾ ¸ ¾¼¼ º
¿
Ö×
Ò ¸
Ó Ò À ¸ ÀÓÒ ÝÙ Ò
¸ ÅÒ
Ù¸
Ò ÀÓÖ×Ø Ë ÑÓÒº ËÔ ØÖ Ð Å Ò¹Ñ Ü
ÙØ ÓÖ
Ö Ô
È ÖØ Ø ÓÒ Ò
Ò
Ø
ÐÙ×Ø Ö Ò º ÁÒ
¸ ¾¼¼½º
Ä ÛÖ Ò
Ð Ý Æ Ø ÓÒ Ð Ä º Ì º Ö ÔÓÖØ
Ö ¹
º À ¸ ź Ä Ò¸ ¹Äº Ì Ò¸ ˹ º ËÙÒ ¸ Ò À¹ º ÄÓÛº
ÁÒ Ø Ð Þ Ø ÓÒ Ó
ÐÙ×Ø Ö Ê ¬Ò Ñ ÒØ Ð ÓÖ Ø Ñ×
Ê ¹
Ú Û Ò
ÓÑÔ Ö Ø Ú ËØ٠ݺ ÁÒ
¸ ÔÔº ¾ ß¿¼¾¸ ¾¼¼ º
Á
ÓÒ º Æ ÙÖ Ð Æ ØÛÓÖ ×
º À ÒÒ ÙÖ
Ò
ÔÖÓ
ØÓ ÐÙ×Ø Ö Ò
Û Ø ÆÓ × º ÁÒ
ÔÔº
ß ¸ ½
º
ÃÒÓÛÐ
おわりに
Ì ¾¼¼¾ Á
Ø ÅÒÒ
Ø ÓÒ Ð ÓÒ Ö Ò ÓÒ
º
º à Ѻ
Ò
Ò Ä Ö
ÅÙÐØ Ñ
¸ ½
º
Ⱥ È ÒØ Ð Ò
Ñ ØØ ×º ÁÒ
ÈÖÓ
º Ä Òº
Ò ÐÝ× × Ò Å
ß ¼ ¸ ¾¼¼¼º
Ó ÙÑ ÒØ
Å Ð
Ô¹
× ×
¸
Ø ÅÒÒ
Ø
ÐÙ×Ø Ö Ò
Ò × Ó ËÁ Áʹ¼¾¸ ¾¼¼¾º
Â Ò Ó Ë
Ò ÂØ Ò Ö
Ñ
× Ñ ÒØ Ø ÓÒº
ÒØ
Ø
ÒØ Ò
« ØÚ
Ø Å Ò Ò º ÁÒ
Ø ÖÒ Ø ÓÒ Ð ÓÒ Ö Ò ÓÒ Î ÖÝ Ä Ö
ß½
Æ
× ÓÚ ÖÝ Ò
ʺ ̺ Æ
Ò Âº À Òº
Æ
Ø Ö Ò Å Ø Ó × ÓÖ ËÔ Ø Ð
½
ÁÒغ ÂÓ ÒØ
º ÆÓÖÑ Ð Þ
ÐÙ×¹
¾¼Ø ÁÒ¹
× ×¸ ÔÔº
ÛØ
ÙØ×
Óѹ
Ò
Á
ÌÖ Ò× Ø ÓÒ× ÓÒ È ØØ ÖÒ
Ò ÁÒØ ÐÐ Ò ¸ ÎÓк ¾¾¸ ÆÓº ¸ ÔÔº
Ì Ò
Ò ¸ Ê
Ù Ê Ñ Ö × Ò Ò¸ Ò Å ÖÓÒ Ä ÚÒݺ
ÁÊ À
Æ Û
Ø
ÐÙ×Ø Ö Ò
Ð ÓÖ Ø Ñ Ò ÁØ×
ÔÔÐ
Ø ÓÒ׺
¸
ÎÓк ½¸ ÆÓº ¾¸ ÔÔº ½ ½ß½ ¾¸ ½
º
Ø Å Ò Ò Ò ÃÒÓÛÐ
× ÓÚ ÖÝ