縮約類似度行列を用いたスペクトラル手法による クラスタリング結果の改善 Ê ¬Ò Ñ ÒØ Ó ÐÙ×Ø Ö Ò Ê ×ÙÐØ× Ý ËÔ ØÖ Ð Å Ø Ó Í× Ò Ø Ê Ù Ë Ñ Ð Ö ØÝ Å ØÖ Ü 新納浩幸 ½£ 佐々木稔 ½ À ÖÓÝÙ Ë ÒÒÓÙ½ Ò Å ÒÓÖÙ Ë × ½ ½ 茨城大学 工学部 情報工学科 ½ Ô ÖØÑ ÒØ Ó ÓÑÔÙØ Ö Ò ÁÒ ÓÖÑ Ø ÓÒ Ë Ò ×¸ Á Ö ÍÒ Ú Ö× ØÝ ×ØÖ Ø ËÔ ØÖ Ð ÐÙ×Ø Ö Ò × ØÙ ÐÐÝ ÔÓÛ Ö Ùи ÙØ Ò × ØÓ ×ÓÐÚ Ø ÒÚ ÐÙ ÔÖÓ Ð Ñ Ó Ø Ä ÔÐ Ò Ñ ØÖ Ü ÓÒÚ ÖØ ÖÓÑ Ø × Ñ Ð Ö ØÝ Ñ ØÖ Ü ÓÖÖ ×ÔÓÒ Ò ØÓ Ø Ú Ò Ø × Øº Ì Ö ÓÖ ¸ Û ÒÒÓØ Ù× ×Ô ØÖ Ð ÐÙ×Ø Ö Ò ÓÖ Ð Ö Ø × Øº ÁÒ Ø × Ô Ô Ö¸ Û ÔÖÓÔÓ× Ø Ñ Ø Ó ØÓ Ö Ù Ø × Ñ Ð Ö ØÝ Ñ ØÖ Üº Ù× ×Ô ØÖ Ð ÐÙ×Ø Ö Ò ÓÖ Ð Ö Ø × Øº ÀÓÛ Ú Ö ÓÙÖ Ñ Ø Ó × Ò × ÐÙ×Ø Ö Ò Ö ×ÙÐØ ÓÖ Ø Ø Ö Ù Ø ÓÒº Ì Ö ÓÖ ¸ ÓÙÖ Ñ Ø Ó × Ö Ö × Ø Ñ Ø Ó ØÓ ÑÔÖÓÚ Ø Ú Ò ÐÙ×Ø Ö Ò Ö ×ÙÐغ ÁÒ Ø ÜÔ Ö Ñ Òظ Û Ù× × Ú Ò Ø × Ø× ØÓ Ú ÐÙ Ø ÓÙÖ Ñ Ø Ó º Ï ÓÑÔ Ö ÓÙÖ Ñ Ø Ó Û Ø ¹Ñ Ò× Ò ×Ô ØÖ Ð ÐÙ×Ø Ö Ò ¸ Å Ùغ Ì ÜÔ Ö Ñ ÒØ × ÓÛ ÓÙÖ Ñ Ø Ó ÑÔÖÓÚ × Ø ÐÙ×Ø Ö Ò Ö ×ÙÐØ Ò Ö Ø Ý ¹Ñ Ò׺ ÁÒ ÙØÙÖ Û Û ÐÐ ÒÚ ×Ø Ø Ø ÔÖÓÔ Ö Ö Ù Ø ÓÒ Ö ¸ Ò ÑÔÖÓÚ Ø × Ñ Ð Ö ØÝ ¬Ò Ø ÓÒº ½ はじめに スペクトラルクラスタリングは精度の高いクラスタ リング手法である。しかしそこでは類似度行列のサイ ズの固有値問題を解く必要があり、データ数が多い場 合、現実的には利用できない。本論文では縮約された 類似度行列(縮約類似度行列)を作成することで、対 象データセットに対するスペクトラルクラスタリング を行う。ただしここで提案する縮約類似度行列の作成 方法は、ある程度妥当なクラスタリング結果を必要と する。そのため提案する縮約類似度行列を利用してス ペクトラルクラスタリングを行うことは、最初に得ら れたクラスタリング結果を改善するという位置づけに なる。 スペクトラルクラスタリングは、グラフ分割の観点 からクラスタリングを行う手法であり、その精度の高 さから近年活発に研究されている ¿ 。そこではグラ フの最適な分割を求めるために、ある評価関数を設定 する。この評価関数の最適解がある固有値問題の解に 対応することを利用して、クラスタリングを行うのが £ 連絡先:茨城大学工学部情報工学科 〒 ¿½ ¹ ½½ 茨城県日立市中成沢 ¹½¾¹½ × ÒÒÓÙ Ñܺ Ö º º Ô スペクトルクラスタリングである。 スペクトラルクラスタリングの精度は高いが、実際 の処理には類似度行列のサイズ(つまりデータ数の自 乗のサイズ)の固有値問題を解く必要がある。このた めデータ数が大きい場合、スペクトラルクラスタリン グは現実的には利用できない ¾ 。ここではデータ数が 概ね ½¼¸¼¼¼ 以下のデータセットを想定しているが、こ の程度のデータ数でもスペクトラルクラスタリングを 利用するのは無理がある。 本手法の概略を述べると、まずデータセットを ¹ Ñ Ò× でクラスタリングし、そこから各クラスタの重 心に近いデータだけをまとめて、1つのデータと見な す。1点にまとめられるデータの集合を、論文 に 従って、ここでは ÓÑÑ ØØ と呼ぶ。 ÓÑÑ ØØ 以 外のデータはそのまま ½ 点となる。それらデータに対 して類似度行列を作成する。この際、 ÓÑÑ ØØ の大 きさ分だけデータサイズが縮約されるので、類似度行 列も縮約される。この縮約された類似度行列をここで は縮約類似度行列と呼ぶ。 本手法の主張点はこの縮約類似度行列の作成方法に ある。 ÓÑÑ ØØ が真に同じクラスタに属するデータ で構成されることを仮定すれば、データ間の類似度は、 スペクトラルクラスタリングで利用する類似度行列の 拡張になるように設定できる。本論文ではこの点をま ず示す。ただし上記の仮定は実際には成立していない ので、類似度を近似する必要がある。その近似式を提 案する。 以上により、縮約類似度行列が作成でき、それを用 いてスペクトラルクラスタリングを行う。縮約類似度 行列を作成するために、 ¹Ñ Ò× 等でクラスタリング を既に行っているので、スペクトラルクラスタリング により得られたクラスタリング結果は、最初のクラス タリング結果の改良と見なされる。 実験では つの文書データセットを用いて、本手法 の有効性を示す。本手法により大規模なデータに対し てもスペクトラルクラスタリング手法を適用すること が可能になる。適切な縮約の度合いの推定と近似式の 改良が今後の課題である。 ¾ スペクトラルクラスタリングでは、データをグラフ のノードとして表現し、ノード間のエッジの重みには 両端のデータ間の類似度を与える。類似度が ¼ の場合 は、エッジを張らない。このようにデータの集合をグ ラフとして表した場合、クラスタリングとはエッジを カットして、全体のグラフをいくつかのサブグラフに 分割することに対応する。その際に、サブグラフ内の エッジは密になり、サブグラフ間でカットしたエッジ は疎になるようなカットが望ましい。望ましいカット を見つけるために,評価関数を設定する。この評価関 数の最適解がある固有値問題の解に対応することを利 用して,クラスタリングを行うのがスペクトラルクラ スタリングである。評価関数はいくつか提案されてい るが、ここでは Å ÙØ ¿ で提案されているものを利用 する。 まずサブグラフ と の類似度 ÙØ´ µ を以下で 定義する。 Ï´ µ µ ´½µ ここで関数 Ï ´ µ はサブグラフ と 間にあ るエッジの重みの総和である。エッジの重みはノード (データ)間の類似度を表すので、結局、関数 Ï ´ µ はサブグラフ と の類似度を表している。また, Ï ´ µ Ï ´ µ と定義しておく。 Å ÙØ の評価関数は以下である。この式を最小化す るようなサブグラフ と を見つけることが課題で ある。 Å ÙØ ÙØ´ Ï´ µ µ · ÙØ´ Ï´ µ µ ÝÌ ´ Ï µÝ ÝÌ ÏÝ ÂÑ ´¿µ ここで Ï はデータ間の類似度行列、また ´Ï µ Ø である。 は ´½ ½ ½µ 、 は対角要素の行 列を意味する。つまり、 ¡¡¡ ¼ ¡¡¡ ¼ ¼ ¼ ¾ ¡¡¡ ¡¡¡ ¡¡¡ ¡¡¡ ¡¡¡ ¼ ¼ ¡¡¡ Æ ¼ ½ ½ であり、 は 番目のデータとその他のデータ( 番目 のデータも含む)との類似度の和である。つまり は ノード の Ö である。 また Õ は Æ 次元ベクトルであり、各要素は か の離散的な値を取る。 番目のデータがクラスタ に含 まれるなら、Õ の 番目の要素は 、クラスタ に含ま スペクトラルクラスタリング ÙØ´ 上記の処理を再帰的に繰り返す。 式 ´¾µ の最小化の問題は、以下の式を最小化するベ クトル Ý を求める問題と等価である。 ´¾µ スペクトラルクラスタリングは ¾ つのクラスタに分 割するのが基本である。目的のクラスタ数を得るまで、 れるなら Õ È を取る。ここで を意味し、 、 Õ で · である。 あり、 ¾ 次に式 ´¿µ の最小化問題を解くために、Ý を連続値の 要素をとるベクトルと考える。このとき式 ´¿µ の最小 化問題は、以下の固有値問題を解くことで得られる。 Á ½ ¾ Ï ½ ¾ ´ µ この最小の固有値に対する固有ベクトルが式 ´¿µ を 最小にするが、最小の固有値は ¼ であり、その対応す ½ ¾ である。これは我々には意味 るベクトルは Ù½ がないので、ここから ¾ 番目に小さな固有値に対応す る固有ベクトル Ù¾ を求め、それを近似解とする。この ベクトルは Ð Ö ベクトルと呼ばれる。 ½ ¾ Ù¾ から Õ を得る。次に Õ の要素を 次に Õ ソートして、ある値以上をクラスタ に、それより小 さい部分をクラスタ に対応させることでクラスタリ ングが行える。実際には、Õ の要素が正ならクラスタ に、負ならクラスタ に対応させる簡易な方法でも 概ねうまくゆく。 ¿ 縮約類似度行列 データセット のデータ数が Æ のとき、 に対す る類似度行列 Ï は Æ Æ のサイズとなる。スペクト ラルクラスタリングを用いて、 がクラスタ とクラ スタ に分割されたとする。このときこの分割によっ て式 ´¾µ の値が最小になる。 ¢ そしてクラスタ すことを考える。 のある部分集合 ¼ ½ まず ¼ とクラスタ 義する。 × Ñ´ ¾ ¼ を ½ 点 ¼ で表 ¡¡¡ Ñ 内の点 との類似度を以下で定 ¼ µ Ñ ½ × Ñ´ µ ´ µ 次に ¼ とクラスタ 内の点で ¼ に含まれていない点、 ¼ 内の点 との類似度を以下で定義する。 つまり × Ñ´ ¼ µ Ñ ½ × Ñ´ µ ´ µ 最後に ¼ と ¼ の類似度を以下で定義する。 × Ñ´ ¼ ¼µ Ñ Ñ ½ ½ × Ñ´ µ ´ µ 式 ´ µ、´ µ、´ µ を用いて、 中の ¼ を ½ 点 ¼ で 表し、その結果できるデータセットを ¼ とする。この ¼ に対する縮約類似度行列 Ï ¼ を作成する。このとき Ï ¼ のサイズは ´Æ Ñ · ½µ ´Æ Ñ · ½µ に縮約さ れている。 に対するクラスタリング結果を ¼ のクラスタリ ング結果に当てはめる。つまり ¼ 以外のデータのクラ スタリング結果は のクラスタリング結果と同じであ り、データ ¼ のクラスタは と考える。そして Ï ¼ を 用いて、式 ´¾µ の値を計算する。するとこの値は、 に対するクラスタリング結果を Ï を用いて計算した 式 ´¾µ の値と同じであることが容易に確認できる。 に対してはクラスタ とクラスタ の分割によっ て、式 ´¾µ の値が最小になることを考えれば、縮約類 似度行列 Ï ¼ を用いて、スペクトラルクラスタリング を行った場合でも先と同じクラスタ とクラスタ の 分割が得られる。 以上より式 ´ µ、´ µ、´ µ を用いて、クラスタ内の一 部のデータを縮約した縮約類似度行列が作成可能であ る。これによって行列のサイズが小さくなり、スペク トラルクラスタリングが可能となる。 ただし現実的にはクラスタ とクラスタ の分割が 不明であるので、縮約類似度行列 Ï ¼ を用いてスペク トラルクラスタリングを行っても妥当な結果は得られ ない。この問題への対処を以下に説明する。 ¢ かし一般に正しいクラスタリング結果を得ることはで きない。 ここでは縮約するデータの集合はクラスタ全体でなく ても良いことに注目する。つまり先の ¼ は の部分集 合であり、 そのものである必要はない。必要なことは ¼ 内のデータが同じクラスタに属することである。こ のような ¼ をここでは、論文 に従って ÓÑÑ ØØ と呼ぶ。 そこで本論文では、まず ¹Ñ Ò× などの荒いクラス タリング手法を用いることで、あるクラスタリング結 果を得る。次に、そのクラスタリング結果の信頼性の 高い部分を選出することで、 ÓÑÑ ØØ を作成する。 具体的には各クラスタの重心から近い距離のデータは、 そのクラスタに真に属すると考え、 ÓÑÑ ØØ のメン バと見なすことにする。 ここでどの程度、重心から近ければ ÓÑÑ ØØ の メンバとするかによって、縮約の程度が変化する。例 えば、重心から近い順に上位 割を ÓÑÑ ØØ のメ ンバと考えれば、データ数を約 割カットした縮約が 可能となる。ただしその一方で実際には同じクラスタ に属さないデータも ÓÑÑ ØØ に属するようになる。 その部分の誤りは以後の処理でも引き継ぎ、結果とし て、最終的な精度が低くなる。 ¿º¾ 重心を利用した類似度の近似 ÓÑÑ ØØ 群が作成できた場合、各 ÓÑÑ ØØ を縮 約した縮約類似度行列を作成するためには式 ´ µ、´ µ、 ´ µ の計算を行わなくてはならない。しかし現実的には ÓÑÑ ØØ 内に誤りが含まれるために、そのままの式 を使うと誤りが増大してしまう。 このために本論文では、 ¼ の重心 を利用して、以 下の近似式を用いる。 × Ñ´ ¼ µ Ñ ¡ × Ñ´ µ ´ µ × Ñ´ ¼ Ñ ¡ × Ñ´ µ ´ µ × Ñ´ µ ¼ ¼µ Ñ ¾ ´½¼µ クラスタリングの手順 ここでは提案するクラスタリングの手順をまとめる。 ¿º½ 荒いクラスタリングによる Ø の作成 ÓÑÑ Ø¹ 縮約類似度行列を作成するためにはデータセット に対する正しいクラスタリング結果が必要である。し ×Ø Ô ½º データセット と目的とするクラスタ数 à を与え、 ¹Ñ Ò× によりクラスタリングを行う。 ×Ø Ô ¾º ×Ø Ô ½º によって得られた各クラスタに対し て、そのクラスタの重心を求め、重心から距離の 近い順にそのクラスタの 割のデータを取り出 し、それをそのクラスタの ÓÑÑ ØØ とする。 ×Ø Ô ¿º ×Ø Ô ¾º によって作成された ÓÑÑ ØØ は à 個あるが、それぞれを ½ 点に縮約し、新たなデー タセットを作成する。そのデータセットに対して、 式 ´ µ、´ µ、´½¼µ を用いて縮約類似度行列 Ï ¼ を 作成する。 ×Ø Ô º Ï ¼ に対してスペクトラルクラスタリングを 行い、得られたクラスタリング結果中の1点に縮 約されたデータをもとに戻すことで、全体のクラ スタリング結果を得る。 ×Ø Ô º には注意が必要である。½ 点に縮約された データが複数存在するが、それらはスペクトラルクラ スタリングによってそれぞれ別個のクラスタに割り当 てられなくてはならないからである。 通常、½ 点に縮約されたデータは別個のクラスタに 割り当てられるはずであるが、½ 点に縮約されたデー タどうしが同じクラスタに割り当てられることも考え られる。そのため、ここではスペクトラルクラスタリ ングで ¾ 分割を行う際に、½ 点に縮約されたデータが 少なくとも ½ 点クラスタに含まれるように調整する。 具体的には Ð Ö ベクトルをソートして、ある点 でカットしたときに、片側だけに縮約されたデータが 集まった場合は、反対側のクラスタに最も近い縮約さ れたデータを1点だけ反対側のクラスタに移動させる。 この処理によって最終的なクラスタリング結果には、 各クラスタに1点だけ縮約されたデータが入ることに なる。 まず最初に ¹Ñ Ò× によりクラスタリングを行う。 得られた各クラスタからそのクラスタの重心までの距 離を利用して距離の近い上位 割を ÓÑÑ ØØ とし た。次に式 ´ µ、´ µ、´½¼µ を用いて、縮約類似度行列 を作成した。 作成された縮約類似度行列を用いて、スペクトラル クラスタリングを行い、最終的に得られたクラスタリン グ結果をエントロピーと純度で評価した結果が表 ¿ と 表 である。当然、本手法はスペクトラルクラスタリン グ ´Å Ùص の結果よりも精度は悪いが、 ¹Ñ Ò× よりも 精度は改善されている。また Ñ × 、Ð ½¾、×ÔÓÖØ×、 Ó × Ð の つのデータセットに対してはデータ数が大 きく、スペクトラルクラスタリングを行うには現実的 には不可能である。 表 ¾ 実験結果(エントロピー) データ名 ØÖ½¾ ØÖ¿½ ÑÑ Ñ × Ð ½¾ ×ÔÓÖØ× Ó × Ð Å ÙØ ¼º¿ ¼¼ ¼º¾ ¼º ½ ¹Ñ Ò× ¼º ¿ ¼º¿ ½ ¼º ¼º ¼º ¾¿ ¼º¿½ ¾ ¼º 本手法 ¼º¿ ¼ ¼º¿ ½ ¼º ¿ ¼º ¼º ¼º¿¼ ¼º ¾¾ 表 ¿ 実験結果(純度) データ名 ØÖ½¾ ØÖ¿½ ÑÑ Ñ × Ð ½¾ ×ÔÓÖØ× Ó × Ð Å ÙØ ¼º ¼ ½ ¼º ¼¿ ¼º ¹Ñ Ò× ¼º ¼ ¼º ¼ ¼º ¼½ ¼º ¼º ¼½ ¼º ¿ ¼º ¿ 本手法 ¼º ½ ¼º ¼¾ ¼º ¼º ¼º ¼½ ¼º ½ ¼º ¼ 実験 提案手法の効果を確認するために、 ÄÍÌÇ のサイ ト½ で提供されている つのデータセット ´ØÖ½¾¸ ØÖ¿½¸ ÑѸ Ð ½¾¸ ×ÔÓÖØ׸ Ó × Ð¸ Ñ × µ を用いる。これら のデータセットのデータ数、次元数、非ゼロ要素数、ク ラスタ数を表 ½ にまとめる。 表 ½ データセット データ名 データ数 次元数 非ゼロ 要素数 ØÖ½¾ ØÖ¿½ ÑÑ Ñ × Ð ½¾ ×ÔÓÖØ× Ó × Ð ¿½¿ ¾ ¾ ¾½ ¿ ¾ ¼ ½½½ ¾ ¼ ½¼½¾ ½¾ ¿ ¿ ½ ½ ¿½ ¾ ½¾ ¿ ¿ ½½ ¼ ¼¿ ¼¼ ¾ ¿½ ½ ¿ ¼ ½½¼ ¼ ¿ ½ ØØÔ »» Ð ÖÓ׺ Ø ºÙÑÒº Ù» クラス数 ¾ ¾ ¾ ½¼ ÓÑ » ÐÙØÓ» ÐÙØÓ» ÓÛÒÐÓ 考察 º½ 縮約の度合い 実験では縮約の度合いを 割減になるようにとった。 この 割というのは適当である。データセット ÑÑ に 対して、この縮約の度合いを ½ 割づつ変えながらエント ロピーと純度を調べた。実験結果を図 ½ と図 ¾ に示す。 ½¼¼± 縮約を行うと、それは ¹Ñ Ò× の結果をその まま使うことになる。これがグラフの最も左側の位置 を表す。また全く縮約を行わない場合、それは全デー タを対象にしてスペクトラルクラスタリング(Å ÙØ) を行うことを意味する。これがグラフの最も右側の位 置を表す。 理論的には縮約の度合いが大きいほど、結果は ¹ Ñ Ò× に近くなり、縮約の度合いが小さいほど、結果 は Å ÙØ に近くなり、しかもその間は単調に増減する 0.99 0.985 k-means 0.98 0.975 0.97 Mcut 0.965 0.96 図 ½ 縮約に対するエントロピーの変化 0.585 Mcut 0.58 0.575 0.57 0.565 0.56 0.555 0.55 k-means 図 ¾ 縮約に対する純度の変化 はずである。図 ½ と図 ¾ に単調性はないが、その傾向 があることは確認できる。 実際に単調にならないのは、 ÓÑÑ ØØ 内に誤りが 含まれる点と、類似度の算出が近似であることが原因 である。 また、一般に Å ÙØ の方が精度が高いので、縮約の 程度は小さくした方が精度が高いが、縮約の程度が小 さいと計算の負荷を減らす効果も小さく、本来の意味 が失われる。どの程度の縮約の度合いにすれば良いか、 また現実的に有効な類似度の近似式の提案は、今後の 課題である。 º¾ クラスタリングの改善 縮約類似度行列を用いてスペクトラルクラスタリン グが可能になるが、縮約類似度行列を作成するために、 荒いクラスタリングが必要となる。そのため縮約類似 度行列を用いたスペクトラルクラスタリングは縮約類 似度行列を作成するために行ったクラスタリング結果 を改善しないと意味がない。 クラスタリング結果の改善手法という位置づけで本 手法を見た場合、まず最初のクラスタリングで正解と 思われるものを固定して、分類が曖昧になるデータに 対してだけ、高精度のクラスタリング手法を行ってい る形になる。 ´ ÐÙ×Ø Ö Ò Ý そのためここでのアプローチは では Óѹ ÓÑÑ ØØ µ の一種とも考えられる。 Ñ ØØ と呼ばれる各クラスタの核となるデータセット を作り、各データは ÓÑÑ ØØ との距離によってどの ÓÑÑ ØØ に属するかを判定することでクラスタリン グを行う。各データの ÓÑÑ ØØ への割り当ては、単 連結法(最短距離法)によるクラスタリングと見なせ る。一方、本手法においては ¹Ñ Ò× で得られたクラ スタ中の信頼性のある集合を ÓÑÑ ØØ とし、各デー タの振り分け部分にスペクトラルクラスタリングを利 用している。 またあるクラスタリング結果を部分的に調整するこ とで、クラスタリング結果を改善する手法がいくつか 提案されている。論文 ½ の ¬Ö×Ø Ú Ð Ø ÓÒ や論文 ¿ のÄÒ × Ö ¬Ò Ñ ÒØ は、基本的には、クラスタ内 のデータを別のクラスタに移動させた場合の評価値を 現在得られているクラスタリング結果から算出し、ク ラスタ間で一部のデータを移動させることでクラスタ リング結果を改善する。 また ¹Ñ Ò× 等の初期値依存性のあるクラスタリン グ手法は最初に荒いクラスタリング結果を得ることで、 初期値を構成する手法が存在する 。その場合、それ らの手法はクラスタリング結果の改善手法と位置づけ られる。 また混合分布モデルを用いたクラスタリングにおい ても、分散共分散行列のモデルを推定するために、最 初にクラスタリングを行う場合があり、これもクラス タリング結果の改善手法と見なせる。 º¿ 精度が改善できない問題 本来、 ÓÑÑ ØØ に属さないデータはクラスタが曖 昧なデータであり、それらを正確にクラスタに分類す ること自体が困難なタスクである。そのため、本手法 を用いても精度が改善できない場合も存在する。 本手法では最初のクラスタリングとして ¹Ñ Ò× を 用いているが、 ¹Ñ Ò× 自体はそれほど荒いクラスタ リングではなく、標準的な精度が得られる。スペクトラ ルクラスタリングが精度の高い手法であったとしても、 ¹Ñ Ò× と精度的に差が生じないようなデータは存在 する。このような場合は、 ¹Ñ Ò× の結果を改善するこ とは難しい。スペクトラルクラスタリングが ¹Ñ Ò× よりも良い結果を出すようなタイプのデータセットに 対して本手法は効果を発揮するといえる。 º 大規模データセットに対するスペクトラ ルクラスタリング ここではデータ数が概ね ½¼¸¼¼¼ 以下のデータセット に対するクラスタリングを考えたが、更に大きなデー タセットに対しても利用可能である。 大規模データセットに対する従来のクラスタリング 手法は、サンプリングのアプローチと小規模クラスタ 生成のアプローチに大別できる。 サンプリングのアプローチでの代表的研究は Æ ら の Ä Ê ÆË である 。これはその前身の Ä Ê の改良版である。 Ä Ê ではランダムサンプルから 得たデータを È Å と呼ばれる ¹Ñ Ò× に類似のク ラスタリング手法でクラスタリングする。次にランダ ムサンプルで選ばれなかったデータを各クラスタとの 距離に基づいて割り振ることでクラスタリングを行う。 Ä Ê ÆË は Ä Ê が最初にランダムサンプルし ている部分を、È Å の実行中に行うことで精度の向 上を図っている。 小規模クラスタ生成のアプローチの代表的研究は Ò らの ÁÊ À と À ÒÒ ÙÖ らの格子を用い た手法 がある。 ÁÊ À では最初にデータを走査 し、 ¹ØÖ というデータの要約情報を作成する。以 後の処理は ¹ØÖ に対して行うことで、クラスタリ ングが可能となる。 ¹ØÖ が小規模クラスタ群に対 応する。また格子を用いた手法とは各次元を Ä 個の区 間に離散化し、空間を Ä 個の格子に分割する。そして 各格子内のデータから小規模クラスタを生成する。Ä がデータ数よりも小くなるように設定すれば、大規模 データに対するクラスタリングが可能となる。 どちらのアプローチにしても、中規模のクラスタリ ングが核となるので、そこで本手法が利用可能になる。 実験によって提案する縮約類似度行列によりスペク トラルクラスタリングが可能となることを示した。ま た合計 個のデータセットを用いた実験では、最初に 行った ¹Ñ Ò× のクラスタリング結果を改善すること ができた。 最適な縮約の度合いを推定することと類似度の近似 式を精緻にすることを今後の課題とする。 謝辞 本研究の一部は、日本学術振興会 科学研究費補助金 特定研究「日本語コーパス」(課題番号 ½ ¼½½¼¼½)に よる補助のもとで行われた。 参考文献 ½ ÁÒ Ö Ø Ëº ÐÐÓÒ¸ ÙÕ Ò Ù Ò¸ Ò Âº ÃÓ Òº ÁØ Ö¹ ØÚ ÐÙ×Ø Ö Ò Ó À Ñ ÒØ ÓÒ Ð Ì ÜØ Ø Ù ¹ Ñ ÒØ Ý ÄÓ Ð Ë Ö º ÁÒ ¸ ÔÔº ½¿½ß½¿ ¸ ¾¼¼¾º ¾ ÁÒ Ö Ø ÐÐÓÒ¸ ÙÕ Ò Ù Ò¸ Ò ÍÒ ¬ Î Û Ó Ã ÖÒ Ð ¹Ñ Ò׸ ËÔ Ò Ö Ô ÙØ׺ ÁÒ 本論文では縮約類似度行列を用いたスペクトラルク ラスタリングを提案した。 スペクトラルクラスタリングは高精度のクラスタリ ング手法であるが、その実行には、類似度行列のサイ ズの固有値問題を解く必要があり、計算負荷が高い。こ こでは最初に ¹Ñ Ò× で荒いクラスタリングを行い、 各クラスタに対する ÓÑÑ ØØ を作成し、それを ½ 点で表すことで縮約類似度行列を作成する。類似度の 設定をスペクトラルクラスタリングに特化した形にし ている点が特徴である。 これによって大規模データセットに対してもスペク トラルクラスタリングが可能となる。ただし最初に荒 いクラスタリング結果を得ているので、本手法はクラ スタリング結果の改善手法と位置づけられる。 ÁÒØ ÖÒ ¹ Ö Ò ÃÙР׺ ØÖ Ð ÐÙ×Ø Ö Ò Ì ÍÒ Ú Ö× ØÝ Ó Ì Ü × Ø Ù×Ø Ò¸ Ô ÖØÑ ÒØ Ó ÓÑÔÙØ Ö Ë Ò ×º Ì Ò Ð Ê ÔÓÖØ Ìʹ¼ ¹¾ ¸ ¾¼¼ º ¿ Ö× Ò ¸ Ó Ò À ¸ ÀÓÒ ÝÙ Ò ¸ ÅÒ Ù¸ Ò ÀÓÖ×Ø Ë ÑÓÒº ËÔ ØÖ Ð Å Ò¹Ñ Ü ÙØ ÓÖ Ö Ô È ÖØ Ø ÓÒ Ò Ò Ø ÐÙ×Ø Ö Ò º ÁÒ ¸ ¾¼¼½º Ä ÛÖ Ò Ð Ý Æ Ø ÓÒ Ð Ä º Ì º Ö ÔÓÖØ Ö ¹ º À ¸ ź Ä Ò¸ ¹Äº Ì Ò¸ ˹ º ËÙÒ ¸ Ò À¹ º ÄÓÛº ÁÒ Ø Ð Þ Ø ÓÒ Ó ÐÙ×Ø Ö Ê ¬Ò Ñ ÒØ Ð ÓÖ Ø Ñ× Ê ¹ Ú Û Ò ÓÑÔ Ö Ø Ú ËØ٠ݺ ÁÒ ¸ ÔÔº ¾ ß¿¼¾¸ ¾¼¼ º Á ÓÒ º Æ ÙÖ Ð Æ ØÛÓÖ × º À ÒÒ ÙÖ Ò ÔÖÓ ØÓ ÐÙ×Ø Ö Ò Û Ø ÆÓ × º ÁÒ ÔÔº ß ¸ ½ º ÃÒÓÛÐ おわりに Ì ¾¼¼¾ Á Ø ÅÒÒ Ø ÓÒ Ð ÓÒ Ö Ò ÓÒ º º à Ѻ Ò Ò Ä Ö ÅÙÐØ Ñ ¸ ½ º Ⱥ È ÒØ Ð Ò Ñ ØØ ×º ÁÒ ÈÖÓ º Ä Òº Ò ÐÝ× × Ò Å ß ¼ ¸ ¾¼¼¼º Ó ÙÑ ÒØ Å Ð Ô¹ × × ¸ Ø ÅÒÒ Ø ÐÙ×Ø Ö Ò Ò × Ó ËÁ Áʹ¼¾¸ ¾¼¼¾º Â Ò Ó Ë Ò ÂØ Ò Ö Ñ × Ñ ÒØ Ø ÓÒº ÒØ Ø ÒØ Ò « ØÚ Ø Å Ò Ò º ÁÒ Ø ÖÒ Ø ÓÒ Ð ÓÒ Ö Ò ÓÒ Î ÖÝ Ä Ö ß½ Æ × ÓÚ ÖÝ Ò Êº ̺ Æ Ò Âº À Òº Æ Ø Ö Ò Å Ø Ó × ÓÖ ËÔ Ø Ð ½ ÁÒغ ÂÓ ÒØ º ÆÓÖÑ Ð Þ ÐÙ×¹ ¾¼Ø ÁÒ¹ × ×¸ ÔÔº ÛØ ÙØ× Óѹ Ò Á ÌÖ Ò× Ø ÓÒ× ÓÒ È ØØ ÖÒ Ò ÁÒØ ÐÐ Ò ¸ ÎÓк ¾¾¸ ÆÓº ¸ ÔÔº Ì Ò Ò ¸ Ê Ù Ê Ñ Ö × Ò Ò¸ Ò Å ÖÓÒ Ä ÚÒݺ ÁÊ À Æ Û Ø ÐÙ×Ø Ö Ò Ð ÓÖ Ø Ñ Ò ÁØ× ÔÔÐ Ø ÓÒ׺ ¸ ÎÓк ½¸ ÆÓº ¾¸ ÔÔº ½ ½ß½ ¾¸ ½ º Ø Å Ò Ò Ò ÃÒÓÛÐ × ÓÚ ÖÝ
© Copyright 2025 ExpyDoc