Fuzzy c-Means 法による クラスター分析に関する研究

Fuzzy c-Means法による
クラスター分析に関する研究
畜産経営管理学講座
統計研究室
久田純司
クラスター分析とは
• クラスター分析とはデータ以外に
基準を設定することなくデータの
集まりをいくつかのグループに分
ける方法
目的
1.HCMとFCMのクラスタリン
グ精度の比較
2.FCMの特徴である帰属度
の考察
HCM
• クラスタリングする対象を最も近いクラス
ター中心に割り当て中心を更新する方法
• ある個体が属するクラスターは1つ
• ある個体 k がクラスター Giに属する
uik
=1
ある個体 k がクラスター Gi に属さない
uik
=0
x
x
FCM
• FCMは個体がクラスターに帰属する度合
いにあいまいさを認めあいまいさを帰属度
で表す
• 変数 ik に0から1までの値をとることを許し
その値を帰属性の度合い,つまり帰属度と
する
• 各個体について全てのクラスターに対する
帰属度を加えたものが1になる
u
目的関数の導入
J  (uik )dik
n c
m
k 1 i 1
• FCMはこの目的関数を最適化し収束させ
ることでクラスタリングを行う
•
は
1を満たす適当なパラメータ
•
を大きくすると帰属性の度合いはよりあ
いまいになる
• dik はクラスター
k との距離
i と個体
m m
m
G
x
シミュレーション実験
• HCMとFCMのクラスタリング精度の評価
• それぞれ違う特徴をもつ2つのデータ群を
2つのクラスターに分類し誤判別の割合で
評価を行う
• FCMでは帰属度の一番大きいクラスター
へ各個体を帰属させた
2つの2次元正規分布
5
2 1 
  1
5
N[( ) , ( ) ]
5  1 
N[( 5 ) , (  1 ) ]

2

(1)(  1,  2 )=( 0.5, 0.5 )
(2)(  1,  2 )=( -0.5, -0.5 )
(3)(  1,  2 )=( 0.5, -0.5)
  ,...,14
各20個,計40個
乱数を発生
HCM
FCM(m=2,…,6)
を適用し2個の
クラスターに分類
• 一方から発生したデータを他方のクラス
ターへ分類
• 誤判別として個数を数える
• 1つの  の値について10000回繰り
返し誤判別の割合を求める
(1)の場合のデータ分布イメージ
・ (5,5)
・
(5,5)
(1)の場合の結果
図4.1 Rho1=0.5 Rho2=0.5
誤判別の割合
0.40
0.35
0.30
0.25
HCM
0.20
m=2
0.15
m=3
m=4
0.10
m=5
0.05
m=6
0.00
1
2
3
4
5
6
7
8
9
10
11
12
13
14

(2)の場合のデータ分布イメージ
・ (5,5)
・
(5,5)
(2)の場合の結果
図4.2 Rho1=-0.5 Rho2=-0.5
誤判別の割合
0.40
0.35
0.30
0.25
HCM
0.20
m=2
0.15
m=3
m=4
0.10
m=5
0.05
m=6
0.00
1
2
3
4
5
6
7
8
9
10
11
12
13
14

(3)の場合のデータ分布イメージ
・
(5,5)
・
(5,5)
(3)の場合の結果
図4.3 Rho1=0.5 Rho2=-0.5
誤判別の割合
0.40
0.35
0.30
0.25
HCM
0.20
m=2
0.15
m=3
m=4
0.10
m=5
0.05

m=6
0.00
1
2
3
4
5
6
7
8
9
10
11
12
13
14
クラスタリング精度の評価
FCMによる帰属度の大きいク
ラスターに各個体を帰属させる
クラスタリングの精度が良いと
いう傾向を得た
実際のデータへの適用
表5.1 作品別助詞の使用相対頻度
助詞1 助詞2
MISIMA 1
4.87 16.48 NAKAJIMA
MISIMA 2
5.5 16.84 NAKAJIMA
MISIMA 3
3.85 10.49 NAKAJIMA
MISIMA 4
6.33 18.14 NAKAJIMA
MISIMA 5
5.33 18.78 NAKAJIMA
MISIMA 6
6.77 14.15 NAKAJIMA
MISIMA 7
6.25 13.22 NAKAJIMA
MISIMA 8
6.89
14.8 NAKAJIMA
MISIMA 9
5.95
11.9 NAKAJIMA
MISIMA 10
6.07 13.29
MISIMA 11
5.95 17.26
1
2
3
4
5
6
7
8
9
助詞1 助詞2
助詞1 助詞2
3.64 10.26 INOUE 1
12.42 13.76
6
12.5 INOUE 2
9.79 11.06
6.54
9.81 INOUE 3
15.9 13.82
5.8
7.25 INOUE 4
14.39 12.53
6.07
8.88 INOUE 5
10.15 13.71
4.3 11.33 INOUE 6
8.89
16.3
5.32 12.06 INOUE 7
11.16 11.16
6.64
5.47 INOUE 8
12.06
15
4.27
9
• 作家のMISIMA氏,NAKAJIMA氏,INOUE氏の
作品において2種類の助詞が使用されている相
対頻度を表すデータを3個のクラスターに分類す
るクラスタリングを行う
• 彼等の作品に助詞の使用頻度による特徴があ
れば彼等の作品によるクラスターが作成される
はず
• HCMとFCM(m=2)を適用
分析結果
表5.2 HCMによるクラスタリング結果
A
B
MISIMA 1
1
0
MISIMA 2
1
0
MISIMA 3
0
0
MISIMA 4
1
0
MISIMA 5
1
0
MISIMA 6
1
0
MISIMA 7
1
0
MISIMA 8
1
0
MISIMA 9
0
0
MISIMA 10
1
0
MISIMA 11
1
0
NAKAJIMA 1
0
1
NAKAJIMA 2
0
1
NAKAJIMA 3
0
1
NAKAJIMA 4
0
1
NAKAJIMA 5
0
1
NAKAJIMA 6
1
0
NAKAJIMA 7
0
1
NAKAJIMA 8
0
1
NAKAJIMA 9
0
0
INOUE 1
0
0
INOUE 2
0
0
INOUE 3
0
0
INOUE 4
0
0
INOUE 5
0
0
INOUE 6
0
0
INOUE 7
0
0
INOUE 8
0
0
C
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
表5.3 FCMによるクラスタリング結果
帰属するクラスター
A
B
C
A
MISIMA 1
0.940 0.023 0.037
A
MISIMA 2
0.974 0.011 0.015
C
MISIMA 3
0.058 0.028 0.915
A
MISIMA 4
0.905 0.050 0.045
A
MISIMA 5
0.855 0.071 0.074
MISIMA 6
0.710 0.109 0.181
A
MISIMA 7
0.482 0.120 0.397
A
MISIMA 8
0.838 0.071 0.091
A
MISIMA 9
0.165 0.073 0.761
C
MISIMA 10
0.500 0.113 0.388
A
MISIMA
11
0.967 0.016 0.017
A
B
NAKAJIMA 1 0.006 0.990 0.004
B
NAKAJIMA 2 0.156 0.544 0.300
NAKAJIMA 3 0.100 0.820 0.080
B
NAKAJIMA 4 0.048 0.908 0.044
B
NAKAJIMA 5 0.173 0.722 0.105
B
NAKAJIMA 6 0.675 0.230 0.095
A
NAKAJIMA 7 0.090 0.781 0.130
B
NAKAJIMA 8 0.079 0.881 0.041
B
NAKAJIMA 9 0.062 0.031 0.907
C
INOUE 1
0.292 0.101 0.607
C
INOUE 2
0.038 0.037 0.925
C
INOUE 3
0.077 0.079 0.844
C
INOUE
4
0.029 0.027 0.944
C
INOUE 5
0.092 0.037 0.871
C
INOUE 6
0.180 0.065 0.755
C
INOUE 7
0.130 0.164 0.706
C
INOUE 8
0.033 0.022 0.945
C
帰属するクラスター
A
A
C
A
A
A
A
A
C
A
A
B
B
B
B
B
A
B
B
C
C
C
C
C
C
C
C
C
まとめ
• FCMの帰属度の大きいクラスターへ各個
体を帰属させるクラスタリング技法の精度
の良さを示す傾向を得た
• 各クラスターでの各個体の帰属順位を決
定することに帰属度を用いることでFCMの
有用性を示すことができた
図4.3 Rho1=0.5 Rho2=-0.5
誤判別の割合
0.40
0.35
0.30
0.25
HCM
0.20
m=2
0.15
m=3
m=4
0.10
m=5
0.05
m=6
0.00
1
2
3
4
5
6
7
8
9
10
11
12
13
14

帰属度による帰属順位
表5.4 帰属度を用いた帰属順位
A
B
1
MISIMA 2
NAKAJIMA 1
2
MISIMA 11
NAKAJIMA 4
3
MISIMA 1
NAKAJIMA 8
4
MISIMA 4
NAKAJIMA 3
5
MISIMA 5
NAKAJIMA 7
6
MISIMA 8
NAKAJIMA 5
7
MISIMA 6
NAKAJIMA 2
8
NAKAJIMA 6
NAKAJIMA 6
9
MISIMA 10
INOUE 7
10
MISIMA 7
MISIMA 7
11
INOUE 1
MISIMA 10
12
INOUE 6
MISIMA 6
13
NAKAJIMA 5
INOUE 1
14
MISIMA 9
INOUE 3
15
NAKAJIMA 2
MISIMA 9
16
INOUE 7
MISIMA 5
17
NAKAJIMA 3
MISIMA 8
18
INOUE 5
INOUE 6
19
NAKAJIMA 7
MISIMA 4
20
NAKAJIMA 8
INOUE 2
21
INOUE 3
INOUE 5
22
NAKAJIMA 9
NAKAJIMA 9
23
MISIMA 3
MISIMA 3
24
NAKAJIMA 4
INOUE 4
25
INOUE 2
MISIMA 1
26
INOUE 8
INOUE 8
27
INOUE 4
MISIMA 11
28
NAKAJIMA 1
MISIMA 2
C
INOUE 8
INOUE 4
INOUE 2
MISIMA 3
NAKAJIMA 9
INOUE 5
INOUE 3
MISIMA 9
INOUE 6
INOUE 7
INOUE 1
MISIMA 7
MISIMA 10
NAKAJIMA 2
MISIMA 6
NAKAJIMA 7
NAKAJIMA 5
NAKAJIMA 6
MISIMA 8
NAKAJIMA 3
MISIMA 5
MISIMA 4
NAKAJIMA 4
NAKAJIMA 8
MISIMA 1
MISIMA 11
MISIMA 2
NAKAJIMA 1