判別資料

2014/10/28
7.1 判別分析とは?
目的変量と説明変量との関係を調べ関係式(目的変量を
予測するための式)を作成し、これを用いて、次の事柄を
以下の表(表1)は,ある大学で行われた就職のための
模擬試験の成績と,実際の入社試験の合否の結果である.
学生 No.
明らかにする手法
y
1
2
3
7
判別分析とは、( n 次元空間で)
データの 白黒をはっきりさせて
データの分布を2分する!
6
5
2
2.5
3
3.5 4
x
筆記
面接
試験合否
(説明変量1) (説明変量2) (目的変量)
50
70
合
20
80
合
50
50
不
4
5
70
90
60
90
合
合
6
50
90
合
7
8
80
70
60
70
不
不
9
30
50
不
10
60
80
合
面接
模擬試験の結果から、実際の就職試験の合格者と不合格
者のグループを合理的に判別する基準を探す。
表 1
合格
不合格
100
80
60
40
20
・ 新たな就職希望者の合否を予想できる。
・ 合格のための変量の意味が見えてくる
(例えば、合格するには、筆記と面接とどちらが重要か)
0
0
20
40
60
80
100
筆記
筆記試験と面接試験の相関図
試験の合格者と不合格者を合理的に判別する基準を探す
2グループをわける直線や曲線を合理的に引くこと
1
2014/10/28
2グループを分割する直線の式が
次の式で与えられたとする。
ax  by  c  0
①
①の左辺を Z とした次の方程式を考える.
z  ax  by  c
②
式② は,2変量 x, y から新変量 z を合成する式
( x, y が説明変量、 z が目的変量)。
表1の例では、z > 0 となるサンプルは合格グループに
属する(z < 0 の場合は不合格)。 このように、正負により、
どちらのグループに属するか判別できる式②を
線形判別関数という。また、各サンプルについての z の値
を判別得点という。
z  ax  by  c
(説明変量は x と y の2個)
z1  ax1  by1  c
(サンプル1の判別得点 z1)
新規のデータがどちらのグループに属するか
「z の正負」で判別できる。
変量が n 個として一般化すると、判別直線は
a0  a1 x1  a2 x2    an xn  0
x1~xnは変量であり、最適な a0 ~ an を決定することが目標。
判別得点の分散を求めてみる。
1
s z2  {( z1  z ) 2  ( z 2  z ) 2    ( z n  z ) 2 }
n
いま,分子のみの ST で考える。
sT  ( z1  z ) 2  ( z 2  z ) 2    ( z n  z ) 2
③
2
2014/10/28
すなわち,z P をグループ Pのzの平均,
サンプルは1番から m 番までが グループ P 、残りが
グループ Q に属するとする。このとき、ST は次のように
zQ をグループQのzの平均として,
2 つのグループの和に分割される.
sT  ( z1  z )  ( z 2  z )    ( z m  z )
2
2
 ( z m 1  z )    ( z n  z )
2
2
2
sT  ( z1  z P  z P  z ) 2    ( z m  z P  z P  z ) 2 
 ( z m 1  zQ  zQ  z ) 2    ( z n  zQ  zQ  z ) 2
グループP
④
グループQ
グループごとに、グループの平均からの差の関係に
直してみる。
ここで、SB,SW の意味を考えてみる。
式④を展開し整理すると、式⑤で表現できる。 nP,nQ は
各々グループ P, Q に含まれるサンプル数を表す.
ST  S B  SW
S B  nP ( z P  z ) 2  nQ ( zQ  z ) 2
( z P  z ) 2 は,グループPの平均z Pと全体z の差である.
⑤
S B  nP ( z P  z ) 2  nQ ( zQ  z ) 2
(⑥)
⑥
SW  ( z1  z P ) 2  ( z 2  z P ) 2    ( z m  z P ) 2
 ( z m 1  zQ ) 2  ( z m  2  zQ ) 2    ( z n  zQ ) 2
⑦
したがって,nP ( z P  z ) 2 は,グループP全体がどれだけ
資料の中心から離れているかを表している(Qの項も同様)
すなわち,SB は,2 グループがどれくらい離れているかを
表す「クラス間分散」であるとみなせる。
グループQ
グループP
SB
12月17日ここまで
3
2014/10/28
次に SW について考える。
SW  ( z1  z P )  ( z 2  z P )    ( z m  z P )
2
2
2
 ( z m 1  zQ ) 2  ( z m  2  zQ ) 2    ( z n  zQ ) 2
(⑦)
SW の 1(2) 行目は、P (Q)グループにおける判別得点の
偏差平方和を表している。 SW は各グループにおける
個々のデータ変動、すなわち「クラス内分散」を表しており、
SW が小さければ、それだけ各グループは密集している。
このように、ST (つまり Sz2 ) は、「クラス間分散」(SB )と、
「クラス内分散」 ( SW ) に分離できる。
各グループ内のデー
ST = グループ間の距離の +
タ変動の和「クラス内
指標「クラス間分散」
分散」 ( SW )
( SB )
つまり、SB を大きくするように分割直線の方向を探せば、
2 グループ P, Q が 2 極化される。これが、線形判別関
数の決定原理である。
Q
P
P
SB が大
7.3 線形判別関数を求める( 例:2 変量の場合)
1.線形判別関数を以下のようにおく。
z  ax  by  c
F を最大にする場合が,2群の距離の指標 SB の
占める割合を最大にし、グループを2極化する。
SB が小
F に SB ( 式⑥ ),ST ( 式③ ) をそれぞれ代入し、
z = ax + by + c を用いて表し整理すると以下の式になる。
F
nP {a ( xP  x )  b( y P  y )}2  nQ {a ( xQ  x )  b( yQ  y )}2
ここで、次の比 F を考える。
SB
F
ST ( S B  SW )
Q
n{a 2 s x2  2abs xy  b 2 s y2 }
F の最大値を求める。極値条件より、
F
0
a
F
0
b
これから得られる2つの連立方程式を解いて,
係数 a, b の値を決定する.
4
2014/10/28
次に c を求める。a, b が求まっているので、直線
「 ax + by + c = 0 」 が通る 1 点を与えれば十分である。
表1から、実際に分割直線を求めると下式となる。
そこで、下の図のように、2つのグループ P, Q の x, y の
平均の中点 M を通るようにする。
従って、線形判別関数 z (x, y) は以下のように表現される。
P
( xQ , yQ )
M
(中点)
z = – 0.026 x + 0.19 y – 11.33
判別直線 z の各変量にかけられている係数の値から
何が分かるか? 例えば、
分割直線
( xP , y P )
– 0.026 x + 0.19y – 11.33 = 0
Q
x = 10, y = 90 のとき、z = 5.51
(筆記がダメ、面接がよい)
x = 90, y = 10 のとき、z = – 11.77
(筆記がよい、面接がダメ)
x = 50, y = 50 のとき、z = – 3.13
(筆記・面接ともに50点)
5