2014/10/28 7.1 判別分析とは? 目的変量と説明変量との関係を調べ関係式(目的変量を 予測するための式)を作成し、これを用いて、次の事柄を 以下の表(表1)は,ある大学で行われた就職のための 模擬試験の成績と,実際の入社試験の合否の結果である. 学生 No. 明らかにする手法 y 1 2 3 7 判別分析とは、( n 次元空間で) データの 白黒をはっきりさせて データの分布を2分する! 6 5 2 2.5 3 3.5 4 x 筆記 面接 試験合否 (説明変量1) (説明変量2) (目的変量) 50 70 合 20 80 合 50 50 不 4 5 70 90 60 90 合 合 6 50 90 合 7 8 80 70 60 70 不 不 9 30 50 不 10 60 80 合 面接 模擬試験の結果から、実際の就職試験の合格者と不合格 者のグループを合理的に判別する基準を探す。 表 1 合格 不合格 100 80 60 40 20 ・ 新たな就職希望者の合否を予想できる。 ・ 合格のための変量の意味が見えてくる (例えば、合格するには、筆記と面接とどちらが重要か) 0 0 20 40 60 80 100 筆記 筆記試験と面接試験の相関図 試験の合格者と不合格者を合理的に判別する基準を探す 2グループをわける直線や曲線を合理的に引くこと 1 2014/10/28 2グループを分割する直線の式が 次の式で与えられたとする。 ax by c 0 ① ①の左辺を Z とした次の方程式を考える. z ax by c ② 式② は,2変量 x, y から新変量 z を合成する式 ( x, y が説明変量、 z が目的変量)。 表1の例では、z > 0 となるサンプルは合格グループに 属する(z < 0 の場合は不合格)。 このように、正負により、 どちらのグループに属するか判別できる式②を 線形判別関数という。また、各サンプルについての z の値 を判別得点という。 z ax by c (説明変量は x と y の2個) z1 ax1 by1 c (サンプル1の判別得点 z1) 新規のデータがどちらのグループに属するか 「z の正負」で判別できる。 変量が n 個として一般化すると、判別直線は a0 a1 x1 a2 x2 an xn 0 x1~xnは変量であり、最適な a0 ~ an を決定することが目標。 判別得点の分散を求めてみる。 1 s z2 {( z1 z ) 2 ( z 2 z ) 2 ( z n z ) 2 } n いま,分子のみの ST で考える。 sT ( z1 z ) 2 ( z 2 z ) 2 ( z n z ) 2 ③ 2 2014/10/28 すなわち,z P をグループ Pのzの平均, サンプルは1番から m 番までが グループ P 、残りが グループ Q に属するとする。このとき、ST は次のように zQ をグループQのzの平均として, 2 つのグループの和に分割される. sT ( z1 z ) ( z 2 z ) ( z m z ) 2 2 ( z m 1 z ) ( z n z ) 2 2 2 sT ( z1 z P z P z ) 2 ( z m z P z P z ) 2 ( z m 1 zQ zQ z ) 2 ( z n zQ zQ z ) 2 グループP ④ グループQ グループごとに、グループの平均からの差の関係に 直してみる。 ここで、SB,SW の意味を考えてみる。 式④を展開し整理すると、式⑤で表現できる。 nP,nQ は 各々グループ P, Q に含まれるサンプル数を表す. ST S B SW S B nP ( z P z ) 2 nQ ( zQ z ) 2 ( z P z ) 2 は,グループPの平均z Pと全体z の差である. ⑤ S B nP ( z P z ) 2 nQ ( zQ z ) 2 (⑥) ⑥ SW ( z1 z P ) 2 ( z 2 z P ) 2 ( z m z P ) 2 ( z m 1 zQ ) 2 ( z m 2 zQ ) 2 ( z n zQ ) 2 ⑦ したがって,nP ( z P z ) 2 は,グループP全体がどれだけ 資料の中心から離れているかを表している(Qの項も同様) すなわち,SB は,2 グループがどれくらい離れているかを 表す「クラス間分散」であるとみなせる。 グループQ グループP SB 12月17日ここまで 3 2014/10/28 次に SW について考える。 SW ( z1 z P ) ( z 2 z P ) ( z m z P ) 2 2 2 ( z m 1 zQ ) 2 ( z m 2 zQ ) 2 ( z n zQ ) 2 (⑦) SW の 1(2) 行目は、P (Q)グループにおける判別得点の 偏差平方和を表している。 SW は各グループにおける 個々のデータ変動、すなわち「クラス内分散」を表しており、 SW が小さければ、それだけ各グループは密集している。 このように、ST (つまり Sz2 ) は、「クラス間分散」(SB )と、 「クラス内分散」 ( SW ) に分離できる。 各グループ内のデー ST = グループ間の距離の + タ変動の和「クラス内 指標「クラス間分散」 分散」 ( SW ) ( SB ) つまり、SB を大きくするように分割直線の方向を探せば、 2 グループ P, Q が 2 極化される。これが、線形判別関 数の決定原理である。 Q P P SB が大 7.3 線形判別関数を求める( 例:2 変量の場合) 1.線形判別関数を以下のようにおく。 z ax by c F を最大にする場合が,2群の距離の指標 SB の 占める割合を最大にし、グループを2極化する。 SB が小 F に SB ( 式⑥ ),ST ( 式③ ) をそれぞれ代入し、 z = ax + by + c を用いて表し整理すると以下の式になる。 F nP {a ( xP x ) b( y P y )}2 nQ {a ( xQ x ) b( yQ y )}2 ここで、次の比 F を考える。 SB F ST ( S B SW ) Q n{a 2 s x2 2abs xy b 2 s y2 } F の最大値を求める。極値条件より、 F 0 a F 0 b これから得られる2つの連立方程式を解いて, 係数 a, b の値を決定する. 4 2014/10/28 次に c を求める。a, b が求まっているので、直線 「 ax + by + c = 0 」 が通る 1 点を与えれば十分である。 表1から、実際に分割直線を求めると下式となる。 そこで、下の図のように、2つのグループ P, Q の x, y の 平均の中点 M を通るようにする。 従って、線形判別関数 z (x, y) は以下のように表現される。 P ( xQ , yQ ) M (中点) z = – 0.026 x + 0.19 y – 11.33 判別直線 z の各変量にかけられている係数の値から 何が分かるか? 例えば、 分割直線 ( xP , y P ) – 0.026 x + 0.19y – 11.33 = 0 Q x = 10, y = 90 のとき、z = 5.51 (筆記がダメ、面接がよい) x = 90, y = 10 のとき、z = – 11.77 (筆記がよい、面接がダメ) x = 50, y = 50 のとき、z = – 3.13 (筆記・面接ともに50点) 5
© Copyright 2024 ExpyDoc