主成分分析 主成分分析:変数間の相関構造を考慮し,低い次元の合成変 数(主成分)に変換し,データが有している情報を より解釈しやすくするための方法 9.2 変数が2個の場合の主成分分析 変数; x1,x2 標準化 2 2 u u i1 i 2 n 1 u u i1 i 2 u1 x1 x1 x x , u2 2 2 s1 s2 (n 1)rx1x2 2 2 1 1 ( u u ) u i1 1 i1 1 n 1 n 1 ( xi1 x1 )( xi 2 x2 ) ui1ui 2 s1 s2 ( xi1 x1 )( xi 2 x2 ) (n 1)rx1x2 2 2 2 ( xi1 x1 ) ( xi 2 x2 ) (n 1) Vu1 第1主成分(1) 第1主成分 z1 a1u1 a2u2 z1 a1u1 a2u2 a1 0 a2 0 0 「z1がもとのデータの情報をできるだけ多く有する」 = 「データの全体のバラツキをできるだけz1のバラツキに反映させ る」 2 2 1 1 z1の分散 Vz1 ( zi1 z1 ) zi1 が,最大となる n 1 n 1 a1,a2を求める 2 1 1 Vz1 zi1 (a1ui1 a2ui 2 ) 2 n 1 n 1 1 2 2 2 2 a1 ui1 2a1a2 ui1ui 2 a2 ui 2 n 1 2 2 2 2 a a 制約: 1 2 1 a1 a2 2rx x a1a2 ラグランジュの未定乗数法 ラグランジュの未定乗数法:等号制約条件式付の最適化問題の解法 Lagrangian Multiplier:λ Min. Z(x1,x2, … ,xm) st. g1(x1,x2, … ,xm) = 0 ………… gn(x1,x2, … ,xm) = 0 n L(x1 , x 2 , , x m , 1 , 2 , , n ) Z i gi L 0 x1 L 0 1 L 0 x m L 0 n ….. ….. i 1 Example Min. Z(x1,x2)= x1+x2 st. x12+x22-1= 0 L(x1 , x 2 , 1 ) x1 x 2 1 ( x1 x 2 1) L 1 21x1 0 x 1 / 2 1 1 x1 L x 2 1/ 21 1 21x 2 0 x 2 2 L 2 2 x1 x 2 1 0 1 1 1 1 , 2 2 2 1 2 1 x2 2 x1 1 2 1 x2 2 x1 第1主成分(2) Max. Z(a1,a2)= a12 + a22 +2rx1x2 a1a2 st. a12 + a22 = 1 f(a1,a2 ,λ)= a12 + a22 +2rx1x2 a1a2 - λ( a12 + a22 - 1) ∂f(a1,a2 ,λ)/ ∂ a1 =2a1 +2rx1x2 a2 - λ(2 a1)=0 ∂f(a1,a2 ,λ)/ ∂ a2 =2a2 +2rx1x2 a1 - λ(2 a2)=0 ∂f(a1,a2 ,λ)/ ∂ λ = a12 + a22 - 1 =0 2a1 +2rx1x2 a2 - 2 λa1=0 2rx1x2 a1 + 2a2 1 r x1x2 - 2λa2=0 rx1x2 a1 a1 1 a2 a2 1 R rx1x2 rx1x2 1 Ra a a1 a a2 第1主成分(3) 相関係数行列 1 R rx1x2 1 r x1x2 rx1x2 1 rx1x2 a1 a1 1 a2 a2 a1 a a2 a' Ra a' a Ra a λ:固有ベクトル 1 rx1x2 a1 a1 [a1 a2 ] [a1 a2 ] a2 rx1x2 1 a2 2 2 2 2 Vz a1 a2 rx1x2 a1a2 (a1 a2 ) 1 Vz1を最大化することは,「相関係数行列Rの最大固有値λ1に 対応する(長さ1の)固有ベクトルaを求めれば,それがVz1の最 大値を与える[a1,a2]であり,の最大値はλ1となる」 第2主成分(1) z2 b1u1 b2u2 第2主成分: *第1主成分だけでは十分に説明できないとき *第1主成分に含まれない情報を追加するために導入するので 第1主成分と無相関になるように定める(相関係数=0) 相関係数の分子 ( zi1 z1 )( zi 2 z2 ) zi1zi 2 (a1u1i a2u2i )(b1u1i b2u2i ) a1b1 u1i a1b2 u1iu2i a2b1 u1iu2i a2b2 u2i 2 (n 1) a1b1 rx1x2 a1b2 rx1x2 a2b1 a2b2 (n 1)a' Rb (n 1)1a' b 0 a' b a1b1 a2b2 0 2 第2主成分(2) 2 2 1 1 1 2 Vz2 ( z z ) z ( b u b u ) i 2 2 n 1 i 2 n 1 1 1i 2 2i n 1 b1 b2 2rx1x2 b1b2 2 Vz2 2 最大化 2 2 b1 b2 1 a1b1 a2b2 0 f(a1,a2 ,λ,η)= b12 + b22 +2rx1x2 b1b2 - λ( b12 + b22 -1) - η( a1b1 + a2b2) ∂f(b1,b2 ,λ ,η)/ ∂ b1 =2b1 +2rx1x2 b2 + λ(2 a1) - η a1 =0 ∂f(b1,b2 ,λ ,η)/ ∂ b2 =2b2 +2rx1x2 b1 + λ(2 a2) - η a2 =0 2b1 +2rx1x2 b2 - 2 λb1 -η a1 =0 2rx1x2 b1 + 2b2 - 2λb2 -η a2 =0 第2主成分(3) 1 r x1x2 rx1x2 b1 b1 a1 1 b2 b2 2 a2 Rb b a 2 a' Rb a' b a' a 2 a' Rb 0 a' b 0 0 Rb b 第2主成分z2の(b1,b2) もRの固有ベクトル 対称行列の固有値は全て実数であり,異なる固有値に対応する 固有ベクトルは直交する (2)寄与率および累積寄与率 第1主成分の寄与率 1 1 2 2 第2主成分の寄与率 1 2 例題2 例題1について,寄与率を求めよ. 固有値λ1=1+r,λ2=1ーr 第1主成分の寄与率=(1+r)/(1+r+1-r)=(1+r)/2 第2主成分の寄与率=(1-r)/(1+r+1-r)=(1-r)/2 相関係数:大 → 第1主成分の寄与率:1 相関係数:0 → 第1,第2主成分の寄与率:0.5 第1主成分へのデータの情報の縮約は行われない (3)因子負荷量と主成分の解釈(1) = 因子負荷量:主成分と,もとの変数x1,x2との相関関係 「rz1x1,rz1x2,rz2x1,rz2x2」 ? 「rz1u1,rz1u2,rz2u1,rz2u2」 主成分と,標準化した変数u1,u2との相関関係 zj zi x3 z3 x2 z1 x1 変数の分類 zi z2 主成分の意味 zi (3)因子負荷量と主成分の解釈(2) rz1x1,rz1x2,rz2x1,rz2x2 a1 rz1x1 1 a1 rz1x2 1 a2 rz2 x1 2 b1 rz2 x2 2 b2 +rx1x2 a2= λa1 rz1x1 rz1u1 z u (a u a u )u (n 1) V z u a a r a u a u u i1 i1 2 i1 1 2 i1 1 i1 2 i2 2 i1 2 (n 1)2 1 1a1 1 a1 1 2 z1 i 2 i1 1 2 x1x2 1 i1 (4)主成分得点 主成分得点:個々のサンプルのziの値 第1主成分得点 z1 a1u1 a2u2 第2主成分得点 z2 b1u1 b2u2 z2 z1 9.3 変数がp個の場合の主成分分析 変数; x1,x2 , , xp 標準化 第1主成分 xp xp x1 x1 x2 x2 u1 , u2 ,, u p s1 s2 sp z1 a1u1 a2u2 a pu p 2 2 1 1 ( zi1 z1 ) zi1 n 1 n 1 a1 ,a2 , …, apを求める z1の分散 Vz1 が,最大となる 2 1 1 Vz1 zi1 (a1ui1 a2ui 2 a2ui 2 ) 2 n 1 n 1 1 2 2 2 2 a1 ui1 a p ui 2 2a1a2 ui1ui 2 2a p1a p uip1uip n 1 a1 a2 a p 2rx1x2 a1a2 2rx1x3 a1a3 2rx p1x p a p1a p 2 2 2 制約: a1 a2 a p 1 2 2 2 第1主成分(1) 第1主成分 z1 a1u1 a2u2 a p u p z1 a1u1 a2u2 a p u p 0 「z1がもとのデータの情報をできるだけ多く有する」 = 「データの全体のバラツキをできるだけz1のバラツキに反映させ る」 2 2 1 1 V ( z z ) z z1の分散 z1 が,最大となる i1 1 i1 n 1 n 1 a1,a2を求める 2 1 1 2 Vz1 z ( a u a u a u ) i1 n 1 1 i1 2 i 2 p ip n 1 Vz1= a12 + a22 ‥+ ap2 +2(rx1x2 a1a2 ‥+ rxp-1rxp ap-1ap) st. a12 + a22 +‥+ ap2 = 1 第1主成分(2) Max. Z(a1,a2 , ‥,ap)= a12 + a22 ‥+ ap2 +2(rx1x2 a1a2 ‥+ rxp-1rxp ap-1ap) st. a12 + a22 +‥+ ap2 = 1 f(a1,a2 , ‥,ap, λ)= a12 + a22 ‥+ ap2 +2(rx1x2 a1a2 ‥+ rxp-1rxp ap-1ap) - λ( a12 + a22 ‥+ ap2 - 1) ∂f(a1,a2 , ‥,ap, λ)/ ∂ a1 =0 ‥‥ ∂f(a1,a2 , ‥,ap, λ)/ ∂ ap =0 ∂f(a1,a2 , ‥,ap, λ)/ ∂ λ =0 1 r x2 x1 rx p x1 rx1x2 1 rx p x2 rx1 x p a1 a1 a rx2 x p a2 2 1 a p a p Ra a 第1主成分(3) 1 相関係数行列 r x2 x1 R rx p x1 Ra a a' Ra a' a rx1 x2 1 rx p x2 rx1 x p a1 a rx2 x p 2 a 1 a p λ:固有ベクトル Vz1 Vz1を最大化することは,「相関係数行列Rの最大固有値λ1に 対応する(長さ1の)固有ベクトルaを求めれば,それがVz1の最 大値を与える[a1,a2]であり,の最大値はλ1となる」 第2主成分(1) 第2主成分: z2 b1u1 b2u2 b p u p *第1主成分だけでは十分に説明できないとき *第1主成分に含まれない情報を追加するために導入するので, 第1主成分と無相関になるように定める(相関係数=0) 相関係数の分子 (z i1 z1 )( zi 2 z2 ) zi1zi 2 (a1u1i a2u2i a pu pi )(b1u1i b2u2i bpu pi ) (n 1)a' Rb (n 1)1a' b 0 a' b a1b1 a2b2 a p b p 0 第2主成分(2) Vz2 2 2 1 1 1 2 ( z z ) z ( b u b u ) i 2 2 n 1 i 2 n 1 1 1i 2 2i n 1 b b2 2rx1x2 b1b2 2 1 2 最大化 Vz2 b1 b2 1 2 2 a1b1 a2b2 0 f(a1,a2 ,λ,η)= b12 + b22 +2rx1x2 b1b2 - λ( b12 + b22 -1) - η( a1b1 + a2b2) ∂f(b1,b2 ,λ ,η)/ ∂ b1 =2b1 +2rx1x2 b2 + λ(2 a1) - η a1 =0 ∂f(b1,b2 ,λ ,η)/ ∂ b2 =2b2 +2rx1x2 b1 + λ(2 a2) - η a2 =0 2b1 +2rx1x2 b2 - 2 λb1 -η a1 =0 2rx1x2 b1 + 2b2 - 2λb2 -η a2 =0 第2主成分(3) 1 r x1x2 rx1x2 b1 b1 a1 1 b2 b2 2 a2 Rb b a 2 a' Rb a' b a' a 2 a' Rb 0 a' b 0 0 Rb b 第2主成分z2の(b1,b2) もRの固有ベクト 対称行列の固有値は全て実数であり,異なる固有値に対応する 固有ベクトルは直交する (2)寄与率および累積寄与率 第k主成分の寄与率 k 1 2 .. p k p 第k主成分までの累積寄与率 1 2 .. k 1 2 .. k 1 2 .. p p 主成分の選択 「固有値が1以上」 「累積寄与率が80%以上」 (3)因子負荷量と主成分の解釈(1) = 因子負荷量:主成分と,もとの変数x1,x2との相関関係 「rz1x1,rz1x2,rz2x1,rz2x2」 ? 「rz1u1,rz1u2,rz2u1,rz2u2」 主成分と,標準化した変数u1,u2との相関関係 zj zi x3 z3 x2 z1 x1 変数の分類 zi z2 主成分の意味 zi (3)因子負荷量と主成分の解釈(2) rz1x1,rz1x2,…,rz1xp,rz2x1,rz2x2 …,rz2xp,rzpx1,rz2x2 …,rzpxp rz1x1 1 a1 rz1x2 1 a2 rz1xp 1 a p rz2 x1 2 b1 rz2 x2 2 b2 rz 2 xp 2 bp rz p x1 2 p1 rz2 x p 2 p2 rzpxp 2 p p a1+rx1x2 a2+‥+ rx1xp ap = λa1 rz1x1 rz1u1 z u (a u a u a u )u (n 1) V z u a a r a r a u u a u u 2 2 2 2 i2 p ip 2 i1 a1 ui1 1 i1 i1 i1 2 z1 i1 i 2 i1 (n 1) 2 1 1a1 1 a1 1 i1 2 ip i1 1 2 x1 x2 p x1 x p 1 (4)主成分得点 主成分得点:個々のサンプルのziの値 第1主成分得点 第2主成分得点 第p主成分得点 z2 z1 a1u1 a2u2 a p u p z 2 b1u1 b2u2 b p u p z p p1u1 p2u2 p p u p z1 例題4 表9.1 生徒番号 国語x1 英語x2 数学x3 理科x4 1 86 79 67 68 2 71 75 78 84 3 42 43 39 44 4 62 58 98 95 5 96 97 61 63 6 39 33 45 50 7 50 53 64 72 8 78 66 52 47 9 51 4 76 72 10 89 92 93 91 x1 66.4, x2 64.0, x3 67.3, x4 68.6, s1 20.5, s2 21.6, s3 19.4, s4 18.0 固有値・固有ベクトル 1 0.967 0.376 0.311 1 0 . 415 0 . 398 R sym 1 0.972 1 λ1=2.712 λ2=1.222 λ3=0.052 λ4=0.005 a=[0.487, 0.511, 0.508, 0.493]’ b=[0.527, 0.474, -0.481, -0.516]’ c=[-0.499, 0.539, -0.504, 0.455]’ d=[0.458, -0.474, -0.506, 0.533]’ z1=0.487u1+0.511u2+0.508u3+0.493u4 z2=0.527u1+0.474u2-0.481u3+-0.516u4 z3=-0.499u1+ 0.539u2 -0.504u3+ 0.455u4 z4=0.458u1 -0.474u2 -0.506u3+ 0.533u4 寄与率 第k主成分の寄与率 1 0.680 p 2 0.306 p 3 0.013 p 4 0.001 p 第k主成分までの累積寄与率 1 0.680 p 1 2 0.986 p 1 2 3 0.999 p 1 2 3 4 1.000 p 因子負荷量 表9.2 因子負荷量 国語 英語 数学 理科 z1 z2 z3 z4 0.804 0.583 -0.11 0.035 0.842 0.524 0.123 -0.03 0.838 -0.53 -0.12 -0.04 0.814 -0.570 0.104 0.038 主成分得点 表9.2 標準化した値と主成分得点 生徒番号 u1 1 2 3 4 5 6 7 8 9 10 u2 u3 u4 z1 0.796 1.072 -2.491 1.280 1.166 -2.477 -0.643 -0.669 -0.518 2.485 z2 0.857 -0.348 0.319 -1.763 1.802 -0.299 -0.679 1.341 -1.148 -0.084 因子負荷量 z2 主成分得点 z2 x1 No.5 x2 No.3 z1 x4 x3 z1 No.10 No.6 No.4
© Copyright 2024 ExpyDoc