sx x x - = ′

多変量解析法 Ⅲ 主成分分析
多変量解析法 奥野忠一 主成分分析
※とりあえず序論読んでこい
主成分分析は互いに相関のある多種類の特性値をもつ情報を、互いに無相関な少数個の
総合特性値に要約する役割と果たす。この手法を、等質な集団に適用する場合と異質な集
団に適用する場合とでは、その結果の解釈の仕方は異ならなければならない。また分散・
共分散行列から出発するか、相関行列から出発するかによっても解釈は変わる。最も慎重
でなければならない部分は変数の選び方である。これらの考慮しなければならない問題に
対して、いくつかの例題を用いて学んでいく。
【主成分分析とは】
「主成分分析法とはなにか」ということに関してはⅠ章 P8~にて概要を述べたので参照。
データと目的
主成分分析法(PCA:Principal Component Analysis)に用いられるデータは n 個のサンプ
ル(ロット・部品・個体など)について測られた p 種類の特性値である。これを xα1(α=1,2,
…,n;n;i=1,2,…,p)という記号で表すと、表 1.1 の左半分のようになる。
ここで p 個の特性値は、製品の
寸法・硬度・電気抵抗のような物
理量であっても、特定の化学成分
の含有量であっても、特性値の測
定単位が g,c,%などが混在してい
てもよい。ただし全ての特性の測
定値 x を基準化して


x i  xi  xi si
として用いる。この xα1’の分散・共分散行列は、もとの測定値 xαi の相関行列に一致する。
一方、全部の特性値が共通の単位をもつ場合には、その特性値をそのまま用いることも、
基準化して用いることもできる。また 0 か 1 となるような分類尺度の変数はデータの層別
に利用して、ここでの特性値に含めない方がよい。
表 1.1 の左半分(xαi)の配列は、実験計画法で周知の 2 元配置(2 重分類)のように見える。
しかし 2 元配置では、この np 個のデータはすべて同じ特性値で、かつ互いに独立に得られ
なければならないのに対し、このデータでは n 個のサンプルが独立にえられ、そのおのお
のについて p 通りの特性値が測られている。p 個の特性値が同じものであっても、それらは
同じ対象(サンプル)について時間を変えたり、測定条件を変えたりして測ったものであ
るので、数学的には n 個の対象の各々について p 次元ベクトル量(x1,x2,…,xp)が測られたと
考える。
多変量解析法 Ⅲ 主成分分析
同じ対象について測られたものであるから、この p 個の特性値の間には、大小はともか
く、なんらかの相関があるのが普通である。仮にこの p 個の特性値が互いに完全に無相関
であるなら、その 1 つ 1 つについて n 個のサンプルのばらつきを評価すればよいが、これ
らの間に相関があるのなら、1 つ 1 つ解析する手法では、その相関をもたらす共通要素につ
いては重複して解析してしまう。そこで主成分分析法では、この p 個の特性値の重みづき
平均と考えられる(1.1)式の m 個(m<p)の総合特性値(第 1,第 2,…,第 m 主成分)を、その
係数(重み)が以下に述べる条件を満足するように定める。


i 1

p

z 2  l21x1  l22 x2    l2 p x p   l2i xi 
i 1




p
z k  lk1 x1  lk 2 x2    lkp x p   lki xi 

i 1



p

z m  lm1 x1  lm 2 x2    lmp x p   lmi xi 

i 1
p
z1  l11x1  l12 x2    l1 p x p   l1i xi
(1.1)
ここで
p
k  1,2,, m
lk21  lk22    lkp2    lki2  1 (1.2)
i 1
とする。
[条件 A]
1) 第 1 主成分 z1(における xi)の係数{ lij }(i=1,2,…,p)は(1.2)式の条件のもとで z1 の分
散が最大になるように定める。
2) 第 2 主成分 z2 の係数{ l2i }(i=1,2,…,p)は(1.2)式を満足し、かつ z2 が z1 と無相関になる
という条件のもとで z2 の分散が最大になるように定める。
3) 以下同様にして第 k 主成分の係数は zk が他の z と無相関になるという条件のもとで
zk の分散が最大になるように定める。
[条件 B]
変数 x1,x2,…,xp に直交変換をほどこしてえられる変数を z1,z2,…,zp とする。この z1,z2,…,zp
が互いに無相関になるように定め(一義的に定まる)、このうち、その分散が大きいものか
ら順に z1,z2,…,zm とする。
多変量解析法 Ⅲ 主成分分析
[条件 C]
{ z1,z2,…,zm }を n 個の対象に与える新しい m 個の指標をするとき、もとの変数 xi のこれ
p
らの指標に対する重相関係数 Ri の 2 乗の和
R
i 1
2
i
が最大になるように、この z1,z2,…,zm を
定める。これは次のようにいうこともできる。
適当に選んだ m 個の指標 z1,z2,…,zm の 1 次関数を
X 1  a11z1  a12 z 2    a1m z m 
X 2  a21z1  a22 z 2    a2 m z m 



X p  a p1 z1  a p 2 z 2    a pm z m 
(1.3)
とするとき
p
n
x


i 1
1
i
 X i  si2  Min.
2
(1.4)
になるように z1,z2,…,zm を定める。
主成分の幾何学的解釈
主成分分析が最初に考案されたときは次のような幾何学的解釈に基づくものであった。
表 1.1 のデータは p 次元空間に散らばる n 個の点によって表すことができる。一方 m 個
の主成分のとる値は m 次元空間における n 個の点によって表される。
もし n 個の点が p 次元空間内である 1 つの平面上にほぼのっているとしたら、この平面
上にすべての点を射影して、その上での n 点のバラツキの状態だけに注目しても、情報の
ロスはほとんどないだろう。また 1 つの平面上、というわけでなくても m 次元(m<p)空間
に n 個の点がかたまっているかもしれない。そのようなときには次元数を m 個に下げるこ
とができる。一般にこのような m 次元空間は、次の基準 A にしたがって求める。
基準 A p 次元空間の n 点のおのおのから任意の m(<p)次元空間に垂線をおろすとき、そ
の垂線の長さの 2 乗和 Up が最小になるような m 次元空間をとり、それを決める
座標系を“主成分”z1,z2,…,zm とする。この m=2 のときを図 1.1 に示す。
ここで、m 次元空間への垂線の長さの 2 乗和 Up は次の Sp と Sm の差であることが容易に
わかる。
Sp:p 次元空間における n 点の重心からの距離の 2 乗和
Sm:m 次元空間へ射影した n 点(垂線の足)の重心からの距離の 2 乗和
すなわち
Up=Sp-Sm
Sp
Up
Sm
多変量解析法 Ⅲ 主成分分析
図 1.1 に、第α番目の点として、この関係を表す直角三角形に示した(ピタゴラスの定理よ
り)
、ここで Sp はデータが与えられると定まる値であるから、Up を最小にするという上の
基準 A は Sm を最大にするという次の基準 B と同じである、よって
基準 B p 次元空間の n 点を任意の m(<p)次元空間に射影するとき、そこでの n 点のバ
ラツキ(n 点と重心を結ぶ距離の 2 乗和)を最大にするような m 次元空間を選び、
その座標系を“主成分”z1,z2,…,zm とする。
ということもできる。
m 次元空間の決め方については、この他にもいろいろな表現の仕方があるが、ここでは
ふれない。m 次元空間がひとたび定まっても、その座標系 z1,z2,…,zm の選び方は一義的で
はない。しかし主成分分析では通常、まず m=1 として第一主成分 z1 を求め、次にこれと直
交する(p-1)次元空間内で同様の操作により第 2 主成分 z2 を求め、以下順次同様にして z3,
…,zm を求める。こうするとこの z1,z2,…,zm は、求める m 次元空間における 1 つの直交座標
系となる。
主成分の導出
ここでは 1.1 項であげた条件 A に基づいて主成分を求める。いま、係数{ lli }(i=1,2,…,p)
が定まって、第 1 主成分 z1 の値が n 個のサンプルのおのおのについて計算され、表 1.1 の
右半分のうち{ zα1 }(α=1,2,…,n)が求められたとする。このとき z1 の分散 V[z1]は

V z1    z 1  z1

p
n
n
 1
p
2


  l1i l1i  xi  x i xi  x i
i 1 i1
 1


p
n  1    l1i xi  xi 
 1  i 1

n
2
n  1
 n  1   l l V
i
i
(1.5)
1i 1i ii
と書くことができる。基準化した値 x’を用いると(1.5)式から(1.10)式までに現れる Vii’を rii’
におきかえることができる。条件 A の 1)によれば、この値が(1.2)式のもとで最大にならな
ければならないので、Lagrange の未定乗数法を用いれば
p
p
 p

Q   l1i l1iVii     l12i  1  Max.
i 1 i1
 i1

すなわち Q を最大にするように、lij を定めればよいということになる。
そこでまずは Q が各 lij で偏微分してゼロとおくと以下になる
Q
i  1,2,, p 
 0   l1iVii  l1i  0 l1 j
i
(1.6)
※λは任意の定数なので 2λ→λとなっている
わかりやすくするために、これを i=1,2,…,p について書き下ろすと
多変量解析法 Ⅲ 主成分分析
V11   l11  V12l12    V1il1i    V1 pl1 p  0

V11l11  V12   l12    V1i l1i    V1 p l1 p  0


V11l11  V12l12    V1i   l1i    V1 p l1 p  0


V11l11  V12l12    V1i l1i    V1 p   l1 p  0 
(1.6)’
となる。この式は p 個の未知数 l11, l12,…, l1p について p 個の方程式を連立させたもので、
常数項はすべてゼロであるから、もしこれら p 個の式が互いに独立なら解は一義的に
l11= l12=…l1p=0
(1.7)
となる。しかし、この解では意味がないので(1.2)式をも満足する正常な解をとりうるため
には(1.6)'式の p 個の式は互いに独立ではなく、少なくとも 1 つは残りの式に従属する。す
なわち残りの式の 1 次結合で表されなければならない。このとき(1.6)’式の係数の行列式は
ゼロでなければならないことになる。いま対角線上の要素は 1、他はすべて 0 という単位行
列 I を用いて表すと、この条件は下のように書ける。
V11  
V12
V12
V22  
V  I 


V1 p
V2 p

V1 p

V2 p
0


 V pp  
(1.8)
λは自由に定められる(Vii’はデータから計算される)ので、この行列方程式をλの多項式
に展開して
a0+a1λ+a2λ2+…+apλp=0
で表すと、これを満足するλの値は p 個あることがわかる。そのうえ、この p 個の根であ
るλ1,λ2,…,λp はいずれも実数で正またはゼロであることが知られている 1)から、これを大
きさの順に並べて
λ1≧λ2≧…≧λp≧0
と書くことにする。この{λk}(k=1,2,…,p)を行列 V の固有値(eigenvalue)という。
このλk のいずれかを(1.6)式に代入すると、この p 個の式のうち少なくとも 1 つは独立で
なくなる。よってそれを除き、そのかわりに(1.2)の条件式を用いて係数{ lki }(k=1,2,…,p)を
求める。この解を行列 V の固有ベクトル(eigenvector)と呼ぶ。
多変量解析法 Ⅲ 主成分分析
以上では Q を 1 回偏微分してゼロとおくという条件のもとで、p 通りの解をえた。Q を
最大にする際は、このなかにあるはず。これらの解はいずれも(1.6)式を満足する。
Lagurange の未定乗数法より
p
p
 p

Q   l1i l1iVii     l12i  1  Max.
i 1 i1
 i1

偏微分=0 なので
Q
i  1,2,, p 
 0   l1iVii  l1i  0 l1 j
i
(1.6)
移行すると
l
i
k  1,2,, p 
V  k lki ki ii
と書くことができ、これを(1.5)式に代入すると
V z1    lki lkiVii   lki k lki   k  lki2  k
i
i
i
(1.10)
j
となる。すなわち、最大にすべき z1 の分散はλk(k=1,2,…,p)のいずれかに等しいというこ
とになる。それゆえ、λk のうちの最大であるλ1 をとり、λ1 に対応する固有ベクトルを
{ lij }(i=1,2,…,p)とすればよいことがわかる。
第 2 主成分以下の係数もほぼ同様の手順 2)で求められ、結論としては次のようになる。
「m 個の主成分を求める係数{ lki }(k=1,2,…,m; i=1,2,…,p)は、もとの変数 x1,x2,…,xp の分
散・共分散行列 V(または相関行列 R)の固有値の大きい方から順に m 個λ1≧λ2≧…≧
λm とり、対応する固有ベクトル({l1i},{l2i},…,{lmi}; i=1,2,…,p)を充当すれば良い。
」
流れのまとめ
m 次元超平面に射影したい
まずは分散(情報量)が最大となるような平面を取りたい
Lagurange の未定乗数法
すべて独立ではなく、従属的なものはある
極値のうち、大きい順にλk と名付ける
λは分散に等しい
λk に対応してλki を固有ベクトルとする
多変量解析法 Ⅲ 主成分分析
主成分のもつ性質
こうして求められた主成分は次のような諸性質をもつ。ただしここでは相関行列 R から
求めた(基準化した変数 x’を用いる)場合について説明し、そのあとで分散・共分散行列 V
から求めた場合について相違点を示す。またこれらの性質をまとめて表 1.2 に示す。
1) 主成分 zk の分散は固有値λk に等しい
V[zk]=λk
(k=1,2,…,m(≧p))
(1.11)
前項(1.10)式でλk の大きさの順に主成分 zk をとるとするので明らか
2) xi’の分散は V[xi’]=1 であるので、その和は
p
V [ x]  p
となる。
i
i 1
主成分 zk の分散のこの総分散に対する割合(これを寄与率と呼ぶ)はλk/p で、m
個の主成分{z1,z2,…,zm}の累積寄与率は
m
 
k
k 1
p
(1.12)
で与えられる。m=p とすると固有値の合計は
m

k 1
k
p
(1.13)
となり 3)、累積寄与率は 1 となるので、これでもとの p 個の(基準化した)変数のも
っていた情報の全部をつくすことになる。
3) 各主成分は互いに無相関である。基準化した変数 xαi’,xαi’’の共分散は、相関係数 rii’(i=i’
のときは 1)であることを用いれば
n
Covzk , zk     zk zk  n  1
 1
  lki lk i rii
i
i
k  k  1.14
 k   lki lki  0 i
となるからである。ここで「k≠k’に対応する固有ベクトル lk と lk’は互いに直交する」
(注4という性質を用いた。
4) 主成分 zk のもとの特性値 xi’との相関は次式で与えられる(この相関を因子負荷量
factor loading という)
i lkirii k lki
Covzk , xi
r zk , xi  


 k lki
V zk   V xi
k  1
k
(k=1,2,…,m; i=1,2,…,p)
(1.15)
多変量解析法 Ⅲ 主成分分析
5) この相関係数を 2 乗して、i について加えるとλk になる。
p
 r z , x     l
i 1
2
k
2
k ki
i
 k
(1.16)
i
6) m 個の主成分{z1,z2,…zm}のもとの変数 xi’に対する寄与率νi――xi’の{z1,z2,…,zm}に対
する重相関係数の 2 乗――は次式で与えられる。
m
m
k 1
k 1
 i   r 2 zk , xi    k lki2
(1.17)
ここで「zk と zk’は無相関である」という 3)の性質を用いた。もし m=p までとると
p
p
 r z , x     l
2
k 1
k
i
k 1
2
k ki
1
(1.18)
になることが知られている。(注5
7) 各変数 xi’の m 個の主成分(z1,z2,…,zm)に対する重回帰式は、次のようになる
(Xi はその回帰推定値を表すとすると)
X 1  l11z1  l21z 2    lm1 z m 
X 2  l12 z1  l22 z 2    lm 2 z m 



X i  l1i z1  l2i z 2    lmi z m 



X p  l1 p z1  l2 p z 2    lmp z m 
(1.19)
すなわち各 zk の係数は xi’から zk を求めたときの固有ベクトル{ lki } (i=1,2,…,p)と一致
(注6
する。
この導出は[条件 C]から主成分を求めるときに相当し、xi’の(z1,z2,…,zm)に対
する重相関係数の 2 乗和を最大にしたのである。
まとめ
1) 主成分 zk の分散は固有値λk に等しい
2) 寄与率はλk/p
3) 共分散が 0 なので、主成分同士は無相関である
4) 因子負荷量とは主成分 zk のもとの特性値 xi’との相関 r zk , xi  
k lki のことである
※主成分と、分析前の各特性値 xi’との話
5) 上記の因子負荷量を 2 乗して i について総和をとるとλk となる
※主成分と、基の各特性値の相関の合計=その主成分の総合情報量となる
6) m 個の主成分のもとの変数 xi’に対する寄与率の話(m=p なら寄与率 1)
7) 逆に xi から各主成分に対する重回帰式における係数が一緒