プログラミング論II

プログラミング論
主成分分析
http://www.ns.kogakuin.ac.jp/~ct13140/Prog/
K-1
概要
• 主成分分析
– 難しい.簡易に触れるのみ.
K-2
主成分分析
• 主成分分析とは,複数(N個)の要素からな
るデータを,重要なM個(M≦N)の要素に代
表させて把握する手法.
– N個の中からM個を選択するのではない.
• データの要素数を減らす
→ 情報量は失われる
→ 情報の把握が容易になる
重要度の低い情報を捨て,
重要度の高い情報のみにする.
K-3
英語Listeningと
英語Readingの成績
例A(相関の強いデータ)
100
Reading
二つのデータ
(Listening成績
とReading成績)に
非常に強い相関が
あった場合.
90
80
70
60
50
40
右上がりの軸(水色)
でデータを把握すれば
ほぼ正確に,
データを把握する
ことが可能.
30
20
10
0
0
20
40
60
Listening
80
100
K-4
10
0
90
例A(相関の強いデータ)
80
Re
ad
ing
70
60
50
40
• 水色の横軸の値のみを考えれば,
各人の能力はほぼ分かる.
– 2次元データが1次元データになった.
– 厳密さは失われたが,理解が容易に.
30
20
10
0
0
– 横軸は,大まかに英語力を示してい
ると言える.
20
40
Li
st
en
ing
60
K-5
例A(相関の強いデータ)
• 下図の緑色の横の軸1本を
用いて,両データを
代表させた場合,
緑軸の値は英語力を
適切に表現していない.
90
80
80
70
g
60
in
d
a
0
10
次元を減らして,
全体を代表させる
場合は,
軸を適切に選択
せねばならない.
50
60
g
nin
K-6
主成分分析 (2次元値の場合)
• 重心を通り分散が
最大の方向に
軸をとり,それを
第一主成分
英語と数学の成績
100
90
80
70
英語
60
50
とする.
40
• それと垂直方向に
30
重心を通る軸をとり,
20
これを
10
第二主成分とする. 0
0
20
40
60
数学
80
100
K-7
主成分分析 (N次元値の場合)
• N次元空間上で,重心点を通り,最も分散
の大きい方向に軸をとり,それを第一主成
分とする.
• 第一主成分と垂直な軸の中で,重心点を
通り,最も分散が大きい方向に軸をとり,
それを第二主成分とする.
• 以下,同様に第1~第N主成分全てに垂直
で,重心点を通り,分散が最大の方向に第
N+1主成分をとる.
K-8