PowerPoint プレゼンテーション

多変量データ分析B 第5回
第3章:主成分分析
林俊克&廣野元久「多変量データの活用術」:海文堂
廣野元久
2004.5.19. SFC5限
第3章 主成分分析 Ⅰ
1/40
第3章 主成分分析
主成分分析
目標
主成分分析とは何ができる道具かを
理解しよう
主成分分析のコンピュータ出力を
読み取れる力を身につけよう
主成分分析のからくりと前提を理解しよう
課題を通じて主成分分析の使い手になろう
第3章 主成分分析 Ⅰ
2/40
アンケート作成 1/3
理想のアイドルの要件についてアンケート調
査することを考えよう.
1.各自で5つずつ要件を考えなさい.
・
・
・
・
・
2.それに対する解答肢を作成するが
今回は5段階評点とする
評価語を考えよ.
第3章 主成分分析 Ⅰ
3/40
アンケート作成 2/3
理想の恋人の要件についてアンケート調査することを
考えよう.
1.クラスで決定された7つの要件をまとめなさい.
・
・
・
・
・
2.クラスで決定された5段階の評価語をまとめなさい.
①
②
③
④
⑤
第3章 主成分分析 Ⅰ
4/40
アンケート作成 3/3
アンケート用紙を作成しなさい
第3章 主成分分析 Ⅰ
5/40
アンケートの分析
理想の恋人の7要件について
1.総合評点をどのようにつけるとよいか
2.7つの要件についてのいくつかの合成指標を
作れるか
3.回答者の分類は可能か
第3章 主成分分析 Ⅰ
6/40
適用例と解析ストーリー
データ 10人の生徒に施した国語,英語,数学,理科の試験成績
注意:概要を理解するためにサンプル数が10と少ない.
実際には,50以上のサンプル数が欲しいところ
試験の成績データ
生徒
国語 x1 英語 x2 数学 x3
理科 x4
1
86
79
67
68
2
71
75
78
84
3
42
43
39
44
4
62
58
98
95
5
96
97
61
63
6
39
33
45
50
7
50
53
64
72
8
78
66
52
47
9
51
44
76
72
10
89
92
93
91
Q1.変量は何か
Q2.変量の属性は何か
Q3.サンプルは何か
第3章 主成分分析 Ⅰ
7/40
適用例と解析の目的
この4次元データに基づいて,相関構造を解明したい
国語
英語
数学
主成分1
主成分2
理科
1.より低い次元でデータのばらつきを解釈できないか
2.どのように合成変数(主成分)を構成するか
3.主成分の説明力の定義と測定(当てはまりよさ)
4.科目や生徒の分類したい
第3章 主成分分析 Ⅰ
8/40
解析ストーリー-①
相関係数行列Rの第1固有値(最大固有値)λ1に
対応する固有ベクトルから第1主成分z1を求める
次にRの第2固有値λ2に対応する固有ベクトルから
第2主成分z2を求める
同様にして第k主成分(k=1,2,3,・・・,p)まで求め
る
注)固有値,固有ベクトルは参考書(永田&棟近)pp37-38を参照せよ.
理解できない読者は,Ax=λx を満たす特別なx が固有ベクトル
λが固有値と理解しよう.
第3章 主成分分析 Ⅰ
9/40
解析ストーリー-②
それぞれの主成分の寄与率および累積寄
与率を求める
固有値が1以上,
累積寄与率が80%を超えるところ
を目安として主成分を選択する
注)主成分の選択基準は,主観的なもので,あくまで慣例として
使われるものである.
主成分の使い手で達人と称される人々はその限りではない.
読者は,これから主成分分析と付き合いが始まるのであるから
まずは慣例にしたがってみよう.
第3章 主成分分析 Ⅰ
10/40
解析ストーリー-③
因子(主成分)負荷量を求める
固有ベクトルや因子負荷量の値を参考にして
選択した主成分の意味について考察する
因子負荷量を散布図にプロットして変数の分類
を行う
同様に主成分得点を散布図にプロットして
サンプルの特徴つけを行う
注)主成分の意味つけは,主観的なものである.知見に基づいて
成分に名前をつけてみる.
成分の命名はキャッチフレーズと同じ感覚で・・・
第3章 主成分分析 Ⅰ
11/40
JMP操作-①
事前分析
手順0.JMPを起動しデータを入力する
手順1.各量数の分布を調べる
・ウインドウメニューから→分析→1変量の分布
ダイアログのリストから変数指定→Y列ボタン
変量を確認後OKボタン
手順2.変量間の散布図を調べる
・ウインドウメニューから→分析→多変量の相関
ダイアログのリストから変量指定→Y列ボタン
変量確認後OKボタン
手順3.変量間の相関係数を求める
出力ウインドウのスライダを動かし相関係数行列を
表示し考察する
12/40
第3章 主成分分析 Ⅰ
JMP操作-②
ŽU • z
}
s— ñ
100
90
80
70
60
50
40
事前分析
‘ ŠŠÖ
‘ Œê

‘Œê
‰pŒê
”Šw

—
‰È
100
80
‰pŒê
60
‘Œê
1.0000
0.9670
0.3761
0.3113
‰pŒê
0.9670
1.0000
0.4146
0.3983
”Šw
0.3761
0.4146
1.0000
0.9721
—
‰È
0.3113
0.3983
0.9721
1.0000
40
100
90
80
70
60
50
40
散布図行列の楕円は信頼率95%の
確率楕円,この様子から相関の強さ
を視覚的に判断する
”Šw

100
90
80
—
‰È
70
60
50
40 50 60 70 80 90
40
60
80 100 40 50 60 70 80 90
相関係数は小数点以下2桁程度で
判断する
50 60 70 80 90 100
Qこの結果から何が読み取れるか
第3章 主成分分析 Ⅰ
13/40
JMP操作-③
主成分分析の実行
1.出力ウインドウの▼多変量をクリック
メニューの主成分分析から相関係数行列からをクリック
Žå
¬• ª•ª
Í : ‘ ŠŠÖŒ W
”
s — ñ‚ ©‚ ç
ŒÅ—L’l
2.7207
1.2218
0.0524
0.0051
Šñ—^—¦
68.0183
30.5450
1.3103
0.1264
—Ý 
ÏŠñ—^—¦ 68.0183
98.5633
99.8736 100.0000
ŒÅ—LƒxƒNƒgƒ‹
‘ Œê

0.48727
0.52734
0.49897
0.48529
‰pŒê
0.51054
0.47400 -0.53867 -0.47383
”Šw

0.50832 -0.48075
0.50411 -0.50632
—
‰È
0.49349 -0.51587 -0.45467
0.53256
第2主成分まで
・1を越えている
それ以降の固有値は
ほとんどゼロ
・累積寄与率は98%以上
注)上の固有ベクトルは主成分の方向を表しているが主成分と元の変量の
関係の強さがわからない
→その関連の強さを示す因子負荷量を求める必要がある
因子負荷量はJMP以外のソフトでは標準で出力される
JMPで計算した主成分の得点をデータウインドウへ保存する
第3章 主成分分析 Ⅰ
14/40
JMP操作-④
主成分得点の保存
1.出力ウインドウの▼主成分/因子分析をクリック
メニューの主成分の保存からダイアログで4を入力し
全ての主成分得点をデータウインドウに保存する
2.多変量の相関から元の変数と主成分を含めて相関
行列を出力する
‘ ŠŠÖ
‘Œê
‰pŒê
”Šw
—
‰È
Žå
¬•ª1
Žå
¬•ª2
Žå
¬•ª3
Žå
¬•ª4
‘Œê
1.0000
0.9670
0.3761
0.3113
0.8037
0.5829
0.1142
0.0345
‰pŒê
”Šw

0.9670
0.3761
1.0000
0.4146
0.4146
1.0000
0.3983
0.9721
0.8421
0.8385
0.5239
-0.5314
-0.1233
0.1154
-0.0337
-0.0360
—
‰È
0.3113
0.3983
0.9721
1.0000
0.8140
-0.5702
-0.1041
0.0379
Žå
¬•ª1
0.8037
0.8421
0.8385
0.8140
1.0000
-0.0000
-0.0000
-0.0000
Žå
¬•ª2
0.5829
0.5239
-0.5314
-0.5702
-0.0000
1.0000
-0.0000
-0.0000
Žå
¬•ª3
0.1142
-0.1233
0.1154
-0.1041
-0.0000
-0.0000
1.0000
-0.0000
Žå
¬•ª4
0.0345
-0.0337
-0.0360
0.0379
-0.0000
-0.0000
-0.0000
1.0000
これが因子負荷量で主成分と元の変数との相関 主成分同士は無相関に着目
上の相関行列を右クリックしてデータテーブルに保存させる
15/40
主成分を表示させないようにして,主成分1と主成分2の散布図を作る
第3章 主成分分析 Ⅰ
JMP操作-⑤
Žå
¬•ª1‚Æ Žå
¬•ª2‚Ì “ñ•Ï—Ê‚Ì ŠÖŒW
1
0.75
‘
ΐ
‰pŒê
0.5
0.25
Žå
¬• ª 2
Q.成分(因子負荷量)
プロットの解釈をせよ
0
-0.25
”
Šw
—
‰È
-0.5
-0.75
-1
-1
-0.75 -0.5 -0.25 0
.25
Žå
¬•ª1
.5
.75
1
円周に近ければ
2つの成分での説明力が高い
線と円周は後で追加した
第3章 主成分分析 Ⅰ
16/40
JMP操作-⑥
Žå
¬• ª1‚Æ Žå
¬• ª2‚Ì “ñ• Ï—Ê‚Ì ŠÖŒW
2
Žå
¬•ª1‚Æ Žå
¬•ª2‚Ì “ñ•Ï—Ê‚Ì ŠÖŒW
1
5
0.75
8
0.5
1
0.25
3
0
Žå
¬• ª 2
Žå
¬• ª 2
1
‘
ΐ
‰pŒê
10
6
2
7
-1
0
-0.25
”
Šw
—
‰È
-0.5
9
-0.75
4
-2
-3
-2
-1
0
Žå
¬•ª1
1
-1
2
3
-1
-0.75 -0.5 -0.25 0 .25
Žå
¬•ª1
.5
.75
1
Q.生徒を分類してみよう
第3章 主成分分析 Ⅰ
17/40
変数が2個の場合
x2
x1
Q 2つの変数空間(散布図)で誤差が最小になるような直線を目
見当で引いてみなさい.それはどんな基準で引きましたか.
第3章 主成分分析 Ⅰ
18/40
練習問題
変数名
x
1
y
1
2
3
データ
3
4
5
2
5
4
平均 標準偏差
3
2
3
2
Q.合成変数 u=ax+by を作りたい.
条件はa2+b2=1で合成変数の分散を最大にしたい.
1)5つのサンプルの合成変数をaとbを使い表せ.
2)合成変数の平均と標準偏差を求めよ.
ただし,分散の分母は計算が簡単のためにn=5を使え
3)a,bの未知数を求めよ.
第3章 主成分分析 Ⅰ
19/40
3.1 二変量による主成分分析 1/5
二変量の合成変量で代表的なものが総合点
y  1 数学の得点  1 英語の得点
y  数学の得点  英語の得点
測定単位に依存するのはまずい
・難易度や設問数による
u1 
x1  x1
x x
, u2  2 2
s1
s2
平均0, 標準偏差1
常套手段:標準化変量の合計とする
数学の得点  数学の平均 英語の得点  英語の平均

数学の標準偏差
英語の標準偏差
 (数学の偏差値  英語の偏差値) /10-( 50+50)
y
第3章 主成分分析 Ⅰ
20/40
3.1 二変量による主成分分析 2/5
g ’·(ƒCƒ“ƒ`)‚Æ ‘̐

d (ƒ|ƒ“ƒh )‚Ì“ñ•Ï —Ê‚ÌŠÖŒW
•W
€‰»
g ’·(ƒCƒ“ ƒ`)‚Æ •W
€‰»‘̐
d (ƒ|ƒ“ƒh )‚Ì“ñ•Ï —Ê‚ÌŠÖŒW
180
3
•W
€‰»‘̍
d(ƒ|ƒ“ƒh)
160
‘̍
d(ƒ|ƒ“ƒh)
140
120
100
80
60
40
2
標準化しても
散布状況は変らない
1
0
-1
-2
-3
48 52 56 60 64 68 72 76
g’·(ƒCƒ“ƒ`)

“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0.950
‘ŠŠÖ
•Ï
”
•½ ‹Ï •W
€•Î
·
‘ŠŠÖ
g’·(ƒCƒ“ƒ`)

62.55 4.242338 0.7092
‘̍
d(ƒ|ƒ“ƒh)
105 22.20187
-3
標準化

”
40
-2 -1 0
1
2
•W
€‰»
g’·(ƒCƒ“ƒ`)
3
“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0.950
‘ŠŠÖ
•Ï
”
•½ ‹Ï •W
€•Î
·
•W
€‰»
g’·(ƒCƒ“ƒ`) 0.00
1
•W
€‰»‘̍
d(ƒ|ƒ“ƒh)
0.00
1
‘ŠŠÖ
0.7092

”
40
図3.1 身長と体重のプロット(左),標準化後(右)
標準化により:分布の形は変わらない
:原点が平均位置に移動
単位が標準偏差あたりに変わる
第3章 主成分分析 Ⅰ
21/40
3.1 二変量による主成分分析 3/5
「ビッグクラス」の身長&体重で考える
x1  62.55 x2  105
y

 u1  u2
4.242
22.2
2つの変数による主成分分析は実質的価値はないが,
主成分の意味を理解する上で重要である.
手順1.2つの変数を標準化する
2つの変数には2変数正規分布を仮定する
n
u
i 1
2
i1
n
n
  u  n  1:  ui1ui 2  (n  1)rx1, x 2
i 1
2
i2
i 1
u1  u2
y1 
2
a12 1
2
1
平均0,分散(1.31)2
第3章 主成分分析 Ⅰ
a22
22/40
3.1 二変量による主成分分析 4/5
標準化身長(インチ)と標準化体重(ポンド)の二変量の関係
y1
標準化しても
2
平均0,分散(0.54)2
1
残差
0
これは散布図を45度時計周りに
回転させたことと実質的同じ
-1
スコア
-3
-2 -1 0
1
2
標準化身長(インチ)
3
二変量正規楕円 P=0.950
相関
変数
平均 標準偏差
相関
標準化身長(インチ) 0.00
1 0.7092
標準化体重(ポンド) 0.00
1
‘
‡Žw4•W‚Æ Žc

· ‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
•W
€‰»‘
‡Žw •W‚Æ•W

€‰
2
3
2
数
40
4
1
3
0
-12
-21
-30
-1
-4
-4 -3 -2 -1 0 1 2 3 4
-2
‘
‡Žw •W

-3
“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0.950
-4“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0.900
-4 -3³ ‹K‘ȉ~
-2 -1 P=0.750
0 1 2 3 4
“ñ•Ï—ʍ
‡Žw

•W
“ñ•Ï—ʍ
³ ‹K‘ȉ~‘
P=0.500
‘ŠŠÖ
“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0.950
•Ï
” “ñ•Ï—ʍ
³ ‹K‘ȉ~
•½ ‹ÏP=0.900
•W
€•Î
·
‘ŠŠÖ
‘
‡Žw

“ñ•Ï—ʍ
•W ³ ‹K‘ȉ~
5.11e-16
P=0.750
1.307351 8.22e-16
Žc
“ñ•Ï—ʍ
·
³ ‹K‘ȉ~
-3.6e-17
P=0.500
0.381335
第3章 主成分分析 Ⅰ
€‰»Žc
·
•W
€‰»Žc
·•W
-3
•W
€‰»‘
‡Žw •W‚Æ•W

€‰
Žc
·
-2
‘
‡Žw •W‚Æ Žc

· ‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
Žc
·
標準化体重(ポンド)
3
スコア: y1   u1  u2  / 2
残差 : y1   u2  u1  / 2
1
2
0
1
-1
0
-2
-1
-2
-1
0
•W
€‰»‘
‡

-2
“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0.
“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0.
-2 ³ ‹K‘ȉ~
-1 P=0.
0
“ñ•Ï—ʍ
•W
€‰»‘
‡

“ñ•Ï—ʍ
³ ‹K‘ȉ~
P=0.
‘ŠŠÖ
“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0
³ ‹K‘ȉ~ P=0•
•Ï
” “ñ•Ï—ʍ
“ñ•Ï—ʍ
³ ‹K‘ȉ~
P=0
•W
€‰»‘
‡Žw

•W 1.11
“ñ•Ï—ʍ
P=0
•W
€‰»Žc³ ‹K‘ȉ~
·

-2.8e
23/40
3.1 二変量による主成分分析 5/5
‘
‡Žw •W‚Æ Žc

· ‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
•W
€‰»‘
‡Žw •W‚Æ•W

€‰»Žc
· ‚Ì“ñ •Ï—Ê‚ÌŠÖŒW
‘
‡Žw4•W‚Æ Žc

· ‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
•W
€‰»‘
‡Žw •W‚Æ•W

€‰»Žc
· ‚Ì“ñ •Ï—Ê‚ÌŠÖŒW
2
3
€‰»Žc
·
•W
€‰»Žc
·•W
Žc
·
2
4
1
3
0
Žc
·
-12
-21
-30
-1
-4
-4 -3 -2 -1 0 1
-2
‘
‡Žw •W

-3
“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0.950
-4“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0.900
-4 -3³ ‹K‘ȉ~
-2 -1 P=0.750
0 1
“ñ•Ï—ʍ
‡Žw

•W
“ñ•Ï—ʍ
³ ‹K‘ȉ~‘
P=0.500
1
2
0
1
-1
0
-2
2
2
3
3
4
4
‘ŠŠÖ
“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0.950
•Ï
” “ñ•Ï—ʍ
³ ‹K‘ȉ~
•½ ‹ÏP=0.900
•W
€•Î
·
‘ŠŠÖ
‘
‡Žw

“ñ•Ï—ʍ
•W ³ ‹K‘ȉ~
5.11e-16
P=0.750
1.307351 8.22e-16
Žc
“ñ•Ï—ʍ
·
³ ‹K‘ȉ~
-3.6e-17
P=0.500
0.381335
‘ŠŠÖ
•Ï
”
•½ ‹Ï •W
€•Î
·
‘ŠŠÖ
‘
‡Žw •W 5.11e-16 1.307351 8.22e-16

Žc
·
-3.6e-17 0.381335
-1
-2
-1
0
1
•W
€‰»‘
‡Žw •W

2
-2
“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0.950
“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0.900
-2 ³ ‹K‘ȉ~
-1 P=0.750
0
1
2
“ñ•Ï—ʍ
•W
€
‰»‘
‡

Žw
•W
“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0.500
‘ŠŠÖ
“ñ•Ï—ʍ
³ ‹K‘ȉ~ P=0.950
³ ‹K‘ȉ~ P=0.900
•Ï
” “ñ•Ï—ʍ
•½ ‹Ï •W
€•Î
·
“ñ•Ï—ʍ
³ ‹K‘ȉ~
P=0.750
•W
€‰»‘
‡Žw

•W 1.11e-16
1
“ñ•Ï—ʍ
P=0.500
•W
€‰»Žc³ ‹K‘ȉ~
·

-2.8e-17
1
‘ŠŠÖ
•Ï
”
•½ ‹Ï •W
€•Î
·
•W
€‰»‘
‡Žw •W 1.11e-16

1
•W
€‰»Žc 
·
-2.8e-17
1
‘ŠŠÖ
8.43e-16
図3.2 総合指標y1と残差y2の散布図(左)と標準化後(右)
‘ŠŠÖ
8.43e-16
左の図は横軸と縦軸とで,分散(標準偏差)が異なる
そこで,どちらも分散1に標準化したものが右図
右図ではどの方向でもユーグリッド距離=マハラノビス距離
24/40
第3章 主成分分析 Ⅰ
3.1.2 二変量の主成分の算出 1/11
z1  l11u1  l12u2
主成分の係数
NG
OK
主成分1(通常は第一主成分という)
目的:z1の分散の最大化
l11 , l12の値を 適当に大き く する と 分散はいく ら でも 大き く なる
こ れでは収拾つかない
そこ で, l11 , l12の2乗和が1と なる よ う に制約する
プロットの座標は回転は許されるが膨張は許さない
第3章 主成分分析 Ⅰ
25/40
3.1.2 二変量の主成分の算出 2/11
1 n 2
1 n
2
Vz1 
zi1 
 l11ui1  l12ui 2 


n  1 i 1
n  1 i 1
n
1 2 n 2 2 n 2


l
u

l
u

2
l
l
u
u
 11  i1 12  i 2
11 12  i1 i 2 
n  1  i 1
i 1
i 1

 l112  l122  2rx1, x 2l11l12  max
2
2
2
l

l

1
制約: 11 12
l112  1  l122
1  l   l
2
12
2
12

l11   1  l122


 2r  1  l122 l12
 1  2r  l122 1  l122 
l122 1  l122   max

第3章 主成分分析 Ⅰ
26/40
3.1.2 二変量の主成分の算出 3/11
ラグランジュの未定乗数法-1
f  l11 , l12 ,    l  l  2rx1, x 2l11l12    l  l  1
2
11
2
12
これを偏微分してゼロとおこう
2
11
 rx1, x 2  l12  l11
2l11  2rx1, x 2l12  2l11  0
1 l11
2l12  2rx1, x 2l11  2l12  0
rx1, x 2  l11  1 l12
行列の形で表すと Ra
 1
r
 x1, x 2
2
12
 l12
 a
rx1, x 2   l11 
 l11 
 



1  l12 
l12 
固有値
固有ベクトル
第3章 主成分分析 Ⅰ
27/40
3.1.2 二変量の主成分の算出 4/11
ラグランジュの未定乗数法-2
 1
r
 x1, x 2
rx1, x 2   l11 
 l11 
 



1  l12 
l12 
左からベクトル l11 , l12  をかけると
l11
l11
rx1, x 2  l11 
 1
l11 
l12  
 l11 l12    



1  l12 
l12 
 rx1, x 2
1l11  rx1, x 2l12 
l11 
l12  
 l11 l12    

l12 
 rx1, x 2l11  1l12 
l112  l122  2rx1, x 2l11l12    l112  l122 
Vz1  
以上から,相関係数行列Rの固有値問題を解き
最大固有値に対応する固有ベクトルを求めるとそれが解 28/40
第3章 主成分分析 Ⅰ
3.1.2 二変量の主成分の算出 5/11
ビッグクラスから身長と体重を使う
0.7092 l11 
 l11 
 1
 


0.7092

1  l12 

l12 
実際にλを求めるには,上の行と下の行を加える
(1  0.7092)  ll1  l12     l11  l12 
  1.7092
l11  0.7092l12  1.7092l11
0.967l11  l12  1.7092l12
1
l11 
2
1
1
l12 
2
l11  l12
1 1
l l 1  1
2 2
2
11
2
12
主成分では,固有ベクトル l11 l12 
の比の値しか分からないが制約条件を使い求める
1
l11  l12 
2
第3章 主成分分析 Ⅰ
29/40
3.1.2 二変量の主成分の算出 6/11
Žå
¬ •ª 1‚Æ•W 
€‰»
g’·(ƒCƒ “ƒ`)‚Ì“ñ• Ï—Ê‚ÌŠÖŒ W
3
z1:Žå
¬•ª1
1
2
•W 
€‰»‘̍
d(ƒ|ƒ“ƒh)
•W
€‰»
g’·(ƒCƒ“ƒ`)
2
0
①標準化
-1
②回転
-2
-3
-4 -3 -2 -1 0 1
Žå
¬•ª1
’¼
ü‚Ì‚ ‚Ä‚Í‚ß
2
3
4
z2
FŽå
¬•ª2
1
0
-1
-2
主成分方向に
誤差最小
Žc
·
ō
¬
-3
-3
-2
-1
0
1
•W
€‰»
g’·(ƒCƒ“ƒ`)
2
3
図3.3 主成分1と標準化後の身長との回帰分析の結果
図3.5 主成分と元の変量
z1  l11u1  l12u2 
x1  x1 x2  x2
s1
s2
1
1
u1 
u2  cos(45 )u1  sin(45 )u2
2
2
1

4
1

4
重み付け和を考えるのは,測定された軸を
適当に回転させて分散を最大にすることと同じ
第3章 主成分分析 Ⅰ
30/40
3.1.2 二変量の主成分の算出 7/11
次に第2主成分を考える(図より第2主成分を考えることは実質的
な意味はないが,主成分分析の理解のために求める).
第2主成分の導出 新たに z2  l21u1  l22u2 を考える
第2主成分は,第1主成分にはない情報を追加したいので
第1主成分と無関係(無相関 = 独立)を条件とする.
注)データが多次元(この場合2次元)正規分布に従うとき
無相関=独立である.
相関係数=0であるから,分子だけ考えればよい
n
 z
i1
i 1
n
 l
i 1
n
 z1  zi 2  z2    zi1 zi 2
i 1
n
n
n
i 1
i 1
i 1
u  l12ui 2  l21ui1  l22ui 2   l11l21  ui21  l21l22  u i22   l11l22  l12l21   ui1ui 2
11 i1
第3章 主成分分析 Ⅰ
31/40
3.1.2 二変量の主成分の算出 8/11
n
 z
i 1
n
i1
 z1  zi 2  z2    zi1 zi 2
i 1
  n  1l11l21  rx1x 2l11l22  rx1x 2l12l21  l12l22    n  1 l1'Rl2
  n  1 1l1'l2
Rl1 = λ 1l1  l1'R = λ 1l1'
これより rz1z 2  0 の条件は
l1 ' Rl2  0
または
l1 ' l2  l11l21  l12l22  0
1 n 2
2
2
Vz 2 
z

l

l

i2
21
22  2rx1x 2l21l22  max
n  1 i 1
2
2
l21
 l22
1
第3章 主成分分析 Ⅰ
32/40
3.1.2 二変量の主成分の算出 9/11
ラグランジュの未定乗数法-1
f  l21 , l22 ,  ,   l212  l222  2rx1, x 2l21l22    l212  l222  1    l11l21  l12l22 
これを偏微分してゼロとおこう
 rx1, x 2  l22  l21 
2l21  2rx1, x 2l22  2l21  l11  0
1 l21
2l22  2rx1, x 2l21  2l22  l12  0
rx1, x 2  l21  1 l22
行列の形で表すと
Rl2  l2 
両辺に左から l1' をかける
l1'Rl2  l1'l2 
0
0

2
l1'l2

2
l1

2
l12
Rl2  l2
 rx1, x 2  l12  l11
rx1, x 2  l11  1 l12
第3章 主成分分析 Ⅰ
2
l11
固有値問題へ
 0
1 l11
 l22 

 l12
33/40
3.1.2 二変量の主成分の算出 10/11
線形代数の基本事項:
対称行列の固有値は全て実数であり,異なる固有値に
対応する固有ベクトルは直交(無相関:独立)する
データから身長と体重を使う
0.7092 l21 
l21 
 1
 


0.7092

1  l22 

l22 
実際にλを求めるには,上の行と下の行を引く
(1 0.7092) l21  l22    l21  l22    0.2908
l21  0.7092l22  0.2908l21
1
l21  
2
1
1
l22 
2
l21  l22
1 1
0.7092l21  l22  0.2908l22
l l 1  1
2 2
主成分では,固有ベクトル l21 l22 
の比の値しか分からないが制約条件を使い求める
2
21
2
22
第3章 主成分分析 Ⅰ
34/40
3.1.2 二変量の主成分の算出 11/11
相関係数から出発したとき
2変数の固有値は相関係数の値によらず一意に決まる
1
1
z1 
u1 
u2
 z1   cos 
2
2
 
z2    sin 
1
1

z2  
u1 
u2
2
2
なお,
身長を主成分で予測したときの残差
体重を主成分で予測したときの残差
Žc
· •W
€‰»‘̍
d(ƒ|ƒ“ƒh)
1
0.5
0
-0.5
-1
sin    u1 
cos   u2 
-0.5
0
.5
Žc
· •W
€‰»
g’·(ƒCƒ“ƒ`)
2つの残差の相関は-1となり,実質的
な違いはない
いままでの議論から残差=第2主成分
図3.4 残差同士の散布図
第3章 主成分分析 Ⅰ
35/40
3.1.3 まとめ 1/5
寄与率:主成分で,元の変量の情報をどれだけ説明できるかを
表す量 相関が強いほど縮約のほどが大きい
1
1 r
1 r


 0.855
第1主成分の寄与率:
1  2 1  r  (1  r )
2
2
1 r
1 r


 0.145
第2主成分の寄与率:
1  2 1  r  (1  r )
2
累積寄与率:主成分で,大きい固有値を持つ方から寄与率
を累積した量
1
1.709

 0.855
第1主成分の寄与率:
1  2 1.709  0.291
第2主成分までの 1  2  1
累積寄与率
1  2
第3章 主成分分析 Ⅰ
36/40
3.1.3 まとめ 2/5
因子負荷量(主成分負荷量):
・主成分と元の変量 x1 , x2 との相関係数
・主成分の解釈に使う(相関が強ければ結びつきが大きい)
rz1, x1  rz1,u1  0.9244 rz1, x 2  rz1,u 2  0.9244
rz 2, x1  rz 2,u1  0.3813 rz 2, x 2  rz 2,u 2  0.3813
第1主成分の各変量への寄与率
x1への寄与率: rz21, x1  0.92442  0.855 x2への寄与率: rz21, x2  0.855
累積寄与率
x1への寄与率: rz21, x1  rz22, x1  0.855  0.145  1
x2への寄与率: rz21, x2  rz22, x2  0.855  0.145  1
第3章 主成分分析 Ⅰ
37/40
3.1.3 まとめ 3/5
因子負荷量と固有値,固有ベクトルとの関係
1
x1と 第1主成分の因子負荷量: rz1, x1  1  l11  1.709 
 0.9244
2
1
x1と 第2主成分の因子負荷量: rz 2, x1  2  l21  0.291 
 0.3813
2
1
x2と 第1主成分の因子負荷量: rz1, x 2  1  l12  1.709 
 0.9244
2
1
x2と 第2主成分の因子負荷量: rz 2, x 2  2  l22  0.291 
 0.3813
2
主成分の標準偏差
第3章 主成分分析 Ⅰ
38/40
3.1.3 まとめ 4/5
各主成分に対して主成分得点はサンプルの数だけ計算する.
主成分得点を散布図にプロットして,主成分に与えた
意味つけを考慮しながら,サンプルの特徴付けや分類
などを試みる
z1  l11u1  l12u2
z 2  l21u1  l22u2
主成分得点は,さらに標準化(平均0,分散1)した値を出力する
場合(固有値の平方根で割る)もある
JMPは標準化していない主成分得点を算出する
第3章 主成分分析 Ⅰ
39/40
3.1.3 まとめ 5/5
主成分分析は相関係数行列をスペクトル分解している
R  1l1l1'  2l2l2'
2

 1 

1.709     0.291 

0.709 
 1
 2


0.709
1  

1.709   1  1   0.291 
  


 2  2 

スペクトル分解
 1  1 
 1  1  
1.709      0.291    
 2  2 
 2  2  
2
2

1  1 
 1 
 1 

1.709     0.291  
 

2  2 
 2
 2
1 

2
2
第1主成分が右辺第一項で近似,第2項(第2主成分)を加える
ことで,元の相関係数行列を復元できる
累積寄与率とは,考慮する主成分でどの程度
元の相関係数行列が復元できているのかということ
40/40
第3章 主成分分析 Ⅰ