第3回 多変量解析

Data Analysis and Experimental Design
第3回 多変量解析
Y = a0 + a1 X 1 + a2 X 2 + K + a p X p + e
a0
a1… ap
e
>
+
>
>
>
:定数項
:偏回帰係数
:誤差
dfmr <- lsfit(trees[1:2],
trees$volume)
# trees: black cherry(黒サクランボ)の
# 周囲長[1]、高さ[2]、容積[3]のデータ
# 周囲長と高さが独立変数、容積が従属変数
Data Analysis and Experimental Design
> ls.print(dfmr)
Residual Standard Error=3.8818
R-Square=0.948
F-statistic (df=2, 28)=254.9723
p-value=0
Estimate Std.Err t-value Pr(>|t|)
Intercept -57.9877 8.6382 -6.7129
0.0000
Girth
4.7082 0.2643 17.8161
0.0000
Height
0.3393 0.1302 2.6066
0.0145
1
Data Analysis and Experimental Design
Z1 = a11 X 1 + a12 X 2 + K + a1 p X p
Z 2 = a21 X 1 + a22 X 2 + K + a2 p X p
M
Z m = am1 X 1 + am 2 X 2 + K + amp X p
r
r
Rzi = λi zi
λi :第i主成分の分散
⎡ r11 L
⎢r O
12
R=⎢
⎢M
⎢
⎢⎣r1 p
rp1 ⎤
rp 2 ⎥⎥
⎥
⎥
rpp ⎥⎦
Zi :第i主成分の結合係数
⎡ ai1 ⎤
r ⎢ ⎥
zi = ⎢ M ⎥
⎢aip ⎥
⎣ ⎦
(1 ≤ i ≤ m)
Data Analysis and Experimental Design
>
>
>
>
>
>
scdata <- scale(USArrests)
# USArrests: 米国各都市の犯罪比率調査
# Murder、Assault、UrbanPop、Rape
# の4変数
# scale(): 各変数のデータを基準化する
pr <- prcomp(scdata)
> print(pr)
Standard deviations:
[1] 1.5748783 0.9948694 0.5971291 0.4164494
Rotation:
Murder
Assault
UrbanPop
Rape
PC1
PC2
PC3
PC4
-0.5358995 0.4181809 -0.3412327 0.64922780
-0.5831836 0.1879856 -0.2681484 -0.74340748
-0.2781909 -0.8728062 -0.3780158 0.13387773
-0.5434321 -0.1673186 0.8177779 0.08902432
2
Data Analysis and Experimental Design
第1主成分
第2主成分
第3主成分
第4主成分
固有値
Murder
2.48024166
0.989765123 0.356563162 0.173430103
-0.5358995
0.4181809
-0.3412327
0.6492278
Assault
-0.5831836
0.1879856
-0.2681484
-0.74340748
UrbanPop
-0.2781909
-0.8728062
-0.3780158
0.13387773
Rape
-0.5434321
-0.1673186
0.8177779
0.08902432
寄与率
62.00604076 24.74412778 8.914078945 4.335752517
累積寄与率 62.00604076 86.75016854 95.66424748 100
> p1 <- pr$rotation[,1] # 結合係数の抽出
> z1 <- scale(USArrests) %*% p1
> # %*%:行列積
3