7番目の資料

●数量化 I 類
1.概要
・回帰分析は、説明変数、目的変数がいずれも量的変数だった
・数量化Ⅰ類は、回帰分析の説明変数が質的変数、目的変数が量的変数である手法
・質的変数を量的変数に変換した後は、回帰分析と同じ手法となる
サンプル No. 成績 x 総合成績 y
1
優
96
2
優
88
3
優
77
4
優
89
(2)自由度調整済寄与率を求めて、回帰式の評価をする
5
良
80
(3)説明変数の選択を行い、有用な変数を選択
6
良
71
7
良
77
8
可
78
9
可
70
10
可
62
2.解析手順
(1)質的変数をダミー変数に変換して量的変数と見なして、
回帰モデルを考える
(4)残差を検討し、回帰式の妥当性を検討
(5)任意の説明変数に対する予測値を求める
3.ダミー変数
・成績評価値のような質的変数をアイテム、優、良、可のような値をカテゴリーと呼ぶ
・カテゴリーは順序尺度であり、間隔尺度でないため、数値化するときは、0,1 で表現する
ì1 可のとき
x3 = í
î0 可でないとき
良のとき
ì1
x2 = í
優でないとき
良でないとき
î0
回帰モデル: yi = b 0 + b1x1i + b 2 x2i + b 3 x3i + e i ,
ì1
x1 = í
î0
優のとき
サンプル No.
x2
x3
1
0
0
96
87.5
2
0
0
88
87.5
3
0
0
77
87.5
4
0
0
89
87.5
次式でモデル化される。
5
1
0
80
76.0
る。 yi = b 0 + b 2 x2i + b 3 x3i + e i
6
1
0
71
76.0
7
1
0
77
76.0
予測式は、 yi = b 0 + b 2 x2i + b 3 x3i となる。
8
0
1
78
70.0
9
0
1
70
70.0
そうすると、表の値を代入して下の連立方程式が成り立つ。
10
0
1
62
70.0
ただし、 e i は N(0,σ2)の分布
ここで、 x1 + x2 + x3 = 1 が常に成立するから
変数を一つ消去すると、右表のように数量化でき、
ただし、 x2 = x3 = 0 が「優」を意味する。
b 0 + b 2 × 0 + b3 × 0 = 96
b 0 + b 2 × 0 + b3 × 0 = 88
左式で残差平方和 S e =
・・・・・・・・
b 0 + b 2 × 0 + b3 × 1 = 62
¶Se
¶S
¶S
= 0, e = 0, e = 0
¶b 0
¶b 2
¶b 3
係数を求める。
n
å(y -Y )
i =1
i
i
2
を最小にするように式の
(Yi は予測値)
より b 0 , b 2 , b 3 を求める。
この条件式を計算し整理すると、結局、次の方程式を解くことに相当する
S 22 b 2 + S 23 b 3 = S 2 y
S 23 b 2 + S 33 b 3 = S3 y
æ S 22
è S 23
又は çç
S 23 öæ b 2 ö æ S 2 y ö
÷
÷ç ÷ = ç
S33 ÷øçè b 3 ÷ø çè S 3 y ÷ø
61
総合成績 y 予測値 y^
D=
S 22
S 23
S2 y
S 23
とおくと、 b 2 =
S3 y
S33
すなわち、 b 2 =
S33 S 2 y - S 23S 3 y
S 22 S 33 - S 23
2
S 23
S 22
/ D , b3 =
S 33
S 23
, b3 =
å (x
2i
添え字mは平均を表わす。
- S 23 S 2 y + S 22 S3 y
S 22 S 33 - S 23
2
ただし、 S 22 = å ( x2i - x2 m ) 2 , S33 = å ( x3i - x3m ) 2 , S 23 =
S2 y =
S2 y
/ D , b 0 = ym - b 2 x2 m - b 3 x3m
S3 y
å(x
2i
- x2 m )( x3i - x3m )
- x 2 m )( y i - y m ) , S3 y = å ( x3i - x3m )( yi - ym )
n
予測値: Yi = b 0 + b 2 x2i + b 3 x3i ,残差平方和: S e = å ei 2 = å { yi - ( b 0 + b 2 x2i + b 3 x3i )}2
i =1
平方和の分解: S yy = ( b 2 S 2 y + b 3 S3 y ) + S e = S R + Se が成り立つ
データ値 yi と予測値 Yi との相関係数 R は、
R=
å ( y - y )(Y - Y )
å ( y - y ) å (Y - Y
i
m
i
m
2
i
m
i
m
)2
で重相関係数と呼ばれ、この値が1に近いほど良い。
寄与率:R2 は次の関係からも導かれる
R 2 = S R / S yy = ( S yy - S e ) / S yy = 1 - S e / S yy
の関係がある。
自由度で調整した寄与率 R*2 は次となる。
R *2 = 1 -
Se / fe
S /(n - 3)
= 1- e
S yy / fT
S yy /(n - 1)
ここで、φ e=n-3=n-(ダミー変数の個数)-1 である。
●変数選択について
重回帰分析と同様に、質的変数に対応するダミー変数群(x2, x3)が目的変数 y に効いているかど
うかを検討する。そのために、定数項だけのモデル M0: yi = b 0 + e i に対して、ダミー変数群を
取り込んだモデル M1: yi = b 0 + b 2 x2i + b 3 x3i + e i において
F0 =
( S yy - S e ( M 1) ) /(fT - fe ( M 1) )
S e ( M 1) / fe ( M 1)
は自由度(φT-φe(M1),φe(M1))の F 分布に従うので、この F0
値が大きいとき(通常は 2 以上を目安)に M1 を採用する。
但し、Syy はyの偏差平方和、Se(M1)はダミー変数を導入した場合の残差平方和 Se、φT は全体
の自由度(データ数-1)、φe(M1)は、ダミー変数を導入した上式の残差の自由度φe である。
62
4.数量化 I 類の注意事項
(1)説明変数(質的変数)、
目的変数(量的変数)
の違いがあるが、
その他は回帰分析と同じ
(2)質的変数をダミー変数に
変換して量的変数 として
重回帰分析を行う
(3)(ダミー変数の数)
=(質的変数の数)-1とする
(4)質的変数のカテゴリー数が
増加すれば、重回帰分析の
5.R による分析例(前ページの表のデータ)
>
>
>
>
>
x2 <- c(0,0,0,0,1,1,1,0,0,0)
x3 <- c(0,0,0,0,0,0,0,1,1,1)
y <- c(96,88,77,89,80,71,77,78,70,62)
result <- lm(y ~ x2+x3)
summary(result)
Call:
lm(formula = y ~ x2 + x3)
Residuals:
Min
1Q Median
3Q
Max
-10.500 -3.750 0.750 3.375 8.500
Coefficients:
(Intercept)
x2
説明変数の数が増加するので、
x3
データサイズnとの
--Signif. codes:
兼ねあいに留意する。
(データ数が少なくて
説明変数の数が多くなると
誤差が大となる)
予測式は、
y=87.5-11.5*x2-17.5*x3
となる。
87.500
-11.500
-17.500
F0 値
Estimate Std. Error t value Pr(>|t|)
3.561 24.574 4.71e-08 ***
5.439 -2.114 0.0723 .
5.439 -3.217 0.0147 *
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 7.121 on 7 degrees of freedom
Multiple R-Squared: 0.6114,
Adjusted R-squared: 0.5004
F-statistic: 5.507 on 2 and 7 DF, p-value: 0.03657
# 予測するとき(分析に使ったデータを使う) 自由度調整済
寄与率
> x <- data.frame(X2=x2,X3=x3)
> predict(result,x)
1
2
3
4
5
6
7
8
9 10
87.5 87.5 87.5 87.5 76.0 76.0 76.0 70.0 70.0 70.0
>
【演習 24】
(数量化 I 類)
アンケート調査を行うとき、調査方法の違いや謝礼品の有無が
回収率にどのように影響するかを調べる実験を行った。
サンプル
調査方法は、
「郵送法」と「電話法」の2つ、謝礼品は、
1
2
3
4
5
「有る場合」と「無い場合」の2つである。実験は5回、各回
とも 20 サンプル設定し、回答に協力してくれた数の割合
(回収率)を調べた。この結果の表が右表である。
調査
方法
郵送
郵送
電話
電話
電話
謝礼 回収
品
率
有
55
無
40
有
25
無
10
無
5
この結果から、調査方法と謝礼品の有無によって回収率 y を予測する式を求め、その式の寄与率
を調べよ。(http://www.coins.tsukuba.ac.jp/~fukui/da/10quantum.xls にあるデータ表に計算式
を追加して求める場合と、R を使って求める2つの場合で比較検討すること)
ì1 (郵送の場合)
x1 = í
î0 (電話の場合)
ì1 (謝礼品有りの場合)
として
x2 = í
î0 (謝礼品無しの場合)
63
yi = b 0 + b1 x1i + b 2 x2i + e i と置く
数量化Ⅱ類
1.概要
・判別分析は、説明変数が量的変数、目的変数が質的変数だった
・数量化Ⅱ類は、判別分析の説明変数が質的変数、目的変数も質的変数である手法
・説明変数の質的変数をダミー変数を用いて量的変数に変換した後は、
判別分析と同じ手法となる
・ダミー変数の数は、説明変数の質的変数の個数より1小さい数となる。
・ダミー変数は正規分布しないので、結果は目安程度の評価とすべきである。
吐き気
2.手法の概要
サンプル 健常者/患者吐き気 頭痛
1
2
3
4
5
6
7
8
9
10
健常者
健常者
健常者
健常者
健常者
患者
患者
患者
患者
患者
無
少
無
無
無
少
多
少
少
多
少
無
無
無
無
多
無
少
多
少
量的変数に変換
(1)説明変数の質的変数を量的変数に変換
(2)各群毎に、平均、分散、共分散を求める
(3)プール後の分散、共分散を求める
(4)全体の平均ベクトル
頭痛
x1(1) x2(1) x3(1) x4(1)
1 健常者
0
0
1
0
2 健常者
1
0
0
0
3 健常者
0
0
0
0
4 健常者
0
0
0
0
5 健常者
0
0
0
0
n(1)
群(1)
x1(1)m x2(1)m x3(1)m x4(1)m
5
平均 0.2
0
0.2
0
6 患者
1
0
0
1
7 患者
0
1
0
0
8 患者
1
0
1
0
9 患者
1
0
0
1
10 患者
0
1
1
0
n(2)
群(2)
x1(2)m x2(2)m x3(2)m x4(2)m
5
平均 0.6 0.4 0.4
0.4
サンプル 健常者/患者
æ ( x1(1) m + x1( 2) m1 ) / 2 ö
æ x1(1) m
÷
ç
ç
x
x
(
+
)
/
2
、平均の差のベクトル
÷
ç 2 (1) m
2( 2) m
ç x 2 (1) m
xm = ç
=
d
÷
çx
(x
+ x 3( 2) m ) / 2
÷
ç 3(1) m
ç 3(1) m
÷
ç (x
çx
x
+
)
/
2
4( 2) m
ø
è 4 (1) m
è 4 (1) m
T
(5)分散共分散行列Σの逆行列Σ-1 を求める
d
は d の転置ベクトル
(6)線形識別関数zを右のように構成することができる
3.R を使った分析への入力
> x1 <- c(0,1,0,0,0,1,0,1,1,0)
> x2 <- c(0,0,0,0,0,0,1,0,0,1)
> x3 <- c(1,0,0,0,0,0,0,1,0,1)
> x4 <- c(0,0,0,0,0,1,0,0,1,0)
> x <- data.frame(A=x1,B=x2,C=x3,D=x4)
> h <- rep(c("N","P"),each=5) # 判定結果のリスト
> library(MASS) # linear discriminant analysis 必要
> h <- rep(c("N","P"),each=5) # 判定結果のリスト
> y <- lda(x,h)
>y
- x1( 2) m ö
÷
- x 2 ( 2) m ÷ を求める
- x 3( 2 ) m ÷
÷
- x 4 ( 2) m ÷ø
æ x1 - x1m ö
ç
÷
T -1 ç x 2 - x 2 m ÷
z ( x1 , x 2 , x3 , x 4 ) = d S ç
x - x 3m ÷
ç 3
÷
çx - x ÷
4m ø
è 4
> d <- predict(y,x) # 元のデータを判定させてみる
> d$class
[1] N N N N N P P P P P
Levels: N P
正しく判定されていることがわかる
N:Normal:健常者
P:Patient:患者
【演習 25】(数量化 II 類)上の表のエクセルデータを使って途中まで計算した結果が
http://www.coins.tsukuba.ac.jp/~fukui/da/quantum.xls(別シート)にあるので、続きを計算し、
線形判別式を求め、原データを再度使って判別させてみること。
64
数量化 III 類
主成分分析の変数が質的変数の場合に類似している手法(外的基準がないデータ)
質的変数を使って、変数や場合を互いに類似しているものをまとめる。
このために、変数間の相関が最も高くなるように配置する
10代
20代
30代
40代
50代
アボガド
4
6
4
2
0
イチゴ
0
1
1
4
3
オレンジ
1
1
4
5
2
マンゴー
0
3
3
4
2
10代
20代
30代
40代
50代
アボガド
4
6
4
2
0
マンゴー
0
3
3
4
2
オレンジ
1
1
4
5
2
イチゴ
0
1
1
4
3
数量化 IV 類
カテゴリー間の関係を分析する手法
主体
対象
日本
中国
ブラジル
インド
好感度
日本
中国
18
12
28
31
45
40
ブラジル インド
66
55
中国
-1
39
25
29
ブラジル 日本
インド
4 つのカテゴリーの関係
37
65
1