●数量化 I 類 1.概要 ・回帰分析は、説明変数、目的変数がいずれも量的変数だった ・数量化Ⅰ類は、回帰分析の説明変数が質的変数、目的変数が量的変数である手法 ・質的変数を量的変数に変換した後は、回帰分析と同じ手法となる サンプル No. 成績 x 総合成績 y 1 優 96 2 優 88 3 優 77 4 優 89 (2)自由度調整済寄与率を求めて、回帰式の評価をする 5 良 80 (3)説明変数の選択を行い、有用な変数を選択 6 良 71 7 良 77 8 可 78 9 可 70 10 可 62 2.解析手順 (1)質的変数をダミー変数に変換して量的変数と見なして、 回帰モデルを考える (4)残差を検討し、回帰式の妥当性を検討 (5)任意の説明変数に対する予測値を求める 3.ダミー変数 ・成績評価値のような質的変数をアイテム、優、良、可のような値をカテゴリーと呼ぶ ・カテゴリーは順序尺度であり、間隔尺度でないため、数値化するときは、0,1 で表現する ì1 可のとき x3 = í î0 可でないとき 良のとき ì1 x2 = í 優でないとき 良でないとき î0 回帰モデル: yi = b 0 + b1x1i + b 2 x2i + b 3 x3i + e i , ì1 x1 = í î0 優のとき サンプル No. x2 x3 1 0 0 96 87.5 2 0 0 88 87.5 3 0 0 77 87.5 4 0 0 89 87.5 次式でモデル化される。 5 1 0 80 76.0 る。 yi = b 0 + b 2 x2i + b 3 x3i + e i 6 1 0 71 76.0 7 1 0 77 76.0 予測式は、 yi = b 0 + b 2 x2i + b 3 x3i となる。 8 0 1 78 70.0 9 0 1 70 70.0 そうすると、表の値を代入して下の連立方程式が成り立つ。 10 0 1 62 70.0 ただし、 e i は N(0,σ2)の分布 ここで、 x1 + x2 + x3 = 1 が常に成立するから 変数を一つ消去すると、右表のように数量化でき、 ただし、 x2 = x3 = 0 が「優」を意味する。 b 0 + b 2 × 0 + b3 × 0 = 96 b 0 + b 2 × 0 + b3 × 0 = 88 左式で残差平方和 S e = ・・・・・・・・ b 0 + b 2 × 0 + b3 × 1 = 62 ¶Se ¶S ¶S = 0, e = 0, e = 0 ¶b 0 ¶b 2 ¶b 3 係数を求める。 n å(y -Y ) i =1 i i 2 を最小にするように式の (Yi は予測値) より b 0 , b 2 , b 3 を求める。 この条件式を計算し整理すると、結局、次の方程式を解くことに相当する S 22 b 2 + S 23 b 3 = S 2 y S 23 b 2 + S 33 b 3 = S3 y æ S 22 è S 23 又は çç S 23 öæ b 2 ö æ S 2 y ö ÷ ÷ç ÷ = ç S33 ÷øçè b 3 ÷ø çè S 3 y ÷ø 61 総合成績 y 予測値 y^ D= S 22 S 23 S2 y S 23 とおくと、 b 2 = S3 y S33 すなわち、 b 2 = S33 S 2 y - S 23S 3 y S 22 S 33 - S 23 2 S 23 S 22 / D , b3 = S 33 S 23 , b3 = å (x 2i 添え字mは平均を表わす。 - S 23 S 2 y + S 22 S3 y S 22 S 33 - S 23 2 ただし、 S 22 = å ( x2i - x2 m ) 2 , S33 = å ( x3i - x3m ) 2 , S 23 = S2 y = S2 y / D , b 0 = ym - b 2 x2 m - b 3 x3m S3 y å(x 2i - x2 m )( x3i - x3m ) - x 2 m )( y i - y m ) , S3 y = å ( x3i - x3m )( yi - ym ) n 予測値: Yi = b 0 + b 2 x2i + b 3 x3i ,残差平方和: S e = å ei 2 = å { yi - ( b 0 + b 2 x2i + b 3 x3i )}2 i =1 平方和の分解: S yy = ( b 2 S 2 y + b 3 S3 y ) + S e = S R + Se が成り立つ データ値 yi と予測値 Yi との相関係数 R は、 R= å ( y - y )(Y - Y ) å ( y - y ) å (Y - Y i m i m 2 i m i m )2 で重相関係数と呼ばれ、この値が1に近いほど良い。 寄与率:R2 は次の関係からも導かれる R 2 = S R / S yy = ( S yy - S e ) / S yy = 1 - S e / S yy の関係がある。 自由度で調整した寄与率 R*2 は次となる。 R *2 = 1 - Se / fe S /(n - 3) = 1- e S yy / fT S yy /(n - 1) ここで、φ e=n-3=n-(ダミー変数の個数)-1 である。 ●変数選択について 重回帰分析と同様に、質的変数に対応するダミー変数群(x2, x3)が目的変数 y に効いているかど うかを検討する。そのために、定数項だけのモデル M0: yi = b 0 + e i に対して、ダミー変数群を 取り込んだモデル M1: yi = b 0 + b 2 x2i + b 3 x3i + e i において F0 = ( S yy - S e ( M 1) ) /(fT - fe ( M 1) ) S e ( M 1) / fe ( M 1) は自由度(φT-φe(M1),φe(M1))の F 分布に従うので、この F0 値が大きいとき(通常は 2 以上を目安)に M1 を採用する。 但し、Syy はyの偏差平方和、Se(M1)はダミー変数を導入した場合の残差平方和 Se、φT は全体 の自由度(データ数-1)、φe(M1)は、ダミー変数を導入した上式の残差の自由度φe である。 62 4.数量化 I 類の注意事項 (1)説明変数(質的変数)、 目的変数(量的変数) の違いがあるが、 その他は回帰分析と同じ (2)質的変数をダミー変数に 変換して量的変数 として 重回帰分析を行う (3)(ダミー変数の数) =(質的変数の数)-1とする (4)質的変数のカテゴリー数が 増加すれば、重回帰分析の 5.R による分析例(前ページの表のデータ) > > > > > x2 <- c(0,0,0,0,1,1,1,0,0,0) x3 <- c(0,0,0,0,0,0,0,1,1,1) y <- c(96,88,77,89,80,71,77,78,70,62) result <- lm(y ~ x2+x3) summary(result) Call: lm(formula = y ~ x2 + x3) Residuals: Min 1Q Median 3Q Max -10.500 -3.750 0.750 3.375 8.500 Coefficients: (Intercept) x2 説明変数の数が増加するので、 x3 データサイズnとの --Signif. codes: 兼ねあいに留意する。 (データ数が少なくて 説明変数の数が多くなると 誤差が大となる) 予測式は、 y=87.5-11.5*x2-17.5*x3 となる。 87.500 -11.500 -17.500 F0 値 Estimate Std. Error t value Pr(>|t|) 3.561 24.574 4.71e-08 *** 5.439 -2.114 0.0723 . 5.439 -3.217 0.0147 * 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 7.121 on 7 degrees of freedom Multiple R-Squared: 0.6114, Adjusted R-squared: 0.5004 F-statistic: 5.507 on 2 and 7 DF, p-value: 0.03657 # 予測するとき(分析に使ったデータを使う) 自由度調整済 寄与率 > x <- data.frame(X2=x2,X3=x3) > predict(result,x) 1 2 3 4 5 6 7 8 9 10 87.5 87.5 87.5 87.5 76.0 76.0 76.0 70.0 70.0 70.0 > 【演習 24】 (数量化 I 類) アンケート調査を行うとき、調査方法の違いや謝礼品の有無が 回収率にどのように影響するかを調べる実験を行った。 サンプル 調査方法は、 「郵送法」と「電話法」の2つ、謝礼品は、 1 2 3 4 5 「有る場合」と「無い場合」の2つである。実験は5回、各回 とも 20 サンプル設定し、回答に協力してくれた数の割合 (回収率)を調べた。この結果の表が右表である。 調査 方法 郵送 郵送 電話 電話 電話 謝礼 回収 品 率 有 55 無 40 有 25 無 10 無 5 この結果から、調査方法と謝礼品の有無によって回収率 y を予測する式を求め、その式の寄与率 を調べよ。(http://www.coins.tsukuba.ac.jp/~fukui/da/10quantum.xls にあるデータ表に計算式 を追加して求める場合と、R を使って求める2つの場合で比較検討すること) ì1 (郵送の場合) x1 = í î0 (電話の場合) ì1 (謝礼品有りの場合) として x2 = í î0 (謝礼品無しの場合) 63 yi = b 0 + b1 x1i + b 2 x2i + e i と置く 数量化Ⅱ類 1.概要 ・判別分析は、説明変数が量的変数、目的変数が質的変数だった ・数量化Ⅱ類は、判別分析の説明変数が質的変数、目的変数も質的変数である手法 ・説明変数の質的変数をダミー変数を用いて量的変数に変換した後は、 判別分析と同じ手法となる ・ダミー変数の数は、説明変数の質的変数の個数より1小さい数となる。 ・ダミー変数は正規分布しないので、結果は目安程度の評価とすべきである。 吐き気 2.手法の概要 サンプル 健常者/患者吐き気 頭痛 1 2 3 4 5 6 7 8 9 10 健常者 健常者 健常者 健常者 健常者 患者 患者 患者 患者 患者 無 少 無 無 無 少 多 少 少 多 少 無 無 無 無 多 無 少 多 少 量的変数に変換 (1)説明変数の質的変数を量的変数に変換 (2)各群毎に、平均、分散、共分散を求める (3)プール後の分散、共分散を求める (4)全体の平均ベクトル 頭痛 x1(1) x2(1) x3(1) x4(1) 1 健常者 0 0 1 0 2 健常者 1 0 0 0 3 健常者 0 0 0 0 4 健常者 0 0 0 0 5 健常者 0 0 0 0 n(1) 群(1) x1(1)m x2(1)m x3(1)m x4(1)m 5 平均 0.2 0 0.2 0 6 患者 1 0 0 1 7 患者 0 1 0 0 8 患者 1 0 1 0 9 患者 1 0 0 1 10 患者 0 1 1 0 n(2) 群(2) x1(2)m x2(2)m x3(2)m x4(2)m 5 平均 0.6 0.4 0.4 0.4 サンプル 健常者/患者 æ ( x1(1) m + x1( 2) m1 ) / 2 ö æ x1(1) m ÷ ç ç x x ( + ) / 2 、平均の差のベクトル ÷ ç 2 (1) m 2( 2) m ç x 2 (1) m xm = ç = d ÷ çx (x + x 3( 2) m ) / 2 ÷ ç 3(1) m ç 3(1) m ÷ ç (x çx x + ) / 2 4( 2) m ø è 4 (1) m è 4 (1) m T (5)分散共分散行列Σの逆行列Σ-1 を求める d は d の転置ベクトル (6)線形識別関数zを右のように構成することができる 3.R を使った分析への入力 > x1 <- c(0,1,0,0,0,1,0,1,1,0) > x2 <- c(0,0,0,0,0,0,1,0,0,1) > x3 <- c(1,0,0,0,0,0,0,1,0,1) > x4 <- c(0,0,0,0,0,1,0,0,1,0) > x <- data.frame(A=x1,B=x2,C=x3,D=x4) > h <- rep(c("N","P"),each=5) # 判定結果のリスト > library(MASS) # linear discriminant analysis 必要 > h <- rep(c("N","P"),each=5) # 判定結果のリスト > y <- lda(x,h) >y - x1( 2) m ö ÷ - x 2 ( 2) m ÷ を求める - x 3( 2 ) m ÷ ÷ - x 4 ( 2) m ÷ø æ x1 - x1m ö ç ÷ T -1 ç x 2 - x 2 m ÷ z ( x1 , x 2 , x3 , x 4 ) = d S ç x - x 3m ÷ ç 3 ÷ çx - x ÷ 4m ø è 4 > d <- predict(y,x) # 元のデータを判定させてみる > d$class [1] N N N N N P P P P P Levels: N P 正しく判定されていることがわかる N:Normal:健常者 P:Patient:患者 【演習 25】(数量化 II 類)上の表のエクセルデータを使って途中まで計算した結果が http://www.coins.tsukuba.ac.jp/~fukui/da/quantum.xls(別シート)にあるので、続きを計算し、 線形判別式を求め、原データを再度使って判別させてみること。 64 数量化 III 類 主成分分析の変数が質的変数の場合に類似している手法(外的基準がないデータ) 質的変数を使って、変数や場合を互いに類似しているものをまとめる。 このために、変数間の相関が最も高くなるように配置する 10代 20代 30代 40代 50代 アボガド 4 6 4 2 0 イチゴ 0 1 1 4 3 オレンジ 1 1 4 5 2 マンゴー 0 3 3 4 2 10代 20代 30代 40代 50代 アボガド 4 6 4 2 0 マンゴー 0 3 3 4 2 オレンジ 1 1 4 5 2 イチゴ 0 1 1 4 3 数量化 IV 類 カテゴリー間の関係を分析する手法 主体 対象 日本 中国 ブラジル インド 好感度 日本 中国 18 12 28 31 45 40 ブラジル インド 66 55 中国 -1 39 25 29 ブラジル 日本 インド 4 つのカテゴリーの関係 37 65 1
© Copyright 2024 ExpyDoc