ppt

x(身長)
z(年齢)
3.3.3 疑似相関とは何か
y(学力)
100
100
学力試験の得点
学力試験の得点
80
80
y = 1.5909x
高2・高3- 214.45
R=0.041
2
R = 0.3868R=0.208
中3・高1
60
中1・中2 R=0.180
60
40
40
20
20
0
0130
130
140
140
150
160
150 身長(cm)
160
身長(cm)
170
170
180
180
190
190
3.3.4 重回帰分析の難しさ
表3.3 コンパクトカメラの満足度
No
1
2
3
4
5
99
100
小型軽量
3
5
2
4
4
…
5
1
持ち運び
3
4
2
4
4
…
5
1
操作性
4
2
2
3
2
…
2
3
総合満足度
3
2
1
2
3
…
4
2
重回帰分析結果
回帰式1 y=a1(小型軽量)
+a0
回帰式2 y=a1(小型軽量)+a2(持ち運び)
+a0
回帰式3 y=a1(小型軽量)+a2(持ち運び)+a3(操作性)+a0
回帰式1 回帰式2 回帰式3
定数項
1.889
1.243
-0.582
小型軽量
0.176
-0.317
-0.189
0.737
0.779
係数 持ち運び
操作性
残差2乗和
重相関係数
0.468
125.845
106.687
83.905
0.212
0.436
0.603
4.1 重回帰分析の数理
4.1.1 共分散行列・相関係数行列
n
共分散
相関係数
相
関
係
数
行
列
C xy 
rxy 
S xy
n
C xy

VxV y
 ( x  x)( y
i 1
i
i
 y)
n

S xy
S xx S yy
小型軽量 持ち運び
小型軽量
1.000
持ち運び
0.842
1.000
-0.411
0.212
-0.372
0.384
操作性
総合満足度
操作性
1.000
0.273
総合満足度
1.000
4.1.1 偏回帰係数の求め方
共分散行列
小型軽量
持ち運び
操作性
総合満足度
1.928
1.287
-0.640
0.339
1.853
-1.868
0.262
1.287
1.212
-0.459
0.486
-0.640
-0.459
1.253
0.351
-1.868
2.842
0.087
0.262
0.087
0.964
0.339
0.486
0.351
1.318
0.339
0.486
0.351
黄色部分の逆行列
4.1.2 定数項の求め方
定数項  y - (b1x1  b2 x 2  )
-0.188
0.778
0.469
水色と緑の積
偏回帰係数
行列の積の求め方
① 逆行列を表示するセルを選択(水色のセル)
②=MINVERSE(黄色のセル)+shit,Ctrl,Return(同時)
小型軽量
1.928 1.287 -0.640
持ち運び
1.287 1.212 -0.459
操作性
-0.640 -0.459 1.253
総合満足度 0.339 0.486 0.351
1.853 -1.868
-1.868 2.842
0.262 0.087
0.262
0.087
0.964
0.339
0.486
0.351
1.318
行列の積の求め方
① 積を表示するセルを選択(オレンジ色のセル)
②=MMULT(水色のセル,緑のセル)+shit,Ctrl,Return(同時)
1.853 -1.868
-1.868 2.842
0.262 0.087
0.262
0.087
0.964
0.339
0.486
0.351
-0.188
0.778
0.469
4.1.4 残差2乗和・重相関係数の求め方
共分散行列の逆行列の対角成分の逆数は,他の変数でその
変数を説明する重回帰分析を行ったときの残差に等しい.
共分散行列の逆行列
1.895 -2.042 0.157 0.224
小型軽量
-2.042 3.564 0.522 -0.928
持ち運び
0.157 0.522 1.226 -0.559
操作性
0.224 -0.928 -0.559 1.192
総合満足度
逆数
残差の寄与率= 0.636
1から引く
決定係数R2= 0.364
平方根
重相関係数R= 0.603
0.839 =残差分散
×標本数
83.88 =残差2乗和
/標本数-説明変数の数-1
0.874 =Mse(残差平均平方)
4.1.5 偏回帰係数の標準誤差
偏回帰係数の標準誤差 =
√
1.853 -1.868
-1.868 2.842
0.262 0.087
説明変数の共分散行列 の逆行列の対角成分  Mse
標本サイズ
0.262
0.087
0.964
共分散行列の逆行列
×0.874/100
Mse/標本サイズ
=
0.125
0.154
0.090
偏回帰係数の
標準誤差
4.1.6 偏回帰係数の区間推定
偏回帰係数の信頼区間
=標本偏回帰係数±TINV(0.05,自由度)×標準誤差
偏回帰係数
小型軽量
標準誤差
-0.188
持ち運び
0.778±1.985
操作性
0.469
0.125
×
下限
上限
-0.435
0.060
0.154 =
0.472
1.085
0.090
0.291
0.648
TINV(0.05,100-3-1):有意水準5%、自由度96のt値
4.1.7 偏回帰係数=0の検定
偏回帰係数=0の検定に関して、
t値=標本偏回帰係数/標準誤差
p値=TDIST(t値の絶対値,自由度,2)
危険率5%で有意である⇔95%信頼区間が0を含む
p値:「偏回帰係数=0」のとき、t値が現在得られている
値より大きな絶対値をとる確率
偏回帰係数
標準誤差
t値
P値
-0.188
0.125
-1.507 14.0%
小型軽量
0.778÷
0.154 =
5.041
0.0%
持ち運び
0.469
0.090
5.219
0.0%
操作性
0 t
4.1.8 VIFとトレランス
偏回帰係数の標準誤差 =
説明変数の共分散行列 の逆行列の対角成分  Mse
標本サイズ
・説明変数の共分散行列の逆行列の対角成分が大きいと、
偏回帰係数の標準偏差が大きくなる。
・その効果(標準誤差を大きくする効果)を比較するには、
測定単位によらない標準化データで考えと、共分散→相関
分散拡大要因(Variance Inflation Factor:VIF)
説明変数の相関行列の逆行列の対角成分
共分散行列の逆行列の対角成分の逆数は,他の変数でその
変数を説明する重回帰分析を行ったときの残差に等しい.
4.1.8 VIFとトレランス
共分散行列の逆行列の対角成分の逆数は,他の変数でその
変数を説明する重回帰分析を行ったときの残差に等しい.
VIFの逆数は、他の説明変数でその変数を説明する重回帰分
析を行ったときの残差に等しい
標準化データでは 残差分散=残差の寄与率=1-R2
VIFの逆数は、 他の説明変数で説明されない割合
・VIF:説明変数の相関行列の逆行列の対角成分
・トレランス=1/VIF 他の説明変数でその説明変数を説明した時の
1-R2
・他の説明変数でよく説明される
→トレランスが小さい;VIFが大きい;編回帰係数が
4.1.8 VIFとトレランス
共分散行列の逆行列の対角成分の逆数は,他の変数でその
変数を説明する重回帰分析を行ったときの残差に等しい.
VIFの逆数は、他の説明変数でその変数を説明する重回帰分
析を行ったときの残差に等しい
標準化データでは 残差分散=残差の寄与率=1-R2
VIFの逆数は、 他の説明変数で説明されない割合
・VIF:説明変数の相関行列の逆行列の対角成分
・トレランス=1/VIF 他の説明変数でその説明変数を説明した時の
1-R2
・他の説明変数でよく説明される
→トレランスが小さい;VIFが大きい;編回帰係数が
4.2 重回帰分析の実際
4.2.1 変数選択の実際
方針1:互いに低相関の変数を取り入れるように考慮する方法
1.1 事前の多変量解析により、候補の変数を絞り込む
1.2 トレランスやVIFを参考に、変数を取捨選択する
方針2:ステップワイズ式変数選択
4.2.2 偏回帰係数の正しい解釈
回帰式1
回帰式2
回帰式3
係数 P値 係数 P値 係数 P値
小型軽量 0.176 3.4% -0.317 2.6% -0.189 14.0%
0.737 0.0% 0.779 0.0%
持ち運び
0.468 0.0%
操作性
偏回帰係数の正しい意味:
他の説明変数の値が同じという条件のもとで、その説明変数
1単位の増分に対する目的変数の増分の期待値
総合満足度=定数項-0.317小型軽量+0.737持ち運び +残差
・同程度に小型軽量であれば、持ち運びしやすい方が、高満足
・同程度に持ち運びしやすければ、小型軽量でない方が、高満足
4.3 パス解析とは何か
4.3.1 直接効果と間接効果
総合満足度=定数項-0.317小型軽量+0.737持ち運び +残差
持ち運び=定数項+ 0.668小型軽量+残差
小型軽量
直接効果
-0.317
総合満足度
0. 668
持ち運び
0. 737
0. 668×0. 737:間接効果
小型軽量の評価が1上がると、持ち運びの評価は0.668上がる。
持ち運びの評価は0.668上がると、総合満足度は0.668 ×0.737
=0.492上がる。
総合効果=直接効果+間接効果
0.175 = -0.317 + 0.492
4.3.1 直接効果と間接効果
小型軽量
-0.317
総合満足度
0. 668
持ち運び
0. 737
小型軽量メリット :携帯性が良い
小型軽量デメリット:小さくて操作しずらい、 、レンズが小さく暗い
総合効果が正:デメリットよりメリットが大きい
小型化によるデメリット:偏回帰係数が負になった理由
4.3.1 直接効果と間接効果
満足度=定数項-0.189小型軽量+0.779持運 + 0.468操作性 +残差
持ち運び=定数項+0.668小型軽量+残差
操作性 =定数項-0.332小型軽量 + 残差
操作性
-0.332
0.468
-0.332×0.468=-0.155
小型軽量
0. 668
-0. 189
持ち運び
総合満足度
0. 779
0.668×0.779=0.520
-0.189:小さくて操作しずらいデメリット以外のデメリット
(レンズが小さく暗いetc)
4.3.2 予測モデルと因果モデル
4.3.3 因果モデルに基づく相関係数の算出・分解
標準化したパス図
-0.411
小型軽量
0. 842
操作性
-0. 229
持ち運び
0.457
-0.411×0.457=-0.188
総合満足度
0. 747
0.842×0.747=0.629
総合効果=-0.229-0.188+0.629=0.212
6.1 独立グラフのモデリング
6.1.1 条件付き独立とは何か
「条件付き」:他の変数が一定という条件
条件付き独立:他の変数が一定という条件のもとで独立(相関がない)
x(身長)
z(年齢)
y(学力)
-0.41
操作性
0.48
総合満足度
小型軽量
0. 84
身長と学力には,「年齢が一定
という条件付きにすれば独立」
持ち運び 0. 56
操作性と持ち運びを
条件付きにすれば,
小型軽量と総合満
足度は独立
2つの変数の間に他の変数を介した関係(疑似相関と間接効果)
はあるが,直接パスや両側矢線がない場合,疑似相関の原因とな
6.1.1 条件付き独立とは何か
操作性
総合満足度
小型軽量
持ち運び
2つの変数の間に他の変数を介した関係(疑似相関と間接効果)は
あるが,直接パスや両側矢線がない場合,疑似相関の原因となる共
変量および間接効果を形成している中間変数をすべて「条件付き」に
すると,その2つの変数は「条件付き独立」となる
どの変数が条件付き独立であるのか(さらには,どの変数に条件を
つければよいのか)がわかれば,パス図の制作に役立つ
条件付き独立となる変数間には矢線を設ける必要はない.
条件付き独立関係を把握するには「偏相関係数」を用いる(次項)
6.1.2 偏相関係数
「他の変数の値が全く同じ」観測データを用いて相関を調べることは
不可能なので,重回帰分析によりたの変数の影響を取り除く.
問題としている2つの変数を目的変数,他の変数を説明変数として,
2本の重回帰分析を実施する.それらの重回帰式の残差は,問題と
してる変数から他の変数の影響を取り除いたものと解釈可能.
この残差の相関係数のことを偏相関係数という.
偏相関係数: 他の変数の影響を取り除いた後の相関係数
他の変数が一定という条件での相関係数
偏相関係数が0→条件付き独立
rij ,rest 
 r ij
ii
r r
jj
r
ij
相関行列の逆行列の(i,j)成分
6.1.2 偏相関係数
x1
x2
x3

xn
重回帰
xi
ei
xj
ej
偏相関係数
相関 rij , rest 
 r ij
r ii r jj
残差
相関行列の逆行列
r 11



ii
r




 


ij
jj
r  r





偏相関係数
rij ,rest 
 r ij
r ii r jj
標本相関行列
年齢
身長
体重
学力試験
年齢
1.000
0.710
0.555
0.817
身長
0.710
1.000
0.760
0.622
体重
0.555
0.760
1.000
0.426
学力試験
0.817
0.622
0.426
1.000
rij ,rest 
 r ij
r ii r jj
母相関行列の逆行列
年齢
身長
体重
学力試験
年齢
3.760 -1.344
0.152 -2.315
身長
-1.344
3.301 -1.741 -0.040
体重
0.152 -1.741
2.397 -0.302
学力試験 -2.315 -0.040 -0.302
3.074
偏相関係数行列
年齢
身長
体重
学力試験
年齢
ー
0.381 -0.051
0.681
身長
0.381
ー
0.619
0.013
体重
-0.051
0.619
ー
0.426
学力試験
0.681
0.013
0.426
ー
 (1.344)
0.381 
3.760  3.301
6.1.3 独立グラフとは何か
偏相関係数行列
年齢
身長
体重
学力試験
年齢
ー
0.381 -0.051
0.681
身長
0.381
ー
0.619
0.013
体重
-0.051
0.619
ー
0.426
学力試験
0.681
0.013
0.426
ー
条件付き独立でない変数を線で結ぶ
学力
年齢
身長
体重
独立グラフの読み方
・直接線で結ばれていないが,他の変数を介して間接的に線で結ばれ
ている変数は,経路上の変数を止めれば,条件付き独立となる.
・間接的にも結ばれていない変数は,他の変数の条件によらず独立
注)直線で結ばれている変数は「どの変数を条件付きにしても独立に
はならない」場合もあるが,ある条件で独立になる場合もある.
6.1.3 独立グラフとは何か
X2
X4
X6
X3
X5
X7
X1
次の独立グラフの①~④の変数間は,どの変数を条件付きとすれば,
独立になるか?
①X3
①X1とX5
②X2とX3
②X1とX4
③X4とX6
③どの変数にも条件をつけなくても独立
④どの変数にも条件をつけなくても独立に
④X2とX3
ならないかもしれない
6.1.4 共分散選択
前項では,偏相関係数が小さなものを適当に0とみなしたが,正式には
・母集団においては,いくつかの偏相関係数が0となるモデルを考える
・上記の制約のもとで,標本相関係数行列とのズレが最も小さくなるよう
に,母相関係数行列を推定する.
逸脱度:ズレの評価基準