資料 - FC2

http://mcobaya.web.fc2.com/karato.htm
数の効果が残した変数に表れ,間違った結論が導かれる
2015 年 10 月 28 日 [email protected]
多重回帰分析
3.3
表 3.11
最小自乗推定量の導出は偏微分で行う。
教科書のモデル
V=Σ(Yt-a-bXt-cZt)2 を a で偏微分して0とおくと
取引価格=57.13+0.35×駅までの時間-3.82×面積
0=2Σ(-1)(Yt-a-bXt-cZt)
1)徒歩時間が 1 単位ふえると価格が 0.35 増加する。
V=Σ(Yt-a-bXt-cZt)2 を b で偏微分して0とおくと
2)面積が一単位ふえると価格が 3.82 下落する
0=2Σ(-Xt)(Yt-a-bXt-cZt)
重回帰分析の目的
V=Σ(Yt-a-bXt-cZt)2 を b で偏微分して0とおくと
病気を持っている割合 Yt
0=2Σ(-Zt)(Yt-a-bXt-cZt)
大気汚染(air pollution) Xt
未知係数は a,b,c、方程式は3つ。未知係数一つについて
年齢:Zt(0,1の二値をとると仮定)
1つあるので、この連立方程式は未知係数について原則解
の 2 人のデータから,大気汚染が健康に有害か知りたい。
ける。明示的な公式を一般的に導くには線形代数の知識が
Yt=a+bXt+cZt
必要。
Z=1
p.132 残差のルール
1)残差ベクトルは説明変数ベクトルと直交する
Z=0
2)残差の総和は 0
重回帰分析と単回帰分析の関係
Y=a+ b’*x のモデルで推定した b’と
Y=a+b*x+c*z のモデルで推定した b とは値が違う。
結論:単回帰 z=e+d*x の指定値を d とすると、b’=b+d*c
知りたいのは直線の傾き(大気汚染の影響)だが、大気汚染
と表される。すなわち x が z と相関をもっていれば、x が
地域に高齢者(z=1)
直接的なy関連と z を通した関連に分解できる
が多く住んでおり、高齢者は病気を持っている割合が高いと、
単回帰では大気汚染の影響(直線の傾き)が過大推定。実験は
できない。
(a)
体重と喫煙とその他の影響
bwght.xls
高所得者は喫煙率が低く、高所得者の新生児のほうが重
いとしよう。すると、喫煙をするのは非白人が多く、非白
対策
1) 高齢者(層化という)だけの推定を行う。この方法は年
人の新生児は軽いとすると、単回帰で推定した喫煙の影
齢を高齢か若年かに二分しているので、サンプルサイ
響は重回帰による純粋な喫煙の影響よりも小さい値とな
ズ sample size が十分大きいとおもわれるが、年齢
る。どちらか試してみよう。
を細分すると、各年齢層のサンプルサイズが十分大き
(1) 新生児体重(y)を母親の喫煙量 x(係数 b’)で説明する。
くない。
(2) 喫煙量(x)によって所得(係数 d)を単回帰で推定。
2) 重回帰: Yt=a+bXt+cZt
を直接推定する。
モデルの前提:高齢者も若い人も大気汚染の影響(直線の傾き)
は同じ。(高齢者が影響が大きい可能性は後で考慮)
(3) 新生児体重(y)を所得 z(係数 c)と喫煙量 x(係数 b)で説
明。
(4) b’=b+c*d
を確認
取引価格=57.13+0.35×駅までの時間-3.82×面積
練習:重回帰分析で説明変数(例えば所得)を追加してみよう。
は妥当であるか。どのようなモデルがよいか。どうやって調べ
b’=b+c*d はどのように変化するか。
たらよいか。
重回帰と単回帰の選択(その1)
。
どちらを選ぶべきか。
単回帰との関係
重回帰分析続き p.104
重回帰分析モデルを単回帰で誤って分析すると,除いた変
a,b を係数の最小自乗推定量, ut を残差とすると