http://mcobaya.web.fc2.com/karato.htm 数の効果が残した変数に表れ,間違った結論が導かれる 2015 年 10 月 28 日 [email protected] 多重回帰分析 3.3 表 3.11 最小自乗推定量の導出は偏微分で行う。 教科書のモデル V=Σ(Yt-a-bXt-cZt)2 を a で偏微分して0とおくと 取引価格=57.13+0.35×駅までの時間-3.82×面積 0=2Σ(-1)(Yt-a-bXt-cZt) 1)徒歩時間が 1 単位ふえると価格が 0.35 増加する。 V=Σ(Yt-a-bXt-cZt)2 を b で偏微分して0とおくと 2)面積が一単位ふえると価格が 3.82 下落する 0=2Σ(-Xt)(Yt-a-bXt-cZt) 重回帰分析の目的 V=Σ(Yt-a-bXt-cZt)2 を b で偏微分して0とおくと 病気を持っている割合 Yt 0=2Σ(-Zt)(Yt-a-bXt-cZt) 大気汚染(air pollution) Xt 未知係数は a,b,c、方程式は3つ。未知係数一つについて 年齢:Zt(0,1の二値をとると仮定) 1つあるので、この連立方程式は未知係数について原則解 の 2 人のデータから,大気汚染が健康に有害か知りたい。 ける。明示的な公式を一般的に導くには線形代数の知識が Yt=a+bXt+cZt 必要。 Z=1 p.132 残差のルール 1)残差ベクトルは説明変数ベクトルと直交する Z=0 2)残差の総和は 0 重回帰分析と単回帰分析の関係 Y=a+ b’*x のモデルで推定した b’と Y=a+b*x+c*z のモデルで推定した b とは値が違う。 結論:単回帰 z=e+d*x の指定値を d とすると、b’=b+d*c 知りたいのは直線の傾き(大気汚染の影響)だが、大気汚染 と表される。すなわち x が z と相関をもっていれば、x が 地域に高齢者(z=1) 直接的なy関連と z を通した関連に分解できる が多く住んでおり、高齢者は病気を持っている割合が高いと、 単回帰では大気汚染の影響(直線の傾き)が過大推定。実験は できない。 (a) 体重と喫煙とその他の影響 bwght.xls 高所得者は喫煙率が低く、高所得者の新生児のほうが重 いとしよう。すると、喫煙をするのは非白人が多く、非白 対策 1) 高齢者(層化という)だけの推定を行う。この方法は年 人の新生児は軽いとすると、単回帰で推定した喫煙の影 齢を高齢か若年かに二分しているので、サンプルサイ 響は重回帰による純粋な喫煙の影響よりも小さい値とな ズ sample size が十分大きいとおもわれるが、年齢 る。どちらか試してみよう。 を細分すると、各年齢層のサンプルサイズが十分大き (1) 新生児体重(y)を母親の喫煙量 x(係数 b’)で説明する。 くない。 (2) 喫煙量(x)によって所得(係数 d)を単回帰で推定。 2) 重回帰: Yt=a+bXt+cZt を直接推定する。 モデルの前提:高齢者も若い人も大気汚染の影響(直線の傾き) は同じ。(高齢者が影響が大きい可能性は後で考慮) (3) 新生児体重(y)を所得 z(係数 c)と喫煙量 x(係数 b)で説 明。 (4) b’=b+c*d を確認 取引価格=57.13+0.35×駅までの時間-3.82×面積 練習:重回帰分析で説明変数(例えば所得)を追加してみよう。 は妥当であるか。どのようなモデルがよいか。どうやって調べ b’=b+c*d はどのように変化するか。 たらよいか。 重回帰と単回帰の選択(その1) 。 どちらを選ぶべきか。 単回帰との関係 重回帰分析続き p.104 重回帰分析モデルを単回帰で誤って分析すると,除いた変 a,b を係数の最小自乗推定量, ut を残差とすると
© Copyright 2024 ExpyDoc