浅野 統計学 Lec 13 9章 相関と回帰 (回帰) 9.4 直線回帰(回帰分析) 例 X:原因 Y:結果 所得 消費 IQ 試験の成績 CO2 排出量 地球の気温 回帰モデル 平均的な関係 Y=X (X が与えられたときの Y の平均) 観測される関係 Y=X+ 撹乱項の分散 Var() = 2 Y:従属変数(dependent variable) 被説明変数(explained variable) X:独立変数(independent variable) 説明変数(explanatory variable) : 撹乱項(disturbance term)、誤差項(error term) X = Xjの 時 の Y X = Xiの 時 の Y の分布 Y の分布 Y=X Xj Xi X の意味 ΔY/ΔX X が1単位増加した時の Y の平均的な増加量(限界効果) の意味 X = 0 の時の Y の平均値 (not so much of interest) 回帰モデルのパラメータは -1- 浅野 統計学 Lec 13 9.5 最小二乗法 観測されたデータからを推定したい。 直線 a+bX をあてはめる。 (a,b)で()を推定 一番あてはまりのよい直線を選ぶ。 あてはめの誤差(residual、残差): ei = Yi – a – bXi 誤差(残差)二乗和: RSS(Residual Sum of Squares ) = iei2 = i(Yi – a – bXi )2 当てはめの基準:RSS を最小にする。最小二乗誤差Least (Sum of )Squares RSS を最小にする(a,b)の値は? 問題 LS min(a,b) RSS(a,b) i(Yi – a – bXi )2 問題 Baby LS RSS(a) =i(Yi – a)2 解:a= Y 証明: RSS(a)=i(Yi – a)2 = i(Yi – Y + Y - a)2 = i(Yi – Y )2+2i(Yi – Y )( Y - a)+i( Y - a)2 上の第2項は 2( Y - a)i(Yi – Y )=2( Y - a){iYi –n Y }となるが{}内はゼロである。 よって、RSS(a)= i(Yi – Y )2+i( Y - a)2 となる。最小値は a= Y で成立。 問題 LS にこの結果を適用 RSS(a,b)i(Yi – a – bXi )2 i(Yi – bXi -a)2 a の解: a=Y-bX これを問題 LS に代入。 Yi - bX i - a= Yi - bX i - Y - bX = y i -bx i 問題 LS0 RSS(b)= i(yi –bxi )2 = iyi2-2biyixi+ b2ixi2 -2- 浅野 統計学 Lec 13 bの解: b xy x i i i i 2 i S XY S X2 最小二乗法で直線のあてはめを行うことを、Y を X に回帰するという。 回帰直線の性質 0.切片 a=Y-bX 傾き b xy x i i i i 2 i S XY S X2 1. (X,Y) を通る 2.傾きの符号は共分散の符号と同じ あてはめ値 ˆ で表す。 当てはめ値を Y ˆ =a+bX、 Y ˆ +e、 Y= Y ˆ = a+bXi Y i ˆ i+ei Yi = Y 残差の性質 1.和はゼロ iei=0 2.X との積和はゼロ iXiei=0 ˆ との積和はゼロ i Y ˆ i ei=0 3. Y 分散の分解と決定係数 分散の分解 TSS=ESS+RSS 総分散(Total Sum of Squares) TSS = i( Yi - Y )2 = iyi2 残差分散(Residual Sum of Squares) RSS = iei2 説明された分散(Explained Sum of Squares) ESS = b2ixi2 X の説明力の指標(決定係数) 決定係数 R2 = 1-RSS/TSS = ESS/RSS |R|は重相関係数と呼ばれる。 R2 = r2 が成立 -3- 浅野 9.6 統計学 Lec 13 回帰の錯誤 ・高い説明力が得られたとしても必ずしも因果関係の証左とはいえないことがある。 (見せかけの相関と同じ) 例: 日本の大学教師の給料(X)と酒の消費量(Y) 為替レート(X)と消費者物価(Y) 為替レートと消費者物価(1970-92) 120 1992 100 CPI 80 60 1970 40 20 80 120 160 200 240 280 320 為替レート(¥/$,EXR) ・低い説明力も因果関係を否定するとは限らない。 その理由としては関数形の誤り、他の要因の除外など 9.7 推定値の標準誤差 bとの関係 b = +ixii/ixi2 = + 推定誤差 b の分布 b~N(,b2) b2 = 2/ixi2 分散2 の推定値 s2= iei2/(n-2) S は回帰の標準誤差と呼ばれる。 -4- 360 400 浅野 統計学 Lec 13 b の標準誤差(Sb) sb2 = s2/ixi2= s2/nixi2/n) b の精度を決める要因 精度が上がる要因 1.n(標本数) 大 情報量大 2.X の分散 大 広い範囲から情報を得る 3.2 小 個別観測値のノイズが少ない 9.8 小標本法-仮説検定 係数 b についての検定 H0: = 0 H1: 0 検定量 t0 = (b-0)/Sb ~ t(n-2) t0 は自由度 n-2 のt分布に従う。 最もよく行われる検定は H0: = (X は Y に影響しない。ゼロ仮説) 検定量 t0 = b/Sb (係数/標準誤差)は係数のt値と呼ばれる。 ・ゼロ仮説が棄却されるなら回帰結果は有意であると呼ばれる。 大雑把に言って、t値の絶対値が 2 を超えれば帰無仮説は(通常使われる)有意度5%で棄却さ れる。 -5- 浅野 統計学 Lec 13 回帰分析の例 KM 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 平均 分散 標 準 偏差 P 1.3 159 1.7 176 1.9 218 2.2 189 2.3 219 2.6 166 2.8 135 3.0 165 3.1 148 3.6 115 3.7 129 4.0 128 4.1 79 4.2 183 4.2 158 4.4 123 4.5 154 5.1 139 5.1 85 5.2 95 5.4 78 5.5 97 5.7 148 3.72 142.87 2 SX SY2 1.74 1620.94 SX SY 1.32 SXY 40.26 共 分 散 -34.71 推定結果 決定係数 標準誤差 係数の標準誤差 標本数 P = 220.53 - 20.87KM R2 SE SE(b) n 0.467 30.08 4.86 23 1.シルビアの中古車価格は走行距離によって46.7%説明される。 2.走行距離が 1 万キロあたり平均約20.9万円下落 3.観測値の95%は予測値から60万円以内に収まる。 4.走行距離 7 万なら価格は(A)万円と点予測される。実際の値は確率95%で(A)プラス マイナス60万円以内に収まる。 5.KM と P の相関係数は約-0.67。 6.仮説:=-15 を検定。 -6-
© Copyright 2025 ExpyDoc