スライド 1

回帰分析:
宿題2の解説
高木真吾
北海道大学 経済学部
• 宿題で問うていること
– 推定結果表の作成
• 最小二乗法による推定結果のまとめ方
• 推定値の解釈
– 推定結果表の読み方
• とくに 「t 値」と 「p 値」の利用法
表: 札幌市中央区市電沿い中古マン シ ョ ン 価格
価格(千万円) 広さ ( ㎡)
83.54
1.98
物件1
104.22
2.25
物件2
107.31
2.94
物件3
86.61
2.28
物件4
124.10
3.48
物件5
• 被説明変数(Y)
• 説明変数(X)
: 価格
: 広さ
• パラメータβ0 とβ1 の推定
問題1:推定結果表の作成
推定結果表の作成
• 係数パラメータ
–
の推定値
を求める公式は?
• 誤差項の分散パラメータ
–
• 係数推定量
の推定値
を求める公式は?
の分散の推定値
–
を求める公式は?
– 通常は平方根をとった「標準誤差」として表示
問題1:推定結果表の作成
問題1:推定結果表の作成
• 係数パラメータの推定値

n
ˆ1 

i 1
( X i  X)( Yi  Y )
2
(
X

X
)
i 1 i
n
n
1

n
n
i 1
1
( X i  X)( Yi  Y )
2
(
X

X
)
i 1 i
n
Xと Yの共分散値 7.36


 0.0336
Xの分散値
219
ˆ0  Y  ˆ1  X  Yの平均値  ˆ1  Xの平均値
 2.59  0.0336 101  0.811
問題1:推定結果表の作成
• 誤差項の分散パラメータσ2の推定値
– 残差の計算
( i = 1,2,…,5 について)
– 残差二乗和の計算
–
eˆ i  Yi  ˆ0  X i ˆ1
 Yi  0.811  0.0336  X i
2
ˆ
e
i1 i  0.263
n
σ2の推定値
n
1
2
ˆ
ˆ 2 
e

i
n  2 i 1
0.263

 0.0877
52
問題1:推定結果表の作成
• 係数推定量の分散の推定値の計算
– 係数推定量 ˆ *0 , ˆ 1* の分散
1
V[ˆ 1* ]   2  V1 , where
V1 
V[ˆ *0 ]   2  V0 , where
1
X2
V0   n
n  (X i  X ) 2
i 1
2
(
X

X
)
i1 i
n
– 係数推定量の分散の推定値
• 未知のσ2を推定値で置き換える (すでに計算済み).
• 上式の V0 と V1 を計算する
(次のスライド)
n
1

2
2
(
X

X
)

n

(
X

X
)




i
i
i 1
 n i 1

 n  ( Xの分散値 )  5  219  1095
1
1
V1  n

 0.000931,
2
 (X i  X) 1095
n
i 1
1
X2
1 1012
V0   n
 
 0.292
2
n  (X i  X )
5 1095
i 1
• 係数推定量の分散の推定値は
ˆ [ ˆ * ]  ˆ 2  V  0.0877  9.55  0.837
V
0
0
ˆ [ ˆ * ]  ˆ 2  V  0.0877  0.000931  0.0000801
V
1
1
• 標準誤差
S.E.[ ˆ0* ]  0.837  0.910
S.E.[ ˆ * ]  0.0000801  0.00895
1
2
ˆ
  0.0877
問題1:推定結果表の作成
1 n
2
(Yi  Y )  n    (Yi  Y ) 

i 1
 n i 1

 n  (Yの分散値 )  5  0.300  1.50
n
2
• 決定係数の計算
2
ˆ
e
i1 i
n
R 2  1
2
(
Y

Y
)
i1 i
n
0.263
 1
 0.824
1.50
2
ˆ
i1 ei  0.263
n
問題1:推定結果表の作成
• T値:それぞれの係数について計算する
– 「係数が0」を検定するための検定統計量の値
t (0) 
ˆ k  0
ˆ 2  Vk

ˆ k
ˆ 2  Vk
係数推定値
, k  0, 1
標準誤差
– 検定統計量は自由度 n-2 の t 分布に従う
• t 分布表の自由度n-2の欄で臨界点を探す
• 対立仮説:「係数≠0」  棄却域両側
• 対立仮説:「係数>0」 or 「係数<0」  棄却域片側
– いまの例では自由度は3,
• 有意水準5%としたときの棄却域は?(次スライド)
t 分布表の利用
・両側に棄却域: (-∞, -3.182)と( 3. 182 , ∞ )
・片側に棄却域(上側): ( 2.353 , ∞ )
0.5
棄却域両側:有意水準が0.05
棄却域片側:有意水準が0.05
0.4
自由度 3 の t 分布
0.3
0.2
0.05
0.025
0.025
0.1
-6.00
-4.00
-2.00
0
0.00
- 3.182
2.353
3.182
2.00
4.00
6.00
t (0) 
ˆ k  0
ˆ  Vk
2

ˆ k
ˆ  Vk
2
係数推定値
, k  0, 1
標準誤差
• 具体的な t 値の計算は上の式に沿って
問題1:推定結果表の作成
• 仮説検定:
– 帰無仮説: β1=0.05
– 対立仮説: β1<0.05 (そこまで高くならない)
• 検定統計量:
T* (0.05) 
ˆ1*  0.05
ˆ 2*  Vk
– 帰無仮説のもとで自由度 3 (=5-2) のt分布
– 対立仮説のもとで自由度 3 (=5-2) のt分布よりも左で実
現する確率が高い
• 棄却域: (-∞, -2.353)
• T統計量の値:
ˆ1  0.05
t (0.05) 
0.034  0.05

 1.836
0.0089
ˆ 2  V1
• 上のような推定結果が与えられたときの読み
方は?
• この表から分かること
• (データ数は12)
– 説明変数が2個(β0は 切片項 or 定数項)
– 推定した係数パラメータは3個
– マンション価格を「広さ」と「築年数」で説明する
• この表から分かること(続き)
– 部屋の広さの係数の t値は6.3
• 「β1 = 0」という仮説は有意水準5%で棄却される
対立「β1 ≠ 0」:棄却域(-∞, -2.262)と( 2.262 , ∞ )
• このとき,「部屋の広さ」は5%水準で有意である,という
対立「β1 > 0」: 棄却域( 1.833 , ∞ )
• このとき,「部屋の広さ」は5%水準で有意である,という
– 定数項の t 値は -0.80: 5%水準で有意ではない
• 仮説検定:
– 帰無仮説: β1=0.05
– 対立仮説: β1<0.05 (そこまで高くならない)
• 検定統計量:
T* (0.05) 
ˆ1*  0.05
ˆ 2*  Vk
– 帰無仮説のもとで自由度 9 (=12-3) のt分布
– 対立仮説のもとで自由度 9 (=12-3) のt分布よりも左で実
現する確率が高い
• 棄却域: (-∞, -1.833)
• T統計量の値:
ˆ1  0.05
t (0.05) 
0.031  0.05

 3.89
0.0049
ˆ 2  V1
発展的話題: p値(確率値)について
• EXCELの回帰分析の出力結果
「ツール」- 「分析ツール」-「回帰分析」で出力可
(ただし「アドイン」から設定する必要があるかも)
概要
分散分析表
回帰統計
自由度
重相関 R
0.7874
回帰
1
重決定 R2
0.6200
残差
13
補正 R2
0.5908
合計
14
標準誤差
0.5533
観測数
15
変動
6.4946
3.9798
10.4743
分散
6.4946
0.3061
これは何?
切片
広さ(㎡)
係数
標準誤差
1.2848
0.8028
0.1797
0.0390
t
1.6005
4.6059
P-値
0.1335
0.0005
• 通常出力されるp値とは,
検定統計量
その実現値(t値)
T(0)*
t(0)
 確率 Pr[ |T(0)*| > t(0) ]
つまり,t値よりも外側に来る確率を計算する
• 検定統計量T(0)* が帰無仮説が正しいとき,
-自由度n-2のt分布に従う,下図はその密度関数
- T(0)*の実現値,つまりt値が得られた: t(0)
- そのときのp-値は図中の赤い部分
0.5
絶対値にしてt(0)よ
りも外側の確率
0.4
0.3
0.2
0.1
t(0)
-6.00
-4.00
-2.00
0
0.00
2.00
4.00
6.00
• 「広さ」の p-値 が 0.000有意水準1%で棄却
• 「築年数」の p-値 が 0.016有意水準1%で棄却さ
れない
– p値を「帰無仮説を棄却しない最小の有意水準の値」
0.5
有意水準1%の
ときの臨界点
t(0)=6.3 のときのp-値
t(0)=-2.9 のときのp-値
0.4
両方で0.000
0.3
0.2
両方で0.016
0.1
-6.00
-4.00
-2.00
0
0.00
2.00
4.00
6.00
両方で0.01
• P値は,両側の確率のみを言うのではなく,
片側の場合も計算可能
– Pr[ T(0)* > t(0) ] や Pr[ T(0)* < t(0) ]
– EXCELは両側を自動的に出力
– 使っているソフトウェアで何を出力するかを確認
する必要あり.