X - econ.keio.ac.jp

2015 年秋学期
統計学Ⅱ(河井啓希)
統計学Ⅱ
講義の目標
回帰分析:経済理論の実証の基礎→2 年:計量経済学概論、3 年:計量経済学中級/上級
数理的基礎:より高度な統計的分析に備える→数理統計学
多様な分析手法:幅広い応用範囲→統計的推測(推定、検定)の応用
統計処理の実習:レポートでは MS-Excel を用いる
講義の予定
1 回帰分析
相関係数、最小2乗法、最小2乗法の統計的特性 本レポ1
2.母集団の確率モデル
2変数確率分布(同時確率分布)etc、積率母関数 etc、ポアソン分布 etc
3.標本の確率分布
大数の法則・CLT の数理、χ2 分布、F分布 本レポ2
4.統計的推測(推定)
最尤法、母分散の推定
5.統計的推測(検定)
平均の差の検定、母分散の検定、適合度検定
A.
講義にあたっての注意
(1) class page
http://web.econ.keio.ac.jp/staff/hk/stat/
掲示板を利用してください pass:
(2) テキスト
岩田暁一『経済分析のための統計的方法』東洋経済新報社
レジュメは予めホームページから各自ダウンロードしておくこと
(3) コンピュータ
授業では MS Excel についても紹介します。
B. 成績評価について
絶対評価:80 以上=A、60 以上 80 未満=B、50 以上 60 未満=C、50 未満=D
※ただし D の割合が 20%を超えた場合は D と C のボーダーを変更する
総点=試験(100 点満点)+本レポート(10 点満点)
(1) 本レポート(秋学期 2 回を予定):必修
本レポートの提出がない場合は無条件で D とします。
レポートの質が著しく低いものは再提出を命じます。再提出=未退出扱い
他人のレポートを写した場合・写させた場合はレポートの0点とした上で期末試験の得
点から 20 点減点します
(2) 期末試験: 秋学期末のみ実施。持込不可。50 分。
(3) 即レポ:授業のときに簡単な問題をその場で解いて提出します。成績の参考とします。
1
2015 年秋学期
統計学Ⅱ(河井啓希)
Ⅰ 回帰分析(Regression Analysis)
プロ野球チームの勝因:投手力(防御率)、打力(打率・本塁打)、監督力など
遺伝学者 Golton(1877)
0.540
0.520
0.500
勝率
勝率 防御率 打率 本塁打 盗塁
ヤクルト 0.540
3.28 0.258
106
82
巨人
0.518
2.79 0.242
97
96
阪神
0.500
3.50 0.247
78
46
広島
0.489
2.96 0.248
99
80
DeNA 0.446
3.78 0.250
108
56
中日
0.445
3.22 0.253
70
88
相関係数 -0.445 0.012 0.330 0.240
0.480
y = -0.0477x+0.6449
0.460
0.440
2.70
2.90
3.10
3.30
3.50
3.70
防御 率
平均への回帰(regression to the mean)
英国 1078 家族のデータ
X:父親の身長(inch)
Y:息子の身長(inch)
Y=α+βX α=33.73 β=0.516
β:回帰係数
β=0 父子の身長に関連なし
0<β<1 平均への回帰が存在
→散らばりは縮小する
父親が高(低)身長でも息子の身長
は平均に近くなる
(Step 1) 勝率と最も相関の強い要素は何か?
2 変数間の関連性の強さを測る統計量
標本共分散 covariance (p-232) =covar(x 範囲,y 範囲)
標本共分散 cov(x,y)= S xy 
1
n
x i  x  y i  y 

n  1 i 1
cov(x,y)>0:正相関、cov(x,y)<0:負相関、cov(x,y)=0:無相関
値が大きい≠関連性の強さ
標本相関係数 correlation coefficient (p-229) =correl(x 範囲,y 範囲)
標本相関係数は r 
S xy
xt  x y t  y
1
で定義される。S.は標本標準偏差


n 1
Sx
Sy
SxSy
値の大きさ=関連性の強さ
完全な正相関
強い正相関
無相関
強い負相関
完全な負相関
※相関関係≠因果関係(Correlation is not Causation)
例)日吉のコンビニの数(X)とラーメン屋の数(Y)→共通要因 Z(人口)の存在
2
2015 年秋学期
統計学Ⅱ(河井啓希)
(Step 2) 防御率 X は勝率 Y にどれほどの影響を持つのか 因果関係:原因 X→結果 Y
理論的な因果関係 Y=F(X)があれば、直線Y=α+βXをデータから推測することで
1 目標とする勝率を得るために必要な防御率を算定できる→投手陣の整備
2 直線からの乖離を見ることで他の要因を明らかにする
1
回帰分析 (Regression Analysis)
1.1 因果関係(原因X→結果Y)の把握、XのYに対する効果の把握 p-194
理論モデル Yi= F(Xi)=α+βXi → 確率モデル Yi=α+βXi +εi、εi~N(0,σ2)
(1) 確率モデル(確率的誤差[error] ε)の必要性
①理論の不完全性(Xのリストアップが不完全) ②線形近似の不完全性 ③測定誤差
(2)εi は様々な誤差の総和(
εt~N(0,σ2)
(3)線形近似の一般性


j 1
 i j )であるから CLT より正規分布に従うと考える
誤差εは正規分布に従う
Y=aXb , Y=X/(a+bX)
1.2 最小2乗法(Least Squares Method), p-196
残差2乗和を最小化
min S ( ,  )   Yt  (  X t ) 
2
 ,
→ S
  S   0
S    2(Yt  (   X t ))( 1)  0
S    2(Yt  (   X t ))( X t )  0
n    X t   Yt
この1階の条件の連立方程式
  X t    X t2   X t Yt を解く。
(正規方程式、normal equation)
 ( X  X )(Y  Y )
a  Y  bX
(X  X )
 X , s =  X - X , Y  Y
(証明) x, y の平均、
分散、共分散が X 
b
s XY cov( X , Y )


var( X )
s X2
t
t
2
t
t
X Y
t
2
X
n
2
t
t
2
n
n
, s
2
Y
Y
=
2
t
n
t
- X  Y のように書けることから正規方程式は
n
Y    X  0, s xy  X  Y  X  ( s x2  X 2 )   0 となり、これを解けばよい。
2
- Y , s XY =
※Yt とその推定値 Yˆt =a+bXt との回帰残差[residual] et=Yt-( a+bXt)は
e
t
 0,  et X t  0 となる。
※重回帰モデル(説明変数が複数のモデル、p-219) Yt=β0+β1X1t+β2X2t+…+βKXKt+εt の最
小2乗法推定量も同様に正規方程式( S  k  0 , k=0,1,…,K)の解として得ることができ
る。 Excel では ツール→分析ツール→回帰分析 で簡単に実行できる。
3
2015 年秋学期
統計学Ⅱ(河井啓希)
1.3 決定係数(Coefficient of Determination):当てはまりの尺度、p-201
R2 : 説明変数 X は被説明変数 Y の変動の何割を説明できるのか?
=X で説明可能な変動 ESS
 Yˆ  Y 
2
t
/Y の変動 TSS
 Y
Y 
2
t
予測値 Yˆt  a  bX t
TSS(Y の変動)=ESS 説明可能な Yˆt の変動+RSS 説明不可な et の変動
 Y
t

2
 Y    Yˆt  et  Y
   Yˆ  Y    e
残差 et  Yt  Yˆt
 e  0,  e X
←両辺を観測値の全変動 TSS=  Y  Y  で割る
2
2
2
t
t
∵
t
t
t
0
ESS RSS
2

t
TSS TSS
ESS
RSS
2
0≦ r2 =
=1-
≦ 1 を決定係数とよぶ。また r=± r が成立する。
TSS
TSS
1=
(例) 企業の広告費X(億円)と利潤率Y(%)
広告費と利潤率
企業
X
Y
ΔX
ΔY ΔX^2 ΔY^2 ΔXΔY a+bX
A
0
1
-2
-3
4
9
6
2
B
1
4
-1
0
1
0
0
3
C
2
4
0
0
0
0
0
4
D
3
6
1
2
1
4
2
5
E
4
5
2
1
4
1
2
6
計
10
20
0
0
10
14
10
平均
2
4
 (x
e^2
-1
1
0
1
-1
0
1
1
0
1
1
4
 x )( y i  y )  ( xi  x ) 2 =10/10=1 (広告費 1 億円の追加で利潤率が
1%上昇する)、 a= y  bx =4-1*2=2(広告費が 0 でも2%の利潤率は可能)
回帰係数
b=
決定係数
R2=1-4/14=5/7
2
e
i
(モデルで利潤率変動の 71%は説明可能)
回帰係数α, βの統計的推測
2.1 最小2乗推定量 a, b は確率変数である p-205
母集団 Yi=α+βXi+εi → 標本(x1,…,xn) (y1,…,yn ) → 最小2乗推定量 a, b
b   wi Yi     wi  i , wi 
( wi  0,  wi ( X i  X )   wi X i  1)
Xi  X
  Xi  X 
2
1
a    X     bX    (b   ) X    α  (  wi X ) t
n
2.2 確率的誤差[error]εに関する仮定
①不偏性 E(εt)=0
誤差εの期待値はゼロ
②独立性 Cov(εtXt)=0
誤差εはXとは相関をもたない
③等分散性 V(εt)=E(εt2)=σ2
誤差εの分散は一定
④独立性 Cov(εtεs)=0 誤差εは互いに相関をもたない
2.3 最小2乗推定量 a、b の平均と分散 p-207
Gauss-Markov の 定 理 : 最 小 2 乗 推 定 量 は 最 良 線 形 不 偏 推 定 量 (Best Linear Unbiased
Estimator)→線形不偏推定量の中で最も分散が小さくなる(正確な)推定量である
[不偏性の証明]
E(b)=β+ΣwiE(εi)=β、E(a)=α ← ①,②
[最小分散性の証明]
2
2
 b2  E b  E (b )    wt2 E ( t2 )   2  wt2   2   X t  X  ← ①,②,③,④


4
2015 年秋学期
統計学Ⅱ(河井啓希)
 2  X t2
2
2
 a2  E (a  E (a)) 2  E b    X 2  b    X   2   2  X 2  1n  
2
  Xt  X 
 n X t  X 


・任意の線形推定量 C=c0+ΣciYi が不偏性 E(C)=c0+Σci(α+βXi)=βを満たすには c0=0,Σci
=0 ,ΣciXi=1 である必要がある→任意の線形不偏推定量は C=ΣciYi, Σci=0,ΣciXi=Σcixi=1 を
満たす必要がある。
・C の分散 var(C)=σ2 Σci2 を最小にするci は L=Σci2-λ1 Σci-λ2(Σcixi-1)より L ci =2ciλ1-λ2xi=0, Σci=0, Σcixi=1 より求まる。最初の条件 ci=(λ1 +λ2xi)/2 を第2、3条件に代入
すると nλ1+λ2 Σxi=0→λ1=0、λ1 Σxi+λ2 Σxi2=2→λ2 =2/(Σxi2)となり、こ
のとき ci=xi/Σxi2=wi
2.4 推定量α、βの分布
εt~N(0,σ2) →
a  N ( ,  a2 ), b  N (  ,  b2 )
e
2
t
未知のσの代わりにσ2 の不偏推定量 s 
2
標準化すると t 
n2
b
~t(n-2)に従う。
sb
→
Z  b     b  N (0,1)
で代用した s b 
2
s2
によって
 ( xt  x ) 2
※n-2 は残差 et の自由度(2 制約Σe=ΣeX=0)。K 変数モデルではt(n-K-1)に従う
2.5 回帰係数の有意性検定
帰無仮説 H0 :β=0 の検定統計量 t  b s b を「t値 (t-ratio)」とよぶ。
(例) 広告費が利潤率に及ぼす影響
1 仮説「広告費が利潤率に影響を及ぼす」を検定する
Ho:β=0, H1:β≠0 帰無仮説が正しいとすると t  b s b ~t(n-2)となる
s2 =
e
2
i
n2
=
4
4
 、 sb2 
52 3
s2
4/3 4


より t=1/ 4 30 =2.739 となるが
2
 ( xi  x ) 10 30
t(3)の右側 2.5%臨界値は 3.182 なので、帰無仮説は棄却できないので、当該仮説は棄却。
2 仮説「広告費が利潤率に正の影響を及ぼす」を検定する
Ho:β=0, H1:β>0 帰無仮説が正しいとすると t  b s b ~t(n-2)となる
t(3)の右側 5%臨界値は 2.353 なので、帰無仮説は棄却できるため、当該仮説は採択される。
5
2015 年秋学期
統計学Ⅱ(河井啓希)
補足
1
エクセルで回帰分析を行うには
データ→データ分析→回帰分析を選択します。
分析ツールが表示されない場合はツール→アドインで分析ツールを追加しましょう
2
回帰分析ツールに入ると、下のような窓が表示される。
入力元
①入力 Y 範囲を指定:マウスで範囲指定します
②入力 X 範囲を指定:マウスで範囲指定します。複数の説明変数なら B29:D35 のように
③変数名を入力範囲に加えてラベルにチェックをいれます。
出力オプション
①出力先:「新規又は次のワークシート」にしましょう。
②残差(R)、観測値グラフにチェックを入れます。
6
2015 年秋学期
統計学Ⅱ(河井啓希)
3
推定結果の読み取り
広 告 費 と利 潤 率
7
6
利潤率
5
4
3
利潤率
2
予測値: 利潤率
1
0
0
1
2
3
4
5
広 告費
概要
分散分析表
回帰統計
重相関 R 0.845154 回帰
重決定 R2 0.714286 残差
補正 R2
0.619048 合計
標準誤差 1.154701
観測数
5
係数
切片
広告費
自由度
変動
1
3
4
分散
10
10
4 1.333333
14
分散比
有意 F
7.5 0.071422
標準誤差
t
P-値
下限 95% 上限 95%
2 0.894427 2.236068 0.111367 -0.84647 4.846467
1 0.365148 2.738613 0.071422 -0.16207 2.162065
(1)回帰統計
重決定 R2:決定係数 R2 (=1-RSS/TSS=1-4/14)
補正 R2:自由度修正済み決定係数 R
2
2
(R2> R )
重相関 R: R 2
e
(n  k )
2
i
標準誤差:s=
誤差εi の母標準偏差σの不偏推定量
(2)分散分析表 テキスト p-79
合計(TSS
 (Y
 Y ) )=回帰(ESS  (Yˆt  Y ) )+残差(RSS  et2 残差 2 乗和)
2
2
t
分散=変動 / 自由度、分散比={ESS/(k-1)}/{RSS/(n-k)}→H0:β1=β2=0 の検定
有意 F:分散比が 0 となる確率
(3)回帰係数表
係数:βの最小2乗推定量b
回帰係数の標準誤差:sb= s 2
t 値:t=
b
sb
(X
i
 X)
2
絶対値が2より大きいと有意(正確にはt分布表あるいはp値を見る)
p 値:Ho:β=0 のもとでtが生じる確率 1-pr(-t<b/sb<t)
下限/上限 95%:βの区間推定、Pr(b-t2.5%/sb <β< b+t2.5%・sb)=0.95
7