社会統計 第8回:単回帰分析(第8章)

社会統計
第10回:単回帰分析(第8章)
寺尾 敦
青山学院大学社会情報学部
[email protected]
第8章:2つの連続変数間の関係を
推定する-2変量回帰と相関
• 単回帰分析
– 独立変数,従属変数ともに量的変数(間隔尺度
あるいは比率尺度)
– 回帰分析では,独立変数のことを説明変数,従
属変数のことを目的変数と呼ぶことが多い.
– 回帰分析の目的:説明変数と目的変数との間
に,直線的な関数関係があると想定し,その関数
を求める(記述統計).母集団での関係に関する
推測を行う(推測統計).
• 8.6.4節以降は,講義で扱わない.テスト範囲
外.
8.1 回帰や相関の手法を用いた
分析例
• Roland Liebert による,市政の機能の変化に
ついての研究.
– 1970年代の財政危機による,市政の運営に対す
る関心の高まりが背景.
• 自治体の活動範囲(市当局が行う施策や
サービスの範囲)を決める要因
– 歴史的要因:伝統や政治文化,制度の形態
– 国全体の複雑化と相互依存性
– 都市部の人口増加と居住地の郊外化
• 自治体の活動範囲の9指標:福祉(連邦政府
による援助),司法,医療,教育,福祉(自治
体独自),保健,施設整備(公園など),衛生,
下水整備
• 独立変数として,
– 都市の歴史(人口が1万人に達してからの年数)
– 都市の人口規模
– 居住地の郊外化の度合い
• 得られた知見
– 歴史があり,かつ,規模の大きな都市ほど,より
多くの機能を果たしている.
– 郊外型の都市は,中核的な都市に比べて,少数
の機能しか果たしていない.
• リーバートが行った分析は,回帰と相関の手
法.
• 63都市(表8.1は,ワシントンD.C.を除く62都
市)のデータを用いて,彼の分析の一部をな
ぞる.
– リーバートは668都市を分析
– 人口と歴史は1970年時点でのデータ.都市機能
の指標は1960年のデータ.
• 命題
– P1:都市の歴史が古いほど,自治体の活動範囲
は広い.
– P2:都市の規模が大きいほど,自治体の活動範
囲は広い.
• 操作仮説
– H1:人口1万人を超えてから経た年数(X1)が多
いほど,市の果たす機能(Y)が多い.
– H2:1970年の人口(X2)が多い都市ほど,市の果
たす機能が多い.
8.1.1 自治体の活動範囲についての
記述統計
> city62 <- read.csv("city62.csv")
> head(city62)
NUM REGION CITYAGE FUNCTION POPULAT
1
1
3
86
4
275
2
2
1
146
5
116
3
3
2
46
4
127
4
4
2
106
4
497
5
5
4
66
4
117
6
6
2
86
4
301
平均
標準偏差
> lapply(city62, mean)
$NUM
[1] 31.51613
> lapply(city62, sd)
$NUM
[1] 18.06976
$REGION
[1] 2.5
$REGION
[1] 1.097688
$CITYAGE
[1] 87.12903
$FUNCTION
[1] 4.66129
$POPULAT
[1] 584.8387
X1
Y
X2
$CITYAGE
[1] 39.25974
$FUNCTION
[1] 1.828226
$POPULAT
[1] 1123.421
8.2 散布図と回帰直線
• 2つの連続変量の関係を図示するには,散布
図(scatter plot)を描く.(次のスライド)
• 2変数の関係は線形で,正の相関が認めら
れる.
• 2変数の関係を直線の式で記述できそう.
– 完全な線形関係にはほど遠いが,ランダムな散
布状態というよりは線形に近い.
線形関係
(linear relationship)
• 回帰モデル(regression model):i番目の都市
における,変数 X1 (都市の歴史)と Y (機能
の数)の関係を,以下のように記述する.
Yi  a  bX i1  ei
• 予測式としての回帰直線(regression line)
は,
Yˆi  a  bXi1
参考:図8.2
Yi
ei
Yˆi
Yˆi  a  bXi1
Xi
 Y1   a   X 11   e1 
  
    
 Y2   a   X 21   e2 


b

  
    
  
    
Y   a   X   e 
 63     63,1   63 
切片 a と 傾き b の値が決まれば,
回帰直線がひとつに定まる.
• 誤差 ei に関する仮定
– 独立性:互いに独立
– 正規性:正規分布に従う
– 不偏性: ei の期待値は0
E[ei ]  0
– 等分散性: ei の分散は,X の値によらず同一.
V [ei ]   e2
Y
(母集団での)
回帰直線

N 0,  e2

N 0,  e2 
X
• 説明変数(独立変数) X は,確率変数ではな
く,調査者が決められる値であるとする.
– どの X の値に対して目的変数(従属変数)の値を
測定するか,決められる.
– 回帰分析についての理論的なテキストのほとん
どが,この設定をしている.
– 実際には, X も確率変数と考えた方が自然な
データは多い.理論的には,X を確率変数として
も,同じ回帰分析を実行できる.
8.3 線形回帰式
• 直線の決め方:予測誤差(予測値と実測値の
ずれ)を,データ全体にわたって最小にする.
• 最小2乗法(OLS: ordinary least square):予測
誤差の2乗和を最小にするように,パラメータ
(ここでは切片と傾き)を決める.
N
N

ˆ
e

Y

Y
i  i i
i 1
2
i 1
N

2
  Yi  a  bX i 
i 1
2
関数 F(a,b) の値を最小にする,パラメータ a と b の値を決める.
N
F a, b    Yi  a  bX i 
2
i 1
N
  a  bX i   Yi 
2
i 1
パラメータ b を定数(あるいは,うまく決定できた)と考え,a だ
けが変数であるとすると,下に凸の2次関数とみなせる.
N
F a, b    a  bX i  Yi 
2
F(a,b)
i 1
N

  a 2  2bX i  Yi a  bX i  Yi 
i 1
2

a
関数 F(a,b) の値が最小になるところ(曲線の一番下)では,
接線の傾きがゼロとなる.つまり,関数 F(a,b) を a で微分(偏
微分と呼ばれる)して得られる導関数の値がゼロとなる.
N

F a, b    a 2  2bX i  Yi a  bX i  Yi 
i 1
2
F a, b  N
  2a  2bX i  Yi 
a
i 1
N
 2 a  bX i  Yi 

接線
i 1
0
注意:最初に式を展開しなくても,合成関数の
微分法を使えば,偏微分を簡単に実行できる.
得られた式を整理する.
N
2 a  bX i  Yi   0
i 1
N
N
N
 a   bX   Y
i 1
i
i 1
i 1
N
N
i 1
i 1
i
0
Na  b X i   Yi
正規方程式(normal equation)
と呼ばれる連立方程式を構成
する方程式のひとつ.
両辺を N で割ると,
1
ab
N
N
1
Xi 

N
i 1
a  bX  Y
N
Y
i 1
i
a  Y  bX
b がわかれば,この式で a を求めことができる
パラメータ a を定数(あるいは,うまく決定できた)と考え,b だ
けが変数であるとすると,やはり下に凸の2次関数とみなせ
る.
N
F a, b    bX i  a  Yi 
2
i 1
N

F(a,b)
  X i2b 2  2 X i a  Yi b  a  Yi 
i 1
2

b
関数 F(a,b) の値が最小になるところ(曲線の一番下)では,
接線の傾きがゼロとなる.つまり,関数 F(a,b) を b で微分(偏
微分と呼ばれる)して得られる導関数の値がゼロとなる.
N

F a, b    X i2b 2  2 X i a  Yi b  a  Yi 
i 1
2

F a, b  N
  2 X i2b  2 X i a  Yi 
b
i 1

N


 2 bX i2  aX i  X iYi

i 1
0
注意:最初に式を展開しなくても,合成関数の
微分法を使えば,偏微分を簡単に実行できる.
得られた式を整理する.
N


2 bX i2  aX i  X iYi  0
i 1
N
N
N
i 1
i 1
i 1
N
N
N
i 1
i 1
i 1
a  X i  b X i2   X iYi  0
a  X i  b X i2   X iYi
正規方程式(normal equation)
と呼ばれる連立方程式を構成
する方程式のひとつ.
正規方程式
N
N

 Na  b X i   Yi  (1)

i 1
i 1
 N
N
N
2
a X  b X 
X iYi  (2)


i
i
 
i 1
i 1
i 1
b がわかれば,この式で a
を求めことができる
(1) より,
a  Y  bX
b を求めたいので,b に
ついてまとめた式にする
これを (2) に代入すると,
Y  bX  X
N
i 1
N
i
N
 b X   X iYi
i 1
2
i
i 1
N
N
N
 N 2

  X i  X  X i b   X iYi  Y  X i
i 1
i 1
i 1
 i 1

両辺を N で割ると,
1

N
1

N
1 N
1

X i b   X iYi  Y

N i 1
N
i 1

N
N
1

2
2
X

X
b   X iYi  XY

i
N i 1
i 1

N
1
X X

N
i 1
N
2
i
N
X
i 1
i
X の分散 S2X ,および, X と Y の共分散 SXY について,
1
2
SX 
N
1

N
 X
N
i 1
i
N
X
i 1
X
2
2
i
X
2
S XY
1

N
1

N
 X
N
i 1
i
 X Yi  Y 
N
 X Y  XY
i 1
i i
したがって,
S X2 b  S XY
S XY
b 2 
SX
1
N
 X
N
i 1
1
N
i
 X Yi  Y 
 X
N
i 1
X
2
i
不偏分散を使えば,
1 N
X i  X Yi  Y 

N  1 i 1
b
1 N
2
X i  X 

N  1 i 1
• 回帰係数(regression coefficient) b の推定値
1 N

X i  X Yi  Y 

S XY N i 1
ˆ
b 2 
N
1
2
SX
X i  X 

N i 1
• 切片(intercept) a の推定値
aˆ  Y  bX
• けっきょく,回帰直線の式は,
S XY
Yi  2 X i  X   Y
SX
SY S XY
X i  X   Y

S X S X SY
SY

rXY X i  X   Y
SX
• 回帰直線からわかること.
– 回帰係数は,X が1単位変化したときの,Y の変
化である.
b( X  1)  a  bX  a  b
– 回帰直線は (X の平均,Y の平均)という座標点
を通る(次のスライド参照).
– 測定値を標準化すれば,直線の傾きは2変数の
相関係数に等しい.
S
Yi 
Y
SX
rXY X i  X   Y
Y
X
8.3.1 線形回帰を自治体の活動範囲
の例に適用する
> summary(lm(FUNCTION ~ CITYAGE))
Call:
lm(formula = FUNCTION ~ CITYAGE)
Residuals:
Min 1Q Median 3Q Max
-2.6265 -0.8193 -0.1649 0.7196 3.3735
次のスライドに続く
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.979696 0.430569 4.598 2.25e-05 ***
CITYAGE 0.030777 0.004512 6.822 5.03e-09 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.383 on 60 degrees of freedom
Multiple R-squared: 0.4368, Adjusted R-squared:
0.4274
F-statistic: 46.54 on 1 and 60 DF, p-value: 5.034e-09
> plot(CITYAGE, FUNCTION)
> abline(lm(FUNCTION~CITYAGE))
8.4 連関の測度
• 線形回帰分析は,2変数の量的関係を示す
式を推定するだけでなく,2変数間の連関の
強さを明らかにするためにも活用できる.
• 観測されたデータ点が,回帰直線の近くにあ
るほど,連関は強いと考えられる.
• 従属変数 Y の値を,体系的成分(回帰式に
よって予測される)と,誤差の成分に分解す
る.
– 体系的成分は,独立変数 X の値によって説明で
きる成分.
• 従属変数 Y の値を,独立変数の値によって
説明できる成分と,誤差の成分に分解する.
Y i Y  (Yˆi  Y )  (Yi  Yˆi )
Y  Y  (Yˆ  Y )  (Y  Yˆ )
i
i
参考:図8.3
i
i
Yi  Yˆi
Yˆi  Y
• 従属変数 Y の変動は,分散分析の場合と同
様に,2つに分解することができる.
• 回帰平方和(regression sum of squares):回
帰によって説明できる変動
• 誤差平方和(error sum of squares):回帰に
よって説明できない変動
 Y  Y    Yˆ  Y    Y  Yˆ 
N
i 1
2
i
N
i 1
2
i
N
i 1
SSTOTAL  SSREGRESSION  SSERROR
2
i
i
8.4.1 決定係数
• 従属変数の変動のうち,回帰によって説明で
きる変動の割合を,決定係数(coefficient of
determination)と呼ぶ.
2
Y .X
R
SSREGRESSION

SSTOTAL
SSERROR
 1
SSTOTAL
誤差減少率としての決定係数
• 回帰式についての情報がまったくないとき
に,従属変数 Y の値を予測せよと言われた
ら,平均値を答えるしかない.平均値は,下
の式で表される偏差平方和を最小にする θ
の値である.このとき,誤差は Y の変動
(SSTOTAL)だけある.
N
2
 Yi   
i 1
• 回帰式を得ることで,特定の X の値に対し
て,Y = a + bX という予測が可能となる.この
とき,予測誤差がどれだけ減少するかを考え
る.これは誤差減少率(Proportional
reduction in error)の測度である.
SSTOTAL  SSERROR
PRE 
SSTOTAL
非決定係数
(coefficient of
SSERROR
2
 1
 RY . X
nondetermination)
SSTOTAL
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.979696 0.430569 4.598 2.25e-05 ***
CITYAGE 0.030777 0.004512 6.822 5.03e-09 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.383 on 60 degrees of freedom
Multiple R-squared: 0.4368, Adjusted R-squared: 0.4274
F-statistic: 46.54 on 1 and 60 DF, p-value: 5.034e-09
• 単回帰分析の場合の決定係数は,2変数の
相関係数の2乗に等しい.
• 決定係数の最小値は0,最大値は1である.
• 社会統計演習で説明した,変数をベクトルと
してとらえる見方は,ここでも使える.
変数のベクトル
• 変数ベクトル:ある変数に関する各測定値を
並べたものは,ベクトルとみなすことができ
る.
• 偏差ベクトル:変数ベクトルの各要素から,平
均値を引いてできるベクトル.
 x1  x 


 x2  x 
 
x  x3  x 


 x4  x 


 x5  x 
偏差ベクトルの大きさと標準偏差
• 偏差ベクトルの大きさ

x 
n
 x  x 
i 1
2
i
1 n
2
xi  x 
 n

n i 1
 n
「xの標準偏差」
2
x  n
「 xの分散」
相関係数
• 相関係数は2つの偏差ベクトルが作る角度の
コサイン

y
θ
rxy  cos

x
 

x  y
cos   
x y
n

 x  x  y
i 1
n
i
 y
n
2




x

x
y

y
 i
 i
i 1

i
2
i 1
1 n
xi  x  yi  y 

n i 1
1 n
1 n
2
2
xi  x    yi  y 

n i 1
n i 1
 rxy
相関係数の値
• 相関係数はコサインなのだから,
最小値は-1,最大値は+1
• 2つの偏差ベクトルが,
– 同じ方向を向くとき,相関係数は+1
– 直交するとき,0
– 正反対の方向を向くとき,-1
• 従属変数の予測値のベクトルは,独立変数
のベクトルを伸縮させて作る
– 従属変数(実測値)のベクトルの正射影.
– この伸縮率は,回帰直線の傾き b である.
Yˆi  Y  bˆX i  X 
 Yˆ1  Y   X 1  X 

 

 Yˆ2  Y  ˆ X 2  X 

  b


   

 Yˆ  Y   X  X 

 n
  n
従属変数の変動

Y
2
2
Y   (Yi  Y )
回帰によって説明
できない変動
(Y  Yˆ ) 2

回帰によって説明できる
(X によって説明できる)変動
2
ˆ
(
Y

Y
)

i

X
伸縮
i
R2 
2
ˆ
(
Y

Y
)
 i
2
(
Y

Y
)
 i
 rxy2
8.5 標準回帰係数
• 従属変数,独立変数の単位が明確な場合
は,回帰係数の解釈を自然に行うことができ
る.
– 例:都市の歴史が1年長くなると,都市が果たす
機能の数は0.03増える.
• しかし,社会科学では,単位が明確でない変
数も多い.
– 産業化,信仰の強さ,社会経済的地位,など
• この場合,変数の標準化がしばしば行われ
る.
• 2変数を標準化してから回帰分析を行った場
合の回帰直線の傾きは,標準回帰係数ある
いはベータ係数と呼ばれる.これは2変数間
の相関係数に等しい.このとき,回帰直線は
原点を通る(切片がゼロ).標準化してもしな
くても,2変数間の相関係数は変化しない.
SY
Yi 
rXY X i  X   Y
SX
  rXY
*
X Y 0
S X  SY  1
• 標準化された独立変数 ZX の値が1(X の標
準偏差1つ分)増えると,標準化された従属
変数 ZY の値が β* (Y の標準偏差1つ分 ×
β* )増える.
• つまり,標準回帰係数 β* の値は,「X の値が
1標準偏差だけ異なると,Y において(Y の)
標準偏差の β* 倍の差異が生じる」と解釈で
きる.
8.5.1 平均への回帰
• 予測値(回帰直線上の値)の分散は,従属変
数(実測値)の分散よりも小さい.
– 変動の分解を思い出そう
• 変数を標準化してから回帰分析を実行する
と,傾きは相関係数に一致する.
– つまり,独立変数 X が1標準偏差だけ変化したと
き,従属変数 Y の変化は(Y の)1標準偏差よりも
小さい.
• したがって,予測値は平均値の方に回帰す
る.
=
=
回帰直線よりも
上の値と下の値
が同程度ある.
• 回帰効果は,相関が±1でない限り,必ず生
じる.
– 2年目のジンクスは,この回帰効果で説明でき
る.(次のスライド)
– いくつかのさいころを投げて,もっとも大きな値を
出したさいころに「新人賞」を与えるゲームをす
る.このさいころは,次のゲームでも「活躍する」
だろうか?(これは1年目と2年目の相関が0の
ケース)
多くの人が期待する,2
年目の成績
実際は,平均的には
この成績になる.
この直線よりも上の
人と下の人が同程度
いる.
8.6 回帰と相関の有意性検定
• 標本から計算されるパラメータの値,および
決定係数は,母集団での本当の値の推定値
である.
– 標本をとりなおせば異なった値になる.
• 得られた推定値が意味のあるものだと考える
ためには,その母集団での値が0でないとい
うことを示す必要がある.
8.6.1. 決定係数の有意性検定
• 回帰平均平方(mean square regression):回
帰平方和をその自由度(1)でわったもの
MS regression 
SS regression
1
• 誤差平均平方(mean square error):誤差平
方和をその自由度(N-2)でわったもの
MS error
SS error

N 2
• 帰無仮説:母集団での決定係数は0
• 検定統計量:回帰平均平方と誤差平均平方
の比率は,帰無仮説が正しいとき,自由度 1,
N-2 の F 分布に従う.
F1, N 2 
MSregression
MSerror
• 回帰平方和の自由度(=1)の説明
– 回帰平方和において Y を固定し,予測値を自由
に作ることを考える. SS regresion   Yˆi  Y 2
– 予測値 Yˆi はすべて直線上に並ぶ.
– 回帰直線は,(Xの平均,Yの平均)という点を必
ず通る.
– したがって,ある X に対する予測値をひとつ決め
ると,直線が決まり,他の X に対する予測値はす
べて決まってしまう.すなわち,自由度は1であ
る.
• 誤差平方和の自由度(N-2)の説明
– 全平方和=回帰平方和+誤差平方和
– 自由度も,平方和と同様に分解される.
– 全平方和の自由度は N-1 である.
– 回帰平方和の自由度は1である.
– したがって,誤差平方和の自由度は N-2 となる.
N  1  1  ( N  2)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.979696 0.430569 4.598 2.25e-05 ***
CITYAGE 0.030777 0.004512 6.822 5.03e-09 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.383 on 60 degrees of freedom
Multiple R-squared: 0.4368, Adjusted R-squared:
0.4274
F-statistic: 46.54 on 1 and 60 DF, p-value: 5.034e-09
8.6.2. a と b の有意性の検定
• 傾きについての帰無仮説:母集団での傾きは
0(b=0)
• 検定統計量:傾き b の点推定値(𝑏)を,その
推定値の標本分布における標準偏差(標準
誤差)で割る.帰無仮説が正しいとき,自由度
N-2 の t 分布に従う.
bˆ
t N 2 
MS error
 X
N
i 1
X
2
i
• 切片 a の検定も可能だが,興味外のことも多
い.変数を標準化すれば, a  Y  bX  0
8.6.3. F と t2 の関係
• 単回帰分析では,決定係数の有意性検定
と,傾きの有意性検定は,同一のものであ
る.
– 回帰によって説明できる変動が0ということは,回
帰直線の傾きが0であること同じである.
– 傾きの有意性検定での t 統計量の2乗を計算し,
それが決定係数の有意性検定における F 統計
量と一致することを確かめよ.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.979696 0.430569 4.598 2.25e-05 ***
CITYAGE 0.030777 0.004512 6.822 5.03e-09 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.383 on 60 degrees of freedom
Multiple R-squared: 0.4368, Adjusted R-squared: 0.4274
F-statistic: 46.54 on 1 and 60 DF, p-value: 5.034e-09
練習問題
• 傾き b の推定値の分散は以下の式で与えら
れる.傾きの推定値を安定させる(推定値の
分散を小さくする)ために実行可能な手段は
何か?
2
e
ˆ
V (b) 
NS X2
– ここで,N は標本の大きさ.σe2は誤差 ei の母集
団分散. 2
1 N
2
ˆ e  MSerror S X   X i  X 2
N
i 1
理解確認のポイント
• 単回帰分析の概要を説明できますか?
– 量的な目的変数および説明変数
– 直線的な相関関係
– 回帰モデル
– 最小2乗法による,回帰直線の傾きと切片の推
定
• 回帰直線が必ず通る点はどこですか?
• 回帰直線の傾きと相関係数はどのような関
係にありますか?
• 回帰係数および標準回帰係数の意味を説明
できますか?
• 決定係数の定義式を書き,その意味を説明
できますか?
• 回帰効果とは何か説明できますか?
• データが与えられたとき,決定係数の有意性
検定を実行できますか?
• データが与えられたとき,傾きの有意性検定
を実行できますか?
– 傾きの推定値の分散を計算する式は覚えなくて
よい.
2
e
ˆ
V (b) 
2
NS X