政治学方法論 I - 一般化線形モデル - 神戸大学

一般化線形
R
一般化線形
政治学方法論 I
一般化線形
矢内 勇生
神戸大学 法学部/法学研究科
2014 年 12 月 24 日
1 / 26
一般化線形
今日
R
一般化線形
内容
1 一般化線形
指数型分布族 (exponential family of distribution)
一般化線形
(generalized linear models)
2
(
3 R
)回帰
回帰
一般化線形
glm()
応答変数
変数(三値以上) 場合
2 / 26
一般化線形
R
一般化線形
線形
▶
線形
:
E(Yi ) = µi = xTi β
Yi ∼ N(µi , σ 2 )
▶
xTi
▶
一般化線形
説明変数行列(計画行列, design matrix)X
:線形
第i行
拡張
1. 応答変数 正規分布以外 分布(離散型分布 含
) 従 場合 扱
2. 応答変数 説明変数 関係 線形
場合 扱
3 / 26
一般化線形
R
線形
一般化線形
一般化線形
一般化線形
拡張
(generalized linear models: GLMs)
1. 応答変数 正規分布以外 分布 従 場合 扱
▶ 正規分布
指数型分布族 → 指数型分布族 拡張
2. 応答変数 説明変数 関係 線形
▶ E(Y ) = µ
線形予測子 xTi β
i
i
結
g(µi ) = xTi β
▶
g
関数
場合
線形
扱
関数 g
or µi = g −1 (xTi β)
呼
4 / 26
一般化線形
R
一般化線形
指数型分布族 (exponential family of distribution)
指数型分布族
▶
指数型分布族:唯一 母数 θ
(質量)関数 次 形 表
確率変数 Y
確率密度
f (y|θ) = s(y)t(θ) exp[a(y)b(θ)]
= exp[a(y)b(θ) + c(θ) + d(y)]
既知 関数
▶
a, b, s, t
▶
s(y) = exp[d(y)], t(θ) = exp[c(θ)]
▶
y
▶
a(y) = y
▶
b(θ):自然母数 (natural parameter)
▶
注目
θ
対称
:正準形 (canonical form)
母数 θ 以外 母数:撹乱母数 (nuisance parameter)
5 / 26
一般化線形
R
一般化線形
指数型分布族 (exponential family of distribution)
指数型分布族
▶
分布、二項分布
分布
▶
負
二項分布
▶
分布
▶
分布
分布
▶
分布
▶
分布
▶
▶
確率分布
正規分布
▶
▶
属
etc.
6 / 26
一般化線形
R
一般化線形
指数型分布族 (exponential family of distribution)
正規分布 (normal distribution)
確率密度関数:µ 母数、σ 2 撹乱母数
[
]
1
1
2
f (y|µ) = √
exp − 2 (y − µ)
2σ
2πσ 2
[
]
1
2 − 12
2
2
= exp[log(2πσ ) ] exp − 2 (y − 2yµ + µ )
2σ
[
]
2
µ
µ
1
y
2
= exp y 2 − 2 − log(2πσ ) − 2
σ
2σ
2
2σ
▶
正規分布
▶
a(y) = y → 正準形
▶
自然母数:b(µ) = µ/σ 2
▶
µ
1
2
c(µ) = − 2σ
2 − 2 log(2πσ )
▶
d(y) = −y/2σ 2
2
7 / 26
一般化線形
R
一般化線形
指数型分布族 (exponential family of distribution)
二項分布 (binomial distribution)
▶
1 回 試行 成功確率 π 、独立 n 回 試行
成功
回数 確率変数 Y
:Yi ∼ Bin(ni , πi )
( )
n y
f (y|π) =
π (1 − π)n−y
y
]
[ ( )
n y
= exp log
π (1 − π)n−y
y
[
( )]
n
= exp y{log π − log(1 − π)} + n log(1 − π) + log
y
▶
a(y) = y → 正準形
π
自然母数:b(π) = log π − log(1 − π) = log 1−π
:
c(π) = n log(1 − π)
( )
d(y) = log ny
▶
▶
▶
8 / 26
一般化線形
R
一般化線形
指数型分布族 (exponential family of distribution)
分布 (Poisson distribution)
▶
決
時間(
確率変数 Y
空間)内 特定 事象 起
:Yi ∼ Poisson(θi )
回数
θy exp(−θ)
y!
= exp(y log θ − θ − log y!)
f (y|θ) =
▶
a(y) = y → 正準形
▶
自然母数:b(θ) = log θ
▶
c(θ) = −θ
▶
d(y) = − log y!
9 / 26
一般化線形
R
一般化線形
指数型分布族 (exponential family of distribution)
二項分布
▶
▶
分布:Yi ∼ Poisson(θi )
共通点:
特定 事象 起
相違点:二項分布 Xi
上限
Yi
上限
:
▶
▶
▶
使
二項分布:Xi ∼ Bin(ni , πi )
▶
▶
分布
回数 数
、
分布
Xi :0 以上 ni 以下 整数
Yi :0 以上 整数
→ 事象 発生回数
独立 試行回数 ni 決
二項分布、
分布
過分散 (overdispersion) 可能性
▶
▶
二項分布
過分散 →
二項分布 (beta-binomial)
分布 過分散 → 負 二項分布 (negative binomial)
10 / 26
一般化線形
一般化線形
一般化線形
R
(generalized linear models)
一般化線形
定義
指数型分布族 確率分布 従 確率変数 Y1 , . . . , Yn
1. 各 Yi 確率分布 正準形 母数 1 :
f (yi |θi ) = exp[yi bi (θi ) + ci (θi ) + di (yi )]
2.
従
Yi 同 確率分布(母数 値 異
→ Y1 , . . . , Yn 同時分布:
)
f (y1 , . . . , yn |θ1 , . . . , θn )
n
∏
=
exp[yi b(θi ) + c(θi ) + d(yi )]
i=1
= exp
[
n
∑
i=1
yi b(θi ) +
n
∑
i=1
c(θi ) +
n
∑
]
d(yi )
i=1
11 / 26
一般化線形
R
一般化線形
一般化線形
(generalized linear models)
一般化線形
(通常
▶
目的:θi
k < n)
▶
µi
θi
)目的
→ β1 , . . . , βk
推定
関数、E(Yi ) = µi
推定(
、次 関数 g
、
考
g(µi ) = xTi β
µi = g −1 (xTi β)
1. g
2.
xTi
3. β
単調 関数(単調増加、単調減少、
定数関数)
1 行 k 列 説明変数
k 行 1 列 母数
12 / 26
一般化線形
一般化線形
R
一般化線形
(generalized linear models)
一般化線形
構成要素
1. 同一 確率分布(指数型分布族
Y1 , . . . , Yn
2. 母数
説明変数行列 X:
 T 
 
x1
β1
x11
 ..   ..
 .. 
β =  . , X =  .  =  .
従 応答変数
β
βk
3. 単調
)
xTn
xn1
···
..
.
···

x1k
.. 
. 
xnk
関数 g :
g(µi ) = xTi β
or
µi = g −1 (xTi β)
、µi = E(Yi )
13 / 26
一般化線形
R
(
)回帰
潜在変数
▶
一般化線形
回帰
使
回帰 定式化
応答変数 Yi
、連続型 潜在変数 Zi 使
{
1 (zi > 0)
yi =
0 (zi < 0)
化
zi = xTi β + ϵi
▶
、ϵi
分布 従
Pr(ϵi < x) = logit−1 (x),
▶
:
∀x
、
Pr(yi = 1) = Pr(zi > 0) = Pr(ϵi > −xTi β) = logit−1 (xTi β)
14 / 26
一般化線形
R
(
)回帰
一般化線形
回帰
回帰
▶
応答変数 Yi
、連続型 潜在変数 Zi 使
{
1 (zi > 0)
yi =
0 (zi < 0)
化
zi = xTi β + ϵi
▶
▶
、ϵi ∼ N(0, 1)
、
Pr(yi = 1) = Φ(xTi β)
▶
、Φ 標準正規分布 累積分布関数 (cdf: cumulative
distribution function)
15 / 26
一般化線形
R
(
)回帰
一般化線形
回帰
累積分布関数
1.00
Pr(ε<x)
0.75
CDF
−1
logit
0.50
N(0, 1)
2
N(0,1.6 )
0.25
0.00
-4
-2
0
2
4
x
16 / 26
一般化線形
R
(
)回帰
一般化線形
回帰
違
▶
潜在変数 Zi
使
回帰
:
{
yi =
1
0
(zi > 0)
(zi < 0)
zi = xTi β + ϵi
▶
ϵi ∼ N(0, 1.62 )
推定結果
▶
回帰
一緒
(
▶
偏差
)回帰 ≈
回帰 標準
1.6 倍
17 / 26
一般化線形
R
(
σ
)回帰
推定
回帰
?
▶
潜在変数 使
、σ 推定
▶
答
▶
以下
:
定式化
?
、
一般的
等
:
ϵi ∼ N(0, 1.62 )
zi = (10β1 ) + (10β2 )xi + ϵi ,
σ
σ
、ϵi ∼ N(0, σ 2 )
!
zi = β1 + β2 xi + ϵi ,
▶
一般化線形
ϵi ∼ N(0, 162 )
zi = (100β1 ) + (100β2 )xi + ϵi ,
ϵi ∼ N(0, 1602 )
固定
必要 → σ = 1:
撹乱変数)
(一般化線形
18 / 26
一般化線形
一般化線形
R
glm()
glm()
▶
分析
以下
▶ 線形回帰
▶
回帰
▶
回帰
▶
二項分布
▶ 負
二項分布
▶ 応答変数
(後述)
glm()
(
分析
)回帰
▶
変数
場合:他
関数
使
19 / 26
一般化線形
R
一般化線形
glm()
glm()
使
特定
1. 応答変数
;y
2. 線形予測子:Xβ
▶ 説明変数行列(計画行列)
:X
▶ 母数
:β
3.
関数:glm
link
4. 応答変数 確率分布:glm
5. 撹乱母数:線形予測子、
、X 以外 母数
決
family
決
関数、確率分布 登場
20 / 26
一般化線形
R
一般化線形
glm()
線形回帰
関数:恒等関数 (identity function)
▶
xTi β = g(µi ) = µi
▶
応答変数
確率分布:
Yi ∼ N(µi , σ 2 ),
E(Yi ) = µi
特定: family=gaussian(link="identity")
▶
family
▶
撹乱母数:σ 2
21 / 26
一般化線形
R
一般化線形
glm()
回帰
関数:
関数 (logit function)
(
)
πi
T
xi β = g(πi ) = logit(πi ) = log
1 − πi
▶
▶
応答変数
確率分布:
Yi ∼ Bernoulli(πi ),
▶
family
E(Yi ) = πi
特定: family=binomial(link="logit")
22 / 26
一般化線形
R
一般化線形
glm()
回帰
関数:
▶
関数 (probit function)
xTi β = g(πi ) = Φ−1 (πi )
▶
応答変数
確率分布:
Yi ∼ Bernoulli(πi ),
▶
family
E(Yi ) = πi
特定: family=binomial(link="probit")
23 / 26
一般化線形
R
一般化線形
glm()
回帰
関数:対数関数 (logarithmic function)
▶
xTi β = g(θi ) = log θi
▶
応答変数
確率分布:
Yi ∼ Poisson(θi ),
▶
family
E(Yi ) = θi
特定: family=poisson(link="log")
24 / 26
一般化線形
R
応答変数
変数(三値以上)
応答変数
▶
▶
場合
変数
応答変数
▶ 順序
▶
順序
順序尺度
回帰 (ordered logit)
回帰 (ordered probit)
応答変数 名義尺度
▶ 多項(順序
)
unordered logit)
▶
一般化線形
多項(順序
)
unordered probit)
回帰 (multinomial or
回帰 (multinomial or
25 / 26
一般化線形
R
応答変数
変数(三値以上)
一般化線形
場合
分析法
R
▶
順序
1. MASS
・
2. arm
多項
関数
分析可能
関数
分析可能
bayespolr()
3. ordinal
▶
以下
polr()
clm()
・
以下
▶
1. mlogit
2. VGAM
▶
mlogit()
multinomial()
:MNP
mnp()
26 / 26