ロジスティック回帰分析

1
GENMOD
Generalized Linear Model(GLIM)
狩野 裕
2
一般化線形モデル
•
•
•
•
対数線形モデル
ロジステック回帰モデル
ポアソン回帰モデル
その他
3
対数線形モデル
• 分割表の検定
– アラカルトでは町田氏のCATMOD
pij  pi  p j
log pij   log pi   log p j    i   j
log pij    i   j  ( ) ij
4
ポアソン回帰モデル
• ポアソン変量である応答変数を規定する要因を
調べるため回帰分析したい
– ポアソン分布
– 例
e   x
P( X  x) 
x!
( x  0,1,2,)
log(クレーム件数 )  log N  0  1年代   2車のサイズ
– λに直接回帰すると,λが負の値になることがある
クレーム件数  log N  0  1年代   2車のサイズ
5
対数変換の効果?
変換前
対数変換後
ポアソン分布
0.2
確率
0.15
0.1
0.05
0
0
5
10
15
20
25
6
ロジスティック回帰分析
• 応答変数が二値であるから普通に回帰
分析してはいけない
– 0・1変数を連続変数で予測するというモデル
に無理がある
– y^=0.8, 1.5, -0.4のような予測値はどのように
解釈すればよいか不明
yi   0  1 xi1   2 xi 2  ei
xi1 , xi:連続変数でも固定変
数でもよい
2
e:正規分布に従う連続
変数
i
 y:正規分布に従う連続
変数
i
7
では,どう考えるか
• 原因系変数が結果の生起確率P(Y=1)に
影響すると考えるのが自然
• P(Y=1)=a+bxはどうか?
– ダメ
– a+bxは区間[0,1]に収まらないことがある
– 0.5→0.6とするための努力と0.85 → 0.95と
するための努力には違いがある
8
では,どうするか
• そこで,生起(成功)確率を支配する実力と
いう潜在変数(心理学的連続体)があり,
それが正規分布すると仮定する
• さらに,その潜在変数が原因系の変数(説
明変数)から影響を受けることを想定する
9
成功する確率
実力
失敗する確率
原因系の変数が実力に影響する
10
実力と成功確率
成功確率:50%⇒60%
実力の増分:0.25
成功確率:85%⇒95%
実力の増分:0.60
11
正規分布のロジット近似
成功確率  P(Y  1)  緑の部分


実力
1
1
 y2
e 2 dy
2
これを「実力」につい


1
 c実力
1 e
て解く と
(c  1.7)
P(Y  1)
log
 c  実力
1  P(Y  1)
左辺をロジットという
.
ロジスティック回帰分
析は生起確率のロジッ トに回帰モデルを
想定したも の:
P(Y  1)
log
 a  bx
1  P(Y  1)
12
文献
• 丹後・山岡・高木(1996).ロジスティック
回帰分析.朝倉書店