SPSS操作実習 - ホーム

質的データの分析手法
---プロビットモデル・ロジットモデルの概要--立教大学 経営学部
山口和範
内容

2値型の目的変数の分析
判別分析
 ロジステック回帰モデル


多群の判別
ロジットモデル
 プロビットモデル

2
目的変数

「予測」をしたい変数

「結果」としてとらえる変数

「従属変数」ともいう
要因から影響されている変数
「目的変数」に影響を与える変数を
「説明変数」とか「独立変数」とよぶ
3
データ形式
回帰分析と同じデータ形式:
1つの目的変数
複数の説明変数
Y
X1
...
Xp
1
y1
x11
xp1
2
y2
x12
xp2
yN
x1N
xpN
...
N
目的変数
説明変数
4
(線形)判別分析とは
目的
■説明変数から得られる情報を基に各観測個体がどのグループに属する
かを予測(判別)する
■グループの判別に役に立つ変数がどれかを知る
注意:回帰分析のときと同様に要因分析としての使用については、十分な検討が必要。
出力とその検討事項
■ 説明変数についての係数
• 線形判別を行うスコアを算出する際に各変数に与えられる重み
• 他の変数の値が一定であるとして、その変数の値の大小が所属グループの違い
に与える影響を知ることができる
■ 誤判別率
• 作成した判別ルールでまちがって判別してしまう割合。
• あくまで、判別ルールを作成したデータでの誤判別率であることに注意。
■ 事後確率
• 各個体がどのグループに属するかを示す指標。確率的な取り扱いが可能。
関連手法・類似手法
■
■
■
■
回帰分析
ロジステック回帰分析
決定木
ニューラルネットワーク
5
判別分析の仕組み(説明変数が1つの場合)
2つのグループを分けるように
説明変数のある値で区切る
グループと考える
グループと考える
x
境界
事後確率の算出方法(ベイズの定理)
Pr(X|●)
Pr(●|X)=
Pr(X|●)+Pr(X|▲)
分布の仮定として正規分布を用いている。正規分布の仮定が気になるようであれば
ロジスティック回帰分析を用いる方がよい(さほど大差はないと思うが...)。
6
2群の散布図
7
線形判別分析の仕組み(説明変数が2つ)
2つのグループを分けるように
説明変数の平面(変数が2つなので)
をある直線で区切る
事後確率の算出方法
多変量正規分布を仮定
して、事後確率を算出す
る。
注意:ダミー変数を用い
ているような場合には、
正規分布の仮定は適切
でないので、ロジスティッ
ク回帰分析が用いられる
ことが多い
説明変数の数が多い場合でも原理は同じ。説明変数
が構成する空間を(超)平面で区切るだけである
8
線形判別関数
zi  1x1i  2 x2i    p x pi
係数は観測されている2群のデータを
最もよく判別するように決める
「最もよく判別する」の意味
平方和でいえば、
群間平方和を大きく
群内平方和を小さく
9
3つの平方和(回帰の場合)

総平方和

回帰による平方和

残差平方和
ST  ( yi  y)2
SR  ( yˆi  y)2
SE   ( yi  yˆi )2
10
3つの平方和(回帰の場合)
・・・ Yの変動(モデルなし)

総平方和

回帰による平方和

残差平方和
・・・ モデルをあてはめた
後の変動
11
3つの平方和(判別の場合)

総平方和
2
nk
ST   ( zi
(k )
 z )2
k 1 i 1

群間平方和
2
nk
2
S B   ( z ( k )  z ) 2   nk ( z ( k )  z ) 2

群内平方和
k 1 i 1
2
nk
SW   ( zi
k 1
(k )
z
(k ) 2
)
k 1 i 1
12
3つの平方和(判別の場合)

第 k 群のi番目のZ
総平方和
2
nk
ST   ( zi

群間平方和
 z )2
(k )
k 1 i 1
全体での平均
2
nk
2
S B   ( z ( k )  z ) 2   nk ( z ( k )  z ) 2

群内平方和
k 1 i 1
2
nk
SW   ( zi
k 1
(k )
 z (k ) )2
第 k 群の個体数
k 1 i 1
第 k 群の平均
13
3つの平方和の関係

回帰の場合


判別の場合


総平方和=回帰による平方和 + 残差平方和
総平方和 =群間平方和 + 群内平方和
ST  SB  SW
相関比(回帰分析の決定係数と同じようなもの)
 2  S B / ST
 1  SW / ST
この値が1に近いほど、よりはっきりと分かれていることを示す
14
線形判別
Z
15
境界の設定

2群の平均値の中間点

誤判別の個数を最小にする点

事前確率の導入(各群の大きさを考慮)
16
誤判別率の解釈

あくまで現データにおける誤判別の割合

実際の判別における誤判別率ではない
もっと悪いであろう

実際の誤判別率を推定するためには、
別の標本を用意する
17
線形判別における前提

2群の共分散行列が同じである


散らばりの大きさや相関が2群でおなじ
正規分布
18
共分散行列が異質の場合

線形判別関数は適切でない

2次判別関数を利用

共分散を考慮した中心(平均)からの距離が近い群
に判別する

マハラノビス距離
19
2変量正規分布の等高線
20
マハラノビス距離

同じ等高線上では同じ距離
確率の意味での距離
21
線形判別の意味
22
2次判別の意味
23
ロジスティック回帰分析

目的は判別分析とほぼ同じ

正応答確率などを積極的に推定したい場合など
に便利(確率の算出において、説明変数の分布
の仮定が不必要)

正応答確率の対数オッズ比に対する線形モデル
24
ロジスティック回帰分析
p(Y  1) 
exp( 0  1 x1     p x p )
1  exp( 0  1 x1     p x p )
p(Y  1)
log
  0  1 x1     p x p
1  p(Y  1)
回帰係数の推定には、最尤推定法(MLE)が用いられる
25
確率から対数オッズへ
名称
記号
範囲
確率
p
[0 , 1]
オッズ
p/(1-p)
[0 , ∞]
(オッズ比)
対数オッズ
[0 , ∞]
log{p/(1-p)}
[-∞ , ∞]
26
オッズとは?

Odds
p
1 p
例:イギリスのBookmaker
Japan to win 2006 World Cup : 150 to 1
:雨が降るか? even ( 1 to 1 ) [五分五分]
27
ロジスティック回帰分析

モデルの適合度の比較


尤度比検定
回帰係数の検定やチェック

Wald 検定 ( t 検定と同じようなもの)
• 漸近的な性質を利用

オッズ比に直して解釈することもある(exp())
28
分析の前に

回帰分析の前には散布図などで、連関の様子を
見た

判別分析やロジスティック回帰分析の場合は、
層別グラフによるチェックが有効!

グループ別の分布をチェックしておこう
29
多グループの判別

正準判別分析(正準相関分析)


目的変数が複数ある回帰分析
多項ロジット(プロビット)モデル
30
ブランド選択モデル:効用最大化原理
C 個の選択肢
 Uc :ブランド c の効用
 X :選択されるブランド

X  c  U c  U c' (c  c' )
31
ブランド選択モデル
X  c  U c  U c' (c  c' )
の下で、Pr ( X = c) をモデル化したい
顕在変数
X
潜在変数
U
32
効用のモデル
U c  Vc  ec
確定的な
部分
確率的な
部分
• Vc だけで選択が確定するのではない
• 確率変数ecの分布により確率 Pr(X = c) が決まる
33
プロビットモデル
 ecの分布に正規分布を仮定
U c  Vc  ec
C=2の場合
U1 ~ N (V1 ,  2 )
U 2 ~ N (V2 ,  2 )
U1  U 2 ~ N (V1  V2 ,2 2 )
0
V1-V2
34
一般の場合の確率の計算

C 個のブランドの中からブランド j が選ばれる
C-1個の確率変数について
Z c  U j  U c (c  j )
Z c ~ N (V j  Vc ,2 2 )
Zc>0となる確率を求める
(Orthant Probability)
35
プロビットモデル

潜在変数(効用)の分布として、正規分布を仮定

推定のための計算が面倒(多重積分の計算が
含まれる)
C-1次の多重積分
36
ロジットモデル
 ecの分布に標準Gumbel分布を仮定
U c  Vc  ec
標準Gumbel分布
確率密度関数:
 x e  x
f ( x)  e e
Pr(X  c) 
exp(Vc )
C
 exp(V )
j 1
j
37
C=2だと、
exp(V1 )
Pr(X  1)  p1 
exp(V1 )  exp(V2 )
p2  1  p1
対数オッズ比
p1
log
 V1  V2
1  p1
ロジスティック回帰モデルと同じモデル
38
ロジットモデル

共変量 Z
Uc (Z )  Vc (Z )  ec
Pr(X  c | Z ) 
exp(Vc ( Z ))
C
 exp(V (Z ))
j 1
j
Vc (Z )  c  1Zc1   p Zcp
39
分析事例(古川他(2003)より引用)

6種類のオレンジジュース
•
•
•
•
•
•

地域ブランド
シトラス・ヒルズ
ミニッツ・メイド
プライベートブランド
トロピカーナ・レギュラー
トロピカーナ・プレミアム
説明変数
• ブランドロイヤルティ、新聞広告、
• 通常価格、値引き
40
分析モデルと推定結果
時点tでの、消費者nのブランドjに対する効用
(t )
nj
V
j   L   T
係数
t値
(t )
1 nj
3.7059
27.7376
(t )
2 nj
0.7196
5.7751
  P  4 D
(t )
3 nj
-2.5912
-8.3200
(t )
nj
2.0623
6.6340
ブランド力
係数
t値
地域ブランド
0に固定
シトラス・ヒルズ
0.8499 6.1641
ミニッツ・メイド
0.9254 5.3610
プライベートブランド
-0.1171 -0.5294
トロピカーナ・レギュラー
0.3255 2.0835
トロピカーナ・プレミアム
0.9656 3.8201
41
モデルの評価、説明変数の選択

回帰モデルとほぼ同じ
決定係数
 調整済み決定係数
 AICなどの情報量規準


判別分析とみなしての誤判別率
42