Introduction to Log

1
対数線形モデルによる
分割表データの分析
行動計量学研究分野B4
町田 透
[email protected]
2
Agenda
• χ2検定の限界
• 対数線形モデルの導入
– p×q 分割表の分析 (10/16)
– 多次元分割表への拡張 (10/23)
• シンプソンのパラドックス
• SASによる分析例
– PROC CATMOD
3
2
1.χ 検定とその限界について
- Chi-square test for Contingency tables • χ2検定の復習
– χ2検定とは
– p×q 分割表による具体例
• χ2検定の限界
4
Q. 「χ2検定」って何ですか?
A. カテゴリカルな変数間の関連の有無を検討
するための手法(心理学者)
– 「性別」と「色の好み」との関連etc
– 分割表の分析手法としては“定番”
– FREQプロシージャ & CHISQオプション(SAS)
A. χ2統計量を検定統計量として用いる検定の
一般的な呼称(統計学者)
5
p×q 分割表による具体例
• 就職への関心についての調査(大学生)
– 性格の自己評価×就職への関心
– χ2 = 6.37, df = 2, p < .05
⇒(5%水準で)関連あり
就職への関心
合計
強い
一応
あまりない
外向的
31
35
7
73
内向的
合計
19
42
15
76
50
77
22
149
性格
6
χ2検定は有意だが・・・
• χ2検定で有意⇒変数間は独立ではない
• p×q 分割表
– どのセルが有意性に“貢献”したのか不明
• 残差分析により対処可能
• 多次元分割表(3変数以上)
– どの変数間に関連があるのか不明
• H0:「3変数A,B,Cはすべて互いに独立」
⇒ “H1 : H0 is NOT true.” では情報として不十分
7
χ2検定の限界
• χ2検定は “overall” な検定
– 得られる情報は分割表の全体的な傾向のみ
• セルや変数の増加に伴い無力化
where?
A
where?
where?
B
related?
C
8
χ2検定のモデルを再考
• χ2検定⇒“積”のモデルを仮定
 for all i and j  vs.
H1 : pij  pi p j  for som ei and j 
H 0 : pij  pi p j
• 独立からの“偏り”をモデル化
H1 : pij  pi p j
 H1 : pij  pi p j  qij
A,Bが独立でない
ことによって
生じる効果
9
We developed another model.
• 対数をとると“積”が“和”になり,分散分析
と類似したアプローチが可能に
⇒“対数”線形モデル!!
pij  pi p j  qij
 log pij  log pi  log p j  log qij
i, j セルへの効果
 変数 Aの効果  変数 Bの効果  
10
2.対数線形モデルの紹介
- Log-Linear Models for Contingency tables • 2変数-対数線形モデルの導入
• p×q 分割表の再分析
• SASによる分析例―PROC CATMOD
11
2次元分割表の
一般形
1
mij  npij
A
• 期待度数 mij を Fij と表す
こともある
1
A

B
j

q

B
j

q
合
計
1
n11  n1 j
 n1q
n1

i

ni1



nij
 
 niq

ni





p
合 計
合
計


n p1  n pj  n pq
n1  n j  nq
n p
N  n

B
j

q
合
計
1
1
m11  m1 j
 m1q
m1
1
p11 
p1 j

p1q
p1

i

mi1



mij
 
 miq

mi 

i

pi1



pij



piq

pi











p pq
pq
p p
p  1
p
合 計


m p1  m pj  m pq
m1  m j  mq

m p
m  np 
A
p
合 計
p p1 
p1 
p pj 
p j 
12
対数線形モデルとは
• 各セル度数の“対数値”がいくつかの要因
効果に分解されると仮定したモデル
– モデル式は分散分析と“酷似”
– 質的データの分散分析
– カテゴリカルデータの分析には“必須”
※文献によっては,各セルの“確率”の対数値に
線形モデルを当てはめていることもある
• (大局的には)アプローチによる差はない
13
2変数-対数線形モデルの導入
• 2変数の独立性を仮定したモデル
logmij    i   j  pij  pi p j 
 mij  npij  i, j  セルの期待度数(理論値)



  全平均効果

  Aの第 i カテゴリの「主効果」

 i

   Bの第 j カテゴリの「主効果」

 j

14
独立でない場合のモデル
log mij     i   j   ij
 p
ij
 pi p j  qij

(i, j) セルの
組み合わせ
による効果
   i, j  セルにおけるAとBの「交互作用」
ij
• 2次元分割表で考えられる全ての効果を含む
⇒(2変数の)「飽和モデル」(saturated model)
15
「主効果」を“直感的に”理解
nij
「就職への関心」の主効果
100
80
60
40
20
0
強い
一応
あまりない
• Aの主効果が存在
⇒Aのカテゴリによって
セル度数が異なる
• Bは考慮に入れない
(Aのみで集計)
16
「主効果」をより正確に理解
「就職への関心」の主効果
5
4
3
2
1 p q
log nij

pq i 1 j 1
1
0
強い
一応
あまりない
• Aの主効果が存在
⇒Aのカテゴリによって
対数セル度数の平均
が異なる
– Bのカテゴリは考慮に
入れない
1 q
 i   log mij  
q j 1
1 p
 j   log mij  
p i 1
17
「交互作用」を“直感的に”理解
nij
「性格」と「就職への関心」の
交互作用
50
40
30
20
10
0
強い
一応
外向的
あまりない
内向的
• 交互作用A×Bが存在
⇒Bのカテゴリによって,
Aの主効果が異なる
⇒Aのカテゴリによって,
Bの主効果が異なる
18
lognij
「交互作用」をより正確に理解
「性格」と「就職への関心」の
交互作用
5
4
3
2
• 交互作用A×Bが存在
⇒Bのカテゴリによって,A
のカテゴリ間における
対数セル度数の変動
の様子が異なる
– LLMでは対数セル度数
のプロットが有効
1
0
強い
一応
外向的
あまりない
内向的
 ij  logmij    i   j 
19
LLMにおける「交互作用」の意味
• 交互作用A×Bが存在
– AのカテゴリによってBの効果が異なる
– 「性格」によって「就職への関心」が異なる
• AとBの間に関連性が存在
– Aのカテゴリを知ることで,Bの度数の変動が説明可能
– 「性格」についての“情報”が,「就職への関心」を知る
ための“手がかり”となる
20
関西出身・・・
たこ焼き器あ
り!!
関西出身・・・?
たこ焼き器あり
・・・??
たこ焼き器
居住
地域
あり
なし
関西
20
0
関西以外
0
20
A,Bの関連が(極端に)強い場合
たこ焼き器
居住
地域
あり
なし
関西
10
10
関西以外
10
10
A,Bが完全に独立の場合
21
DATA loglin2;
SASプログラム 2-1
DO person = 1 TO 2;
DO concern = 1 TO 3; (DATAステップ)
INPUT num @@;
OUTPUT;
END; END;
/* DOとENDの個数は必ず同じ */
CARDS;
31 35 7
person = 1は(性格が)外向的,2は内向的
19 42 15
concern = 1は(就職への関心が)強い,
;
2は一応,3はあまりない
RUN;
(Continued on PROC step)
22
度数ゼロのセルを含む場合
• log 0   ⇒明らかにまずい
• ゼロに近い正の数に置き換える
…
INPUT num @@;
IF num = 0 THEN num = 0.5;
/* num = 0 のときは 0.5 に置き換える */
OUTPUT;
…
• (可能な限りは)サンプル数の増加が無難
(Continued from DATA step)
PROC PRINT DATA = loglin2;
RUN;
/* 変数の割り当てをCheck */
23
SASプログラム 2-1
(PROCステップ)
PROC CATMOD DATA = loglin2;
WEIGHT num;
/* numが度数であることを明示 */
MODEL person * concern = _RESPONSE_;
/* _RESPONSE_により対数線形モデルを指定 */
LOGLIN person | concern;
/* モデルに投入する要因効果を指定 */
/* A | B = A B A*B */
RUN;
24
各変数の主効果・交互作用について有意性を検討
MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE
Source
DF
Chi-Square
Prob
-------------------------------------------------PERSON
1
0.60
0.4398
CONCERN
2
27.77
0.0000
PERSON*CONCERN
2
6.18
0.0455
LIKELIHOOD RATIO
0
.
.
飽和モデル(すべての変数を含めたモデル)では,
LIKELIHOOD RATIOは無視してよい
25
「飽和モデル」以外のモデルとは?
• 交互作用や主効果を“0”とおいたもの
– 「飽和モデル」に対し,「不飽和モデル」という
log mij     i   j   ij
log mij     i   j
log mij     i
log mij     j
log mij  
i  1,, p ; j  1,, q 
  ij  0
  j  0,  ij  0
  i  0,  ij  0
  i  0,  j  0,  ij  0
26
モデルのルール
• 階層の原則 (Hierarchy Principal)
– モデルが高次の交互作用を含むときは,その
なかの変数による低次の効果も“必ず”含む
–  ij を含める ⇒ i ,  j も“必ず”含める
 log mij     i   ij   j がない!
 log mij     j   ij   i がない!
27
不飽和モデルの検討方法
Source
DF Chi-Square
Prob
-------------------------------------------------LIKELIHOOD RATIO
2
6.46
0.0395
• 尤度比カイ2乗統計量G2 は
小さいほど良い
– モデルの当てはまりの“悪さ”
2変数間に
独立性を仮定
⇔ p が大きいほど良い
– モデルが正しいときに,観測されたデータが発
生する可能性(0.10以上が望ましい)
28
不飽和モデルの適合度
モデル
[PC]
[P][C]
[P]
[C]
df
-
2
4
3
G2
-
6.46
38.83
6.52
p
-
0.0395
< 0.0001
0.0888
• 「階層の原則」に従い,高次の項から順に
0 とおいてみる
– 不飽和モデルはどれも適合が悪い
29
出力結果の続き(飽和モデル)
ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES
Standard
ChiEffect
Parameter Estimate
Error
Square Prob
---------------------------------------------------------------PERSON
1 -0.0758
0.0981
0.60 0.4398
CONCERN
2
0.1350
0.1293
1.09 0.2964
3
0.5923
0.1183
25.06 0.0000
PERSON*CONCERN
4
0.3206
0.1293
6.15 0.0131
5 -0.0153
0.1183
0.02 0.8968
• パラメータの推定値と標準誤差,χ2値と p値が出力
– χ2値は標準効果(=推定値/標準誤差)を2乗したもの
– 出力結果は不十分 ⇒ 残りのパラメータは?
30
Birchの制約式(2変数)
• 各効果におけるパラメー
タの総和は“0”
0
– CATMODプロシージャ
では,パラメータは辞書
順に出力
0
0
0
• 番号の小さい順
• アルファベット順
– 最後の項は出力されない
p
q

i 1i  k 1  k  0
 p
q

 ij   j 1  ij  0


i

1

df
A:性格
推定値 標準誤差
1
-0.076
α2
0.076
0.098
2
0.60
27.77***
• 残りのパラメータは
β1
0.135
0.129
1.09
β2
0.592
0.118
25.06***
β3
-0.727
A×B
2
31
分析結果
(まとめ)
0.60
α1
B:関心
χ2値
6.18*
(αβ)11
0.321
0.129
6.15*
(αβ)12
-0.015
0.118
0.02
(αβ)13
-0.306
(αβ)21
-0.321
(αβ)22
0.015
(αβ)23
0.306
 3  1   2
     
 3
1
2

 13   11   12
 
のようにして求める
* p  .05
* * * p  .001
就職への関心
性格
合計
• (
•
合計
強い(1)
一応(2)
あまりない
(3)
外向的
(1)
31
(0.321*)
35
(-0.015)
7
(-0.306†)
73
(-0.076)
内向的
(2)
19
(-0.321*)
42
(0.015)
15
(0.306†)
76
(0.076)
50
(0.135)
77
(0.592***)
22
(-0.727***)
149
†p  .10, * p  .05, *** p  .001
)内はパラメータの推定値
部分のセルは未検定(=n.s.とは限らない)
– (SASでは)変数を辞書順に読み込むため
– Birchの制約式 or 数値の割り当て方を変更し再び“RUN”
(例)① 外向的→2,内向的→1,② 強い→3,あまりない→1,
③ ①+②
33
主効果の推定値の解釈
• 一様性からのセル度数の偏りを反映
– 属性間や条件間の度数の違いを表す
+⇒more frequency -⇒less frequency
実際のセル度数
主効果の推定値
0.8
80
0.6
0.4
60
0.2
0
-0.2
-0.4
-0.6
-0.8
40
強い
一応
あまりない
20
0
強い
一応
あまりない
34
交互作用の推定値の解釈
• 独立モデルからのセル度数の偏りを反映
– 実際のセル度数の大小を表すとは限らない
+⇒positive association -⇒negative association
交互作用の推定値
実際のセル度数
独立のもとでの期待度数
0.4
0.3
0.2
0.1
0
-0.1
強い
一応
あまりない
-0.2
50
50
40
40
30
30
20
20
-0.3
10
-0.4
0
外向的
内向的
外向的
内向的
強い
一応
あまりない
10
0
外向的
内向的
強い
一応
あまりない
35
カテゴリ別にセル度数を比較
就職への関心
(αβ)ijの推定値
性格
強い
一応
あまりない
外向的
0.321*
-0.015
-0.306†
内向的
-0.321*
0.015
0.306†
就職への関心(外向的)
就職への関心(内向的)
50
50
40
40
30
30
20
20
10
10
0
0
強い
一応
あまりない
実際のセル度数
独立のもとでの期待度数
強い
一応
あまりない
実際のセル度数
独立のもとでの期待度数
36
How to Interpret
• 飽和モデル採用の場合
– 2変数間に関連あり ⇒ 交互作用を解釈
– 主効果の解釈にはあまり関心がない
• 属性間・条件間の度数の違いを表すのみ
– パラメータの有意性と符号をCheck
• 不飽和モデル採用の場合
– 採用したモデルを解釈
37
【参考】 実際のセル度数の比較
Case① 複数標本×複数カテゴリの回答
– 各標本について一様性の検定 ⇒ 1変数LLM
• ANOVAでの「単純主効果の分散分析」に対応
• ただし標本間における度数の比較は無意味
Case② それ以外の場合
– 比較への興味・比較を行う意味による
• χ2検定,LLM ⇒ 変数間の関連に主眼
• 特定の行(列)に着目する意味を考慮
38
2変数LLMのまとめ
• p×q 分割表にLLMを用いるメリット
– 独立からの“偏り”をモデリング
⇒独立性から関連性に導いたセルを同定可能
• 「χ2検定+残差分析」とほぼ同様の分析結果
– 独立性以外のさまざまなモデルを検証可能
• SAS vs. SPSS
– 対数線形モデル ⇒ SAS
– χ2検定+残差分析 ⇒ SPSS
39
FAQ about LLM
> χ2検定で,残差分析をして,「どこが有意であることに
> 貢献したか?」ということをみるという手法の弱点は,
> どのようなものなのでしょうか?
「χ2検定 ⇒ 残差分析」という流れには,
特に問題はないと思います.
ただ,対数線形モデルを用いると,2次元分割表で
セルの数が増えたとき(2×3以上の場合)だけでなく,
変数の数が増えたとき(3変数以上の場合)にも
柔軟に対応できる,というのが強みですね.
40
3.多次元分割表への拡張
- The analysis of Multidimensional tables • シンプソンのパラドックス
• 3変数-対数線形モデルの導入
• 3次元分割表の分析
41
教科書的な例
平成14年度大学院入試問題から
• 携帯電話の有無×男女別姓への意見
– χ2 = 53.02, df = 1, p < .001 ⇒ 高度に有意
– 携帯電話をもつと男女別姓に賛成?
携帯電話
合計
あり
なし
男女別姓
賛成
反対
82
28
28
82
110
110
合計
110
110
220
42
Not so !!
• 年齢により層別し再分析
– χ2検定はどちらも非有意
– That’s strange !!
若年層
中高年層
男女別姓
携帯
電話
合計
賛成
反対
あり
80
20
100
なし
8
2
10
88
22
110
合計
男女別姓
χ2 = 0.00, df = 1, p = 1.00
携帯
電話
合計
賛成
反対
あり
2
8
10
なし
20
80
100
22
88
110
合計
χ2 = 0.00, df = 1, p = 1.00
43
C=1
A
1
2
B
1
80
8
2
20
2
合計
・・・???
100
10
88
22 110
合計
⇒AとBは“関連なし”
C = 1, 2
A
C=2
A
1
2
B
1
2
20
2
8
80
合計
10
100
22
88 110
合計
⇒AとBは“関連なし”
1
2
B
1
82
2
28
28
110
82
110
合計
⇒AとBは“関連あり”
合計
110
110
220
若年層
44
Graphical Display
100
80
60
40
携帯あり
20
0
若年層+中高年層
携帯なし
別姓賛成
別姓反対
100
中高年層
80
60
40
100
20
80
0
60
40
携帯あり
20
0
携帯なし
別姓賛成
別姓反対
携帯あり
携帯なし
別姓賛成
別姓反対
45
正しい解釈
①年齢による意見の違い
– 若年層は男女別姓に肯定的 ⇒ 80%が賛成
– 中高年層は否定的 ⇒ 80%が反対
②年齢による携帯所有率の違い
– 若年層は携帯所有率が高い ⇒ 約91% が所有
– 中高年層は低い ⇒ 約91%が所有せず
「携帯あり(なし)⇒別姓賛成(反対)」
という傾向は,「年齢層」という第三変数によって
見かけ上表れたものに過ぎない!!
46
Simpson’s Paradox
• 多次元分割表で,変数をむやみに“つぶ
す” (collapse)のは危険!!
– 層別にみると“関連なし”⇔全体では“関連あ
り”
– 層別にみると“関連あり”⇔全体では“関連な
し”
・・・???
• 多次元分割表は,あくまで多次元のままで
分析するのが基本!!
⇒対数線形モデルによるアプローチが有効
47
従来の対処方法
どちらも第三変数の関わりを検証できない
• 「χ2検定+残差分析」
の繰り返し
• p×q×r 分割表
⇒ pq×r 分割表
– C1とC2で結果を比較
C=2
C=1
B1
B2
A1
+
-
A2
-
+
C=2
B1
B2
A1
-
+
A2
+
-
B1
B2
C = 1 A1B1
A1 A2 ○
● B2
▲
■△
★
□
☆
A2
A1B1 A1B2 A2B1 A2B2
C1
○
△
□
☆
C2
●
▲
■
★
48
調査データの分析例
大学生の時間的展望
• 目標があれば未来は明るいか?
– 将来の見通し×未来イメージ(SD法)
– 将来目標への欲求の強さを考慮
将来目標
への欲求
強い
弱い
合計
未来イメージ
将来の
見通し
明るい
暗い
あり
146
42
188
なし
34
11
45
あり
34
40
74
なし
56
64
120
270
157
427
合計
49
目標への
欲求(強群)
未来イメージ
合計
明るい
暗い
将来の あり
見通し なし
146
42
188
34
11
45
合計
180
53
233
⇒χ2
= 0.09, df = 1, p = 0.76
目標への
欲求(弱群)
未来イメージ
Simpson’s
Paradox !!
目標への欲求 未来イメージ
(強群+弱群) 明るい 暗い
将来の
見通し
合計
明るい
暗い
将来の あり
見通し なし
34
40
74
56
64
120
合計
90
104
194
⇒χ2 = 0.01, df = 1, p = 0.92
合計
合計
あり
180
82
262
なし
90
75
165
270
127
427
⇒χ2 = 8.73, df = 1, p < .01
50
3変数-対数線形モデルの導入
• 3変数の飽和モデル
logmijk  






i
j
 k

期待
度数
全平均
効果
(i, j, k) セルの
組み合わせ
による効果
主効果
  ij     jk   ik    ijk



1次交互作用

ijk

 i, j, k  セルにおける A, B, C の「
2次交互作用」
51
「2次交互作用」とは
• (1次)交互作用
– Bのカテゴリによって,Aの主効果が異なる
• 一方のカテゴリによる他方の主効果の違い
• 2次交互作用⇒“違い方の違い”
– Cのカテゴリによって,交互作用A×Bの効果
が異なる
• ある変数のカテゴリによる,他の2変数からなる交
互作用の様相の違い
– 対数セル度数 lognijk が対象
52
セル度数 nijk のプロット
目標への欲求(弱群)
目標への欲求(強群)
150
150
100
100
50
50
0
0
明るい
暗い
未来イメージ
見通しあり
見通しなし
明るい
暗い
未来イメージ
見通しあり
見通しなし
53
対数セル度数 lognijk のプロット
•
a  c  b  d  に着目⇒層別に比較
– 2次交互作用はなさそう?
目標への欲求(強群)
6
4
2
目標への欲求(弱群)
6
a
c
b
d
4
2
d’
b’
c’
a’
a  c  b  d   a  c  b  d 
0
0
明るい
暗い
未来イメージ
見通しあり
見通しなし
明るい
暗い
未来イメージ
見通しあり
見通しなし
54
DATA future;
SASプログラム 3-1
DO want = 1 TO 2;
(DATAステップ)
DO aim = 1 TO 2;
DO image = 1 TO 2;
INPUT num @@;
OUTPUT;
END; END; END;
CARDS;
146 42 34 11
want = 1は将来目標への欲求が強い,2は弱い
34 40 56 64
aim = 1は将来の見通しあり,2はなし
;
image = 1は未来イメージが明るい,2は暗い
RUN;
(Continued on PROC step)
55
(Continued from DATA step)
SASプログラム 3-1
(PROCステップ)
PROC CATMOD DATA = future;
WEIGHT num;
/* numが度数であることを明示 */
MODEL want * aim * image = _RESPONSE_;
LOGLIN want | aim | image;
/* A | B | C = {A | B} | C
=A B A*B C A*C B*C A*B*C */
RUN;
56
要因効果の検討(飽和モデル)
MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE
Source
DF
Chi-Square
Prob
-------------------------------------------------WANT
1
2.38
0.1229
AIM
1
13.99
0.0002
WANT*AIM
1
59.38
0.0000
IMAGE
1
18.08
0.0000
WANT*IMAGE
1
29.86
0.0000
AIM*IMAGE
1
0.03
0.8563
WANT*AIM*IMAGE
1
0.09
0.7644
LIKELIHOOD RATIO
0
.
.
57
よいモデルの条件
①G2が十分小さい⇔ p > .10
②パラメータが少ない⇔自由度が大きい
– 簡単なモデルにより記述可能
⇒より複雑なモデルを採用する必要はない
– “Principal of Parsimony”
• ①+②を吟味⇒“AIC”によるモデル評価
58
情報量規準AICの利用
AIC  G  2df
2
• モデルのよさの相対的な判断基準
– AICは小さいほどよい
– AICの値に絶対的な基準はない
• 2つを比較してはじめて意味をもつ
• よいモデルの条件⇒AICが小さい(①+②)
– パラメータの追加による“ペナルティ”を付加
DF Chi–Sq.
Prob(LRのみ)
モデル
WANT
AIM
IMAGE
W×A
A×I
W×I
W×A×I
探索的にモデルを選択
[WAI]
[WA][AI][WI]
1
1
1
1
2.38
13.99***
18.08***
59.38***
1
1
1
1
2.64
16.85***
24.46***
66.52***
1
1
1
0.03
29.86***
0.09
1
1
0.01
33.36***
0
Likelihood
Ratio
-
AIC
-
1
0.09
0.7651
-1.91↓
59
[WA][WI]
1
1
1
1
2.76†
18.13***
25.74***
74.11***
2
0
41.40***
0
2
0.10
0.9513
-3.90↓
60
モデル評価のまとめ
モデル
[WAI]
[WA][AI][WI]
[WA][WI]
df
-
1
2
G2
-
0.09
0.10
p
-
0.77
0.95
AIC
-
-1.91
-3.90
• [WA][AI][WI] vs. [WA][WI]
– どちらも適合は十分によい (see p-value)
– AICによると[WA][WI]の方がベター
61
The final model
将来の
見通し
?
未来
イメージ
• 将来の見通しの有無と
未来イメージは無関係
– 第三変数の影響による
見かけ上の関連
将来の
見通し
• 目標・計画をもちたいと
いう欲求
未来
イメージ
目標への
欲求
– 条件つき独立モデル
G  0.10, df  2, p  0.95
2
RESPONSE PROFILES
Response WANT AIM IMAGE
-------------------------1
1
1
1
2
1
1
2
3
1
2
1
4
1
2
2
5
2
1
1
出力結果
([WA][WI])
62
Response WANT AIM IMAGE
-------------------------6
2
1
2
7
2
2
1
8
2
2
2
ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES
Standard
ChiEffect
Parameter Estimate
Error
Square Prob
---------------------------------------------------------------WANT
1 -0.0989
0.0596
2.76 0.0967
AIM
2
0.2366
0.0556
18.13 0.0000
WANT*AIM
3
0.4783
0.0556
74.11 0.0000
IMAGE
4
0.2695
0.0531
25.74 0.0000
WANT*IMAGE
5
0.3418
0.0531
41.40 0.0000
A
0
C
0
0
C
0
A
A
B
0
0
C
0
※2変数の場合
と同様,パラ
メー
タの最後の項は
B  p
q
r
出力されない
i 1 i   j 1   k 1 k  0
0
Birchの制約式
(3変数)
B
0
j

p
q
      
j 1
ij
ij
 i 1

r

k 1  ij  0

q
 p





 j 1    jk
i 1
jk

r
  k 1    jk  0
 p
q




i 1
 j 1  ik
ik

  r    0
ik
 p k 1
q
i 1   ijk   j 1   
ijk

  r     0
k 1
ijk

RESPONSE PROFILES
Response WANT AIM IMAGE
-------------------------1
1
1
1
2
1
1
2
3
1
2
1
4
1
2
2
…
…
…
…
• PRED = FREQ オプション
64
– MODELステートメントで指定
– 観測度数,期待度数,残差を算出
• モデルの当てはまりをCheck
– Function NumberはResponseに対応
MAXIMUM-LIKELIHOOD PREDICTED VALUES FOR RESPONSE FUNCTIONS AND FREQUENCIES
-------Observed------- -------Predicted-----Function
Standard
Standard
Sample Number
Function
Error
Function
Error
Residual
-------------------------------------------------------------------------F1
146 9.80202149 145.236051 9.45813167 0.76394854
F2
42 6.15376734 42.7639485
5.6657935 -0.7639485
F3
34 5.59399142 34.7639485 5.05506267 -0.7639485
F4
11 3.27362607 10.2360515 1.90007772 0.7639485
F5
34 5.59399142 34.3298969 4.49294853 -0.3298969
F6
40 6.02104039 39.6701031 4.95996877 0.32989689
F7
56 6.97536649 55.6701031 6.08508417
0.3298969
F8
64 7.37614358 64.3298969 6.57676534 -0.3298969
65
実験データの分析例
• 街頭募金活動への参加意志を調査
– 災害のVTRは募金活動への参加を促すか?
募金活動への参加意志
性別
男性
女性
不参加
一時的
参加
全面的
参加
合計
VTR視聴群
16
21
9
46
統制群
31
11
4
46
VTR視聴群
7
32
12
51
統制群
29
16
3
48
83
80
28
191
VTRの有無
合計
66
セル度数 nijk のプロット
VTR×参加意志(男性)
VTR×参加意志(女性)
40
40
30
30
20
20
10
10
0
0
不参加
一時的参加 全面的参加
VTR視聴群
統制群
不参加
一時的参加 全面的参加
VTR視聴群
統制群
67
対数セル度数 lognijk のプロット
• 2次交互作用の存在は微妙?
VTR×参加意志(女性)
VTR×参加意志(男性)
4
4
3
3
2
2
1
1
0
0
不参加
一時的参加 全面的参加
VTR視聴群
統制群
不参加
一時的参加 全面的参加
VTR視聴群
統制群
68
DATA fund;
DO vtr = “y”, “n”;
SASプログラム
DO gender = “m”, “f”;
(DATAステップ
DO concern = 1 TO 3;
& PROCステッ
INPUT num @@;
プ)
OUTPUT;
END; END; END;
CARDS;
vtr = y はVTR視聴群,n は統制群
16 21 9
gender = m は男性,f は女性
7 32 12
concern = 1 は不参加,2 は一時的参加,
31 11 4
3 は全面的参加
29 16 3
;
PROC CATMOD DATA = fund;
RUN;
WEIGHT num;
MODEL vtr * gender * concern = _RESPONSE_;
LOGLIN vtr | gender | concern;
RUN;
69
要因効果の検討(飽和モデル)
MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE
Source
DF
Chi-Square
Prob
-------------------------------------------------VTR
1
1.65
0.1990
GENDER
1
0.01
0.9314
VTR*GENDER
1
0.01
0.9029
CONCERN
2
21.88
0.0000
VTR*CONCERN
2
29.78
0.0000
GENDER*CONCERN
2
5.66
0.0591
VTR*GENDER*CONCERN
2
2.19
0.3350
LIKELIHOOD RATIO
0
.
.
70
探索的にモデルを選択(1/2)
モデル
VTR
GENDER
CONCERN
[VGC]
1
1.65
1
0.01
2 21.28***
V×G
G×C
V×C
1
2
2
0.01
5.66†
29.78***
V×G×C
2
2.19
Likelihood
Ratio
-
AIC
-
[VG][GC][VC]
1
2.24
1
0.42
2
22.45***
1
2
2
0.42
4.84†
29.75***
0
2
2.24
0.3269
-1.76
DF Chi–Sq.
Prob(LRのみ)
p > .10
†p < .10
*p < .05
**p < .01
***p<.001
71
探索的にモデルを選択(2/2)
モデル
VTR
GENDER
CONCERN
V×G
G×C
V×C
V×G×C
Likelihood
Ratio
AIC
[VC][GC]
1
1
2
2.16
0.32
22.58***
0
2
2
4.51
29.67***
0
3
2.66
0.4467
-3.34↓
[VC][G]
1
1
2
2
5
2.16
0.26
23.25***
0
0
29.67***
0
7.23
0.2039
-2.77↑
[VC]
1
2.16
2
0
23.25***
0
2
0
29.67***
0
6
7.49
0.2780
-4.51↓
72
モデル評価のまとめ
モデル
[VGC]
[VG][GC][VC]
[VC][GC]
[VC][G]
[VC]
df
G2
p
AIC
-
2
3
-
2.24
2.66
-
0.33
0.45
-
-1.76
-3.34
5
6
7.23
7.49
0.20
0.28
-2.77
-4.51
• どのモデルも適合はよい (see p-value)
• AICによると[VC]がベスト
• Genderと関連する交互作用なし
⇒Genderの層を“つぶして”考察してよい
VTR×参加意志(男性)
73
4
3
性別の層を合併
2
1
VTR×参加意志(性別の層を合併)
5
0
不参加
一時的参加 全面的参加
VTR視聴群
4
統制群
3
VTR×参加意志(女性)
4
2
1
3
0
不参加
2
一時的参加 全面的参加
VTR視聴群
1
0
不参加
一時的参加 全面的参加
VTR視聴群
統制群
統制群
RESPONSE PROFILES
Response VTR GENDER CONCERN
-----------------------------1
n
f
1
2
n
f
2
3
n
f
3
4
n
m
1
5
n
m
2
6
n
m
3
出力結果([VC])
74
Response VTR GENDER CONCERN
-----------------------------7
y
f
1
8
y
f
2
9
y
f
3
10
y
m
1
11
y
m
2
12
y
m
3
ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES
Standard
ChiEffect
Parameter Estimate
Error
Square Prob
---------------------------------------------------------------VTR
1 -0.1357
0.0923
2.16 0.1414
CONCERN
2
0.3672
0.1163
9.97 0.0016
3
0.3853
0.1148
11.27 0.0008
VTR*CONCERN
4
0.6151
0.1163
27.97 0.0000
5 -0.2015
0.1148
3.08 0.0791
募金活動への参加意志
一時的
参加(2)
全面的
参加(3)
合計
23
VTR視聴群(y)
(0.6151***)
53
(0.2015†)
21
(0.4136**)
97
(-0.1357)
60
(0.6151***)
27
(-0.2015†)
7
(-0.4136**)
94
(0.1357)
不参加(1)
VTR
統制群(n)
合計
•
28
83
80
191
((0.3672**) †(0.3853***)
p  .10, ** p0.7525***)
 .01, *** p  .001
部分のセルは未検定(= n.s.とは限らない)
– (SASでは)文字型変数をアルファベット順に読み込むため
– Birchの制約式 or 記号の割り当て方を変更し再び“RUN”
(例)① y → 1, n → 2,② 不参加→3,全面的→1,③ ①+②
76
The final model
参加意志
VTR
性別
G  7.23, df  5
p  0.20
2
• VTRの視聴が募金活
動への参加意志に
(有意に)影響
– VTR視聴群
• 「不参加」が負で有意
• 「全面的」が正で有意
– 統制群では逆の傾向
– 性別の効果はなし
77
3変数LLMのまとめ
• 多次元分割表は,あくまで多次元のままで
分析するのが基本
– Simpson’s Paradox
– 2次元に帰着できないケースは多々存在
• 多次元分割表にLLMを用いるメリット
– 変数間の関連が特定可能
• 第三変数の関わりを分析
– 多くのモデルを統一的な手法により検証可能
78
3次元分割表に適用可能なモデル
• 飽和モデル
• 条件つき独立性
– [ABC]
• 2次交互作用 = 0
– [AB][AC][BC]
A
B
C
– [AC][BC] etc
– C を与えたもとで A, B
は独立
A
B
C
79
3次元分割表に適用可能なモデル
• 同時独立性
• 完全独立性
– [A][BC] etc
– A (or B) を“つぶす”と,
B (or A), C は独立
A
– [A][B][C]
A
B
B
C
C
「階層の原則」に従っても
“19種類”存在
80
3変数LLMによる分析の手順
飽和モデル
の適用
(αβγ)ijk = 0
とおく
階層の原
則
適合せず
(p≦0.10)
適合(p>0.10)
他の非有意な
変数を 0 とおく
飽和モデル
の採用
分析終了
採用した
モデルの解釈
理論的根拠も重要
適合度の吟味
(G2, p , AIC)
適切なモデル
の採用
81
4.まとめ
- Summary • χ2検定の限界
• 対数線形モデルによるアプローチ
• SASプログラム―PROC CATMOD
82
χ2検定から対数線形モデルへ
• χ2検定の限界
– セルや変数の増加に伴う無力化
• 有意性に“貢献”したセルをつきとめられない
• 変数間の関連を特定できない
• 対数線形モデルによるアプローチ
– セルや変数が増加するほど威力を発揮
• 「χ2検定+残差分析」を包括
• 変数間の関連が特定可能
– SASではCATMODプロシージャを使用
83
SASプログラム
PROC CATMOD DATA = dataname;
WEIGHT num;
MODEL A*B*C = _RESPONSE_ / PRED = FREQ;
LOGLIN A | B | C;
RUN;
• 分割表からの分析にはWEIGHTステートメントを使用
• _RESPONSE_により対数線形モデルを指定
– 必要に応じて PRED = FREQ オプションを併用
• LOGLINステートメントでモデルを指定
– “ | ”や“@n”によりプログラムの簡略化が可能
84
References
• B.S.Everitt 1992 The Analysis of Contingency Tables Second Edition
CHAPMAN & HALL / CRC
• 廣津千尋 1982 離散データ解析 教育出版
• 海保博之 1986 心理・教育データの解析法10講 ■応用編■ 福村出版
• 松田紀之 1988 質的情報の多変量解析 朝倉書店
• Ronald Christensen 1997 Log-Linear Models and Logistic Regression
Second Edition Springer
• SAS インスティチュートジャパン 1993 SAS / STAT ソフトウェア:ユーザーズ
ガイド Version 6 First Edition
• 田中敏,山際勇一郎 1992 ユーザーのための教育・心理統計と実験計画法
教育出版
• 東京大学教養学部統計学教室 1991 統計学入門 東京大学出版会
• 東京大学教養学部統計学教室 1992 自然科学の統計学 東京大学出版会
• 都筑学 1999 大学生の時間的展望-構造モデルの心理学的検討- 中央
大学出版部
85
Appendix 1変数の傾向分析
- The analysis of p×1 Contingency tables • 1変数-対数線形モデルの導入
• p×1分割表の分析
– 一様性の検定
86
p×1分割表の具体例
相談相手
人数
期待
度数
母親
32
28
学校の友達
47
28
父親
25
28
学校の先生
18
28
兄弟・姉妹
24
28
仲の良い異性
22
28
合計
168
168
• 困ったときや悩みごと
の相談相手を調査
– 対象:中高生168人
• 人数の偏りは“偶然”
か?“必然”か?
⇒「一様性の検定」
28 = 168 / 6
87
1変数-対数線形モデルの導入

log mi     i


log mi  
 pi  const. qi
 pi  const.
 mi 第 i カテゴリの期待度数
 第 i カテゴリに


  全平均効果
 度数の偏りを

 生じさせる効果
 i  A の第 i カテゴリの「主効果」

88
DATA loglin1;
DO who = 1 TO 6;
SASプログラム
INPUT num @@;
OUTPUT;
who = 1は母親,
END;
2は学校の友達,
CARDS;
3は父親,
32 47 25 18 24 22
4は学校の先生,
;
5は兄弟・姉妹
RUN;
6は仲の良い異性
PROC CATMOD DATA = loglin1;
WEIGHT num;
MODEL who = _RESPONSE_;
LOGLIN who;
RUN;
MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE
89
Source
DF Chi-Square
Prob
-------------------------------------------------WHO
5
18.40
0.0025
LIKELIHOOD RATIO
0
.
.
主効果(度数の偏り)は有意⇒各セルの検討を行う
ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES
Standard
ChiEffect
Parameter Estimate
Error
Square Prob
---------------------------------------------------------------WHO
1
0.1834
0.1654
1.23 0.2677
2
0.5678
0.1439
15.56 0.0001
3 -0.0635
0.1822
0.12 0.7275
4 -0.3920
0.2087
3.53 0.0604
5 -0.1043
0.1852
0.32 0.5733
相談相手
人数
母親
32 (0.183)
学校の友達
47 (0.568***)
父親
25 (-0.064)
学校の先生
18 (-0.392†)
兄弟・姉妹
24 (-0.104)
仲の良い異性
22 (-0.191)
合計
168
90
分析結果(まとめ)
• パラメータの有意性と
符号を手がかりに解釈
+⇒more frequency
-⇒less frequency
†p  .10, *** p  .001 • 中高生の相談相手
Birchの制約式より算出
– 学校の友達が最も多く
選ばれる傾向にある
1  2    p  0   p  1    p1 