たこパの前に食前酒を - 行動統計科学研究分野

1
分割表データの分析
With the help of Mr. Machida
1.カイ2乗検定
2.対数線形モデル
2
1.カイ2乗検定
1.1 分割表とは
1.2 2×2分割表の分析
1.3 p×q分割表の分析
3
1.1 分割表とは
4
分割表とは
• 対象者から得た“質的な”データを集計して
まとめた表のこと
– 量的なデータでの散布図に対応
– もともと厳密な数値化が困難 or 不可能なデータ
• 性別,血液型,出身地 etc・・・
– 量的なデータからカテゴリーに分類することも
• 尺度得点により「高群」・「低群」に分類 etc・・・
• クロス表,集計表ともいう
5
2次元分割表の具体例
• 親が子どもに期待する最終学歴を調査
• 性別(2)と希望学歴(4)の2×4分割表
性
別
男性
女性
合計
希望学歴
高校まで 短大まで 大学まで 大学院まで
14
9
78
6
18
30
42
5
32
39
120
11
合計
107
95
202
6
2次元分割表の一般形
1
A

B
j

q
合
計
1
n11  n1 j
 n1q
n1

i

ni1
 
 nij
 
 niq

ni




p
合 計


n p1  n pj  n pq
n1  n j  nq

n p
n  n
7
3次元分割表の具体例
• 募金活動への参加意志を調査
– 災害のVTRを視聴
• VTRの有無(2), 性別(2), 参加意志(3)の
2×2×3 分割表
男性
VTR視聴群
統制群
不参加
16
31
女性
一時的参加 全面的参加
21
11
9
4
不参加
7
29
一時的参加 全面的参加
田中敏(1996)実践心理データ解析
32
16
12
3
8
1.2 2×2分割表の解析
9
2×2分割表の例
---阪大人間科学部での調査---
平成11年度
たこ焼器あり たこ焼器なし
関西
関西以外
合計
12
5
17
3
13
16
合計
15
18
33
平成14年度
たこ焼器あり たこ焼器なし
関西
関西以外
合計
32
7
39
10
18
28
合計
42
25
67
10
二つの属性が関係ないとすると
度数
たこ焼器 あり
なし 合計
関西
20
20
40
関西以外
10
10
20
合計
30
30
60
度数
たこ焼器 あり
関西
a
関西以外
c
合計
a+c
なし
b
d
b+d
合計
a+b
c+d
n=a+b+c+d
度数
たこ焼器 あり
なし 合計
関西
20
40
60
関西以外
10
20
30
合計
30
60
90
ad  bc  0
比率で見ると
度数
たこ焼器 あり
なし 合計
関西
20
20
40
関西以外
10
10
20
合計
30
30
60
度数
たこ焼器 あり
なし 合計
関西
20
40
60
関西以外
10
20
30
合計
30
60
90
生起確率
たこ焼器 あり
なし 合計
関西
1/3
1/3
2/3
関西以外
1/6
1/6
1/3
合計
1/2
1/2
1
生起確率
たこ焼器 あり
なし 合計
関西
2/9
4/9
6/9
関西以外
1/9
2/9
3/9
合計
3/9
3/9
1
生起確率
たこ焼器 あり
なし 合計
関西
p11
p12 p11+p12
関西以外 p21
p22 p21+p22
合計 p11+p21 p12+p22
1
p11 p22  p21 p12  0
11
12
周辺確率との関係
p11 p22  p21
21 p12
12  0
 p11  ( p11
11  p12
12 )( p11
11  p21
21)  p1  p1
 p12  ( p11
11  p12
12 )( p12
12  p22
22 ))  p1  p 2
 p 21  ( p21
21  p22
22 )( p11
11  p21
21))  p2  p1
 p22  ( p21
21  p22
22 )( p12
12  p22
22 ))  p2  p 2
生起確率
たこ焼器 あり
なし 合計
関西
p11
p12 p11+p12
関西以外 p21
p22 p21+p22
合計 p11+p21 p12+p22
1
検定方式
生起確率
たこ焼器 関西 関西以外 合計
あり
p11
p12 p11+p12
なし
p21
p22 p21+p22
合計 p11+p21 p12+p22
1
二つの属性に
関係がない
H 0 : p11 p22  p12 p21  0
versus
H1 : p11 p22  p12 p21  0
二つの属性に
何らかの関係がある
度数
たこ焼器 関西 関西以外 合計
あり
a
b
a+b
なし
c
d
c+d
合計
a+c
b+d n=a+b+c+d
検定方式の考え方
ad bc

が大きい  H 0を棄却する
nn nn
| ad  bc | が大きい  H 0を棄却する
これを標準化する
n(ad  bc) 2
 
(a  b)(c  d )(a  c)(b  d )
2
とおくとき
 2  12 (0.05)  3.841 H 0を棄却する
13
14
阪大人間科学部では
度数
たこ焼器 あり なし 合計
関西
12
5 17
関西以外
3 13 16
合計
15 18 33
度数
たこ焼器 あり
関西
a
関西以外
c
合計
a+c
なし
b
d
b+d
n(ad  bc) 2
 
(a  b)(c  d )(a  c)(b  d )
2
33(12 *13  5 * 3) 2

 8.933  3.814  12 (0.05)
17 *16 *15*18
結論:有意水準 5%で H 0は棄却され,
関西にはたこ焼器が多 いと言える
合計
a+b
c+d
n=a+b+c+d
15
連関の強さの評価
• カイ2乗検定が有意になったとき
– odds 比=ad/bc=(a/b)/(c/d)=10.4
– クラメールのV: V   2 / n  0.52
度数
たこ焼器 あり なし 合計
関西
12
5 17
関西以外
3 13 16
合計
15 18 33
度数
たこ焼器 あり
関西
a
関西以外
c
合計
a+c
なし
b
d
b+d
合計
a+b
c+d
n=a+b+c+d
16
二項分布
生起確率
関西
p1
関西以外
p2=(1-p1)
度数
関西
a
合計
1
関西以外
b
合計
n=a+b
Pr(関西  a, 関西以外  b) n Ca p p
a
1
n
二項分布 ( p1  p2 )   n Ca p1a p2na 
n
a 0
b
2
n! a b
p1 p2

a b  n a!b!
17
多項分布
生起確率
たこ焼器 関西 関西以外 合計
あり
p11
p12 p11+p12
なし
p21
p22 p21+p22
合計 p11+p21 p12+p22
1
度数
たこ焼器 関西 関西以外 合計
あり
a
b
a+b
なし
c
d
c+d
合計
a+c
b+d n=a+b+c+d
Pr関西 あり  a, 関西  なし  b, 非関西 あり  c, 非関西  なし  d 
n!
d

p11a p12b p12c p22
a!b!c!d!
nn!!
aa bb cc d
 p11p11 p12p12p21p21pp    
多項分布 蛸分布 p
p
p1212 pp2121 p22

11
11p
!!bb!!cc!!dd!!
a abbcc 
d dn naa
nn
2222
H 0 : pij  pi  p j versus H1 : pij  pi  p j
例: p11  ( p11  p12 )( p11  p21 )
18
たこ焼きホームページ
http://koko15.hus.osakau.ac.jp/~taco/goraku/recipe/
http://www.mesh.ne.jp/osaka/takoyaki/
19
SASプログラム
Options nocenter;
DATA taco1;
DO region = '関西人', '非関西';
DO takoyaki = 'たこ焼き器あり',
'たこ焼き器なし';
INPUT num @@;
OUTPUT;
END; END;
CARDS;
12 3
5 13
;
RUN;
PROC PRINT;
PROC FREQ DATA = taco1;
WEIGHT num;
TABLES region * takoyaki /
CHISQ;
RUN;
20
region
SAS出力(1)
Obs
1
2
3
4
region
関西人
関西人
非関西
非関西
takoyaki
たこ焼き器あり
たこ焼き器なし
たこ焼き器あり
たこ焼き器なし
num
12
3
5
13
takoyaki
Frequency|
Percent |
Row Pct |
Col Pct |たこ焼き|たこ焼き| Total
|器あり |器なし |
---------+--------+--------+
関西人
|
12 |
3 |
15
| 36.36 |
9.09 | 45.45
| 80.00 | 20.00 |
| 70.59 | 18.75 |
---------+--------+--------+
非関西
|
5 |
13 |
18
| 15.15 | 39.39 | 54.55
| 27.78 | 72.22 |
| 29.41 | 81.25 |
---------+--------+--------+
Total
17
16
33
51.52
48.48
100.00
21
SAS出力(2)
Statistics for Table of region by takoyaki
Statistic
DF
Value
Prob
-----------------------------------------------------Chi-Square
1
8.9335
0.0028
Likelihood Ratio Chi-Square
1
9.4350
0.0021
Continuity Adj. Chi-Square
1
6.9650
0.0083
Mantel-Haenszel Chi-Square
1
8.6627
0.0032
Phi Coefficient
0.5203
Contingency Coefficient
0.4616
Cramer's V
0.5203
22
SAS出力(3)
Fisher's Exact Test
---------------------------------Cell (1,1) Frequency (F)
12
Left-sided Pr <= F
0.9997
Right-sided Pr >= F
0.0036
Table Probability (P)
Two-sided Pr <= P
Sample Size = 33
0.0033
0.0049
23
解説
度数
たこ焼器 あり なし 合計
関西
12
5 17
関西以外
3 13 16
合計
15 18 33
度数
たこ焼器 あり
関西
a
関西以外
c
合計
a+c
なし
b
d
b+d
合計
a+b
c+d
n=a+b+c+d
Table Prob= P(a=12)=0.0033
Right-sided Pr=P(a=12,13,14,15)=0.0036
Left-sided Pr=P(a=12,11,…1,0)=0.9997
Two-sided Pr
=P(a=12,13,14,15)+P(a=4,3,..,0)=0.0049
24
まとめ
• 基本はchi-squareの利用
– 最小二乗法系の統計量
– LRは尤度にもとづく方法
– 連続修正を施したchi-squareを用いるべきだ
という意見もあるが,nが大きいときは大差ない
• nが小さいときにはFisher’s Exact Testを
用いる
25
注意点
• 期待度数 Eij が 5 以下のセルが存在する場合
– 出力結果に警告が表示
• WARNING: ** % of the cells have expected counts less than
5. Chi-Square may not be a valid test.
– χ2分布への近似が悪くなるため
• 対応
– Fisher’s Exact Test
– 意味が似たセルを結合
• 研究目的から外れては無意味
– サンプル数を増やす
26
p×q 分割表の解析
27
実際例
• 「あなたにとって,過去・現在・未来のうちで
最も重要な意味をもつのはどれですか?」
• 年齢層による違いはみられるか?
青年期
年齢層 成人期
老年期
合計
最も重要な時間
過去
現在
未来
28
34
46
24
22
18
45
21
16
97
77
80
合計
108
64
82
254
28
分析結果
Statistics for Table of age by time
Statistic
DF Value Prob
----------------------------------------------Chi-Square
4 19.4288 0.0006
Likelihood Ratio Chi-Square 4 19.4515 0.0006
Mantel-Haenszel Chi-Square
1 18.2429 <.0001
Phi Coefficient
0.2766
Contingency Coefficient
0.2666
Cramer's V
0.1956
29
仮説と期待度数
H 0 : pij  pi  p j
vs H 0 : pij  pi  p j
ni n j ni n j
期待度数の推定値  npˆ ij  n

n n
n
1
A

B
j

q
合
計
1

B
j

q
合
計
1
n11  n1 j
 n1q
n1
1
p11 
p1 j

p1q
p1

i

ni1
 
 nij
 
 niq

ni

i

pi1



pij



piq

pi











p
合 計


n p1  n pj  n pq
n1  n j  nq

n p
n  n
A
p
合 計
p p1 
p1 
p pj 
p j 
p pq
p p
pq 1  p
30
検定の公式
1
A

B
j

q
合
計
1
n11  n1 j
 n1q
n1

i

ni1
 
 nij
 
 niq

ni




p
合 計


n p1  n pj  n pq
n1  n j  nq

n p
n  n
   nij  Eij  / Eij
p
q
2
2
i 1 j 1
2


n(ad  bc)
 

 (a  b)(c  d )(a  c)(b  d ) 
p
q
LR  2 nij ln(nij / Eij )
i 1 j 1
 ni  n j 

ここで, Eij  ni n j / n  n 
 n  n 
31
χ2検定で有意のとき
• 2つの変数は独立ではない
– 関連の強さはどの程度?
• 連関係数
– どのセルが有意性に“貢献”したのか?
• p×q 分割表の場合,同定は難しい
• 残差分析
32
連関の強さを表す指数
   / n,
2
Contingency Coefficient
  /(   n)
2
2
Cramer's V 
 /n
2
min(p  1, q  1)
33
残差分析
• χ2検定の事後分析(p×q 分割表)
– どのセルが有意性に貢献したのかを判定
– χ2検定が有意でないときは用いてはならない
• セルごとに「調整された残差」を算出
– 残差=観測度数-期待度数
– 標準正規分布に従うように調整
34
残差分析の結果(SPSS)
重 要時 間 と 年 齢層 の クロス 表
重要
時間
過去
現在
未来
合計
度数
期待度数
残差
標準化残差
調整済み残差
度数
期待度数
残差
標準化残差
調整済み残差
度数
期待度数
残差
標準化残差
調整済み残差
度数
期待度数
成人期
24
24.44
-.44
-.09
24.4
22
19.40
2.60
.59
.82
18
20.16
-2.16
-.48
-.67
64
64.0
年齢層
青年期
28
41.24
-13.24
-2.06
-3.46
34
32.74
1.26
.22
.35
46
34.02
11.98
2.05
3.27
108
108.0
老年期
45
31.31
13.69
2.45
3.78
21
24.86
-3.86
-.77
-1.13
16
25.83
-9.83
-1.93
-2.84
82
82.0
合計
97
97.0
77
77.0
80
80.0
254
254.0
35
Procedure
Step 1) 期待度数 mij (H0のもとでの理論値)をもとに,
各セルの「標準化された残差」 eij を求める
 Eij  ni n j n , eij  nij  Eij 
Eij
Step 2) eij の分散 vij を求める
 vij  1  ni n1  n j n
Step 3) 各セルの「調整された残差」 dij を求める
 d ij  eij

2
vij ~ N 0, 1

Step 4) dij が N (0,12) に近似的に従うことを利用し,
各セルの検討を行う
36
残差分析の結果(まとめ)
年齢層
青年期
成人期
老年期
最も重要な時間
過去
現在
未来
-3.46***
0.35
3.27**
-0.13
0.82
-0.67
3.78***
-1.13
-2.84**
** p  .01, *** p  .001
• 青年期では過去指向は少なく,未来指向が多い
• 老年期では逆の傾向がみられる
37
Further topics
•
•
•
•
•
•
独立性の検定と一様性の検定
マンテル・ヘンツェル検定
傾向性と対称性
マクネマーの検定
コクランのQ検定
予測による連関の強さの評価
38
2.対数線形モデル
2.1 対数線形モデルの必要性
2.2 対数線形モデルの基礎:
2変数の場合
2.3 シンプソンのパラドックス:
3変数の場合
39
2.1 対数線形モデルの必要性
40
対数線形モデルとは
• 各セル度数の“対数値”がいくつかの
要因効果に分解されると仮定
– モデル式は分散分析と酷似
– 質的データの分散分析
– 文献によっては,各セルの“確率”の対数値に
線形モデルを当てはめていることもある
41
χ2検定の限界
• χ2検定は “overall” な検定
– 得られる情報は分割表の全体的な傾向のみ
• 独立でないときにどのような情報が得られるか
• セルや変数の増加に伴い無力化
where?
X
where?
where?
related?
Y
Z
42
独立でないときのモデル化
• χ2検定では“積”のモデルを仮定
H0 : pij  pi p j versus H1 : pij  pi p j
• H1のとき,どのように考えればよいのか?
H1 : pij  pi p j  qij
2変数A,Bが独立でない
ことによって生じる効果
43
対数線形モデルへ
• 対数を取ると“積”が“和”になりANOVAの
類型となる⇒対数線形モデル!!
pij  pi p j  qij
 log pij  log pi  log p j  log qij
i, j セルへの効果
 変数 Aの効果  変数 Bの効果  
44
シンプソンのパラドックス
• 多元分割表において,以下の分析結果に
矛盾が生じること
– 要因Aの水準ごとにB×Cの分割表を分析
– 要因Aの水準を併合してB×Cの分割表を分析
• その理解に対数線形モデルが極めて有効
シンプソンのパラドックスの例
45
H14年度大学院入試問題
11.(行動データ科学)携帯電話を持つと男女別姓に賛成するのか?携帯電話の有
無と男女別姓の賛否を聞いた調査で表1のデータを得た(仮想データ).つぎに,回答
者を年齢で層別したところ表2のようになった.
表1
男女別姓に賛成 男女別姓に反対
携帯電話あり
82
28
携帯電話なし
28
82
表2
若年層
中高年層
男女別姓に賛成 男女別姓に反対 男女別姓に賛成 男女別姓に反対
携帯電話あり
80
20
2
8
携帯電話なし
8
2
20
80
46
つづき
(1)
上記の結果を解釈せよ.
(2) 上記の「年齢」のように,調べたい要因に影響を及ぼす別の要因を剰余変数
(extraneous variable),または,第三変数という.観察データの分析では剰余変数に注
意しなければならない.剰余変数を制御して実験・分析する方法として以下の(a), (b)
(c) を考える.これらの相互比較を行い,適用するときの注意点を述べよ.
(a) 年齢が一定のサンプルをとる.
(b) 若年層,中高年層などのように年齢も要因として取り上げる.
(c) 被験者をランダムに二分し,一方には携帯電話を持たせ他方には
持たせない.一定期間後,男女別姓についての意見を問う.
(3) (2)の (c) における実験で,なぜ年齢の影響が制御できているのか説明せよ.
(4) 実験データの分析において標示因子と制御因子という区別がある.たとえば,性別
の要因は標示因子であり,携帯電話を持たせるか持たせないかという要因は制御因
子である.このような区別が意味をもつ理由を説明せよ.
47
CATMOD procedure
• Categorical (Data) Modeling
• いくつかの質的変数間の関係を分散分析
のように分析するためのツール
– 対数線形モデルはCATMODをつかう
– 多項のロジスティック回帰分析もできる
48
2.2 対数線形モデルの基礎:
2変数の場合
• 2変数-対数線形モデルの導入
• p×q 分割表の再分析
• SASによる分析例―PROC CATMOD
49

B
j

q
合
計
1
p11 
p1 j

p1q
p1

i

pi1



pij



piq

pi







p pq
pq
p p
p ( 1)
記号
1
A
Fij  npij
1
A

B
j

p
合 計
q
合
計
p p1 
p1 
1

p pj 
p j 
B
j

q
合
計
1
F11  F1 j
 F1q
F1
1
n11  n1 j
 n1q
n1

i

Fi1



Fij



Fiq

Fi

i

ni1
 
 nij
 
 niq

ni











p
合 計
Fp1  Fpj  Fpq
F1  F j  Fq
Fp 
F ( np )
A
p
合 計


n p1  n pj  n pq
n1  n j  nq

n p
n  n
50
独立性を表す対数線形モデル
(2変数)
pij  pi p j  log pij  log pi  log p j
Fij  npij  npi p j
 log Fij  log n  log pi  log p j
 log Fij     i   j
 Fij  npij  i, j  セルの理論値



  全平均効果

  Aの第 i カテゴリーの「主効果 」
 i

   Bの第 j カテゴリーの「主効果 」

j


51
独立でないモデル
pij  pi p j qij  log pij  log pi  log p j  log qij
Fij  npij  npi p j qij
 log Fij  log n  log pi  log p j  log qij
 log Fij     i   j  ( )ij
 ij  i, j  セルにおける AとBの「交互作用」
• 2次元分割表で考えられる全ての効果を含む
• これ以上新たな項は導入不可能
⇒「飽和モデル」(saturated model)
52
2要因分散分析との対応
Log  linear m odel
log Fij     i   j   ij
1 p q

log Fij

pq i 1 j 1
1 q
 i   log Fij  
q j 1
1 p
 j   log Fij  
p i 1
 ij  log Fij     i   j 
two  way ANOVA m odel
  ij  E[ xij ]    ai  b j  abij
1 p q
 
 ij

pq i 1 j 1
1 q
 ai    ij  
q j 1
1 p
 b j    ij  
p i 1
 abij   ij    ai  b j 
53
「主効果」の意味
1 q
log nij

q j 1
A:「年齢層」の主効果
A:「年齢層」の主効果
4
120
100
セ 80
ル
60
度
40
数
20
0
3.5
3
2.5
2
青年期 成人期 老年期
青年期 成人期 老年期
1 p q
 log nij
pq i 1 j 1
• Aの主効果が存在
⇒Aのカテゴリーによって対数セル度数の平均が
(有意に)異なる
• Bは考慮に入れない (Aのみで集計)
54
「交互作用」の意味
lognij
A:「年齢層」とB:「時間」の
交互作用
4
3.5
3
2.5
2
過去
青年期
現在
成人期
未来
老年期
• AとBの交互作用が存在
⇒Bのカテゴリーによって,
Aのカテゴリーによる
対数セル度数の変動の
様子が(有意に)異なる
55
「交互作用」の意味
• AとBの交互作用がある
– Aの水準によってBの効果が異なる
– 年齢層によって重視する時間が異なる
• AとBが関連している
– Aの水準によって,Bの頻度の予測が異なる
– Bの頻度をみたいときAの水準を知る価値が
ある
56
なぜ度数の「対数」なのか
• 交互作用
– 度数の場合: (a-c)-(b-d)
a/c
– 対数値の場合: log a  log c   log b  log d   log
b/d
nij のプロット:若年層
携帯電話あり
携帯電話なし
log(nij)のプロット:若年層
90
70
3
a
2.5
度数
60
50
b
40
30
度数の対数値
80
携帯電話あり
携帯電話なし
2
1.5
1
20
10
c
0
男女別姓に賛成
d
男女別姓に反対
0.5
0
男女別姓に賛成
男女別姓に反対
57
DATA loglin2;
SASプログラム 2-1
DO age = 1 TO 3;
(DATAステップ)
DO time = 1 TO 3;
INPUT num @@;
OUTPUT;
END; END;
CARDS;
28 34 46
age = 1は青年期,2は成人期,
24 22 18
3は老年期
45 21 16
time = 1は過去,2は現在,
;
3は未来
RUN;
(Continued on PROC step)
58
度数ゼロのセルを含む場合
• log 0   ⇒明らかにまずい
• ゼロに近い正の数に置き換える
…
INPUT num @@;
IF num = 0 THEN num = 0.5;
/* num = 0 のときは 0.5 に置き換える */
OUTPUT;
…
• (可能な限りは)サンプル数の増加が無難
59
(Continued from DATA step)
SASプログラム 2-1
(PROCステップ)
PROC CATMOD DATA = loglin2;
WEIGHT num;
MODEL age * time = _RESPONSE_ ;
/* _RESPONSE_により対数線形モデルを指定 */
LOGLIN age | time;
/* モデルに投入する要因変数を指定 */
RUN;
60
変数の効果(飽和モデル)
MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE
Source
DF
Chi-Square
Prob
-------------------------------------------------AGE
2
11.43
0.0033
TIME
2
3.38
0.1843
AGE*TIME
4
18.62
0.0009
LIKELIHOOD RATIO
0
.
.
• 各変数の主効果・交互作用について有意性を検討
• 飽和モデル:すべての変数を含めたモデル
– 飽和モデルではLIKELIHOOD RATIOは無視してよい
61
モデルのルール
• 多くの不飽和モデルが考えられる
• 階層の原則(hierarchy principle)
– モデルが高次の交互作用を含むときは,その
なかの変数による低次の効果も“必ず”含む
–  ij を含める⇒ i ,  j も“必ず”含める
 log Fij     i   ij   j がない!
 log Fij     j   ij   i がない!
62
不飽和モデルの検討方法
Source
DF Chi-Square
Prob
-------------------------------------------------LIKELIHOOD RATIO
4
19.45
0.0006
• 尤度比カイ2乗統計量G は
小さいほど良い
2
2変数間に
独立性を仮定
– モデルの当てはまりの“悪さ”を示す
⇔ p が大きいほど良い
– モデルが正しいときに,観測されたデータが
発生する可能性(0.10以上が望ましい)
63
モデルの適合度
モデル
[AB]
[A][B]
[A]
[B]
df
-
4
6
6
G ^2
-
19.45
22.14
30.96
p
-
0.0006
0.0011
< 0.0001
• 「階層の原則」に従い,高次の項から順に
0 とおいてみる
– 不飽和モデルはどれも適合が悪い
64
パラメータの推定値
ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES
Standard
ChiEffect
Parameter Estimate
Error
Square Prob
---------------------------------------------------------------AGE
1
0.2879
0.0877
10.79 0.0010
2 -0.2213
0.0988
5.02 0.0250
TIME
3
0.1645
0.0903
3.32 0.0686
4 -0.0539
0.0949
0.32 0.5704
AGE*TIME
5 -0.3947
0.1239
10.15 0.0014
6
0.0178
0.1245
0.02 0.8862
7 -0.0396
0.1344
0.09 0.7684
8
0.0917
0.1391
0.44 0.5095
• 出力結果は不十分:残りのパラメータは?
65
Birchの制約式(2変数)
• 各効果におけるパラメー
タの総和は“0”
0
– CATMODプロシージャ
では,パラメータは番号
の小さい順に出力
– 最後の項は出力されない
0
0
0
p
q

i 1i  k 1  k  0
 p
q

 ij   j 1  ij  0


i

1

df
A : 年齢層 2
1
2
3
B : 時間
2
1
2
3
A×B
4
( ) 11
( ) 12
( ) 13
( ) 21
( ) 22
( ) 23
( ) 31
( ) 32
( ) 33
推定値 標準誤差
0.288
-0.221
-0.067
0.165
-0.054
-0.111
-0.395
0.018
0.377
-0.040
0.092
-0.052
0.434
-0.110
-0.325
66
0.088
0.099
^2値
11.43**
10.79**
5.02*
パラメータ
の推定値
• 残りのパラメータは
0.090
0.095
3.38
3.32
0.32
0.124
0.125
18.62***
10.15**
0.02
0.134
0.139
0.09
0.44
 3  1   2
     
 3
1
2

 13   11   12
 
のようにして求める
 * p  .05, * * p  .01


 * * * p  .001

67
分割表を併用したまとめ方
最も重要な時間
合計
過去
現在
未来
28
34
46
108
青年期
(-0.395**) (0.018)
(0.377) (0.288**)
24
22
18
64
年齢層 成人期
(-0.040) (0.092) (-0.052) (-0.221*)
45
21
16
82
老年期
(0.434) (-0.110) (-0.325) (-0.067)
97
77
80
合計
254
(0.165) (-0.054) (-0.111)
※
※
部分のセルは未検定(=n.s.とは限らない)
内はパラメータの推定値 * p  .05, ** p  .01
68
交互作用の推定値
• 独立モデルからのズレを表す
– |交互作用|が大きいことは独立モデルから
外れていることを示す
– 必ずしも,頻度が高い(低い)ことを意味しない
青年層
成人層
老年層
対数頻度
独立モデル
4.0
青年層
成人層
老年層
4.0
3.5
3.5
3.0
3.0
2.5
2.5
2.0
2.0
過去
現在
最も重要な時間
未来
過去
現在
最も重要な時間
未来
69
層別(行別)に比較する
交互作用推定値
過去
-0.395
-0.040
0.434
青年層
成人層
老年層
青年層
未来
0.377
-0.052
-0.324
成人層
対数頻度
独立モデル
青年層
現在
0.018
0.092
-0.109
老年層
対数頻度
独立モデル
成人層
4.0
4.0
4.0
3.5
3.5
3.5
3.0
3.0
3.0
2.5
2.5
2.5
2.0
2.0
2.0
過去
現在
未来
対数頻度
独立モデル
老年層
過去
現在
未来
過去
現在
未来
70
解釈のレシピ
• 解釈は交互作用から
– 主効果の解釈にはあまり関心がない
– 属性間・条件間の度数の違いを表すのみ
• (有意性に加えて)パラメータの“符号”も重要
– プラス⇒独立モデルと比してより多い頻度
– マイナス⇒独立モデルと比してより少ない頻度
+⇒more frequency -⇒less frequency
71
まとめ
• 2変数・多カテゴリーの分割表データの
対数線形モデルによる分析
– 独立からの「ずれ」をモデリングして情報を得る
– 「カイ2乗検定+残差分析」とほぼ同様の分析
結果
• 実用上のススメ
– SAS....対数線形モデル
– SPSS...カイ2乗検定+残差分析
72
2.3 シンプソンのパラドックス:
3変数の場合
対数線形モデルの真骨頂
73
3変数の対数線形モデル
• 3変数の飽和モデル
log Fijk  






i
j
 k

理論値
全平均
効果
(i, j, k) セルの
組み合わせ
による効果
主効果
  ij     jk   ik    ijk



1次交互作用

ijk

 i, j, k  セルにおける A, B, C の「
2次交互作用」
74
例1:教科書的例
男女別姓に賛成 男女別姓に反対
携帯電話あり
82
28
携帯電話なし
28
82
12  53.01, p  .0000
若年層
中高年層
男女別姓に賛成 男女別姓に反対 男女別姓に賛成 男女別姓に反対
携帯電話あり
80
20
2
8
携帯電話なし
8
2
20
80
12  0.00, p  1.00
12  0.00, p  1.00
75
Simpson’s Paradox
• 多次元分割表で,変数をむやみに“つぶ
す” (collapse)のは危険!!
– 層別にみると“関連なし”⇔全体では“関連あ
り”
– 層別にみると“関連あり”⇔全体では“関連な
し”
・・・???
• 多次元分割表は,多次元のままで分析する
のが基本
DATA keitai;
INPUT age keitai bessei freq;
/* age:
1 中高年層, 0 若年層
*/
/* keitai: 1 携帯あり, 0 携帯なし */
/* bessei: 1 別姓賛成, 0 別姓反対 */
CARDS;
1 1 1 2
1 1 0 8
1 0 1 20
1 0 0 80
0 1 1 80
0 1 0 20
0 0 1 8
0 0 0 2
;
PROC CATMOD DATA=keitai;
WEIGHT freq;
MODEL age*keitai*bessei = _RESPONSE_;
LOGLIN age|keitai|bessei;
RUN;
SASプログラム
76
77
例1:対数線形モデル分析結果
Source
DF EST
χ2
Prob
--------------------------------------------AGE
1
0
0.00
1.0000
KEITAI
1
0
0.00
1.0000
AGE*KEITAI
1 -1.15 61.71
0.0000
BESSEI
1
0
0.00
1.0000
AGE*BESSEI
1 -0.69 22.37
0.0000
KEITAI*BESSEI
1
0
0.00
1.0000
AGE*KEITAI*BESSEI 1 0
0.00
1.0000
注意:実は,本データに対数線形モデルを適用するには
セル度数が少なすぎる
78
例1:図示すると
携帯
男女別姓
年齢
携帯
男女別姓
年齢
79
条件付独立
一般 (飽和)モデル:
pijk  pi p j  p k ~
pij ~
p jk ~
pki ~
pijk
分析結果から
p ~
p ~
p
ijk
ij
ki
そして
pijk
pi
pij pik

pi pi
pij 

~
~
~
ヒント: pij  pij pi , pij  ~ 
pi 


P(携帯  y, 別姓  z | 年齢  x)
 P(携帯  y | 年齢  x)  P(別姓  z | 年齢  x)
80
パラメータの推定値
携帯あり 携帯なし 別姓賛成 別姓反対
若年層
100
10
88
22
中高年層
10
100
22
88
1
100 100
log
 1.15
4
10 10
1
88  88
log
 0.69
4
22
a
c
b
d
1
ad
log
4
bc
81
補遺:なぜ対数か
• なぜ度数ではなく対数値をつかうのか
全体のデータ(度数)
nij のプロット:若年層
携帯電話あり
携帯電話なし
90
90
80
80
70
70
60
60
50
50
度数
度数
nij のプロット
若年層のデータ(度数)
40
携帯電話あり
携帯電話なし
40
30
30
20
20
10
10
0
0
男女別姓に賛成
男女別姓に反対
男女別姓に賛成
男女別姓に反対
82
度数の対数のプロットと交互作用
全体のデータ
携帯電話あり
携帯電話なし
log(nij)のプロット:若年層
3
3
2.5
2.5
度数の対数値
度数の対数値
log(nij)のプロット
若年層のデータ
2
1.5
1
2
1.5
1
0.5
0.5
0
0
男女別姓に賛成
男女別姓に反対
携帯電話あり
携帯電話なし
男女別姓に賛成
男女別姓に反対
83
対数がよい
• 交互作用
– 度数の場合: (a-c)-(b-d)
a/c
– 対数値の場合: log a  log c   log b  log d   log
b/d
nij のプロット:若年層
携帯電話あり
携帯電話なし
log(nij)のプロット:若年層
90
70
3
a
2.5
度数
60
50
b
40
30
度数の対数値
80
携帯電話あり
携帯電話なし
2
1.5
1
20
10
c
0
男女別姓に賛成
d
男女別姓に反対
0.5
0
男女別姓に賛成
男女別姓に反対
84
例2:教科書的例
• 機械によって不良品の出方に違いがあるか
どうかを調べたい
85
例2:対数線形モデル分析結果
Source
DF
EST
χ2
Prob
---------------------------------------------WORKER
1
0.00 0.00 1.0000
KIKAI
1
0.00 0.00 1.0000
WORKER*KIKAI
1
0.00 0.00 1.0000
DEFAULT
1
0.00 0.00 1.0000
WORKER*DEFAULT
1
0.00 0.00 1.0000
KIKAI*DEFAULT
1
0.00 0.00 1.0000
WORKER*KIKAI*DEFAULT 1
-0.42 60.32 0.0000
86
例2:図示すると
作業者A
機械
a
良・不良
作業者B
機械
-a
機械
良・不良
作業者
良・不良
機械と作業者の
交互作用がある
87
2次交互作用
ケイタイあり
ケイタイなし
機械1
機械2
二次交互作用効果
5
5
4.5
4.8
4
4.6
3.5
4.4
度数の対数値
度数の対数値
二次交互作用効果
3
2.5
2
1.5
4.2
4
3.8
3.6
3.4
1
3.2
0.5
3
0
別姓に賛成
別姓に反対
別姓に賛成
別姓に反対
良品
良品
不良品
作業者A 作業者B
若年層 中高年層
若年層
中高年層
賛成 反対 賛成 反対
ケイタイあり 4.38 3.00 0.69 2.08
ケイタイなし 2.08 0.69 3.00 4.38
ad-bc
-3.19
-3.19
不良品
機械1
機械2
ad-bc
作業者A
作業者B
良品 不良品 良品 不良品
4.25
3.40
3.40
4.25
3.40
4.25
4.25
3.40
6.48
-6.48
88
例3:実際のデータ
• Hot Hand 現象は真か?
– バスケットのフリースローで1回目に成功する
と2回目の成功確率が上がる?!
89
例3:カイ2乗検定結果
1回目成功
1回目失敗
odds ratio
2回目成功確率
Larry Bird Rick Robey Collapsed
0.88
0.59
0.81
0.91
0.61
0.73
0.77
0.92
1.59
Statistic
DF
Chi-Square
1
Likelihood Ratio Chi-Square 1
Continuity Adj. Chi-Square
1
Cramer's V
Fisher's exact test
Left-sided Pr <= F
Right-sided Pr >= F
Two-sided Pr <= P
Larry
x^2
0.065
0.065
0.010
0.020
Bird
Prob
0.799
0.799
0.922
Prob
0.461
0.659
0.876
Rick Robey
x^2
Prob
0.273 0.602
0.286 0.593
0.083 0.773
-0.028
Prob
0.402
0.770
0.815
Collapsed
x^2
Prob
3.964 0.047
3.813 0.051
3.487 0.062
0.088
Prob
0.981
0.033
0.063
90
例3:対数線形モデル分析結果
Source
DF
χ2
Prob
ーーーーーーーーーーーーーーーーーーーーー
player
1
0.44
0.5077
first
1 41.95
<.0001
player*first
1
30.84
<.0001
second
1 73.71
<.0001
player*second
1 33.28
<.0001
first*second
1
0.33
0.5641
player*first*second
1
0.09
0.7580
91
例3:プーリング後の分析結果
Source
DF -Square
> ChiSq
--------------------------------------player
1
0.24
0.6266
first
1
71.51
<.0001
second
1 112.60
<.0001
player*first
1 52.61
<.0001
player*second
1
49.25
<.0001
Likelihood Ratio
2
0.35
0.8392
92
例3:図示すると
1回目
2回目
プレイヤ
の
実力
1回目
2回目
プレイヤ
の
実力
93
例4:時間的展望
見通しがあると毎日が充実?
• 「将来展望(将来の見通し)の有無」と
「毎日の生活への満足感」を調査
– χ2検定は高度に有意
– χ2(1) = 8.73, p = 0.003**
将来展望
合計
あり
なし
毎日の生活
満足
不満足
180
82
90
75
270
157
合計
262
165
427
94
Really ?
• 将来展望の確立は青年期の中心的課題
• しかし,「未来指向=適応的」とは限らない
– 「将来の目標はあるが,実現できるか不安」
– 「今が楽しいから別にそれでいい」
• 将来の見通しの有無が,個人にとってどの
ような意味をもつのかによって,現在への
満足感は異なるのではないか?
95
「将来展望の獲得」が重要な群
⇒χ2(1) = 0.09, p = 0.76 (n.s.)
将来展望
あり
なし
合計
毎日の生活
満足
不満足
146
42
34
11
180
53
層別に分析
合計
188
45
233
「将来展望の獲得」が重要でない群
⇒χ2(1) = 0.01, p = 0.92 (n.s.)
将来展望
合計
あり
なし
毎日の生活
満足
不満足
34
40
56
64
90
104
合計
74
120
194
• 「将来展望の獲得が
個人にとって重要な
意味をもつかどう
か」も考慮してみる
⇒χ2検定はどちらも
有意でない
96
C=1
B
合
計
1
2
1
146
34
2
42
11
188
45
合計
180
53
233
A
⇒AとBは“関連なし”
C=2
B
合
計
1
1
34
2
40
2
56
64
合計
90
104 194
A
74
120
⇒AとBは“関連なし”
・・・???
C = 1,2
⇒
A
1
2
合計
B
1
180
2
82
合
計
262
90 75 165
270 157 427
⇒AとBは“関連あり”
97
3次元分割表として
対数線形モデル分析
• 将来展望の有無とその重要性,毎日の生
活への満足感の間にはどのような関連が
みられるか?
将来展望の
将来展望
重要性
あり
重要
なし
あり
重要でない
なし
合計
毎日の生活
満足
不満足
146
42
34
11
34
40
56
64
270
157
合計
188
45
74
120
427
98
例4:分析結果(飽和モデル)
Source
DF
x^2
Prob
------------------------------------------MEANING
1
2.38
0.1229
GOAL
1
13.99
0.0002
MEANING*GOAL
1
59.38
0.0000
SATISFY
1
18.08
0.0000
MEANING*SATISFY
1
29.86
0.0000
GOAL*SATISFY
1
0.03
0.8563
MEANING*GOAL*SATISFY
1
0.09
0.7644
LIKELIHOOD RATIO
0
.
.
探索的にモデルを選択
モデル(簡易表記)
[ABC]
飽和モデル
(
)ijk =0 [AB][AC][BC]
[AB][AC]
条件つき
[AB][BC]
独立性
[AC][BC]
[AB][C]
同時独立性
[AC][B]
[BC][A]
完全独立性 [A][B][C]
…
…
df
-
1
2
2
2
3
3
3
4
…
G ^2
-
0.09
35.32
74.54
0.10
118.43
83.21
43.99
127.09
…
p
-
0.7651
< 0.0001
< 0.0001
0.9513
< 0.0001
< 0.0001
< 0.0001
< 0.0001
…
○
◎
MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE
Source
DF Chi-Square
Prob
-------------------------------------------------MEANING
1
2.76
0.0967
GOAL
1
18.13
0.0000
MEANING*GOAL
1
74.11
0.0000
SATISFY
1
25.74
0.0000
MEANING*SATISFY
1
41.40
0.0000
LIKELIHOOD RATIO
2
0.10
0.9513
出力結果
([AC][BC])
• 各変数・
各セルの
有意性を
検討
• 出力結果
は不十分
ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES
Standard
ChiEffect
Parameter Estimate
Error
Square Prob
---------------------------------------------------------------MEANING
1 -0.0989
0.0596
2.76 0.0967
GOAL
2
0.2366
0.0556
18.13 0.0000
MEANING*GOAL
3
0.4783
0.0556
74.11 0.0000
SATISFY
4
0.2695
0.0531
25.74 0.0000
MEANING*SATISFY
5
0.3418
0.0531
41.40 0.0000
df
A : 将来展望の
有無
1
2
B : 毎日の生活
への満足感
1
2
C : 将来展望の
重要性
1
2
A×C
( ) 11
( ) 12
( ) 21
( ) 22
B×C
( ) 11
( ) 12
( ) 21
( ) 22
推定値 標準誤差
1
^2値
18.13***
0.237
-0.237
0.056
1
18.13***
25.74***
0.270
-0.270
0.053
1
25.74***
2.76†
-0.099
0.099
0.060
2.76†
0.056
74.11***
74.11***
0.053
41.40***
41.40***
1
0.478
-0.478
-0.478
0.478
1
0.342
-0.342
-0.342
0.342
101
分析結果
(まとめ)
+⇒more frequency
-⇒less frequency
• 残りのパラメータは
Birchの制約式から
求める
• 独立変数の主効果
や独立変数どうしの
交互作用はあまり
情報をもたない
†p  .10, *** p  .001
102
モデルの解釈
将来展望の
確立
???
毎日の生活
への満足感 • 将来の見通しがあること
が,直ちに毎日の充実感
に結びつくわけではない
• 「将来展望の獲得が個人
将来展望の
毎日の生活
にとってどのような意味
確立
への満足感
をもつか」を考慮すると,
「将来展望の有無」と「毎
将来展望の
日の生活への満足感」は
重要性
無関係
G 2  0.10, df  2, p  0.9513
103
MAXIMUM-LIKELIHOOD PREDICTED VALUES FOR RESPONSE FUNCTIONS AND FREQUENCIES
-------Observed------- -------Predicted-----Function
Standard
Standard
Sample Number
Function
Error
Function
Error
Residual
-------------------------------------------------------------------------F1
146 9.80202149 145.236051 9.45813167 0.76394854
F2
42 6.15376734 42.7639485
5.6657935 -0.7639485
F3
34 5.59399142 34.7639485 5.05506267 -0.7639485
F4
11 3.27362607 10.2360515 1.90007772
0.7639485
F5
34 5.59399142 34.3298969 4.49294853 -0.3298969
F6
40 6.02104039 39.6701031 4.95996877 0.32989689
F7
56 6.97536649 55.6701031 6.08508417 0.3298969
F8
64 7.37614358 64.3298969 6.57676534 -0.3298969
RESPONSE PROFILES
Response MEANING GOAL SATISFY
-------------------------------1
1
1
1
2
1
1
2
3
1
2
1
4
1
2
2
…
…
…
…
• PRED = FREQ オプションに
よる出力
– 観測度数と理論度数,残差の
算出を指定
– Function Number は
Response に対応している
104
例5:実験データの例
• 街頭募金活動への参加意志を調査
– 災害のVTR
VTRの有無
VTR視聴群
統制群
合計
性別
男性
募金活動への参加意志
一時的 全面的
不参加
参加
参加
16
21
9
合計
46
女性
7
32
12
51
男性
31
11
4
46
女性
29
16
3
48
83
80
28
191
田中敏(1996)実践心理データ解析
105
Graphical Display
nijk
VTRの有無×募金活動への
参加意志(男性)
nijk
30
35
30
25
20
25
20
15
10
15
10
5
0
5
0
35
不参加
一時的参加 全面的参加
VTR視聴群
統制群
VTRの有無×募金活動への
参加意志(女性)
不参加
一時的参加 全面的参加
VTR視聴群
統制群
106
対数セル度数のプロット
• 2次交互作用の存在は微妙?
VTRの有無×募金活動への
参加意志(男性)
VTRの有無×募金活動への
参加意志(女性)
log nijk
log nijk
4
4
3
3
2
2
1
1
0
0
不参加
一時的参加 全面的参加
VTR視聴群
統制群
不参加
一時的参加 全面的参加
VTR視聴群
統制群
107
DATA fund;
DO vtr = “y”, “n”;
SASプログラム
DO gender = “m”, “f”;
(DATAステップ
DO concern = 1 TO 3;
& PROCステッ
INPUT num @@;
プ)
OUTPUT;
END; END; END;
CARDS;
vtr = y はVTR視聴群,n は統制群
16 21 9
gender = m は男性,f は女性
7 32 12
concern = 1 は不参加,2 は一時的参加,
31 11 4
3 は全面的参加
29 16 3
;
PROC CATMOD DATA = fund;
RUN;
WEIGHT num;
MODEL vtr * gender * concern = _RESPONSE_;
LOGLIN vtr | gender | concern;
RUN;
108
要因効果の検討(飽和モデル)
MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE
Source
DF
Chi-Square
Prob
-------------------------------------------------VTR
1
1.65
0.1990
GENDER
1
0.01
0.9314
VTR*GENDER
1
0.01
0.9029
CONCERN
2
21.88
0.0000
VTR*CONCERN
2
29.78
0.0000
GENDER*CONCERN
2
5.66
0.0591
VTR*GENDER*CONCERN
2
2.19
0.3350
LIKELIHOOD RATIO
0
.
.
109
探索的にモデルを選択(1/2)
モデル
[VGC]
[VG][GC][VC
]
DF Chi–Square
Prob(LRのみ)
VTR
1
1.65
1
2.24
GENDER
1
0.01
1
0.42
CONCERN
2
21.28***
2
22.45***
p  .10
V×G
1
0.01
1
0.42
†p  .10
G×C
2
5.66†
2
4.84†
V×C
2
29.78***
2
29.75***
V×G×C
2
2.19
0
* p  .05
* * p  .01
* * * p  .001
Likelihood
Ratio
-
2
2.24
0.3269
110
探索的にモデルを選択(2/2)
モデル
[VC][GC]
[VC][G]
[VC]
VTR
1
2.16
1
2.16
1
GENDER
1
0.32
1
0.26
0
CONCERN
2
V×G
0
G×C
2
V×C
2
V×G×C
0
Likelihood
Ratio
3
22.58***
4.51
29.67***
2
23.25***
0
0
0
0
2
29.67***
0
2.66
0.4467
2
5
2
2.16
23.25***
29.67***
0
7.23
0.2039
6
7.49
0.2780
111
モデル評価のまとめ
• どのモデルも適合は良い(see p 値)
• AICによると[VC]がよい
• Genderの交互作用がないので,男女の層
をつぶしてよい
モデル
[VGC]
df
カイ2乗値
p値
AIC
0
0
0
[VG][GC]
[VC][GC] [VC][G]
[VC]
2
3
5
2.24
2.66
7.23
0.33
0.45
0.20
-1.76
-3.34
-2.77
[VC]
6
7.49
0.28
-4.51
112
VTRの有無×募金活動への
log nijk 参加意志(男性)
4
男女の層を合併
3
2
log nijk VTRの有無×募金活動への
1
参加意志(男女合併)
5
0
不参加
一時的参加 全面的参加
VTR視聴群
統制群
VTRの有無×募金活動への
参加意志(女性)
log nijk
4
4
3
2
1
0
3
不参加
2
一時的参加 全面的参加
VTR視聴群
1
0
不参加
一時的参加 全面的参加
VTR視聴群
統制群
統制群
RESPONSE PROFILES
Response VTR GENDER CONCERN
-----------------------------1
n
f
1
2
n
f
2
3
n
f
3
4
n
m
1
5
n
m
2
6
n
m
3
出力結果([VC])
113
Response VTR GENDER CONCERN
-----------------------------7
y
f
1
8
y
f
2
9
y
f
3
10
y
m
1
11
y
m
2
12
y
m
3
ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES
Standard
ChiEffect
Parameter Estimate
Error
Square Prob
---------------------------------------------------------------VTR
1 -0.1357
0.0923
2.16 0.1414
CONCERN
2
0.3672
0.1163
9.97 0.0016
3
0.3853
0.1148
11.27 0.0008
VTR*CONCERN
4
0.6151
0.1163
27.97 0.0000
5 -0.2015
0.1148
3.08 0.0791
114
募金活動への参加意志
全面的
参加(3)
合計
不参加(1)
一時的
参加(2)
VTR視聴群(y)
23
(0.6151***)
53
(0.2015†)
21
(0.4136**)
97
(-0.1357)
統制群(n)
60
(0.6151***)
27
(-0.2015†)
7
(-0.4136**)
94
(0.1357)
VTR
合計
•
28
83
80
191
((0.3672**)†p (0.3853***)
 .10, ** p 0.7525***)
.01, *** p  .001
部分のセルは未検定(= n.s.とは限らない)
– (SASでは)文字型変数をアルファベット順に読み込むため
– Birchの制約式 or 記号の割り当て方を変更し再び“RUN”
(例)① y → 1, n → 2,② 不参加→3,全面的→1,③ ①+②
115
The final model
参加意志
VTR
性別
G  7.23, df  5
p  0.20
2
• VTRの視聴が募金活
動への参加意志に
(有意に)影響
– VTR視聴群
• 「不参加」が負で有意
• 「全面的」が正で有意
– 統制群では逆の傾向
– 性別の効果はなし
116
対数線形モデル(3変数)の
まとめ
• 2変数の分割表の分析に帰着できない
場合が多々ある
• 第3変数の関わりを分析するためには
対数線形モデルが極めて有効
– 第3変数の関わり方によって多くのモデルが
ある
– それらの中からベストなモデルを選択する
117
3変数でのモデル
• 「階層の原則」に従っても“19種類”
– 飽和モデル・・・[ABC]
– 2次交互作用 = 0 ・・・[AB][AC][BC]
– 条件つき独立性・・・[AB][AC] etc
• A を与えたもとで B,C は独立
– 同時独立性・・・[A][BC] etc
• B (or C) を“つぶす”と,A,C (or B) は独立
– 完全独立性・・・[A][B][C]
118
図示すると
A
A
B
C B
A
C B
2次交互作用=0 条件付独立
[AB][BC][AC]
[AB][AC]
A
C
B
C
同時独立
完全独立
[A][BC]
[A][B][C]
119
分析の手順のまとめ
Step 1) まず飽和モデルを適用
Step 2) 2次交互作用 ijk を 0 とおいてみる
– モデルの適合度をCheck ( p > 0.10? )
– 適合せず⇒飽和モデル(階層の原則)
Step 3) さらに,有意でない変数を 0 とおいてみる
– モデルが棄却されないこと (p>0.10)
– パラメータが少ない(自由度が大きい)モデルがよい
• AICの利用
– ただし理論的な根拠,実質科学的な考察が重要
Step 4) モデルの解釈&各セルの効果の検討
120
References
• B.S.Everitt 1992 The Analysis of Contingency Tables
Second Edition CHAPMAN & HALL / CRC
• 海保博之 1986 心理・教育データの解析法10講
■応用編■
福村出版
• 松田紀之 1988 質的情報の多変量解析 朝倉書店
• SAS インスティチュートジャパン 1993 SAS / STAT ソ
フトウェア:ユーザーズガイド Version 6 First Edition
• 田中敏,山際勇一郎 1992 ユーザーのための教育・
心理統計と実験計画法 教育出版