社会統計 第11回 多重分割表分析の論理(第10章)

社会統計 第11回
多重分割表分析の論理(第10章)
寺尾 敦
青山学院大学社会情報学部
[email protected]
イントロダクション
• ここまでは,主に,2変数間の関係を検討して
きた
– 2変数の分割表
– 1要因分散分析
• 第10章と第11章では,3変数以上の関係を検
討する.多変量解析(multivariate analysis)
– 多重分割表(multivariate contingency table)
– 重回帰分析(multiple regression analysis)
10.1 . 付加変数の統制
• イギリスでは,コウノトリの多い地域では,出生
率が高い.コウノトリが赤ちゃんを連れてくるの
だろうか?
– 参考:太郎丸『カテゴリカル・データ解析入門』第6章
– 10.1.1節では,イギリスではなくオランダとしている.
• X と Y に共変動(covariation)が見られても,それ
は直ちに因果関係の存在を意味しない.
– X が Y に影響(間に Z を媒介する場合も含む)
– Y が X に影響
– 第3の変数 Z が X と Y の両方に影響
• 都市化が進むと,コウノトリの数は少なくなり,
出生率も下がる.
コウノトリの数
都市化の程度
出生率
• コウノトリの数と出生率の間に因果関係が
まったく存在しないことは,常識的に明らか.
– これは明らかに,みかけの共変動
– 一般に,2変数間の関係を明確化するために,こ
の関係に混入しうる第3の変数の影響を統制す
る必要がある.
• 2変数の真の関係を明確にするために,他の
変数(Z)の影響を統制したい.
– 2変数間の真の共変動がどれだけあるかを確か
めるには,みかけ上の共変動から他変数に起因
する部分を除去する必要がある.
• 実験における変数の統制
– 恒常化:どの条件においても,変数の影響を一定
にする
– 無作為化:変数の影響をランダムにする.
• 調査研究では,実験のような変数統制ができ
ないことがほとんど.
– 研究対象となる人あるいはものの属性を,研究
者が物理的に操作できない.
• 2変数の関係に影響すると考えられる付加変
数を確定し,その付加変数を測定し,統計的
操作によって付加変数の影響を統制する.
• 2変数関係に影響する要因のすべてを識別し
て分析に加えることは不可能.
• したがって,付加変数として何を取り上げるか
を決めるために,理論が極めて重要となる.
• 2変数間関係に他変数が混入するパターン
– 疑似関係(疑似相関)
– 媒介関係
– 複合因果
10.1.1. 疑似関係
• 疑似関係(spuriousness):2変数 X と Y の共
通原因となっている別の変数 Z が存在するた
めに,2変数 X と Y の間に相関関係(疑似相
関,spurious correlation)が見られること.
– 例:コウノトリの数(X)と出生率(Y)
• 因果関係を主張するために必要なこと
– 時間的順序
– 理論的説明
– 疑似相関の検討
• 興味ある2変数間に因果関係はないが,共通
する原因変数が2変数間に共変動をもたらし
ている場合,その共通原因の影響を統計的
に一定に保つことによって,見かけ上の共変
動を除去できる.
• 統計的統制を行っても共変動関係が残れば,
2変数間に因果関係が存在する可能性は高
くなる.
10.1.2. 媒介関係
• 媒介関係(intervening relation):独立変数と
従属変数を媒介する変数が存在する関係.
– 例:年齢(X)と道徳的保守性(Y)を信仰の強さ
(Z)が媒介.信仰の強さを一定にすれば(たとえ
ば,信仰の程度が同程度の人を集めれば),年
齢と道徳的保守性の共変動は小さくなる.
X
Z
媒介関係
Y
• 直接効果と間接効果
直接効果
X
Y
間接効果
Z
直接効果がなくても,X と Y の相関を疑似相関とは言わ
ない.間接的とはいえ,因果関係が存在するから.
• 媒介関係と疑似関係
X
Y
Z
X
Y
Z
• 疑似関係と媒介関係は,第3の変数の影響
を一定に保ったときに興味ある2変数の共変
動関係が小さくなるという点において同じ.
• しかし,関係の実質的意味は異なる.
• 疑似関係なのか媒介関係なのかは,統計分
析からは決定できない.理論や,解釈のしや
すさから決まる.
10.1.3. 複合因果
• 人間の行動が単一要因によるものだと断定
する社会理論はほとんどない.
• 複合因果(multiple causation):原因となる変
数が複数ある因果関係
• 興味ある従属変数に対して,複数の独立変
数が持つ,複合的で同時的な関係を検討す
る.
• 検討されるもの
– 独立変数(要因)の集合全体としての効果
– 疑似関係や媒介関係を統制したときの,独立変数そ
れぞれの効果(相対的な重要性)
– 要因の組み合わせの効果(交互作用)
• 分析方法
– 多要因の分散分析
– 重回帰分析
– 多重分割表の分析(疑似関係,媒介関係の分析によ
く用いられる)
10.2. 2×2 表における
第3の変数の統制
• 多重クロス表:3変数以上の変数のクロス表
• 2変数間の関係がクロス表に整理されている
とする.このとき,第3の変数の影響を検討す
るために,3重クロス表を用いる.
– 立体的な表を作ることは難しいので,第3の変数
の値に応じて,2重クロス表を複数作成する.
– ここでは,どの変数も2値変数である場合を説明
する. 2×2×2表
10.2.1. 仮想例:家族の信仰と
10代の性行動
• 零次の表(zero-order table):統制される変数
がない分割表
• 信仰の強さと婚前性交の間に相関関係
家族は信仰深い?
いいえ [0]
はい [1]
計
39.1%
16.0%
27.1%
婚前性交 ある [1]
60.9%
84.0%
72.9%
ない [0]
計 100% (92) 100% (100) 100% (192)
ファイ係数:φ = -0.26
• 家族の信仰と婚前性交との関係に,何らかの
第3の変数は存在するか?
– 性体験を促す機会が頻繁にあるかどうかが,婚
前性交の有無に影響するのでは?
– 信仰深い家庭は,行動への束縛が強く,そうした
機会が少ないのでは?
– 自動車を日常的に使用しているかどうかを,第3
の変数として検討してみてはどうだろうか.
• 第3の変数の影響を検討するために,1次の
表(first-order table)を作る.
– 第3の変数のカテゴリごとに,興味ある2変数の
クロス表を作成する.
– 次数は統制される変数の数を表す.
• これにより,第3の変数の影響を一定にして
(第3の変数の影響が同じ部分ごとに),興味
ある2変数間の関係を検討できる.
10.2.2. 第3変数に効果がない場合
• 1次の表(下位表)で認められる関係が,零次
の表で認められる関係と変わらなかったとす
る(次のスライド).このとき,第3の変数は
(零次の表での)共変動に効果を持たない.
– 条件つき相関係数(conditional correlation
coefficient):第3の変数ごとに作った分割表(下
位表)におけるファイ係数.これらの値はほぼ同
じで,零次の表でのファイ係数と変わらない.
– オッズ比も変化していない.(確かめてみよ)
家族は信仰深い?
いいえ
はい
39.7%
15.9%
自動車を日常的に
使用しない
婚前性交
ある
60.3%
ない
計 100% (63)
84.1%
100% (69)
計
27.3% (36)
72.7% (96)
100% (132)
ファイ係数:φ = -0.27
自動車を日常的に使
用する
婚前性交
ある
ない
家族は信仰深い?
いいえ
はい
37.9%
16.1%
62.1%
83.9%
計 100% (29)
ファイ係数:φ = -0.25
100% (31)
計
26.7% (16)
73.3% (44)
100% (60)
• 統制される変数(自動車の使用)と,興味ある
2変数それぞれとのクロス集計表を作成して
みる.
– 1次の表での周辺度数を使って作成できる.
– 信仰深い家庭では,そうでない家庭に比べ,自動
車を自由に使用させているのか?
– 自動車を日常的に使用している若者は,そうでな
い若者に比べ,婚前性交の経験率が高いのか?
自動車を使
用?
家族は信仰深い?
いいえ
はい
31.5% (29) 31.0% (31)
計
31.25%
はい
68.75%
いいえ 68.5% (63) 69.0% (69)
計 100% (92) 100% (100) 100% (192)
ファイ係数:φ = -0.006
婚前性交
ある
ない
自動車を使用?
いいえ
はい
27.3% (36) 26.7% (16)
72.7% (96) 73.3% (44)
計 100% (132) 100% (60)
ファイ係数:φ = -0.006
計
27.1%
72.9%
100% (192)
10.2.3. 第3変数が部分的効果を
持つ場合
• 下位表において,興味ある2変数の関係は依
然として認められるが,その関係の強さが弱
くなったとする.(次のスライド)
• このとき,第3の変数は,2変数間の連関を
部分的に説明する.
– 家族が信仰深くてもそうでなくても,自動車を使
用することで,婚前性交の経験率が上昇する.
– 興味ある2変数の共変動関係は,弱くはなったが
残っている.
家族は信仰深い?
いいえ
はい
25.5%
12.9%
自動車を日常的に
使用しない
婚前性交
ある
74.5%
ない
計 100% (47)
87.1%
100% (85)
計
17.4%
82.6%
100% (132)
ファイ係数:φ = -0.16
自動車を日常的に
使用する
婚前性交
ある
ない
家族は信仰深い?
いいえ
はい
53.3%
33.3%
46.7%
66.7%
計 100% (45)
ファイ係数:φ = -0.17
100% (15)
計
48.3%
51.7%
100% (60)
10.2.4. 第3の変数による完全な説明
• 2つの下位表におけるファイ係数がゼロ.つ
まり,第3の変数の影響を一定にすると,興
味ある2変数間の関係が消失したとする.
• このとき,第3の変数は,興味ある2変数間の
関係を完全に説明する.
– 家族の信仰は10代の若者が自家用自動車を日
常的に使用できるかを規定し,自動車使用機会
が婚前交渉の主要な決定因となる.
自動車を日常的に
使用しない
婚前性交
ある
ない
家族は信仰深い?
いいえ
はい
9.1%
9.1%
90.9%
計 100% (44)
90.9%
100% (88)
計
9.1%
90.9%
100% (132)
ファイ係数:φ = 0.00
自動車を日常的に
使用する
婚前性交
ある
ない
家族は信仰深い?
いいえ
はい
66.7%
66.7%
33.3%
33.3%
計 100% (48)
ファイ係数:φ = 0.00
100% (12)
計
66.7%
33.3%
100% (60)
練習問題
• 第3変数の効果がない場合の表をつくりかえ
たように,第3変数による完全な説明が成り
立つ場合の表を作り変えよ(テキスト表10.4を
作り変える).2つの下位表の周辺度数を用
いればできる.ファイ係数も計算してみよ.
– 信仰と自動車使用機会の表
– 自動車使用機会と婚前性交の表
自動車を使
用?
家族は信仰深い?
いいえ
はい
52.2%
12.0%
はい
47.8%
いいえ
計 100% (92)
計
31.25%
88.0%
68.75%
100% (100) 100% (100)
ファイ係数:φ = -0.43
婚前性交
自動車を使用?
いいえ
はい
9.1%
66.7%
90.9%
33.3%
ある
ない
計 100% (132) 100% (60)
ファイ係数:φ = 0.60
計
27.1%
72.9%
100% (192)
• 周辺度数分布において,X と Z,および,Z と
Y に関連があるために, X と Y の間に関連が
現れた.
– 周辺度数による elaboration(後述)
– X(家族の信仰)と Z(行動への束縛)の関連につ
いて,次のスライドを参照.
自動車を日常的に
使用しない
婚前性交
ある
ない
家族は信仰深い?
いいえ
はい
9.1%
9.1%
90.9%
計 100% (44)
90.9%
100% (88)
計
9.1%
90.9%
100% (132)
ファイ係数:φ = 0.00
自動車を日常的に
使用する
婚前性交
ある
ない
家族は信仰深い?
いいえ
はい
66.7%
66.7%
33.3%
33.3%
計 100% (48)
ファイ係数:φ = 0.00
100% (12)
計
66.7%
33.3%
100% (60)
• 第3の変数が,元の2変数(X,Y)のいずれと
もゼロでない相関を示すときだけ,この第3の
変数を媒介変数として,もとの2変数の共変
動を説明できる可能性がある.
– 一般には,2変数の相関が正なら,第3の変数と
これら2変数との相関はどちらも正か,あるいは,
どちらも負.(そうでないこともありうる)
– 2変数の相関が負なら,第3の変数との相関は,
一方が正で他方が負. (そうでないことも)
• 第3の変数による完全な説明は,媒介関係の
場合だけでなく,2変数の相関が疑似関係で
あるときにも見られる.
• 第3の変数を媒介変数と考えるか,2変数の
共通原因と考えるかは,理論や解釈のしやす
さによる.統計的な結果からは決められない.
10.2.5. 第3変数の交互作用効果
がある場合
• 2つの下位表で連関の程度(ファイ係数,オッ
ズ比)が大きく異なる.
– 零次の表と比べると,たとえば,一方の下位表で
は連関が減少し,もう一方の下位表では連関が
増大する.
– 連関が逆方向(プラスとマイナス)になることもあ
る.
• 交互作用効果(interaction effect):第3の変
数の値によって,興味ある2変数の関係が異
なる.
自動車を日常的に
使用しない
婚前性交
ある
ない
家族は信仰深い?
いいえ
はい
50.0%
11.8%
50.0%
計 100% (52)
88.2%
100% (68)
計
28.3% (34)
71.7% (86)
100% (120)
ファイ係数:φ = -0.42
自動車を日常的に
使用する
婚前性交
ある
ない
家族は信仰深い?
いいえ
はい
25.0%
25.0%
75.0%
75.0%
計 100% (40)
ファイ係数:φ = 0.00
100% (32)
計
25.0% (18)
75.0% (54)
100% (72)
自動車を使
用?
家族は信仰深い?
いいえ
はい
43.5%
32.0%
はい
56.5%
いいえ
計 100% (92)
計
37.5%
68.0%
62.5%
100% (100) 100% (100)
ファイ係数:φ = -0.12
婚前性交
自動車を使用?
いいえ
はい
28.3%
25.0%
71.6%
75.0%
ある
ない
計 100% (120) 100% (72)
ファイ係数:φ = -0.04
計
27.1%
72.9%
100% (192)
• 3重クロス表を構成してみないと,交互作用
効果の発見はできない.
• 2変数 X と Y の単純相関が,条件つき相関と,
どのように,どれぐらい異なるのかは,3重ク
ロス表を構成しなければわからない.
10.2.6. 条件つき効果のまとめ
• グラフを利用すると,3重クロス表から明らか
になった関係が,よりわかりやすくなることが
多い(テキスト p.239 ,図10.2)
– 2要因分散分析で学習した図と本質的に同じ.
• 第3の変数を導入して3重クロス集計を行い,
関連の分析を深化させることを,elaboration
と呼ぶ.
– 零次の表での関連が疑似相関かどうか
– 原因と結果の間を媒介する変数は何か
– どんな条件のもとで,零次の表での関連が明確
になるか
• 疑似相関を暴いて,零次の表での単純関連
の見かけ性を説明するタイプの elaboration
を,explanation と呼ぶ.
• 媒介関係の分析は,独立変数と従属変数の
間の間接的な因果関係をより詳しく解釈する
ことに役立つので,interpretation と呼ばれる.
注意:テキスト(p.284)では,explanation と interpretation
の意味を区別していない.
• 交互作用効果を明らかにする elaboration は,
specification と呼ばれる.
– 特に,第3の変数が独立変数 X と関連を持たな
い場合.たとえば,第3の変数が性別,独立変数
が年齢の場合.
10.3. 偏相関係数
• 条件つき相関係数は,第3の変数 Z のカテゴ
リごとに,X と Y の相関係数を計算したもの.
• 第3の変数 Z の影響を一定にしたときの, X
と Y の関連の強さを表す指標はないだろう
か?
– 第3の変数 Z のカテゴリごとに計算される数値で
はなく,条件つき相関係数を合算したもの.
– X と Y それぞれから Z と関連した部分を除去した
ときの,X と Y の相関.
• 偏相関係数(partial correlation):第3の変数
を統制したときの,興味ある2変数間の相関
係数.
rXY  rXZ rYZ
rXY Z 
2
2
1  rXZ 1  rYZ
• 3変数とも連続変数の場合に定義された式だ
が,これを離散変数間の相関にも適用する.
• 変数 X と Y の相関係数 [XY] は,いくつかの
要素の,ある種の和である.
XY   XY : z1  [ XY : z 2]  XZ ZY 
ここが偏相関係数 [XY: Z]
– [XY: z1]:第3の変数 Z のカテゴリが z1 であるとき
の,X と Y の条件つき相関係数.[XY:z2] も同様.
– [XZ]:X と Z の相関係数.[ZY] も同様.
• 通常の数式のように変形(移項)すると,以下
の式が得られる.これは,偏相関の定義式で
分母を無視した形である.
XY : Z   XY   XZ ZY 
rXY Z 
rXY  rXZ rYZ
1 r
2
XZ
1 r
2
YZ
• [XZ] および [ZY] の両方がゼロでないとき,疑
似関係あるいは媒介関係による elaboration
が可能になる.偏相関係数の値は,零次の
表での単純相関 [XY] よりも小さな値になる.
XY : Z   XY   XZ ZY 
• [XZ] または [ZY] がゼロであるなら,偏相関係
数の値は,零次の表での単純相関 [XY] と近
い値になる.[ZY] = 0 とすると,
XY : Z   XY   XZ ZY 
 XY 
rXY  Z 

rXY  rXZ rYZ
2
1  rXZ
1  rYZ2
rXY
2
1  rXZ
• 偏相関係数がゼロなら,[XY] は [XZ] と [ZX]
の積に等しい.
XY : Z   XY   XZ ZY   0
XY   XZ ZY 
rXY  Z 
rXY  rXZ rYZ
1 r
rXY  rXZ r YZ
2
XZ
1 r
2
YZ
0
• テキスト(p. 294)では,交互作用効果がない
場合に偏相関係数を計算できると書かれて
いる.
• 実際には,交互作用効果の有無にかかわら
ず,偏相関係数を計算することができる.
– 定義式の右辺にある,3つの相関係数が計算で
きればよい.
• ただし,交互作用があるときには,偏相関係
数を計算することにあまり意味はない.
– 交互作用がないとき,2つの条件つき相関係数
は似た値になるので(図10.2参照),これらをあわ
せて偏相関係数としている.
XY : Z   XY : z1  [ XY : z 2]
• 交互作用効果があると,X と Y の偏相関係数
は,単純相関(零次の表での相関係数)と近
い値になることが多い.
– 家族の信仰深さと婚前性交の例では,単純相関
は -0.26 であり,偏相関は -0.27 となる.
– 偏相関係数だけ見ても,Z が無効果の場合(偏相
関係数は単純相関と一致)と区別できない.
• 偏相関係数は3つの単純相関([XY], [XZ],
[ZY])から計算する.これら3つの相関を示す
クロス表からは,詳細な関係(たとえば,交互
作用効果)はわからなかったことに注意.偏
相関係数を計算するだけでなく,必ず3重クロ
ス表を検討するべきである.
10.3.1. 例示:3変数間相関
• 外に飲みに行った経験(X)と,婚前性交への
態度(Y)とのクロス表
婚前
性交
外に飲みに行った経験
ない
ある
計
55.2%
19.3%
37.2%
悪い
44.8%
88.2%
71.7%
悪くない
計 100% (774) 100% (781) 100% (1,555)
ファイ係数:φ = -0.371
1983年GSS調査より
• 家庭外で飲酒した経験がある者は,そうでな
い者に比べ,婚前性交を悪くないと考える.
– 「経験がない者は悪いと考える」と言ってもよい
• これら2変数の両方に相関を持つ変数として,
性別(Z)が考えられる.
– 女性は,家庭外での飲酒と,婚前性交の両方に,
あまり寛容ではないだろう.
– 性別を共通原因とする疑似相関ではないのか?
• 性別(Z)と,婚前性交への態度(Y)とのクロス
表
性別
婚前
性交
男
女
計
30.0%
42.6%
37.2%
悪い
70.0%
57.2%
62.8%
悪くない
計 100% (669) 100% (866) 100% (1,555)
ファイ係数:φ = 0.128
1983年GSS調査より
10.3.1. 例示:3変数間相関
• 性別(Z)と,外に飲みに行った経験(X)とのク
ロス表
性別
外に飲みに
行った経験
男
女
61.1%
42.0%
ある
38.9%
58.0%
ない
計 100% (774) 100% (781)
ファイ係数:φ = -0.190
計
50.2%
49.8%
100%
(1,555)
1983年GSS調査より
• 偏相関係数を計算すると,
rXY  Z 

rXY  rXZ rYZ
2
1  rXZ
1  rYZ2
 0.371  (0.190)  (0.128)
1  (0.190)
2
1  (0.128)
2
 0.357
• これは X と Y の単純相関(-0.371)よりも低い
が,その差はわずか.性別による elaboration
はうまくいかない.
• 性別が共通原因である疑似相関を疑ったが,
2変数 X と Y に対して性別(Z)はあまり影響
しておらず,偏相関は単純相関と少ししか違
わなかった.
• 偏相関係数を説明するための例だったので,
3重クロス表の構成は行っていない.もちろん,
実際の分析では3重クロス表を構成するべき
である.
10.3.2. 偏相関係数の有意性検定
• 第3の変数による統制を行っても,興味ある2
変数間には相関が存在する(つまり,母集団
での偏相関係数はゼロではない)と言える
か?
– 帰無仮説 H0:母集団での偏相関係数は0
– 対立仮説 H1:母集団での偏相関係数は0ではな
い(両側検定の対立仮説)
注意:テキストでは,外に飲みに行った経験があると
婚前性交に対して寛容になると考えて,対立仮説を片
側にしている.
• 検定統計量
F1, N 3
2
rXY
 Z ( N  3)

2
1  rXY
Z
t N 3 
rXY  Z N  3
1 r
2
XY  Z
理解確認のポイント
• 第3の変数 Z による,(X と Y の)疑似関係と
は何か,説明できますか?
• 第3の変数 Z による,媒介関係とは何か,説
明できますか?
• 多重クロス表を構成する目的を説明できます
か?
• 多重クロス表を構成することができますか?
– 零次の表
– 1次の表
• 条件つき相関係数から,媒介関係あるいは
疑似関係を明らかにすることができますか?
• 条件つき相関係数から,交互作用効果を見
つけることができますか?
• 偏相関係数とは何か,説明できますか?
• 偏相関係数を計算することができますか?
– 定義式は覚えなくてもよい.
• 第3の変数 Z による媒介関係あるいは疑似
関係が存在する場合,X と Y の偏相関係数
は,零次の表での相関係数と比べて,どのよ
うに変化しますか?