日本統計学会チュートリアルセミナー 共分散構造分析

於:岡山理科大学
1999年7月28日
日本統計学会チュートリアルセミナー
共分散構造分析
狩野 裕(大阪大学)
市川雅教(東京外国語大学)
1
共分散構造モデル:単一母集団
データ:X1 ,  , X N
ある母集団からの独立同一分布する標本ベクトル
共分散構造モデル :
Var( X)  ( )
 E ( X)   ( )
平均・共分散構造モデル : 
Var( X)  ( )
N

1
Xk
X 
N k 1

データ 
N
1
S 
Xk  X Xk  X '

N  1 k 1

共分散構造分析




X, S から構造の適切性を検討,母数の推測を行う .
2
3
共分散構造モデル:多母集団
標本平均 標本共分散
母平均
母共分散
標本
母集団1

 (1) ( (1) )
X1(1) , , X (N1)
1

X (1)
S (1)

 (1) ( (1) )



母集団g
 ( g ) ( ( g ) )
 ( g ) ( ( g ) )
X1( g ) ,, X (Ng )
X(g)
S (g)






X (G )
S (G )
g
母集団G  (G ) ( (G ) )  (G ) ( (G ) ) X1(G ) ,, X (NG )
G
多母集団の同時分析
・各母集団における構造の検討, ( g )の推測
・母集団間での構造, ( g )の比較
(μ(θ),∑(θ))の前後
• (μ(θ),∑(θ))まで
– 構造(μ(θ),∑(θ))で捉えられるモデルを議論
• 検証的因子モデル,パス解析モデル,多重指標モデル
その他たくさんある
– 因果推論
• (μ(θ),∑(θ))のあと
– 構造(μ(θ),∑(θ))は与えられている
– 統計的推測の方法論
• 最尤法,最小2乗法,ロバスト推測,ブートストラップ法
• 非正規分布の下での推測,二値データの扱い
• 適合度指標
4
本セミナーの内容
• 「(μ(θ),∑(θ))まで」を紹介
• 基本モデル
– パス解析モデル,因子分析モデル,多重指標
モデル
• 応用モデル
– 平均構造モデル,多母集団の同時分析
– 実験データの分析
– 潜在曲線モデル
• 因果推論について
• ブートストラップ法
5
6
共分散構造分析とは
直接観測できない潜在変数を導入し,潜在変
数と観測変数との間の因果関係を同定するこ
とにより社会現象や自然現象を理解するため
の統計的アプローチ.因子分析と多重回帰分
析(パス解析)の拡張.
7
やや具体的にかくと
研究者が想定した因果に関する仮説を
モデル化する.以下の情報が得られる
(i) モデル(仮説)の妥当性の検討
(ii) 因果の大きさ・強さの推定・検定
(iii) モデル(仮説)修正へのsuggestion
8
第2章
共分散構造分析で何ができる:
基礎編
3つの御利益
パス解析モデル
因子分析モデル
多重指標モデル
9
基本的な3つの利用法
1.調査項目間の因果関係を調べる
– (多)重回帰分析(パス解析)モデル
2.調査項目をまとめて単純化(潜在変数化)
する
– 因子分析モデル
3.調査項目をまとめて単純化(潜在変数化)
してから因果関係を調べる
– 多重指標モデル(典型的な共分散構造モデル)
観測変数
潜在変数による相関
---- コンセプト ----
10
誤差変数
相関
因果
潜在変数
(共通因子)
11
1.調査項目間の因果関係を調べる
(多)重回帰分析(パス解析)モデル
中古車価格の要因分析
番号
1
2
3
4
5
6
7
8
9
10
11
12
価格
89
99
128
98
52
47
40
39
38
48
27
23
走行距離 乗車年数
4.3
5
1.9
4
5.2
2
5.1
3
4.0
6
4.8
8
8.7
7
8.2
7
3.3
10
3.9
6
8.2
8
7.2
8
車検
24
18
13
4
15
24
3
6
14
0
24
24
2.調査項目をまとめて単純化
(潜在変数化)する---因子分析モデル---
X1
ゲール語
英語
歴史
計算
代数
幾何
1
0.439
0.410
0.288
0.329
0.248
X2
1
0.351
0.354
0.320
0.329
X3
1
0.164
0.190
0.181
X4
1
0.595
0.470
X5
1
0.464
X6
1
12
2.調査項目をまとめて単純化
(潜在変数化)する---因子分析モデル--X1
ゲール語
英語
歴史
計算
代数
幾何
1
0.439
0.410
0.288
0.329
0.248
X2
1
0.351
0.354
0.320
0.329
X3
1
0.164
0.190
0.181
X4
1
0.595
0.470
X5
1
0.464
X6
1
13
14
3.調査項目をまとめて単純化(潜在
変数化)してから因果関係を調べる
---多重指標モデル---
X1:
X2:
X3:
X4:
食品添加物に気を使う
栄養のバランスに気を使う
自然食品店での購買額
自然食品店での購買回数 X1
1
0.301
0.168
0.257
X2
X3
X4
1
0.188
0.328
1
0.530
1
15
3.調査項目をまとめて単純化(潜在
変数化)してから因果関係を調べる
---多重指標モデル--X1: 食品添加物に気を使う
X2: 栄養のバランスに気を使う
X3: 自然食料品店での購買額
X4: 自然食料品店での購買回数
指標(indicator)
X1
1
0.301
0.168
0.257
X2
X3
X4
1
0.188
0.328
1
0.53
1
パス図の決まり
•
•
•
•
•
•
観測変数は四角形で囲む
潜在変数は円または楕円で囲む
誤差変数は記号のみか(楕)円で囲む
片方矢印は因果を表す
双方矢印は(単なる)相関関係を表す
片方矢印を受けた変数(従属変数)には必ず
誤差変数が付属する
• 片方矢印の上には,パス係数(影響指標,
因果の大きさ,強さ)の推定値が付される
• 双方矢印の上には,相関係数または共分散
の推定値が付される
16
17
独立変数・従属変数とパス図
• 片方矢印を一つでも受けている変数を
従属変数という
• 従属変数以外の変数を独立変数という
– 誤差変数は独立変数である
18
例
独
独
独
独
独
独
独
独
独
独
19
相関のデフォルト
• 誤差変数間の相関は通常0とする.
– 相関をいれるときは実質科学的な理由づ
けが必要
• 誤差変数以外の独立変数には相関を
いれる.
– 相関を0と設定する(双方矢印を引かな
い)場合は,理由が必要.
20
従属変数には相関をいれない
従属変数間に因果関係は設定できる
21
モデルファイルの作成例
22
基本ルール
•
•
•
•
•
データファイルの記述
従属変数には方程式を作成
独立変数には分散・共分散(相関)を設定
出力の設定
潜在変数の尺度を定める
– 潜在変数の数だけ1とおくものがある
– 当該潜在変数から出るパス係数を一つ,1に
固定
– 独立潜在変数は,分散=1としてもよい
検証的因子分析モデル
DATA SCHOOL(TYPE=CORR);
_TYPE_ ='CORR'; INPUT _NAME_ $ X1-X6;
LABEL
X1='Gaelic' X2='English' X3='History' X4='Arithmet'
X5='Algebra' X6='Geometry';
CARDS;
X1 1.000
.
.
.
.
.
X2 0.439 1.000
.
.
.
.
X3 0.410 0.351 1.000
.
.
.
X4 0.288 0.354 0.164 1.000
.
.
X5 0.329 0.320 0.190 0.595 1.000
.
X6 0.248 0.329 0.181 0.470 0.464 1.000
;
PROC CALIS DATA=SCHOOL M=ML DF=219 ALL NOMOD;
LINEQS
X1=L_11 F1
+ E1,
X2=L_21 F1
+ E2,
X3=L_31 F1
+ E3,
X4=
L_42 F2 + E4,
X5=
L_52 F2 + E5,
X6=
L_62 F2 + E6;
STD
E1-E6 = DEL1-DEL6,
F1-F2 = 2*1.00;
COV
F1 F2 = PHI12;
RUN;
BY SAS Calis
23
検証的因子分析モデル
24
X3 0.410
0.351
1.000
.
.
.
X4 0.288
0.354
0.164
1.000
.
. 25
X5 0.329
0.320
0.190
0.595
1.000
.
X6 0.248検証的因子分析モデル
0.329
0.181
0.470
0.464
1.000
;
PROC CALIS DATA=SCHOOL M=ML DF=219 ALL NOMOD;
LINEQS
X1=L_11 F1
+ E1,
X2=L_21 F1
+ E2,
X3=L_31 F1
+ E3,
X4=
L_42 F2 + E4,
X5=
L_52 F2 + E5,
X6=
L_62 F2 + E6;
STD
E1-E6 = DEL1-DEL6,
F1-F2 = 2*1.00;
COV
F1 F2 = PHI12;
RUN;
26
convention
• EQS
–
–
–
–
V1,V2,
F1,F2,
E1,E2,
D1,D2,
….観測変数
….潜在変数
….観測変数に付随する誤差変数
….潜在変数に付随する誤差変数
• SAS Calis
–
–
–
–
データステップで定義された変数が観測変数
F1,F2, ….潜在変数
E1,E2, ….観測変数に付随する誤差変数
D1,D2, ….潜在変数に付随する誤差変数
/TITLE
Model created by EQS 5.7 -- MULTIIND.EDS
/SPECIFICATIONS
DATA='FOOD.ESS';
VARIABLES= 4; CASES= 831;
METHODS=ML; MATRIX=COVARIANCE;
/LABELS
V1=TENKA; V2=BARANSU; V3=GAKU; V4=KAISU;
/EQUATIONS
V1= *F1 + E1;
V2= *F1 + E2;
V3= 1F2 + E3;
V4= *F2 + E4;
F2= *F1 + D2;
/VARIANCES
F1= 1.00;
E1 TO E4= *; D2= *;
/COVARIANCES
/OUTPUT
parameters;
standard errors;
listing;
data='EQSOUT&.ETS';
/END
27
多重指標モデル
BY EQS
28
多重指標モデル
BY EQS
/LABELS
V1=TENKA; V2=BARANSU;
V3=GAKU; V4=KAISU;
/EQUATIONS
V1= *F1 + E1;
V2= *F1 + E2;
V3= 1F2 + E3;
V4= *F2 + E4;
F2= *F1 + D2;
/VARIANCES
F1= 1.00;
E1 TO E4= *; D2= *;
/COVARIANCES
/END
29
多重指標モデル
BY EQS
潜在変数の尺度の定め方:独立変数
尺度の不定性
V1=L_11 ×F1 + E1
V2=L_21 ×F1 + E2
⇔
V1=10 L_11 ×F1/10 + E1
V2=10 L_21 ×F1/10 + E2
対処方法…… 独立潜在変数の場合
Var(F1)=1 or L_11=1 or L_21=1
30
潜在変数の尺度の定め方:従属変数
従属潜在変数の場合
F2 = B_21×F1 + D2
V3 = L_32×F2 + E3
V4 = L_42×F2 + E4
対処方法
Var(F2)=1 or L_32=1 or L_42=1
実際は
Var(F2)=1とするのは数値的に難し
いので L_32=1 or L_42=1とする
Var(F2) = (B_21)2Var(F1)+Var(D2)
= (B_21)2+Var(D2)=1
31
標準解---分散をすべて1に
Var( F 2)  0.322Var( F1)  Var( D2)  0.322  0.22  0.32
32
直接効果・間接効果・総合効果
33
• X1からX2へ直接のパスがあるとき,それを直接
効果 (direct effect) という
• X1からいくつかの変数を経由してX2へつながる
とき,それを間接効果 (indirect effect) という
• 直接効果と間接効果を併せて総合効果 (total
effect) という
• 注:片方向の
矢印だけを
辿る
34
計算例
乗車年数から価格への
直接効果.....-12.67
間接効果.....0.26×(-3.61)=-0.94
総合効果.....-12.67+(-0.94)=-13.61
希薄化の修正1
35
希薄化の修正2
36
37
適合度の吟味
モデルがデータをどの程度反映して
いるかを定量的にみる
推定と適合度
回帰分析--- データとモデルの距離 ---
良い当てはまり
悪い当てはまり
乗車年数と価格(r=-.91)
走行距離と価格(r=-.49)
38
推定と適合度
共分散構造分析では適合度の吟味は不可欠
適合度とはモデルとデータの距離
良いモデル
悪いモデル
39
いくつかの適合度の指標
記号: ˆ はモデルによって推定 された相関行列 (前スライド参照 )
★ 適合度検定 [標本数nが300~400程度以下のとき ]
仮説H 0 : 考えたモデルが正しい , H1 : 正しくない
 2  カイ2乗値  (n  1)[log| ˆ |  log | S |  tr[ˆ 1 ( S  ˆ )]
受容域:  2   d2 ( )
自由度: d  p ( p  1) / 2  q ( 分散共分散の数  推定する母数の数 )
p : 観測変数の数
★ 適合度指標(1) [標本数 n が300~400程度以上のとき ;0.9~095以上が目安]
tr[{(S  ˆ )ˆ 1}2 ]
GFI  1 
.........回帰分析でのSMCに対応
1 2
ˆ
tr[(S ) ]
40
基礎編のまとめ
•
•
•
•
基本モデル:パス解析,因子分析,多重指標
分析対象データ:多変量観察データ
パス図のきまり
モデルファイルのきまり
– 従属変数には方程式
– 独立変数には分散・共分散
– 潜在変数の尺度を定める
• 標準解,適合度
• 効果の分解,希薄化修正
41
42
これで基礎編は終了です
質問がある方はご遠慮なくどうぞ