グラフィカル多変量解析

1
日本行動計量学会セミナー
「ビジュアル多変量解析早わかり」
於:日本マーケティング協会
日時:H.10.6.16(火)
グラフィカル多変量解析
----目で見る共分散構造分析----
狩野 裕
大阪大学人間科学部
[email protected]
http://koko15.hus.osaka-.ac.jp/~kano
/application/index.html
2
本日のメニュー
• 基礎編...次スライド
• EQSによるデモ
• 実践編:多重指標のススメ
– 低い相関を高める方法
• 反復測定
• 希薄化修正モデルの応用
– 共分散構造モデルの中で探索的因子分析を
実行する
– 検証的因子分析の実際
• モデル探索の方法
• 到達したモデルの吟味
3
グラフィカル多変量解析
日本行動計量学会セミナー
「ビジュアル多変量解析早わかり」
於:日本マーケティング協会
日時:H.10.6.16(火)
----目で見る共分散構造分析----
基礎編
•共分散構造分析とは.使い方3通り
•検証的因子分析 vs 探索的因子分析
•自然食品店での購買行動の分析例
•入力ファイル作成の要点.推定と適合度
•共分散構造分析はなぜ難しい??
•まとめ
テキスト
(viiページ)
4
共分散構造分析とは
直接観測できない潜在変数を導入し,潜在変
数と観測変数との間の因果関係を同定するこ
とにより社会現象や自然現象を理解するため
の統計的アプローチ.基本的に非実験多変量
データの分析方法で,因子分析と多重回帰分
析(パス解析)の拡張.
5
ソフトウェア
パス図
AMOS
EQS
LISREL
SAS Calis
STATISTICA Sepath
○
○
○
多母集団 離散順序 非線型制約 LM検定 相関行列
の分析 尺度の分析 での分析 修正指標 に基づく分析
○
△
○
○
○
○
○
○
○
○
○
○
6
観測変数
潜在変数による相関
---- コンセプト ----
誤差変数
相関
因果
潜在変数
(共通因子)
7
どのように利用されるか
1.調査項目間の因果関係を調べる
– (多)重回帰分析(パス解析)モデル
2.調査項目をまとめて単純化(潜在変数
化)する
– 因子分析モデル
3.調査項目をまとめて単純化(潜在変数
化)してから因果関係を調べる
– 典型的な共分散構造モデル
8
1.調査項目間の因果関係を調べる
(多)重回帰分析(パス解析)モデル
中古車価格の要因分析
テキスト2.2節
(p.14~)
番号
1
2
3
4
5
6
7
8
9
10
11
12
価格
89
99
128
98
52
47
40
39
38
48
27
23
走行距離 乗車年数
4.3
5
1.9
4
5.2
2
5.1
3
4.0
6
4.8
8
8.7
7
8.2
7
3.3
10
3.9
6
8.2
8
7.2
8
車検
24
18
13
4
15
24
3
6
14
0
24
24
テキスト2.2節
(p.6, p.42)
9
標準解と標準化しない解
中古車価格の要因分析
標準解
影響の強さ
を表す
標準化しない解
影響の大きさ
を表す
2.調査項目をまとめて単純化
(潜在変数化)する---因子分析モデル--テキスト3章
(p.77~)
X1
ゲール語
英語
歴史
計算
代数
幾何
1
0.439
0.410
0.288
0.329
0.248
X2
1
0.351
0.354
0.320
0.329
X3
1
0.164
0.190
0.181
X4
1
0.595
0.470
X5
1
0.464
X6
1
10
11
3.調査項目をまとめて単純化(潜在
変数化)してから因果関係を調べる
---典型的な共分散構造モデル--テキスト2.3節
(p.54~)
X1: 食品添加物に気を使う
X2: 栄養のバランスに気を使う
X3: 自然食料品店での購買額
X4: 自然食料品店での購買回数
X1
1
0.301
0.168
0.257
X2
X3
X4
1
0.188
0.328
1
0.53
1
12
潜在変数の導入(単純化)の意義
• 単純化したものは分かりやすい….次元縮小
• (心理学などでの)構成概念の数理モデル
• 誤差を伴ってしか測定できない状況
– 測定道具(コスト)の問題
– 低い相関の補正…..アンケートデータの相関はな
ぜ低いか ⇒ 実践編
13
構成概念と次元縮小,多重指標
14
グラフィカル多変量解析
日本行動計量学会セミナー
「ビジュアル多変量解析早わかり」
於:日本マーケティング協会
日時:H.10.6.16(火)
----目で見る共分散構造分析----
基礎編
•共分散構造分析とは,使い方3通り
•検証的因子分析 vs 探索的因子分析
•自然食品店での購買行動の分析例
•入力ファイル作成の要点.推定と適合度
•共分散構造分析はなぜ難しい??
•まとめ
テキスト3章
(p.77~)
15
CFAとEFAの違い
• CFA:潜在構造に関する仮説があり,それを検証した
いとき
• EFA:潜在構造に関する仮説がなく,探索したいとき
ゲール語
英 語
歴 史
計 算
代 数
幾 何
探索的分析
最尤法バリマックス
最尤法オブリミン
0.66 0.23
0.67 0.06
0.55 0.32
0.52 0.19
0.59 0.09
0.64 -0.09
0.17 0.77
-0.05 0.81
0.22 0.72
0.01 0.75
0.21 0.57
0.06 0.58
因子相関
0
x^2 df 2.335
4
P-値
0.674
-AIC
-5.665
0.52
2.335
4
0.674
-5.665
検証的分析
0.69
0.67
0.53
0
0
0
0
0
0
0.77
0.77
0.62
0.60
7.953
8
0.438
-8.047
16
CFAの良さ
• 解釈がしやすい
– 因子パターンが簡単
– パス(因子負荷量)の有意性・非有意性
• 多母集団の同時分析ができる
– 母集団間の因子比較が統計的にできる
– 因子の平均に関する解析ができる
17
因子負荷の(非)有意性
ゲール語
英 語
歴 史
計 算
代 数
幾 何
探索的分析
最尤法バリマックス
最尤法オブリミン
0.23
0.67
0.06
0.66
0.32
0.52
0.19
0.55
0.09
0.64 -0.09
0.59
0.77
-0.05
0.81
0.17
0.22
0.72
0.01
0.75
0.21
0.57
0.06
0.58
検証的分析
0.69
0.67
0.53
0
0
0
0
0
0
0.77
0.77
0.62
t-値
LM検定(修正指標)
Z(0.05)=1.96 χ1^2(0.05)=3.841
9.079
0.086
8.896
3.768
7.047
3.158
11.379
0.350
11.411
0.017
8.942
0.700
18
予定外の因子負荷
タレント好感度データの分析
松本明子
森口博子
和田アキ
久本雅美
飯島直子
山口智子
安室奈美
常盤貴子
江角マキ
二谷友里
松たか子
広末涼子
普通の因子分析
0.79 -0.01
0.20
0.61
0.12
0.21
0.67 -0.01 -0.10
0.53
0.21 -0.17
0.26
0.76 -0.07
0.16
0.51
0.40
0.01
0.48 -0.12
0.00
0.54
0.08
-0.05
0.30
0.63
0.05 -0.26
0.72
0.21
0.06
0.60
-0.04 -0.03
0.22
検証的因子分析
0.87
0.63
0.57
0.49
0.79
0.39 0.47
0.48
0.51
0.64
-0.50 0.76
0.59
テキスト6章
(p.185~)
19
多母集団の
同時分析
20
グラフィカル多変量解析
日本行動計量学会セミナー
「ビジュアル多変量解析早わかり」
於:日本マーケティング協会
日時:H.10.6.16(火)
----目で見る共分散構造分析----
基礎編
•共分散構造分析とは.使い方3通り
•検証的因子分析 vs 探索的因子分析
•自然食品店での購買行動の分析例
•入力ファイル作成の要点.推定と適合度
•共分散構造分析はなぜ難しい??
•まとめ
21
グラフィカル多変量解析54-55
22
グラフィカル多変量解析56-57
23
グラフィカル多変量解析58-59
24
グラフィカル多変量解析60
潜在変数のある
共分散構造分析チャート
目
的
潜
在
変
数
に
関
す
る
仮
説
の
構
築
指
標
の
選
定
ga
解
析
モの
デ修
ル正
適
合
度
が
O
K
か
No
パ
ス
図
の
描
画
デ
ー
タ
の
収
集
Yes
解の
析解
結釈
果
モ
デ
ル
フ
ァ
イ
ル
作
成
お
わ
り
25
26
自然食品店での購買行動
---- アンケートデータの解析 ---仮説を潜在変数で表す
測定モデル:指標の作成
27
自然食品店での購買行動
---- データの収集 ---X1:
X2:
X3:
X4:
X1
X2
X3
X4
食品添加物に気を使う
栄養のバランスに気を使う
自然食料品店での購買額
自然食料品店での購買回数
X1
1
0.301
0.168
0.257
X2
X3
X4
1
0.188
0.328
1
0.53
1
28
解析結果
---- 多重指標モデル(標準解) ----
29
自然食品店での購買行動
---- 不適切なモデルでは ----
30
グラフィカル多変量解析
日本行動計量学会セミナー
「ビジュアル多変量解析早わかり」
於:日本マーケティング協会
日時:H.10.6.16(火)
----目で見る共分散構造分析----
基礎編
•共分散構造分析とは.使い方3通り
•検証的因子分析 vs 探索的因子分析
•自然食品店での購買行動の分析例
•入力ファイル作成の要点.推定と適合度
•共分散構造分析はなぜ難しい??
•まとめ
テキスト4.5節
(p.128~)
入力ファイル作成の要点
•
•
•
•
推定方法のデフォルトは最尤法(ML)
従属変数には方程式を作成
独立変数には分散・共分散を設定
潜在変数の尺度を固定する
– 潜在変数からのパス係数を一つ1に固定
– 独立潜在変数は分散を1に固定してもよい
† 矢印を1本も受けていない変数を独立変数,
1本でも受けていれば従属変数となる
31
/TITLE
Multiple Indicator Model
/SPECIFICATIONS
DATA='D:\EQS\HOMER41.COV';
VARIABLES= 4; CASES= 831;
METHODS=ML;
MATRIX=COVARIANCE;
/LABELS
V1=tenka; V2=baransu;
V3=kaisu; V4=gaku;
/EQUATIONS
V1 = *F1 + E1;
V2 = *F1 + E2;
V3 =1.0F2 + E3;
V4 = *F2 + E4;
F2 = *F1 + D2;
/VARIANCES
F1 = 1.00;
E1 TO E4 = *;
D2 = *;
/COVARIANCES
/OUTPUT
parameters;
standard errors;
listing;
/END
HOMER41.COV ファイル
TENKA BARANSU GAKU KAISU
1.000
0.301
0.168
0.257
0.301
1.000
0.188
0.328
0.168
0.188
1.000
0.530
0.257
0.328
0.530
1.000
32
入力ファイル
/TITLE
Multiple Indicator Model
/SPECIFICATIONS
DATA='D:\EQS\HOMER41.COV';
VARIABLES= 4; CASES= 831;
METHODS=ML;
MATRIX=COVARIANCE;
/LABELS
V1=tenka; V2=baransu;
V3=kaisu; V4=gaku;
/EQUATIONS
V1 =1.0F1 + E1;
V2 = *F1 + E2;
V3 =1.0F2 + E3;
V4 = *F2 + E4;
F2 = *F1 + D2;
/VARIANCES
F1 = *;
E1 TO E4 = *;
D2 = *;
/COVARIANCES
/OUTPUT
parameters;
standard errors;
listing;
/END
33
入力ファイル
テキスト4.6節
(p.134~)
推定と適合度
復習回帰分析--- データとモデルの距離 ---
良い当てはまり
悪い当てはまり
乗車年数と価格(r=-.91)
走行距離と価格(r=-.49)
34
35
推定と適合度
共分散構造分析では適合度の吟味は不可欠
適合度とはモデルとデータの距離
良いモデル
悪いモデル
テキスト4.7節
(p.142~)
いくつかの適合度の指標 (1)
記号: ˆ はモデルによって推定 された相関行列 (前スライド参照 )
適合度検定[標本数nが300~400程度以下のとき ]
仮説H 0 : 考えたモデルが正しい , H1 : 正しくない
 2  カイ2乗値  (n  1)[log| ˆ |  log | S |  tr[ˆ 1 ( S  ˆ )]
受容域:  2   d2 ( )
自由度: d  p ( p  1) / 2  q ( 分散共分散の数 推定する母数の数 )
p : 観測変数の数
適合度指標(1)[標本数nが300~400程度以上のとき ;0.9~095以上が目安]
tr[{(S  ˆ )ˆ 1}2 ]
GFI  1 
.........回帰分析でのSMCに対応
1 2
ˆ
tr[(S ) ]
36
37
いくつかの適合度の指標 (2-1)
S
現在のモデル
独立モデル
飽和モデル:相関の
間に何の関連もない
モデル


データから
の距離
観測変数間に相関
がないという最も
制約的なモデル
 2  (n  1) log | ˆ |  log | S |  tr[ˆ 1 ( S  ˆ )]
d  p( p  1) / 2  q
 I2  独立モデルのカイ2乗 値  (n  1)[log| Diag(S ) |  log | S |]
d I  p( p  1) / 2  p  p( p  1) / 2 : 独立モデルの(カイ2乗値の )自由度
38
いくつかの適合度の指標 (2-2)
適合度指標 (2)
[ 標本数nが 300~ 400程度以上のと き ; 0.9 ~ 095以上が目安 ]
2 / d 1
NNFI  TLI  1  2
I / dI  1
CFI  1 
max(  2  d , 0)
max(  2  d ,  I2  d I , 0)
† TLI  Tucker  Lewis の指標
( SASの探索的因子分析ML標準出力 )
39
いくつかの適合度の指標 (3)
AIC   2  2( p( p  1) / 2  q )   2  2d ....... 小さ い方が良いモデル
CAIC   2  (1  log n)  d  小さ い方が良いモデル

 n が大き いと き に使う
BIC   2  (log n)  d
AGFI  1 
p( p  1)(1  GFI )
....... 大き い方が良いモデル
p( p  1)  2q
† AGFI は回帰分析における 自由度調整済み寄与率に対応
2 1 
RMSEA max  ,0
 nd n 
RMSEAに基づく区間推定
RMSEA  0.05 良い適合
RMSEA  0.10  悪い適合
40
グラフィカル多変量解析
日本行動計量学会セミナー
「ビジュアル多変量解析早わかり」
於:日本マーケティング協会
日時:H.10.6.16(火)
----目で見る共分散構造分析----
基礎編
•共分散構造分析とは.使い方3通り
•検証的因子分析 vs 探索的因子分析
•自然食品店での購買行動の分析例
•入力ファイル作成の要点と推定・適合度
•共分散構造分析はなぜ難しい??
•まとめ
41
共分散構造分析はなぜ難しいと
言われるか?
• 潜在変数に関する仮説が練られていない
• 指標(観測変数)が適切でない
• モデル規定の自由度が大きい
– EFAでは因子数と回転の自由度のみ
• モデルの適合度が上がらない
– EFAでは適合度の吟味をしていない(モデルが棄却
されることがない).共通性を中心に観る傾向がある
• 分散やパスを固定するといったテクニカルなことがある
– EFAではデフォルトで共通因子の分散=1を設定し
てある
42
指標(観測変数)の
収束・弁別妥当性の吟味
• (収束妥当性)
調査項目 ⇒ 構成概念を予想
• (弁別妥当性)
構成概念 ⇒ 調査項目を選択
43
基礎編のまとめ
• 共分散構造分析は非実験データ(調査
データ)から因果に関する仮説を検討する
統計手法.潜在変数が活躍する.
• 入力ファイル作成のコツを習得しよう.
• 「モデル+適合度」で仮説を検証する.
• 仮説・指標(調査項目)を十分吟味しよう.
44
訂正
因子スコアに関する質問に誤って答えてしましまし
たので,お詫びして訂正させていただきます.
因子スコアの出力は,AMOS, SAS Calis LISREL
で可能です.コマンドは以下のとおりです.
AMOS: $factorscores
SAS Calis: all nomod
LISREL: lisrel output: fs
ただし,因子スコアが出力されるのではなく,スコ
アを求めるための重みベクトル(または行列)が出
力されます.