因子分析と共分散構造分析における理論と応用について

科学研究費シンポジウム:
1
因子分析と共分散構造分析に関する諸問題
平成13年11月9~10日 於:統計数理研究所
Organized by Professor Manabu Sato
因子分析と共分散構造分析に
おける理論と応用について
狩野 裕
大阪大学人間科学部
[email protected]
2
Missing Data in SEM
欠測値のあつかい
3
今までの方法
• Listwise Deletion
– 一つでも欠測のあるオブザベーションは,分析から外して
分析する
• Pairwise Deletion
– 相関係数を計算する際,そのペアにだけ欠測のない
オブザベーションをすべて用いる
• Imputation
– 欠測値を何らかの方法による推定値でおきかえて
欠測のないデータセットにする
• 平均
• EM algorithmによる最尤推定値
• 回帰分析
4
今までの方法は
• Listwise Deletion (LD)
–
–
–
–
最も一般的な方法
捨てられるデータがもったいない...統計的推測の精度が低くなる
欠測が多いと分析できないことがある
MCARである必要
• Pairwise Deletion (PD)
– 相関行列Sの統計的分布が不明
• Sが正定値行列でないことがある
– 分析方法はLSぐらいしかない
• SE,カイ2乗値・適合度指標,LM検定・ワルド検定などが信頼
できない
– MCARである必要
5
今までの方法は_続
• Imputation
– 汎用ソフトで実行可能
– データの分布,相関行列の分布が不明
– Mean Imputation (MI)
• 分散が小さくなりすぎる
• 分散や共分散を正確に推定できないこの方法は
SEMには致命的
– EMによる最尤推定
• MARでよい
• 平均ベクトルや相関行列を推定することが最終目的の場合
はOK
6
統計理論から
• Missing Completely At Random (MCAR)
– どの値が欠測するかは完全にランダムである
– LD, PDは,このときのみ使える
• Missing At Random (MAR)
– どの値が欠測するかはデータに依存してもよいが,
欠測値には依存しない
– FIMLの適用が薦められる
• Nonignorable Missing
– どの値が欠測するかが欠測した値に依存する
– 欠測のメカニズムにモデリングが必要
7
MAR: Missing At Random
• Rubin (1976)によって定義
Y : n  p データ行列, Y  [Yobs , Ymis ]
R : n  p欠測表示変数
P Rij  1 : Yijが観測される確率
P Rij  0  : Yijが欠測する確率
 : 欠測メカニズムを規定 するパラメータ
モデルの母数 とは無関係
Y : MAR  pR | Yobs , Ymis ,    pR | Yobs ,  
8
MARとFIML
ObservedDat a Likelihood:
f (Yobs , R |  , )   f (Yobs , Ymis , R |  , )dYmis
  p ( R | Yobs , Ymis ,  ) f (Yobs , Ymis |  )dYmis
  p ( R | Yobs ,  ) f (Yobs , Ymis |  )dYmis
 p ( R | Yobs ,  )  f (Yobs , Ymis |  )dYmis
 p ( R | Yobs ,  ) f (Yobs |  )

max f (Yobs , R |  , )  max f (Yobs |  )
9
MARについての補足
次式はいつも成立しそ う:
f (Yobs , R |  , )  p( R | Yobs ,  ) f (Yobs |  )
重要な仮定は「f ( R | Yobs ,  ) が  に依存しない」こと
これは一般に成立しな いし,意味がわかりに くい
p ( R | Yobs , Ymis ,  ) が  に依存しないという仮 定が
より現実的(正則条件 という扱い)
 すべてのデータが止ま っている
その上で, p ( R | Yobs , Ymis ,  )  p ( R | Yobs ,  ) を仮定する
10
2次元データの例
Y1  c のとき Y2が欠測するとする
Y1
y11
Y2
y12
R
1



ym1
ym 2
1


欠
yn1 測
m
n
i 1
i  m 1
f (Yobs , R)   f ( yi1 , yi 2 , ri )  f ( yi1 , ri )
m
n
i 1
i  m 1
  f ( yi1 , yi 2 ) p (ri | yi1 , yi 2 )  f ( yi1 ) p(ri | yi1 )
1
0

0
m
n
i 1
i  m 1
  f ( yi1 , yi 2 )  f ( yi1 )
1
11
欠測の分布
p(r | y1 , y2 )  p(r | y1 )
1 (r  1, y1  c) or (r  0, y1  c)

0 otherwise
もし, Y2  c のとき Y2が欠測する( MARでない)
ならば (正規性の下で )
p(r  0 | y1 )   N  y | E (Y2 | y1 ),V (Y2 | y1 ) dy
c

となり,興味の対象で あるパラメータを含む 複雑な
式になり, Yobs だけを用いる統計的推 測はできない
12
MARの例
卒
論
受験生全員
r=0.6
×
入学者のみ
r’=0.3
×
×× ×
×
×
×× ×
× × ×
×
×
×
×
×
× ××
不合格者
合格者
入学試験
13
r‘ から r への修正公式
r
r'
(1  k 2 )r ' 2  k 2
ここで
合格者の分散
k 
受験者全員の分散
2
14
多変量正規母集団での推測_1
y *i : y i から欠測データを取り 除き次元を
落としたベクトル (次元 pi )
μ*i , *:対応する平均ベクト
ルと分散行列
i
ObservedData Likelihood:
n

1
1
L(μ,  | Y )  
exp

(
y

μ
)'

*i
*i
*i ( y *i  μ *i ) / 2
pi / 2
1/ 2
| *i |
i 1 2 

15
多変量正規母集団での推測_2
Y1 にのみ欠測がある場合
y *i  [Yi 2 ,, Yip ]'
y1 ,, y m , y *m 1 ,, y *n
 11 σ12 
 1 

, μ 

σ 21 * 
μ* 
ObservedData Likelihood:
m
L(μ,  | Y )  
i 1
2 
1
p/2
n

2 
i  m 1
||
1/ 2

exp  (y i  μ)'  1 (y i  μ) / 2
1
( p 1) / 2
| * |
1/ 2

1

exp  (y *i  μ* )' * (y *i  μ* ) / 2

16
SEMでの推測
• SEMではObserved Data Likelihood に
基づく推測をMethod of Full-Information
Maximum Likelihood (FIML)と呼んでいる
– AMOS4, EQS6, LISREL8.5, M-plus2, Mx
– 欠測のパターンが限られている場合,
多母集団の同時分析に帰着
– 欠測が一つの変数にしか起こらない場合は
2つの母集団
17
FIMLについて
•
•
•
•
計算時間がかかる
収束しない場合がある
GFIなど,出力しにくい統計量がある
欠測が多いと最尤法のよさがでないかも
18
例:6つの心理テストデータ
1.
2.
n=73の完全データを分析
30%の欠測値でのFIML
–
3.
Wordmeanが低い人のSentenceデータが欠測している
ものを作成し分析
–
–
4.
MCAR but LDではデータがなくなる
MAR
FIML と LD
Wordmeanが低い人のWordmeanデータが欠測している
ものを作成し分析
–
–
Nonignorable missing
FIML と LD
19
分析1:
6つの心理テスト
• n=73, p=6
• 完全データ(欠測値な
し)
20
分析2:
6つの心理テスト
• n=73, p=6
• ランダムに欠測(MCAR)
– 各変数について約30%の欠測
– 全データでの欠測率=120/438
– 欠測のない個体=7
• 出展:AMOSマニュアル
21
分析1:完全データの分析結果
22
分析2:MCARデータの分析結果
23
FIML vs LD
• MAR または Nonignorable missing のとき
にFIMLとLDを比較する
– 欠測が多くないならば,LDは実行可能なので
• 分析
– 「Sentence」に約30%の欠測があったとき,LD
とFIMLのパフォーマンスを比較する
– 分析3... MAR
– 分析4... Nonignorable missing
24
分析3のデータ
• 欠測のパターン:MAR
• Wordmean が13点以下の
被験者を欠測に
• 欠測数=24(/73)
• Sentence の平均
19.3⇒21.6
25
分析4のデータ
• 欠測のパターン:Nonignorable
• Sentence が17点以下の
被験者を欠測に
• 欠測数=24(/73)
• Sentence の平均
19.3⇒22.1
26
分析3:
MAR
FIML
LD
27
分析4:
Nonignorable
FIML
LD
28
分析結果のまとめ:推定値の比較
パラメータ
視覚的認知 <-F1
空間視覚
<-F1
方向認知
<-F1
文章理解
<-F2
文章完成
<-F2
語彙
<-F2
因子相関
絶対差の平均
欠測
なし
推定値
0.70
0.65
0.74
0.88
0.83
0.84
0.49
分析3:MAR
FIML
LD
推定値 絶対差 推定値 絶対差
0.70
0.00
0.69
0.02
0.66
0.00
0.79
0.13
0.73
0.00
0.67
0.06
0.90
0.02
0.86
0.02
0.69
0.14
0.64
0.18
0.82
0.02
0.72
0.12
0.50
0.01
0.31
0.18
0.03
0.10
分析4:NONIGNORABLE
FIML
LD
推定値 絶対差 推定値 絶対差
0.70
0.01
0.78
0.08
0.66
0.00
0.72
0.07
0.74
0.00
0.66
0.08
0.87
0.01
0.83
0.05
0.77
0.05
0.77
0.06
0.85
0.01
0.82
0.02
0.51
0.02
0.53
0.04
0.02
0.06
29
分析結果のまとめ:SEの比較
パラメータ
視覚的認知<-F1
空間視覚 <-F1
方向認知 <-F1
文章理解 <-F2
文章完成 <-F2
語彙
<-F2
分析3:MAR
FIML
LD
推定値
推定値
分析4:NONIGNORABLE
FIML
LD
推定値
推定値
0.14
0.27
0.23
0.32
0.15
0.28
0.19
0.31
0.15
0.32
0.20
0.45
0.11
0.31
0.14
0.41
30
まとめ
• 分析3から
– LDでも一変数に関する欠測であれば,因子分析モデ
ルに関しては適合は良いようである
• 推定値には無視できないバイアスが生じている
• LDは特に因子相関にバイアスが生じている
• 分析4から
– FIMLは理論的にはMAR用の解析方法であるが,
nonignorable の場合でもよいパフォーマンスを示して
いる
– FAの場合は,他の観測変数からの欠測の予測精度
が高いのかも
• LDの推定精度は低い
31
計画による欠測
• データ
– 2020名の黒人の父親にインタビューし,
職業と教育歴を尋ねた
– 3週間後に2020名からランダムに抽出された384名に
再度,職業と教育歴を尋ねた
– 欠測のパターン...MCAR
– 384名だけで分析してもよいが,残りのサンプル
(1672名)を上手く活かせないか?
• MARであり,欠測のパターンが少ない場合は,多
母集団の同時分析が有効
– 解析はAllison(1987)・Wothke(1999) による
32
データ
完全データ
rowtype_
n
mean
cov
cov
cov
cov
varname_ 職業1 職業2 教育1 教育2
348
348
348
348
16.62
17.39
6.65
6.75
職業1
180.9
職業2
126.77 217.56
教育1
23.96
30.2 16.24
教育2
22.86
30.47 14.36 15.13
欠測データ
rowtype_
n
mean
cov
cov
varname_ 職業1 教育1
1672 1672
16.98
6.83
職業1
217.27
教育1
25.57 16.16
33
完全データの分析:非標準解
34
完全データの分析:標準解
35
多母集団の同時分析:非標準解
完全データのグループ
欠測データのグループ
36
多母集団の同時分析:標準解
完全データのグループ
欠測データのグループ
37
specification
• 平均構造を導入
– 平均構造をいれないと,母集団ごとに
異なった平均を当てはめることになる
• 対応するすべての母数を等置する
• FIMLで分析すると
– いくつかの適合度指標が定義しにくい
38
比較
• 完全データのみの分析と多母集団の
同時分析との比較
– 推定値に大きな差はない
– 多母集団の同時分析は精度が高い
• 標準誤差が大幅に小さい
完全データのみの分析 多母集団の同時分析
推定値
標準誤差
推定値
標準誤差
V(職業)
96.592
14.407
116.609
10.194
V(教育)
23.243
3.124
14.287
0.702
Cov(職業,教育) 14.404
1.317
25.165
1.412
39
まとめ
• Missing data, nonresponse data などは無視する
のではなく,積極的に分析に取り入れる時代に
なった
• とりあえずは,MAR(Missing At Random)
– 欠測する確率が当該変数の値に依存しない
• 潜在変数にも依存しない
• 当該変数以外の観測変数には依存してもよい
• FA では,条件MARが崩れていてもFIMLでそれ
なりに分析できるかも
• 欠測を予測できる変数があるかどうか
– 経時データの分析にも有効
40
(脱落のある)経時データ
• 普通の分散分析
– セル度数が不揃いの分析
• Type II, III 平方和
• 実験データのFIML
• 欠測のあるSEM
– Latent Curve Analysis
– 初回のデータが脱落のpredictorになりえる
41
Further Topic
• MCARの検討
• Nonignorable case のモデル化
• SEMの既存の理論すべてが,missing の
ある場合に拡張できるであろう
– 多くの場合はすでにやられている
– 非正規性,ニ値データ
– 多母集団・平均構造,多段サンプリング
42
Thank you for your attention