徹底討論「主成分分析 vs 因子分析」

日本行動計量学会第30回大会
於:多摩大学
徹底討論「主成分分析 vs 因子分析」
主成分分析は因子分析ではない!
狩野裕
(大阪大学)
1
2
主成分分析(PCA)
• 観測変数の合成変数(PC)を作成
– 観測変数はPCの構成要素
• PCは結果系変数
k
PCi   lijY j
j 1
3
因子分析(FA)
• FAは外的基準しかないモデル
– 観測変数が従属変数となる同時回帰モデル
– 原因系変数である潜在変数を探索・検証する
– 観測変数は潜在変数と共変
k
Yi   ij Fj  ui
j 1
5
推定についての定義
• 「独自性(誤差) 」を評価するかしないか
– PCA
• 誤差なしで分析
– FA
• 誤差を入れて分析
PCA : S  LL'
FA : S  ' 
• 「共通性」という概念を使うならばFA
6
定義のまとめ
• 成分・因子(構成概念)が原因系か結果系か
– 結果ならばPCA
– 原因ならばFA
• 推定方法
PCA : S  LL'
FA : S  ' 
• 誤差の扱い
– PCA
• 観測変数は構成概念の構成要素であり誤差は無視可能
– FA
• 観測変数には構成概念の情報以外に誤差が含まれている
7
例:Bollen(1989, p.65)
• 人種・性別⇒差別
• 結婚・離婚・解雇・昇進⇒ストレス
• 自尊心⇒
“I feel that I am as good as the next person”
8
例:豊田(1992)
因子分析は心理学における知能の研究にしばし
ば用いられるが,それは知能(構成概念)が高い
ことが原因でテスト得点(観測変数)が高くなると
考える方が,テストの成績が高いことが原因で知
能が高くなると考えるより自然だからである.主
成分分析は経済学の各種指標にしばしば用いら
れるが,それはたとえば物価(観測変数)が高い
ことが原因で,その結果として物価指数(構成概
念)を高く設定すると考える方が,物価指数が高
いことが原因で物価が高くなると考えるより自然
だからである.
9
FAがふさわしい状況で
PCAを使うと
• 良い点
– PCAは安定している
• まずい点
– 誤差を無視した分析
• 一般にV(Y)の半分以上は誤差
– 因子負荷が不当に大きく推定される
• PCAの方が魅力的な分析結果にみえる
10
PCAのバイアス
ゲール語
英
語
歴
史
計
算
代
数
幾
何
合計
主成分分析法
最尤法・反復主因子法
F1
F2 共通性
F1
F2 共通性
0.23 0.76
0.63
0.23 0.66
0.49
0.35 0.66
0.56
0.32 0.55
0.41
0.00 0.82
0.67
0.09 0.59
0.36
0.83 0.15
0.72
0.77 0.17
0.62
0.81 0.18
0.69
0.72 0.21
0.57
0.75 0.15
0.59
0.57 0.21
0.37
2.97 2.73
3.86
2.70 2.40
2.81
SMCと最終共通性の比較
共通性の反復経過
7
主成分分析
最尤解
非反復主因子法
反復主因子法
6
共通性合計
5
4
3
2
1
0
0
1
2
3
4
5
6
反復回数
7
8
9 10 11
11
FAがふさわしい状況だが
うまく分析できないためPCAを使う
• セカンドベストという意味で許容?
– PCAよりも非反復主因子法を勧めたい
• いつもFAでうまく分析できるとは限らない
–
–
–
–
–
–
–
二値変数が含まれている
四分位相関を分析している
分布が極度に標準分布から外れている
標本サイズが十分大きくない
2変数にしか関わらない因子がある
局所独立性が崩れている
他
12
13
PCAがふさわしい状況で
FAを使うと
• あえてFAを使う意義はない
• 推定に問題が生じることがある
– 変数間の相関が高くないことがある
– 不適解
– 反復の非収束
14
テクニカルな分析
主成分負荷量
因子負荷量
   I のとき
2
l  1   / || λ ||  λ
2
2
• PCAの高めのバイアスは,因子負荷量の
2乗和大きければ緩和される
– 因子負荷量が大きい
– 項目数が多い
• 項目数が無限に多くなると一致
15
FAは不安定である
• PCAよりも複雑なので不安定
– モデル探索に向かない
• 分析過程においては安定した
非反復主因子法を利用することができる
• 最終結果においては,できれば「最尤解」,
つぎに「反復主因子解」を報告したい
16
SEMのススメ
• FAがふさわしい状況だがうまく分析できないとき
– 二値変数が含まれている.四分位相関を分析している
• SEMは二値変数を適切に分析可
– 分布が極度に標準分布から外れている
• 変数変換,変数の削除
– 標本サイズが十分大きくない
• CFAはEFAよりも安定
– 2変数にしか関わらない因子がある
• CFAで分析可
– 局所独立性が崩れている
• 誤差相関のあるCFAで分析
17
まとめ
• 因果の方向によってモデルを決める
– たとえ分析結果が似ていても,使うべき分析
方法を使う
• FAはPCAに比べて不安定である
– モデル探索の過程では,非反復主因子法・
PCAを用いてもよい
– 最終結果は最尤解・反復主因子解を報告する
– SEMの利用も考えてみる