因子数と因子回転 - 大阪大学 大学院基礎工学

因子数
---- 探索的分析の妙 ----
SASの因子数決定方法
★ 主成分分析法・主因子法(m=prin;m=prinit)
オプション指定
NFACTORS=?
MINEIGEN=?
PROPORTION=?
☆ S^*: 相関行列Sの対角要素を事前共通性で置換えた行列.(preliminary)
Reduced Correlation Matrix という
☆ 事前共通性=1のときはS=S^*(事前共通性を使わないという意味である)
オプション指定
デフォルト
意味:概略
意味:ディテール
省略形
NFACT=?
因子数を
因子数を
観測変数の数
N=?
直接指定
直接指定
事前共通性 事前共通性
S^*の大きな ?よりも大きな固有値
MIN=?
=1のとき
≠1のとき
固有値の数 の数を因子数とする
?=1
?=0
P=?
PERCENT=?
S^*の大きな
固有値の数
?=1
SASの因子数決定方法:続
★ 最尤法(m=ml)
オプション指定
NFACTORS=?
MINEIGEN=?
PROPORTION=?
☆ W^*=Ψ^{-0.5}S^*Ψ^{-0.5}: S^* に weight を施した行列.(Preliminary)
Weighted Reduced Correlation Matrix という. Ψは事前共通性
☆ 事前共通性=1のときはψ=0 となり逆数がとれない.そのときはψ=1/999 と
する
オプション指定
デフォルト
意味:概略
意味:ディテール
省略形
NFACT=?
因子数を
因子数を
観測変数の数
N=?
直接指定
直接指定
事前共通性 事前共通性
W^*の大きな ?よりも大きな固有値
MIN=?
=1のとき
≠1のとき
固有値の数 の数を因子数とする
?=999
?=0
P=?
PERCENT=?
W^*の大きな
固有値の数
?=1
Proc factor で 上記3つの基準を explicit に指定しないとき,
準で定められる因子数の中で最小ものを採用する
Proc factor で
どれかの基準を explicit に指定したとき,
SASは,これらの基
その基準が優先される
NFACTORで指定した因子数が大きすぎるとき,MINEIGEN基準が適用される
因子数k の選定法
---- 以下の客観的ルールと解釈可能性を
考慮して総合的に判断する ---• Guttman ルール関連
– 相関行列の固有値で値が1以上のものの個数(SPS
S)
– 相関行列の対角部分を事前共通性(多くはSMC)で置
き換えた行列にもとづく方法
• Scree 法
– 相関行列の固有値プロットにもとづく方法
• モデルの吟味
– 共通性の割合(累積寄与率)
– 適合度検定,AIC
Guttman ルール関連
• 相関行列 S の固有値で,値が1以上のものの個数
(SPSS)
• 相関行列 S の対角部分を事前共通性(多くの場合,
SMC)で置き換えた行列 S* にもとづく方法
– S*の固有値で,値が0以上のものの個数
– S*の固有値の大きいものからの和が初めて tr(S*) [事前
共通性の和]を超えたときの固有値番号(SAS;prinit)
– DS*Dの固有値の大きいものからの和が初めて tr[DS*D]
を超えたときの固有値番号.ここで,Dは独自性の平方根
の逆数からなる対角行列(SAS;ml)
Guttman ルールの考え方
Remember hat
t S  '   .
の対角部分に真の共通 性を代入したもの     '
......' の固有値プロットは以下のようになる
Scree Plot (固有値プロット)
真の因子数を3とする
12
10
8
固有値
6
対角部分に真の共通性
を入れる
4
2
0
-2
-4
1
2
3
4
固有値番号
5
6
Guttman ルールの実行と問題点
• Σ-Ψ=ΛΛ’の正の固有値の数が因子数.
• Σは未知なので,ΣをSで置き換える
• 真の共通性は未知なので,事前共通性 SMC,
もしくは0で置き換える(S*を作成する)
• S*の正の固有値の数を数える.
– 「事前共通性を0として正の固有値を数える」
– 「事前共通性を1として1以上の固有値を数える」
• 問題点
– 事前共通性の問題.SMCは真の共通性を過小評価し
ている.0はもっと過小評価している.
– この基準で求められる因子は真のものより少ない可
能性がある.
– Σを S で置き換えることのに問題はないのか?
因子数過小推定:視覚による説明
Scree Plot (固有値プロット)
真の因子数を3とする
12
10
8
対角部分に真の共通性
を入れる
対角部分にSMCを入れ
る
対角部分に0を入れる
固有値
6
4
2
0
-2
-4
1
2
3
4
固有値番号
5
6
Σを S で置き換えることの問題点
Scree Plot (固有値プロット)
真の因子数を3とする
14
• 本来0であるべきところが変動
するため,正の固有値数は真
対角部分に真の共通性
の因子数より多くなる.
を入れる
12
10
固有値
8
6
データでは
4
2
0
-2
-4
1
12
23
34
45
56
固有値番号
7
6
78
– 共通性の過小評価によって因
子数を少なく見積もってしまう
欠点は,上記のことで相殺する
という考え方もある.
• 固有値が0の部分は変化がな
だらかである.固有値プロット
がなだらかになる手前の固有
値番号を因子数とする方法が
ある.これを Scree法という.
変形 Guttman ルール
Scree Plot (固有値プロット)
真の因子数を3とする
14
• 固有値が0の部分の合計は正
の部分と負の部分が相殺して0
10
8
に近い.従って,すべての固有
対角部分に真の共通性
6
を入れる
値合計は,第1固有値から真の
データでは
4
因子数までの合計と近くなりそう
2
0
である.
-2
• 第1固有値からの固有値を加え
-4
1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
ていき,その和が固有値合計を
固有値番号
越えたときの固有値数を因子数
にすることが考えられる.
S * の大きい方からk個の固有値合計
>1 • すべての固有値合計= Σ-Ψ=
事前共通性の合計
ΛΛ’の対角成分の和=(事前)
となる最小のkを因子
数とする
共通性の合計
固有値
12
Guttman ルールはなぜ因子数を過小
推定するか:その数理
S  '   
0
rji   sm c1
rji  c1
rji 

 
 

 Ip  





 
 
  '
rij
0   rij
sm cp  rij
c p 

であるから,
ciは真の共通性
「の1より大なる固有値の数」 「
  I pの0より大なる固有値の数」
0
 sm c1
rji 
rji 






の0より大なる固有値
の数




の0より大なる固有値の数
rij
 rij
0 
sm cp 


c1
rji 




  ' の0より大なる固有値の数  真の因子数
rij
c p 

・実際計算するときに
はΣは未知であるから,相関行列Sで置き換えることになる.
・相関行列の1より大
なる固有値の数で因子 数を決めると因子数を過小推定する可能性が ある.
・相関行列の対角部分をSMCで置き換えた
ものは「過小推定」を
改善する.
6科目の例
6科目のデータ(相関行列 S)
X1
X2
X3
X4
X5
X6
ゲール語 1.000
英語 0.439 1.000
歴史 0.410 0.351 1.000
計算 0.288 0.354 0.164 1.000
代数 0.329 0.320 0.190 0.595 1.000
幾何 0.248 0.329 0.181 0.470 0.464 1.000
6科目のデータ(事前共通性を代入 S*)
X1
X2
X3
X4
X5
X6
0.300
0.439 0.297
0.410 0.351 0.206
0.288 0.354 0.164 0.420
0.329 0.320 0.190 0.595 0.418
0.248 0.329 0.181 0.470 0.464 0.295
固有値番号1
2
3
4
55
6
固有値 2.73 1.13 0.62 0.60 0.52 0.40
Preliminary Eigenvalues: Total = 6 Average = 1
1
2
3
4
5
6
2.07 0.43 -0.07 -0.12 -0.17 -0.21
Preliminary Eigenvalues: Total = 1.9354749 Average = 0.322
Psi^{-1/2}S*Psi^{-1/2}
3.20 0.63 -0.11 -0.17 -0.25 -0.33
Preliminary Eigenvalues: Total = 2.96966246 Average = 0.49
SASの出力(反復主因子法 prinit)
★
Initial Factor Method: Iterated Principal Factor Analysis
Prior Communality Estimates: SMC
X1
X2
X3
X4
X5
X6
0.300104 0.296586 0.206095 0.419698 0.417752 0.295240
Preliminary Eigenvalues:
Eigenvalue
Difference
Proportion
Cumulative
Eigenvalue
Difference
Proportion
Cumulative
Total = 1.9354749 Average = 0.32257915
1
2
3
2.0729
0.4327
-0.0731
1.6402
0.5058
0.0466
1.0710
0.2236
-0.0378
1.0710
1.2946
1.2568
4
5
6
-0.1197
-0.1723
-0.2051
0.0526
0.0329
-0.0618
-0.0890
-0.1060
1.1950
1.1060
1.0000
1 factors will be retained by the PROPORTION criterion.
SASの出力(最尤法ML)
★
Initial Factor Method: Maximum Likelihood
Prior Communality Estimates: SMC
X1
X2
X3
X4
X5
0.300104 0.296586 0.206095 0.419698 0.417752
Preliminary Eigenvalues:
Eigenvalue
Difference
Proportion
Cumulative
Eigenvalue
Difference
Proportion
Cumulative
X6
0.295240
Total = 2.96966246 Average = 0.49494374
1
2
3
3.1973
0.6268
-0.1084
2.5705
0.7352
0.0589
1.0767
0.2111
-0.0365
1.0767
1.2877
1.2512
4
5
6
-0.1673
-0.2468
-0.3319
0.0795
0.0851
-0.0563
-0.0831
-0.1118
1.1949
1.1118
1.0000
1 factors will be retained by the PROPORTION criterion.
Scree 法
固有値プロットにおい
て,固有値の減少量
がなだらかになる直前
の固有値番号を因子
数とする
種々の固有値プロット
X1
X2
X3
X4
X5
X6
相関行列 S
ゲール語 英語
1.000
0.439
0.439
1.000
0.410
0.351
0.288
0.354
0.329
0.320
0.248
0.329
歴史
0.410
0.351
1.000
0.164
0.190
0.181
計算
0.288
0.354
0.164
1.000
0.595
0.470
代数
0.329
0.320
0.190
0.595
1.000
0.464
幾何
0.248
0.329
0.181
0.470
0.464
1.000
reduced
ゲール語
0.300
0.439
0.410
0.288
0.329
0.248
correlation matrix
英語
歴史
0.439
0.410
0.297
0.351
0.351
0.206
0.354
0.164
0.320
0.190
0.329
0.181
S^*
計算
0.288
0.354
0.164
0.420
0.595
0.470
代数
0.329
0.320
0.190
0.595
0.418
0.464
幾何
0.248
0.329
0.181
0.470
0.464
0.295
固有値
Total
S
分析方法と事前共通性
SASによる因子数
1
2
3
4
5
6
2.7329
1.1298
0.6152
0.6012
0.5248
0.3962
PCA
Prior Communality Estimates: ONE
2 factors will be retained by the MINEIGEN criterion
Average
6
1
S^*
分析方法と事前共通性
SASによる因子数
2.0729
0.4327
-0.073
-0.12
-0.172
-0.205
PCA
Prior Communality Estimates: SMC
1 factors will be retained by the PROPORTION criterion
1.9355
0.3226
Psi^{-.5}S^*Psi^{-.5}
分析方法と事前共通性
SASによる因子数
3.1973
0.6268
-0.108
-0.167
-0.247
-0.332
ML
Prior Communality Estimates: SMC
1 factors will be retained by the PROPORTION criterion
2.9697
0.4949
種々の固有値プロット:グラフ
固有値プロット
3.5
3
固有値の大きさ
2.5
2
S
S^*
Psi^{-.5}S^*Psi^{-.5}
1.5
1
0.5
0
1
2
3
4
-0.5
-1
固有値番号
5
6
“Psi^{-.5}S^*Psi^{-.5}”
を使う意味
• 適合度(カイ2乗)統計量の値と密接な関
係がある
 2  n minln '   ln S  trS ('  ) 1  p 
(  , )
p

1 
2
 n  ln(1  d i ) 

n
d

i

1  di 
i  k 1 
i  k 1
ここで、
d iは 1/ 2 ( S   ) 1/ 2   1/ 2 S * 1/ 2の固有値。
p
ただし、
は最終の独自性(I  は最終共通性)。
モデルの吟味による
因子数の選択
• 共通性の吟味
– 各変数の共通性
– 共通因子が説明する
割合(累積寄与率)
• 適合度検定
• Tucker-Lewis の指標
モデルの吟味(SAS) 2因子モデル
1因子モデル
Convergence criterion satisfied.
Significance tests based on 220 observations:
Convergence criterion satisfied.
Significance tests based on 220 observations:
Test of H0: No common factors.
vs HA: At least one common factor.
Test of H0: No common factors.
vs HA: At least one common factor.
Chi-square = 310.841
Chi-square = 310.841
df = 15
Prob>chi**2 = 0.0001
df = 15
Prob>chi**2 = 0.0001
Test of H0: 1 Factors are sufficient.
vs HA: More factors are needed.
Test of H0: 2 Factors are sufficient.
vs HA: More factors are needed.
Chi-square = 51.996
Chi-square = 2.335
df = 9
Prob>chi**2 = 0.0001
Chi-square without Bartlett's correction = 52.840208721
Akaike's Information Criterion = 34.840208721
Schwarz's Bayesian Criterion = 4.2975608035
Tucker and Lewis's Reliability Coefficient = 0.7577767173
Prob>chi**2 = 0.6745
Chi-square without Bartlett's correction = 2.3799173231
Akaike's Information Criterion = -5.620082677
Schwarz's Bayesian Criterion = -19.19459286
Tucker and Lewis's Reliability Coefficient = 1.0211096922
Variance explained by each factor
Variance explained by each factor
FACTOR1
Weighted
3.790389
Unweighted 2.105587
Final Communality Estimates and Variable Weights
Total Communality: Weighted = 3.790389
Unweighted = 2.105587
df = 4
FACTOR1 FACTOR2
Weighted
4.614155 1.142786
Unweighted 2.209431 0.605674
Final Communality Estimates and Variable Weights
Total Communality: Weighted = 5.756941
Unweighted = 2.815105
X1
X2
X3
Comm. 0.244586 0.288007 0.121284
Weight 1.324012 1.404759 1.138185
X1
X2
X3
Comm. 0.489826 0.405929 0.356272
Weight 1.960113 1.683306 1.553451
X4
X5
X6
Comm. 0.534302 0.538613 0.378794
Weight 2.146855 2.166915 1.609663
Comm.
Weight
X4
0.622633
2.649925
X5
0.568649
2.318306
X6
0.371796
1.591840
出力の解説:2因子モデル
Convergence criterion satisfied.
Significance tests based on 220 observations:
Test of H0: No common factors.
vs HA: At least one common factor.
Chi-square = 310.841
df = 15
Prob>chi**2 = 0.0001
Test of H0: 2 Factors are sufficient.
vs HA: More factors are needed.
Chi-square = 2.335
df = 4
Prob>chi**2 = 0.6745
Chi-square without Bartlett's correction = 2.3799173231
Akaike's Information Criterion = -5.620082677
Schwarz's Bayesian Criterion = -19.19459286
Tucker and Lewis's Reliability Coefficient = 1.0211096922
Variance explained by each factor
Weighted
Unweighted
FACTOR1
FACTOR2
4.614155 1.142786
2.209431 0.605674
Final Communality Estimates and Variable Weights
Total Communality: Weighted = 5.756941
Unweighted = 2.815105
X1
X2
X3
Comm. 0.489826 0.405929 0.356272
Weight 1.960113 1.683306 1.553451
Comm.
Weight
X4
0.622633
2.649925
X5
0.568649
2.318306
X6
0.371796
1.591840
H 0 :   対角行列
vs H1 : に構造を仮定しない
TI  (n  1  (2 p  5) / 6)ln | Diag(S ) |  ln | S |  310.841
TI ~ d2I
where d I  p ( p  1) / 2  15
H 0 :   '  vs H1 : に構造を仮定しない
Tk  (n  1  (2 p  5) / 6  2k / 3) ln | ˆ |  ln | S |  t r[ˆ 1 ( S  ˆ )]  2.335
Tk ~ d2k




where d k  ( p  k ) 2  ( p  k ) / 2  4


Tk '  (n  1) ln | ˆ |  ln | S |  t r[ˆ 1 ( S  ˆ )]  2.3799...
AIC  Tk '2d k  2.3799 2  4  5.6201....
Schwarz' s AIC  Tk ' ln(n)d k  2.3799 ln(220)  4  19.1946...
TLRC  1 
Tk / d k  1 TI / d I  Tk / d k

 1.02111...
TI / d I  1
TI / d I  1