PowerPoint プレゼンテーション

多変量データ分析B 第8回
第4章:対応分析
宿題
廣野元久
2004.6.09. SFC5限
第4章 対応分析
1/7
宿題
配布したExcelデータのシート:応用主成分-時系列変化の分析を使う
データの概要
各国の電信(上段)と全産業(下段)の特許数の推移を表したデータ.
1980年から1986年まである.
分析する上での注意点
データは計数データである(対応分析の問題)
スイスと米国の頻度は大きな違いがある
知りたいこと
全体的な推移の傾向の把握,上昇傾向あるいは下降傾向,また特別な年度が
あるかなど各国の特徴が何かつかめるか
ここでは,PCAとCAを比較して,それぞれの特徴を体感して
欲しい.
第4章 対応分析
2/7
データ
国家
USA
Japan
Germany
France
GB
Italy
Holland
Sweden
Switzerland
1986
986
653
405
189
204
31
64
25
23
1985
774
552
357
158
182
28
59
19
34
1984
771
361
347
200
158
28
61
31
19
1983
591
307
251
171
137
21
64
25
30
第4章 対応分析
1982
467
195
293
153
92
22
33
15
17
1981
404
128
319
184
86
29
30
12
30
1980
258
43
208
147
67
15
11
13
15
3/7
ヒント1:PCAでの分析(1)
変数
1986 1985 ・・・1980
サ
ン
プ
ル
USA
Japan
年度を変量,国家をサンプルとして
PCAを実行すると何がおきるか
1.年ごとに平均0分散1に標準化され,
件数の絶対的大きさはかき消される
2.年の相関は頻度の順位変化が起な
い限り非常に強いものとなる.
第1主成分で説明がつく
意味は年に関わらない
件数の順位
Switzerland
分析で相関行列を用いると列方向は標準化され計算される.
86年と85年・・・80年の特許数のばらつきは等しく扱われる
変量間に時間的な順序があるため読み誤るかも知れない
第4章 対応分析
4/7
ヒント2:PCAでの分析
(2)
今度は行と列を入れ替える. JMPを使いデータを転置する
手順1.変量の国家をラベルに指定しておく
手順2.変量は国家を除く年を選び,サンプルは電信の特許部分
のみを選ぶ
手順3.メニューのテーブルから転置を選ぶ
この状態で転置を選ぶこと
転置された
データファイル
第4章 対応分析
5/7
ヒント:PCAでの分析(3)
今回の分析では,頻度の多い国家の影響を分析により反映させる
方が現実にあっているであろう.
そこで,
JMPの主成分分析メニューで,共分散からを選ぶ
これにより,分散(共分散)の大きい変量の方が,主成分の構成に
大きい影響を与える.つまり,変量に件数の大きさの変動をウエイ
トとして掛けたことに相当する.
分析に分散共分散行列を用いるには,
変量の測定単位が揃っていて,
今回のような特殊な事情による場合以外,
使わない方がよい.
相関行列は対象の変量を平等に扱う
第4章 対応分析
6/7
ヒント4:CAでの分析
今度は対応分析する
データは以下のように作る
JMPのメニューの
分析から2変量の関係
ダイアログで変量の役割を
上記のように指定する
XとYを入れ替えても実質の
結果は変わらない
テーブルの列のつみ重ねを使え.積み重ねるのは,年度の変量
7/7
第4章 対応分析