多変量データ分析B 第8回 第4章:対応分析 宿題 廣野元久 2004.6.09. SFC5限 第4章 対応分析 1/7 宿題 配布したExcelデータのシート:応用主成分-時系列変化の分析を使う データの概要 各国の電信(上段)と全産業(下段)の特許数の推移を表したデータ. 1980年から1986年まである. 分析する上での注意点 データは計数データである(対応分析の問題) スイスと米国の頻度は大きな違いがある 知りたいこと 全体的な推移の傾向の把握,上昇傾向あるいは下降傾向,また特別な年度が あるかなど各国の特徴が何かつかめるか ここでは,PCAとCAを比較して,それぞれの特徴を体感して 欲しい. 第4章 対応分析 2/7 データ 国家 USA Japan Germany France GB Italy Holland Sweden Switzerland 1986 986 653 405 189 204 31 64 25 23 1985 774 552 357 158 182 28 59 19 34 1984 771 361 347 200 158 28 61 31 19 1983 591 307 251 171 137 21 64 25 30 第4章 対応分析 1982 467 195 293 153 92 22 33 15 17 1981 404 128 319 184 86 29 30 12 30 1980 258 43 208 147 67 15 11 13 15 3/7 ヒント1:PCAでの分析(1) 変数 1986 1985 ・・・1980 サ ン プ ル USA Japan 年度を変量,国家をサンプルとして PCAを実行すると何がおきるか 1.年ごとに平均0分散1に標準化され, 件数の絶対的大きさはかき消される 2.年の相関は頻度の順位変化が起な い限り非常に強いものとなる. 第1主成分で説明がつく 意味は年に関わらない 件数の順位 Switzerland 分析で相関行列を用いると列方向は標準化され計算される. 86年と85年・・・80年の特許数のばらつきは等しく扱われる 変量間に時間的な順序があるため読み誤るかも知れない 第4章 対応分析 4/7 ヒント2:PCAでの分析 (2) 今度は行と列を入れ替える. JMPを使いデータを転置する 手順1.変量の国家をラベルに指定しておく 手順2.変量は国家を除く年を選び,サンプルは電信の特許部分 のみを選ぶ 手順3.メニューのテーブルから転置を選ぶ この状態で転置を選ぶこと 転置された データファイル 第4章 対応分析 5/7 ヒント:PCAでの分析(3) 今回の分析では,頻度の多い国家の影響を分析により反映させる 方が現実にあっているであろう. そこで, JMPの主成分分析メニューで,共分散からを選ぶ これにより,分散(共分散)の大きい変量の方が,主成分の構成に 大きい影響を与える.つまり,変量に件数の大きさの変動をウエイ トとして掛けたことに相当する. 分析に分散共分散行列を用いるには, 変量の測定単位が揃っていて, 今回のような特殊な事情による場合以外, 使わない方がよい. 相関行列は対象の変量を平等に扱う 第4章 対応分析 6/7 ヒント4:CAでの分析 今度は対応分析する データは以下のように作る JMPのメニューの 分析から2変量の関係 ダイアログで変量の役割を 上記のように指定する XとYを入れ替えても実質の 結果は変わらない テーブルの列のつみ重ねを使え.積み重ねるのは,年度の変量 7/7 第4章 対応分析
© Copyright 2024 ExpyDoc