多変量データ分析B 第8回 第4章:対応分析 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 2004.6.09. SFC5限 第4章 対応分析 1/40 第4章 対応分析 対応分析 目標 対応分析とは何ができる道具かを理解しよう 対応分析のコンピュータ出力を 読み取れる力を身につけよう 対応分析のからくりと前提を理解しよう 課題を通じて対応分析の使い手になろう 第4章 対応分析 2/40 適用例と解析ストーリー データ 10人の児童の得意科目,○が得意と答えた科目 注意:概要を理解するためにサンプル数が10と少ない. 児童の得意科目データ 生 徒 1 国 語 x1 社 会 x2 算 数 x3 ○ ○ 3 ○ 4 ○ 音 楽 x5 ○ 2 図 工 x6 ○ ○ ○ ○ ○ Q2.変数の属性は何か ○ ○ 7 9 10 ○ Q1.変数は何か ○ 6 ○ 体 育 x7 ○ ○ 5 8 理 科 x4 ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ Q3.サンプルは何か ○ ○ 第4章 対応分析 3/40 適用例と解析の目的 クロス集計表の分析を詳細に行う ・行と列のカテゴリー数の多いものが対象 ・行と列のカテゴリーの結びつきの強いものを選ぶ ・評価者の反応パターンを分類・要約する 質的変数の主成分分析に相当する 対応分析の類似手法には様々なものがあるが本質は同じ ・数量化3類(林),双対尺度法(西里) ・コレスポンデンス分析(ベンゼクリ) ・交互平均法(ガウチ) などなど とにかく様々な名前で出て来る.これは60年代,各国の各学術 分野で必要に迫られて,様々な研究者が開発した経緯による. 非常に稀なケース 第4章 対応分析 4/40 対応分析の解析ストーリー 1)第i変数に数量xi,第jサンプルに数量yjを割り当て,反応のある (○印)ところに数量(xi,yj)を与えて相関係数を考える. 2)相関係数が最大になるような数量(xi,yj)を求める過程で得られる 行列の固有値を求める 最大固有値は常に1となるので,それを除外して,第2固有値と 対応する固有ベクトルを求めて成分1のスコアを求める 同様に,第3固有値以降を求める 3)寄与率と累積寄与率を求める.固有値は1より小さいので,慣例 では累積寄与率が80%までを解釈することになるが,多くの場合 第1,2成分の解釈しかしない. 成分の解釈は主成分分析に準じて行う 4)固有ベクトルに基づいた,スコアを布置して,要約と分類を行う 5/40 第4章 対応分析 基本的な考え方と解析方法 1)基本的考え方 変数は名義尺度であるから行と列は自由に入れ替える ことができる.そこで対角に反応(○)が集まるような並べ替え を行う 2)成分の導出 行と列に適当な値(1~7,1~10など)を与えると行平均と列平均 との間で矛盾が起きる.そこで,相関が最大になり,かつ合理的な 数量を与えるように固有値分解を行う 3)寄与率および累積寄与率 主成分分析に準じて行う 4)変量スコアとサンプルスコアの散布図 散布図から要約,分類を行う 第4章 対応分析 6/40 追加:並べ替え Q1:以下のデータは,行と列に関連があるか Q2:もし関連があると思われるならば,○が対角線に並ぶようにせよ. 好物 豆腐 ハンバーグ 野菜煮つけ 生卵 納豆 お好焼き 天蕎麦 ハンバーガ 餃子 小島 36歳 東日本 ○ ○ ○ 長谷部 24歳 西日本 ○ ○ ○ ○ 大井 54歳 西日本 ○ ○ 奥 26歳 東日本 ○ ○ ○ ○ 吉川 33歳 西日本 ○ ○ ○ 岡本 46歳 東日本 ○ ○ ○ ○ 川原 22歳 東日本 ○ ○ ○ 永田 44歳 西日本 ○ ○ ○ ○ 氏名 年齢 出身地 解答: 第4章 対応分析 7/40 基本的考え方 前提 同じような能力,興味を持っている児童たち(サンプル)は同じような 科目を得意とする(反応する)であろう 狙い ・児童と同じような得意科目を持つグループに分類 ・科目を同じような能力.興味を持つ児童たちから得意とされる グループに分類 生データ サンプルNo A B 1 ○ 2 ○ 3 4○ 列の並べ替え C ○ ○ ○ サンプルNo B 1○ 2○ 3 4 C A ○ ○ ○ ○ 行の並べ替え サンプルNo B 2○ 1○ 3 4 C ○ ○ ○ A ○ 並べ替えにより似たものが近くに,異なるものが遠くに配置される 8/40 第4章 対応分析 基本的考え方 行と列の並べ替え後 -3 -2 主観スコア -5 -4 -3 -2 -1 0 1 2 3 4 -1 生 徒 音 楽 x1 図 工 x2 算 数 x3 2 ○ ○ ○ 6 ○ ○ 7 ○ ○ 9 ○ 理 科 x4 1 国 語 x5 2 社 会 x6 ○ ○ ○ ○ ○ ○ 10 ○ ○ ○ ○ ○ ○ ○ 5 データの頻度により 客観的なスコアを 求めるには どうすればよいか? ○ ○ 3 体 育 x7 ○ 4 8 3 ○ ○ 1 0 ○ ○ 相関係数最大化 問題 ○ ○ 第4章 対応分析 ○ 9/40 4.1 クロス集計表から対応分析へ 2つの質的変量で,共にカテゴリ数が多い場合 ピアソン検定で有意であっても どのカテゴリ同士の関連が強いか どのカテゴリ間に対立関係がるか知りたい 対応分析 ・行と列の区別はない ・どちらも結果と結果の関係である 第4章 対応分析 10/40 4.1.1 車の調査 1/2 二変量の関係でクロス集計を行い,ピアソン検 定をする •ªŠ„•\ 対応分析を クリック ŽY ¶ ‘ クリック ŒŸ’è —vˆö ƒ‚ƒfƒ‹ Œë · ‘S‘Ì( C ³ Ï‚Ý) N ŒŸ’è –Þ“x”ä Pearson Ž©—R“x(-1)*‘Î ” –Þ“x R2 æ (U) 4 36.30962 0.1200 297 266.21700 301 302.52662 303 ƒTƒCƒY “x ” ¬Œ^ ‘åŒ^ ’†Œ^ ‘S‘Ì% —ñ% s% ƒˆ [ ƒ ƒbƒp 19 4 17 40 6.27 1.32 5.61 13.20 13.87 9.52 13.71 47.50 10.00 42.50 “ú–{ 92 2 54 148 30.36 0.66 17.82 48.84 67.15 4.76 43.55 62.16 1.35 36.49 •Ä ‘ 26 36 53 115 8.58 11.88 17.49 37.95 18.98 85.71 42.74 22.61 31.30 46.09 137 42 124 303 45.21 13.86 40.92 ƒJƒC2 æ p’l(Prob>ChiSq) 72.619 <.0001 66.313 <.0001 第4章 対応分析 11/40 -0. 5 ¬Œ^ “ú–{ 4.1.1 車の調査 2/2 -1. 0 -1. 0 -0. 5 . 0 .5 1.0 c2 ¶ŽY ‘ ƒTƒCƒY Ú × “ÁˆÙ’l Šµ « ”ä—¦ —Ý Ï 0.46738 0.21844 0.9981 0.9981 0.02029 0.00041 0.0019 1.0000 ¶ŽY ‘ c1 c2 ƒTƒCƒY c1 c2 ƒˆ [ ƒ ƒbƒp -0.0991 0.0519 ¬Œ^ -0.405 -0.0138 “ú–{ -0.4256 -0.0095 ‘åŒ^ 1.004 -0.0256 •Ä ‘ 0.5822 -0.0058 ’†Œ^ 0.107 0.0239 ‘Ήž•ª Í ‘åŒ^ •Ä ‘ 1.0 c1 0.5 ’†Œ^ ƒˆ [ ƒ ƒbƒp ¬ Œ^ “ú–{ 0.0 -0. 5 -1. 0 -1. 0 -0. 5 . 0 .5 1.0 c2 ¶ŽY ‘ Ú × “ÁˆÙ’l 0.46738 0.02029 ¶ŽY ‘ ƒˆ [ ƒ ƒbƒp “ú–{ •Ä ‘ ƒTƒCƒY Šµ « ”ä—¦ —Ý Ï 活用術0.21844 4.1:CA 0.9981 の対象となるデータ 0.9981 0.00041 0.0019 1.0000 c1 c2 ƒTƒCƒY c1 c2 -0.0991 0.0519 ¬Œ^ -0.405 -0.0138 -0.4256 -0.0095 ‘åŒ^ 1.004 -0.0256 0.5822 -0.0058 ’†Œ^ 0.107 0.0239 CA は,クロス集計表の分析を詳細に行うものであるから ①行と列のカテゴリ数の多いものを対象とする. ②行と列のカテゴリの結びつきが強いものを対象とする. 活用術 4.2:CAによるカテゴリの並べ替え 並替えにより,似たものが近くに,異なるものが遠くに配置される.行同士, 列同士,行と列の反応パターンの分類が行われる. 第4章 対応分析 12/40 4.1.2 クロス集計表の並べかえ 表4.1 8人の好物 氏名 年齢 出身地 小島 長谷部 太田 奥 吉川 岡本 川原 永田 36歳 24歳 54歳 26歳 33歳 46歳 22歳 44歳 東日本 西日本 西日本 東日本 西日本 東日本 東日本 西日本 氏名 年齢 出身地 太田 岡本 永田 小島 吉川 奥 長谷部 川原 54歳 46歳 44歳 36歳 33歳 26歳 24歳 22歳 西日本 東日本 西日本 東日本 西日本 東日本 西日本 東日本 氏名 年齢 出身地 太田 岡本 永田 小島 吉川 奥 長谷部 川原 54歳 46歳 44歳 36歳 33歳 26歳 24歳 22歳 西日本 東日本 西日本 東日本 西日本 東日本 西日本 東日本 豆腐 ハンバーグ野菜煮つけ 〇 生卵 好物 納豆 〇 お好焼き 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 ハンバーグ野菜煮つけ 〇 〇 〇 生卵 好物 納豆 お好焼き 〇 〇 〇 〇 好物 納豆 天蕎麦 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 天蕎麦 ハンバーガ 〇 〇 〇 〇 〇 〇 〇 お好焼き 生卵 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 表4.3 8人の好物(行列の並替え) 餃子 〇 〇 〇 〇 〇 野菜煮つけ 〇 〇 〇 〇 〇 〇 〇 表4.2 8人の好物(行の並替え) 豆腐 〇 餃子 〇 〇 〇 豆腐 〇 天蕎麦 ハンバーガ 〇 〇 餃子 〇 〇 〇 〇 〇 ハンバーグハンバーガ 〇 〇 第4章 対応分析 〇 〇 〇 〇 〇 〇 13/40 4.1.3 スコアの計算 表4.4 A1 A2 A3 B1 ○ スコアの算出のためのパターン B2 ○ B3 ○ ○ ○ B4 B1 B2 A1 (x 1, y 1) (x 2, y 1) → A2 ○ A3 B4 (x 2, y 2) (x 3, y 2) (x 3, y 3) (x 4, y 3) スコアの計算 いま,どのような得点を与えればよいか 分からないから 記号を用いて表すことにする 第4章 対応分析 B3 x x1 y y1 x2 y1 x2 y2 x3 x3 y2 y3 x4 y3 14/40 成分の導出 1/8 x x1 y y1 x2 y1 x2 y2 x3 x3 y2 y3 x4 y3 ○が対角にうまく集まるようにすること =左の表のx,yの相関係数を最大にすること 相関係数は位置に対して普遍であるから 計算が簡単になるように平均値をゼロとおく x1 2 x2 2 x3 x4 x 0 , 6 2 y1 2 y2 2 y3 y 0 6 この条件に基づいて相関係数を計算する 6 6 6 i 1 i 1 i1 S xy xi yi xi yi / 6 r S xy S xx S yy x1 y1 x2 y1 x2 y2 x3 y2 x3 y3 x4 y3 Sxx x12 2x22 2x32 x42 S yy 2 y12 2 y22 2 y32 第4章 対応分析 15/40 成分の導出 2/8 x1 2x2 2x3 x4 0 , 2 y1 2 y2 2 y3 0 変換(計算の見通しをよくするため) u1 1x1 u2 2 x2 u3 2 x3 v1 2 y1 v2 2 y2 v3 2 y3 u4 1x4 u3 v2 u3 v3 u4 v3 u1 v1 u2 v1 u2 v2 S xy 1 2 2 2 2 2 2 2 2 2 1 2 1 2u1v1 u2 v1 u2 v2 u3v2 u3v3 2u4v3 2 2 2 2 2 2 2 2 Sxx u1 u2 u3 u4 1 S yy v1 v2 v3 1 相関係数を最大にするに当り,制約条件が必要である. それは,行と列の変動を1に固定するである 意味:行列の各1単位あたり,どの位の結びつきか? 第4章 対応分析 16/40 成分の導出 3/8 例によって,ラグランジュ法を使う f v1 , , v3 , w1 , , w4 , , S xy それぞれ,偏微分してゼロとおく 2 u1v1 u12 0 2 1 1 u2 v1 u2 v2 u22 0 2 2 1 1 u3v2 u3v3 u32 0 2 2 2 u4 v3 u42 0 2 1 2 2 S xx 1 S yy 1 2 u1で偏微分し て u1を 掛ける u2で偏微分し て u2を 掛ける u3で偏微分し て u3を 掛ける u4で偏微分し て u4を 掛ける 2u1v1 u2v1 u2v2 u3v2 u3v3 2u4v3 u12 u22 u32 u42 0 第4章 対応分析 Sxy =1 17/40 成分の導出 4/8 例によって,ラグランジュ法を使う f v1 , , v3 , w1 , , w4 , , S xy 2 S xx 1 S yy 1 2 それぞれ,偏微分してゼロとおく 2 1 u1v1 u2 v1 v12 0 2 2 1 1 u2 v2 u3v2 v22 0 2 2 1 2 u3v3 u4v3 w32 0 2 2 1 2 v1で偏微分し て v1を 掛ける v2で偏微分し て v2を 掛ける v3で偏微分し て v3を 掛ける 2u1v1 u2v1 u2v2 u3v2 u3v3 2u4v3 v12 v22 v32 0 =1 第4章 対応分析 S xy 18/40 成分の導出 5/8 2 u1v1 u12 0 2 1 1 u2 v1 u2 v2 u22 0 2 2 1 1 u3v2 u3v3 u32 0 2 2 2 u4 v3 u42 0 2 2 1 u1v1 u2v1 v12 0 2 2 1 1 u2v2 u3v2 v22 0 2 2 1 2 u3v3 u4v3 w32 0 2 2 u1 2 v1 2 rxy u2 v1 v2 2rxy u3 v2 v3 2rxy u4 2 v3 2 rxy 2 1 u1v1 u2 v1 v12 0 2 2 1 1 u2 v2 u3v2 v22 0 2 2 1 2 u3v3 u4v3 w32 0 2 2 2u1 u2 2rxy v1 v2 v3 u2 u3 2rxy u3 2u4 2rxy 2 2 1 v v v1 1 2 rxy v1 0 2 2rxy 2 2rxy 2 1 v1 v1 v2 rxy2 v1 4 4 1 v1 v2 1 v2 v3 1 1 rxy v2 0 v1 v2 v2 v3 rxy2 v2 2 2rxy 2 2rxy 4 4 1 2 1 v2 v3 2 2 v2 v3 v3 rxy2 v2 v3 rxy v3 0 4 4 2 2rxy 2 2rxy 第4章 対応分析 19/40 成分の導出 6/8 行列で表すと 3 / 4 1/ 4 0 v1 v1 1/ 4 2 / 4 1/ 4 v r 2 v 2 xy 2 0 1/ 4 3 / 4 v3 v3 結局,固有値問題に帰着する.これを解いてスペクトル分解は 以下のようになる rxy は相関係数であるから,その2乗は1が最大である いま, v1, v2 , v3 1,1,1 とするのが相関最大解 元のyに戻すと y1 , y2 , y3 1/ 2,1/ 2,1/ 2 制約条件の y 0 を満たさないから不適解である 必ず計算過程で固有値=1の不適解がでる 第4章 対応分析 20/40 成分の導出 7/8 第2固有値 第2固有値rxy2 3 / 4に対応し た rxy v1 , v2 , v3 1, 0, 1 これは 3 こ れは相関係数と なる . 4 y1 , y2 , y3 1/ 2, 0, 1/ 2 y 0 を満たす v,y の値からu,x が求まる 2 2 2 2 , , u1 , u2 , u3 , u4 , 3 3 2 3 2 3 2 2 2 2 x1 , x2 , x3 , x4 , , , 3 6 6 3 第4章 対応分析 これは x 0 を満たす 21/40 成分の導出 8/8 成分1だけで,変数やサンプルの分類を十分行えない場合には 成分2や成分3などを考える 一般に,成分はmin(変数,サンプル)-1個求めることができる 固有値を分解(スペクトル分解)しているので 成分は互いに直交(無関係)している 成分2のスコアも同様に計算可能であるが,ここでは省略 第4章 対応分析 22/40 4.1.4 8人の好物の分析 1/4 表4.1 氏名 年齢 出身地 小島 長谷部 太田 奥 吉川 岡本 川原 永田 36歳 24歳 54歳 26歳 33歳 46歳 22歳 44歳 東日本 西日本 西日本 東日本 西日本 東日本 東日本 西日本 豆腐 8人の好物 ハンバーグ野菜煮つけ 〇 〇 生卵 好物 納豆 〇 〇 お好焼き 〇 天蕎麦 ハンバーガ 〇 〇 餃子 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 8人の好物の分析をJMPでおこなってみよう 二変量の関係でモザイク図はみるが 各セルの最大度数は1なので,クロス集計表およびピアソン 検定は無視する 直ちに対応分析を行う 第4章 対応分析 23/40 4.1.4 8人の好物の分析 2/4 ‘Ήž•ª Í ƒ‚ƒUƒCƒN } 4 1.00 3 ‘¾“c 2 –ì ؎ς‚¯ 1 ¬“ ‡ ‹g ì 0.50 0.25 ‚¨ D Ä‚« ƒn ƒ“ƒo [ ƒ O“V‹¼”ž “¤•… ƒn ƒ“ƒo [ƒK ¶— ‘ ”[“¤ –ì Ø ŽÏ ‚‚¯ éLŽq ‰ª–{ ‰i“c “V‹¼”ž éLŽq ¬“‡ ‹g 삨 ¶D —‘ ”[“¤ Ä’·’J•” ‚« ‰œ ƒnƒ“ƒo [ ƒO 쌴 ƒnƒ“ƒo [ ƒK 0 ‰ ª–{ -1 ‰œ -2 ‰ i“c 0.00 “¤ •… ‘¾ “c ìŒ ´ c1 Ž –¼ 0.75 ’·’J•” -3 -4 -4 -3 -2 -1 0 1 2 3 4 c2 D•¨ D•¨ Ž –¼ 同時布置図(右)から豆腐と太田氏が外れている モザイク図から豆腐に付けたのは太田氏しかいない そこで,豆腐と太田氏を除外して再分析する 第4章 対応分析 24/40 4.1.4 8人の好物の分析 3/4 Ú × “ÁˆÙ’l Šµ « ”ä—¦ —Ý Ï 0.83433 0.69611 0.3826 0.3826 0.68791 0.47322 0.2601 0.6427 0.62347 0.38872 0.2136 0.8563 0.39337 0.15474 0.0850 0.9414 0.29712 0.08828 0.0485 0.9899 0.12343 0.01523 0.0084 0.9983 0.05605 0.00314 0.0017 1.0000 D•¨ c1 c2 c3 Ž –¼ ‚¨ D Ä ‚« -0.316 0.144 -0.737 ‰i“c ƒnƒ“ƒo [ ƒK -0.789 1.292 0.430 ‰œ ƒnƒ“ƒo [ ƒO -0.681 0.851 0.458 ‰ª–{ ¶—‘ -0.266 0.203 -1.154 ‹g ì “V‹¼”ž -0.016 -0.715 0.210 ¬“‡ “¤ •… 3.226 1.173 0.318 쌴 ”[“¤ -0.286 -0.341 0.868 ‘¾ “c –ì ؎ς‚¯ 1.265 -0.063 -0.071 ’·’J•” éLŽq -0.045 -1.026 -0.079 c1 0.200 -0.389 0.275 -0.250 -0.139 -0.701 2.692 -0.615 c2 -0.157 -0.022 -0.780 -0.329 -1.009 0.873 0.807 0.905 c3 -0.703 0.320 0.372 -1.054 0.534 0.939 0.199 -0.402 活用術 4.3:CA による外れ値 同時布置図で,飛び離れたスコアを持つカテゴリがあると成分の解釈を不当 に歪める.できるならば分析から除外する.外れ値は,行または列のカテゴリ の小計に,極端に小さい値がある場合に起きる. 第4章 対応分析 25/40 4.1.4 8人の好物の分析 4/4 ‘Î ‰ž•ª Í ヤング Ú × “Á ˆÙ’l Šµ « ”ä—¦ —Ý Ï 0.72007 0.51850 0.4195 0.4195 0.62632 0.39227 0.3173 0.7368 ì Œ´ ƒnƒ“ƒo [ ƒO ’·’J•” 0.42921 0.18422 0.1490 0.8858 1.0 0.34685 0.12030 0.0973 0.9832 0.13291 0.01766 0.0143 0.9974 0.5 0.05617 0.00315 0.0026 1.0000 ‚¨ D Ä ‚« ‰œ ¶—‘ D •¨ c1 c2 c3 Ž –¼ 0.0 ”[“¤ ‹g ì ‚¨ D Ä ‚« 0.179 0.699 -0.0063 ‰i “c ‰i “c ƒnƒ“ƒo [ ƒK 1.450 -0.278 0.0536 ‰œ -0.5 “V‹¼”ž ¬“‡ ƒnƒ“ƒo [ ƒO 1.044 -0.363 -0.1255 ‰ª–{ ‰ª–{éLŽq–ì ؎ς‚¯ ¶ —‘ 0.161 1.109 0.1528 ‹g ì -1.0 “V‹¼”ž -0.632 -0.283 -0.2998 ¬ “‡ -1.0 -0.5 .0 .5 1.0 1.5 ”[“¤ -0.108 -0.889 0.0752 ì Œ´ c2 アダルト 東日本 西日本 –ì ؎ς‚¯ -0.872 0.234 -0.9475 ’·’J•” D•¨ Ž –¼ éLŽq -0.840 -0.086 0.8765 ƒnƒ“ƒo [ ƒK c1 1.5 図4.5 c1 -0.405 0.167 -0.852 -0.232 -0.732 1.104 0.983 c2 c3 0.7021 -0.6412 -0.3338 -0.2076 -0.4087 -0.1722 0.9165 0.7945 -0.6696 0.5063 -0.8141 0.0026 0.4658 0.0434 第2回目のCA結果 活用術 4.4:布置図の読み方 布置図の両端にプロットされたカテゴリで軸の解釈を行う.成分は頻度の割 合のパターンを強調するので,カテゴリによる頻度の割合に変化がないものは カテゴリ小計の大小に関わらず中心に集まる. 第4章 対応分析 26/40 4.2 対応分析活用指針 4.2.1 対応分析の目的と到達レベル ・クロス集計表のデータを少数の成分(1~3 程度)で説明する. ・新しい指標を作り,カテゴリの特徴と分類を行う. データ分析者の CA の到達レベルは,例えば以下のようなものであろう. ・質的情報から知覚マップやプロダクトマップを作成する. ・各種アンケートの情報から支店や営業所の強み・弱みを抽出する. ・買い替えにおける競合商品の勝敗表から事業戦略を検討する. 第4章 対応分析 27/40 4.2.2 対応分析の主要な用語とアウトプット 特異値:行と列のスコアの相関係数,結びつきの強さを表す指標 慣性 :特異値の2乗で主成分の固有値に対応する 比率 :慣性の総和に対する成分の寄与率もこと 22 成分1の寄与率 2 2 32 22 成分1ま での累積寄与率 2 2 32 32 成分2の寄与率 2 2 32 22 +32 成分2ま でのの寄与率 2 2 32 累積 :累積寄与率に対応する 成分1ま での累積 22 22 32 ・・・ p2 22 +32 成分2ま での累積 2 2 32 ・・・ p2 22 32 ・・・ i2 成分iま での累積 2 2 32 ・・・ i2 ・・・ p2 スコア:行と列の相関を最大とするためにカテゴリに与えられた数量 28/40 第4章 対応分析 4.2.3 対応分析の手順 1/2 ①分析に必要な変量対を選定する.独立関係にある変量対を選んでも無意味で ある.また,カテゴリ数の多い変量対が有効である. ②頻度の総数 n は,少なくとも 100 以上が望ましい.頻度の総数 n が少ない場 合は,手許にあるデータの記述に留める. ③DB の活用や実際にアンケート等によりデータを収集する.収集されたデー タは分析しやすいようにデータ行列にまとめる.JMP の CA は, “2 変量の関係” の分析を使うため,クロス集計表の形式から図 4.6 右のようなデータ形式に変 更しておくこと. 第4章 対応分析 29/40 4.2.3 対応分析の手順 2/2 ④CA を実行する.特異値と比率を求める.解釈する成分の選択方法は,経験 的に以下の基準が知られているが, 絶対的なルールではないことを理解する. ・累積が 0.7~0.8 を越えるところまでの成分を解釈する. ・せいぜい成分 3 までの解釈に留める. ⑤特徴あるカテゴリの抽出を行う.成分の両端に布置されたカテゴリを比較す ることで新たな知見が得られる場合がある. ⑥同時布置図を用いて成分の命名,キャッチフレーズをつける. A B 度数 A1 B1 15 活用術 4.5:対称性 A1 B2 12 行と列(変数とサンプル)を入れ替えても結果は変わらない(対称性)ので, A1 B3 4 B1 B2 B3 A2 B1 10 PCA よりも扱いやすい. A1 15 12 4 A2 B2 28 A2 10 28 11 A2 B3 11 A3 8 19 25 A3 B1 8 A4 3 7 30 A3 B2 19 A3 B3 25 30/40 A4 B1 3 第4章 対応分析 分析のためのデータ形式 二変量の質的データの関係の分析プラットフォームを使う ので,左のようなクロス集計表から右の形式に変更する A1 A2 A3 A4 A B 度数 A1 B1 15 A1 B2 12 A1 B3 4 B1 B2 B3 A2 B1 10 15 12 4 A2 B2 28 10 28 11 A2 B3 11 8 19 25 A3 B1 8 3 7 30 A3 B2 19 A3 B3 25 A4 B1 3 A4 B2 7 A4 B3 30 図4.6 JMPのCAのための多変量データ化 活用術 4.6:総合的指標 PCA と違い,総合的指標に関する軸は抽出されない. 第4章 対応分析 31/40 JMPによる例題の分析 1/4 表10.1のデータを以下のように数値コードで入力する 手順1.メニューの分析から2変量の関係を選択 手順2.ダイアログが表示される 手順3.説明変数に科目,目的変数に児童を選ぶ OKボタンをクリック 第4章 対応分析 32/40 JMPによる例題の分析 2/4 手順4.モザイク図が表示されるので,図の赤い▼をクリックして, メニューを表示させ,対応分析を選ぶ 手順5.同時布置図が表示されるので,グラフから読み取れることを 解釈する ‰È–Ú‚ÆŽ™ “¶‚Ì•ªŠ„•\‚ɑ΂ ·‚é •ª Í ƒ‚ƒUƒCƒN } ‘Ήž•ª Í 1.00 ‚X 0.50 0.25 ‰ ¹Šy ‘Œê ŽZ ” ŽÐ‰ }ï H ‰È–Ú ‘Ì ˆ ç — ‰È 0.5 c1 Ž™“¶ ‚V ‚U ‚T ‚S ‚R ‚Q ‚P ‚O ‚R ‚W 1.0 ‚W 0.75 0.00 ‚T ‘Ìˆç ŽÐ‰ï 1.5 0.0 -0.5 ‘Œê ‚X ‚S ‚O ‚P — ‰ ÈŽZ ” } H ‚V ‚U ‚Q ‰¹Šy -1.0 -1.5 -1.5 -1.0 -0.5 .0 .5 1.0 1.5 c2 ‰È–Ú Ž™“¶ Ú × “ÁˆÙ’l Šµ « ”ä—¦ —Ý Ï 0.74966 0.56198 0.4417 0.4417 第4章 対応分析 0.54189 0.29364 0.2308 0.6725 33/40 JMPによる例題の分析 3/4 “ÁˆÙ’l 0.74966 0.54189 0.42648 0.33831 0.32467 0.12187 Šµ « 0.56198 0.29364 0.18188 0.11445 0.10541 0.01485 ”ä—¦ 0.4417 0.2308 0.1430 0.0900 0.0829 0.0117 —Ý Ï 0.4417 0.6725 0.8155 0.9055 0.9883 1.0000 2成分までで 60%強説明 できる 注)ソフトウエアのアルゴリズムにより出力値が異なるが表示方法が異なる ある操作をすれば一致する ‰È–Ú ‰¹Šy ‘Œê ŽZ ” ŽÐ‰ï } H ‘Ìˆç — ‰È c1 c2 c3 Ž™“¶ -1.307 0.5287 -0.0208 ‚O 0.443 -0.8475 0.2678 ‚P -0.408 0.0000 -0.6800 ‚Q 0.865 0.4814 -0.3945 ‚R -0.650 0.4464 0.7240 ‚S 1.152 0.5462 0.2461 ‚T -0.287 -0.5409 -0.0298 ‚U ‚V ‚W ‚X c1 -0.112 -0.219 -1.052 1.064 0.205 1.345 -0.998 -0.890 0.725 0.320 c2 -0.8540 -0.5794 0.5998 -0.2779 -0.4184 0.9483 0.2671 -0.0075 -0.1664 0.6801 c3 -0.3455 0.7518 0.0181 0.6025 -0.4904 -0.1739 0.5263 -0.5711 0.0525 -0.0612 スコアが求まると散布図に表して解釈すると分かりやすい 第4章 対応分析 34/40 JMPによる例題の分析 4/4 C1‚ÆC2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW 1.5 1 C2 0.5 ‚T ‚Q ‰¹Šy ‚U ‚X ŽZ ” ‚V 0 -0. 5 ‚W — ‚P‰ È ‚O -1 -1. 5 -1. 5 -1 ‘Ìˆç ŽÐ‰ï } H -0. 5 0 ‚R ‚S ‘Œê .5 1 1.5 C1 バイプロット(同時布置図)は行と列を同じ散布図に布置する これにより,行と列のカテゴリーの関係や分類が可能である. 第4章 対応分析 35/40 4.3.1 プリンタ画質の感性評価 1/2 インクジェットプリンタの出力画質の評価データ を分析する ƒ‚ƒUƒCƒN } i ƒe ƒL ƒXƒg j ƒ‚ƒUƒCƒN } i ƒOƒ‰ƒt j 9 8 7 6 5 4 3 2 1 ˆÊ ‡ 0.75 0.50 0.25 0.00 A B C D E F G H I 1.00 9 8 7 6 5 4 3 2 1 0.75 ˆÊ ‡ 1.00 0.50 0.25 0.00 A B C D E ƒvƒŠƒ“ƒ^ F G H I ƒvƒŠƒ“ƒ^ ƒ‚ƒUƒCƒN } i ƒ‰ ƒCƒ“ j 1.00 9 8 7 6 5 4 3 2 1 ˆÊ ‡ 0.75 0.50 0.25 0.00 A B C D E F G H モザイク図で構成比率を チェックする I ƒvƒŠƒ“ƒ^ 図4.9 原稿種ごとのモザイク図 第4章 対応分析 36/40 4.3.1 プリンタ画質の感性評価 2/2 表4.5 CAの出力 “ÁˆÙ’l Šµ « ”ä—¦ 0.47883 0.22928 0.4026 0.32902 0.10826 0.1901 0.28705 0.08240 0.1447 0.22698 0.05152 0.0905 0.19729 0.03892 0.0683 0.18229 0.03323 0.0583 0.12604 0.01589 0.0279 0.10014 0.01003 0.0176 0.6 5 4 ころにヒントがある かも知れないので 解釈を試みる 6 ƒ‰ ƒC ƒ“A ƒ‰ ƒC ƒ“I 0.4 3 0.2 8 7 2 -0.4 -0.8 -1 順位のスコア c1 c2 c3 0.8468 -0.4198 0.2597 0.5844 -0.1873 -0.1607 0.3064 0.2680 -0.3779 -0.0061 0.3197 -0.4510 -0.0129 0.3632 0.4004 -0.1578 0.2094 0.2345 -0.3442 0.0080 0.2106 -0.4909 0.0771 馬蹄形が崩れたと 0.0759 -0.7256 -0.6382 -0.1915 0.8 -0.2 -0.6 ˆÊ ‡ 1 2 3 4 5 6 7 8 9 —Ý Ï 0.4026 0.5927 0.7373 0.8278 0.8962 0.9545 0.9824 1.0000 C2 C2 0.8 比率からカテゴ 0.6 リ順序がはっき 0.4 りつく場合には 0.2 馬蹄形が現れる 0 表4.6 0 ƒeƒLƒXƒgB -0.2 -0.4 1 ƒOƒ‰ ƒtB ƒeƒLƒXƒgH ƒOƒ‰ ƒtA ƒeƒLƒXƒgI ƒ‰ ƒC ƒ“B ƒeƒLƒXƒgA -0.6 9 -0.5 0 .5 解釈は成分1だけでよい 1 1.5 -0.8 -1 -0.5 0 C1 図4.10 ƒOƒ‰ƒOƒ‰ ƒtI ƒtH .5 ƒ‰ ƒC ƒ“H 1 1.5 C1 プリンタ評価の布置図 第4章 対応分析 37/40 4.3.2 車の調査の多重対応分析 1/2 車の調査で,二変量を連結して複数変量で対応分析 を試みる この場合には連結した変量のカテゴリ間の相互作用 に影響を受ける Ú × “ÁˆÙ’l Šµ « ”ä—¦ —Ý Ï 0.32266 0.10411 0.6476 0.6476 0.19672 0.03870 0.2407 0.8884 0.13394 0.01794 0.1116 1.0000 —ñ7 c1 c2 c3 —ñ8 ¬Œ^ƒXƒ| [ ƒc 0.380 0.0245 -0.0420 — «Šù ¥ ¬Œ^ƒtƒ@ƒ~ƒŠ [ -0.209 0.1387 -0.1933 — «–¢ ¥ ¬Œ^ƒ [ ƒN 0.006 -0.0898 0.1647 ’j «Šù ¥ ‘åŒ^ƒXƒ| [ ƒc 1.640 0.5973 0.8302 ’j «–¢ ¥ ‘åŒ^ƒtƒ@ƒ~ƒŠ [ -0.247 0.2401 0.2508 ‘åŒ^ƒ [ ƒN 0.208 -0.2279 0.1036 ’†Œ^ƒXƒ| [ ƒc 0.446 -0.0496 -0.0455 ’†Œ^ƒtƒ@ƒ~ƒŠ [ -0.307 -0.2146 0.0056 ’†Œ^ƒ [ ƒN -0.292 0.6244 -0.0398 図4.11 c1 c2 c3 -0.2296 -0.1868 0.1184 0.2688 -0.2621 -0.2533 -0.2337 0.2128 -0.0740 0.5290 0.1175 0.1112 MCA的な分析結果 第4章 対応分析 38/40 4.3.2 車の調査の多重対応分析 2/2 0.25 0 -0.25 -0.5 c1‚Æc2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW 0.75 0.5 ‘åŒ^ƒtƒ@ƒ~ƒŠ [ ¬Œ^ƒtƒ@ƒ~ƒŠ [ [ƒc ¬Œ^ƒXƒ| ’†Œ^ƒX ƒ| [ƒc Œ^ƒ ¬ [ƒN ‘åŒ^ƒ [ƒN ’†Œ^ƒtƒ@ƒ~ƒŠ [ -0.25 0 c1 .25 図4.12 .5 c2 c2 c1‚Æc2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW 0.75 ’†Œ^ƒ [ƒN 0.5 0.25 ’j «Šù ¥ ’j «–¢ ¥ 0 — «Šù ¥ -0.25 -0.5 -0.25 0 c1 — «–¢ ¥ .25 .5 成分1&2の散布図 解釈を試みよ 第4章 対応分析 39/40 まとめ 1.数量化3類は質的データの主成分分析として位置つけされる 2.多くの場合は成分1&成分2の散布図で解釈可能 3.2元表(クロス表)で,カテゴリ数が多い場合の要約・解釈に役立つ 注意点 1.2元表の頻度の割合について,固有値問題を解いているので 行または列の小計の極端に小さい値がある場合には, 散布図の端にプロットされるので解釈に注意する 2.成分は,頻度の割合のパターンを強調するので,カテゴリによって 頻度の割合に変化がないものは中心に集まる 3.散布図の両端にプロットされた変数・サンプルで軸の解釈を行う 4.行と列(変数とサンプル)を入れ替えても結果は変わらない (対称性)ので,主成分分析よりも扱いやすい 5.主成分分析と違い,総合的指標に関する軸は抽出されない 40/40 第4章 対応分析
© Copyright 2024 ExpyDoc