多変量解析B 第1回 第1章:データ分析とJMP 林俊克&廣野元久「多変量データの活用術」:海文堂 永田靖&棟近雅彦「多変量解析法入門」:サイエンス社 廣野元久 2004.4.14. SFC5限 第1章 データ分析とJMP 1/47 この授業での約束 遅刻,早退はしない(大幅減点) 授業中は携帯の電源を切る(大幅減点) 単位取得申請をしたらあきらめないで最後まで授業に出続ける 授業中の討論には積極的に参加する(加点) 課題は期日までに提出する(救済措置は取りません) メインのソフトはJMP V5を使用するが,細かい操作手順は紹介 しないので自己学習する 配布物は,そのとき限りとするので,やむを得ない事情で授業を 欠席した場合には,各自,友人からコピーをすること 配布物の部数には限り(前回の授業参加数分を用意します)があ るので,各自1部以上受け取らないこと 以上,如何なる理由があろうと守ってください. 第1章 データ分析とJMP 2/47 評価について 最終報告書(60) 手法の活用度(20) 手法を正しく使っていること(20) 報告書の論点がぶれていないこと(10) ストーリ展開の面白さ(10) 授業態度(40) 通常課題(30):1つの課題について評価の比率 は最終リポートと同じ 積極的な質問や討論への参加(10) 第1章 データ分析とJMP 3/47 科学的データ分析 自分の考えや方法を相手に理解させ,実現するには ① ② ③ ④ 威圧:力つく(暴力に訴えて)で押し切る 情念:情念や想いでハートに訴えかける 論理:具体的な命題を証明し,理屈で証明する 逃避:議論を避け,自分の殻の中で夢想を続ける <現代のビジネスシーン> 世の中の具体的な現象を数量で代用し, 数量を論理的な段階を踏んで整理,分析することで 自身の提案の正しさを証明し,相手を説得する データ分析は論理学である 第1章 データ分析とJMP 4/47 第1章 データ分析とJMP 本日の内容 多変量解析法とは何か どのような方法があるのか どういう形式のデータに適用するのか どのような目的で用いるのか どのような結果が得られるのか 第1章 データ分析とJMP 5/47 多変量データの分析目的 5つの観点 現象や構造の縮約と単純化 主成分分析,因子分析や対応分析 分類や層別による差異 クラスター分析や判別分析 予測 決定分析や重回帰分析 仮説の検証と検定 グラフィカルモデリングや構造方程式モデル 因果関係の把握と制御 実験計画法やコンジョイント分析 第1章 データ分析とJMP 6/47 本講座で扱うサンプルデータ 手法:掲載章 アイデア創出・仮説探索 現状認識 ① 現象や構造の縮約と単純化 ・合成指標の発見 (量的データ) (質的データ) 分類・層別 ② 分類や層別による差異 ・潜在的な群の抽出 ・既存の群の特徴抽出 ・判別ルールの作成 ・判別ルールによる予測 対策立案・仮説検証 ③ 予測 ・要因の制御 ・効果の影響度 ⑤ 因果関係の把握と制御 ④ 仮説の検証と検定 ・因果の同定 フォルダ サンプル ユーザ提供 ユーザ提供 ユーザ提供 ユーザ提供 ユーザ提供 ユーザ提供 サンプル ユーザ提供 ユーザ提供 サンプル ユーザ提供 ユーザ提供 ユーザ提供 サンプル ユーザ提供 ユーザ提供 ユーザ提供 ユーザ提供 サンプル ユーザ提供 サンプル ユーザ提供 ユーザ提供 ユーザ提供 -ファイル無- ファイル名 ビッグクラス 3 電子部品A 部下の上司評価 主成分分析 理想の恋人 食の好み 選挙データ2001 主成分数値例 車の調査 4 8人の好物 対応分析 プリンタ評価 ビッグクラス 5 クラスター例 クラスター分析 理想の恋人 選挙データ2001 ビッグクラス 6 部品調達 判別分析 デジカメデザイン 色差と嗜好 商品購入重要度 車の調査 7 化粧品 決定分析 あやめ 色差と嗜好 8 多重共線性 重回帰分析 商品満足度 ** (コンジョイント分析) (FAXの選好度) * (IC工程) 9 * * グラフィカルモデリング JMP未対応 (市販乳の外観イメージ) * (従業員満足度) 第1章 データ分析とJMP 7/47 道具としての統計的方法 • 統計解析の見方,考え方 – はじめに • 知りたいことは,調べてみないと分からない • 多くの知りたいことは,すべてを調べることはでき ない • 知りたい多くの事柄は変動している • 主要な部分(共通性)に光をあてる ---金鉱から純金を分離する作業 • KKD(勘・経験・度胸)にたよらずに, 科学的手順(作法)で ものの本質を解明する 第1章 データ分析とJMP 8/47 1.1 データの見方・考え方 知りたいことは調べて見ないと分からない 現象を数値データや言語情報で代用する 知りたいことの多くは,全てを調べることができない 知りたい多くの事柄は変動している 得られたデータは,時と場所,場合によって異なる 得られたデータの1つ1つは異なる(ばらついている) 得られたデータの代表値も標本ごとに異なる 知りたいことの多くはばらつきを持っているものである ばらつきに惑わされないで,ものの本質を理解する ばらつきの中から主要な部分(共通性)に光をあてる 金鉱から純金を分離する作業 KKD(勘・経験・度胸)に頼らずに科学的手順(作法)で解明する ばらつきの大きさを評価する 第1章 データ分析とJMP 9/47 1.1.1 事実から真実の推測 例としてVTRの録画可能時間を調べてみる データ 測定したVTRテープの録画時間の余裕度の100個 のデータは表1に示すとうりである.測定単位は(秒)で ある. 表1 VTRテープ100本の余裕度のデータ (単位:秒) 第1章 データ分析とJMP 10/47 1.1.1 事実から真実の推測 100個の測定データから共通性を見つけるのは難しいので, グラフにしたりデータを要約する •ªˆÊ“ _ ˜^‰ 掞ŠÔ‚Ì ·(•b) 240 58 230 220 210 200 190 180 170 160 100.0% Å ‘å’l 99.5% 97.5% 90.0% 75.0% 4•ªˆÊ“_ 50.0% ’†‰›’l(ƒ ƒfƒBƒAƒ“) 25.0% 4•ªˆÊ“_ 10.0% 2.5% 0.5% 0.0% Å ¬’l 237.00 237.00 220.00 217.90 210.75 203.00 196.25 191.10 179.10 140.00 140.00 ƒ‚ [ƒ ƒ “ ƒg 150 49 140 130 タイトル •½‹Ï 202.83 •W €•Î · 12.051284 •½‹Ï‚Ì•W €Œë · 1.2051284 •½‹Ï‚Ì ã‘¤95% M—ŠŒÀŠ E 205.22124 •½‹Ï‚̉º‘¤95% M—ŠŒÀŠ E200.43876 N 100 図1.1 録画時間の差(秒)の分布 第1章 データ分析とJMP 11/47 1.1.1 事実から真実の推測 • H氏は,ビデオテープの録画時間を調べるため に100個のデータを測定した • 録画時間は表示より3分23秒長い 標本 母集団 標本で知りえたこと (事実) 研究対象 本当に知りたいこと 母集団でもあてはまるか (真実) (普遍性) 第1章 データ分析とJMP 12/47 1.1.1 事実から真実の推測 標本で知りえたこと (事実) 標本1 標本2 標本3 標本4 母集団 標本i 値は標本毎に 研究対象 違っている 本当に知りたいこと 母集団でもあてはまるか (変動) (普遍性) (真実) 第1章 データ分析とJMP 13/47 1.1.1 事実から真実の推測 • • • • 真実の探求 不確定要素の集まりによりものは変動する 値が動くもの 変量(variable) と呼ぼう 変動が確率的に考えられるもの 確率変量(random variable) X,Y, 概念 実現値(記号) X x 第1章 データ分析とJMP 実際の値 69 (kg) 167 (cm) 42 (才) 男 14/47 1.2 JMPの分析メニュー メニュー JMPスタータ スタータを使えば,素早く 目的の分析ができる 図1.2 JMPの起動画面 JMPウインドウ コマンド:JMPの機能をコントロールする メニュー:コマンドを目的別にまとめたもの 分析プラットフォーム:分析のためのウインドウ 第1章 データ分析とJMP 15/47 1.2 JMPの分析メニュー ファイルメニュー 図1.3 ファイルメニュー一覧 第1章 データ分析とJMP 16/47 1.2 JMPの分析メニュー 編集メニュー 図1.5 テーブルメニュー一覧 図1.4 編集メニュー一覧 第1章 データ分析とJMP 17/47 1.2 JMPの分析メニュー 行メニュー 図1.6 行メニュー一覧 第1章 データ分析とJMP 18/47 1.2 JMPの分析メニュー 列メニュー 図1.7 列メニュー一覧 第1章 データ分析とJMP 19/47 1.2 JMPの分析メニュー 分析メニュー 主成分分析 重回帰分析 図1.8 分析メニューの一覧 第1章 データ分析とJMP 20/47 1.2 JMPの分析メニュー その他のメニュー 図1.9 その他のメニューの一覧 第1章 データ分析とJMP 21/47 変量の役割 第1章 データ分析とJMP 22/47 1.2.2 JMPの基本操作 –起動と終了– JMPをインストールするとアイコンが画面に表示される 図1.10 JMPのショートカット 起動:アイコンをダブルクリックする データ読込:ファイルメニューから既存のデータファイ ルを読み込む 分析:目的に合わせた分析を分析メニューから選び実 行する 保存:分析結果をジャーナルやスクリプトに保存する 終了:ファイルメニューの終了をクリックして終わらせる 第1章 データ分析とJMP 23/47 1.3 データ分析の活用指針 データをコンピュータに入力すると,役に立つ結 果が自動的に出てこない 自動課題解決装置ではない データ分析は考える人の筆記用具 データが得られたら,まずグラフにして分析戦略 を考える データの中には,よい子もいれば,普通の子もい れば,悪い子もいる 第1章 データ分析とJMP 24/47 1.4 データと測定の尺度 分析するデータの形式 変量名 テーブルパネル x1 , x2 , , xi , , xp 個体 1 2 3 ・ ・ ・ データグリッド 行:個体(オブザベーション) 列:変量 n 個体番号 図1.12 ビッグクラスのデータ (個体)×(変量)の形式のデータを多変量データと呼ぶ 第1章 データ分析とJMP 25/47 1.4 データと測定の尺度 図1.13 変量の持つ尺度 第1章 データ分析とJMP 26/47 多変量データ A B 問題意識 多変量解析 手法選択 C ・ ・ ・ 解析 結果 1.知見に照らし合わせて 解釈を行う 2.報告書作成 3.プレゼン データの観測・収集 多変量解析はデータの統合化 合成指標の作成 Z w1x1 w2 x2 wp xp 合成指標=重み×生データの特性 第1章 データ分析とJMP 27/47 重回帰分析 中古マンションデータ サンプル 広さx1 築年数x2 価格y 1 51 16 3.0 2 38 4 3.2 3 57 16 3.3 4 51 11 3.9 5 53 4 4.4 6 77 22 4.5 e (In x( x ' x) x ') y 7 63 5 4.5 3)モデル式の確定 8 69 5 5.4 9 72 2 5.4 10 73 1 6.0 yˆ b0 b1x1 b2 x2 1)重みを計算する 1 b ( x ' x) x ' y 2)誤差を調べる 1 (永田&棟近 多変量解析法入門,サイエンス社,2000より引用) 第1章 データ分析とJMP 28/47 重回帰分析 1.データ:都内の中古マンションデータ(価格と広さと築年数) ・予測や制御したい1個の変量がある ・予測や制御に使う複数の変量がある 知りたいこと 1)価格は広さと築年数とによって予測できるか 2)予測できるとすれば,その精度はどのくらいか 3)同じ地区で広さ70m2,築10年のとき価格5800万円は妥当か 分かること 1)回帰式の推定 yˆ 1.02 0.0668x1 0.0808x2 x1 : 広さ ,x2 : 築年数 により予測可能 2)自由度調整済寄与率0.933であり,精度は十分である 3)回帰式に x1 70, x2 10 を代入すると yˆ 4.89 を得る 信頼率95%の予測区間(4210,5570) 相場より高い 第1章 データ分析とJMP 29/47 数量化1類 成績データ サンプル 線形代数x1 サークルx2 総合成績y 1)ダミー変数を作る 1 優 所属 96 2 優 所属 88 3 優 無所属 0 優 0 優 0 所属 x11 , x12 , x2 1 無所属 1 良 1 可 77 4 優 無所属 89 5 良 所属 80 6 良 無所属 71 7 良 無所属 77 8 可 所属 78 9 可 所属 70 10 可 無所属 62 2)重みを計算する 1 b ( x ' x) x ' y 3)残差の検討,モデル式確定 yˆ b0 b1x1 b2 x2 (永田&棟近 多変量解析法入門,サイエンス社,2000より引用) 第1章 データ分析とJMP 30/47 数量化1類 1.データ:大学卒業時の成績データ (線形代数とサークル所属と総合成績) ・予測や制御したい1個の変数がある ・予測や制御に使う複数の変数がある 知りたいこと 1)総合成績は線形代数の成績とサークル所属の有無より予測できるか 2)予測できるとすれば,その精度はどのくらいか 3)線形代数が優でサークル無所属の学生の総合成績はどのように予測できるか 0 優 分かること 0 無所属 ˆ y 83.0 10.0 良 1)回帰式の推定 9.0 所属 19.0 可 により予測可能 2)自由度調整済寄与率0.727であり,精度はそこそこである 3)回帰式に線形代数が優=0,サークル無所属=1を代入する yˆ 83.0 を得る 第1章 データ分析とJMP 31/47 判別分析 健康診断データ サンプル 状態 y 検査値 x1 検査値2 x2 1 健常者 50 15.5 2 健常者 69 18.4 群1 y=n2 / n1 n2 ( x ' x) x ' y 群2 y=-n1/ n1 n2 3 健常者 93 26.4 2)判別率を調べる 4 健常者 76 22.9 5 健常者 88 18.6 6 患者 43 16.9 7 患者 56 21.6 8 患者 38 12.2 9 患者 21 16.0 10 患者 25 10.5 1)2群の相関比η2を最大に 1 判定 A B 実 A 群 B 3)モデル式の確定とルール化 DF 0 1x1 2 x2 p xp ここの符号(正負)で判定 値そのものに意味はない (永田&棟近 多変量解析法入門,サイエンス社,2000より引用) 第1章 データ分析とJMP 32/47 判別分析 1.データ:健康診断データ(健常/患者と検査値1と検査値2) ・グループ分けに使いたい複数個の変数がある ・グループを示す1個の質的変数がある 知りたいこと 1)疾患にかかっているか否かを2つの検査値から判別できるか 2)判別できるとすれば,その精度はどのくらいか 3)同じ健康診断で検査1=68,検査2=21.6は健常者か 分かること(テキストとは異なる) 1)判別関数の推定 yˆ -6.639 0.226 x1 0.334 x2 x1 : 検査1,x2 : 検査2 により予測可能 2)判別率9/10=0.9であり十分である yˆ 1.51を得る 3)判別関数に x1 68, x2 21.6 を代入すると この場合,健常者は正値であるので健常者と予測できる 第1章 データ分析とJMP 33/47 数量化2類 健康診断データ サンプル 状態 y 吐き気 x1 頭痛 x2 1)ダミー変数を作る 1 健常者 無 少 2 健常者 少 無 0 無 0 無 0 無 0 無 x11 , x12 , x21 , x22 1 少 1 多 1 少 1 多 3 健常者 無 無 4 健常者 無 無 5 健常者 無 無 6 患者 少 多 7 患者 多 無 8 患者 少 少 9 患者 少 多 10 患者 多 少 (永田&棟近 多変量解析法入門, サイエンス社,2000より引用) 2)2群の相関比η2を最大に 群1 y=n2 / n1 n2 ( x ' x) x ' y 群2 y=-n1/ n1 n2 1 3)モデル式の確定とルール化 DF 0 1x1 2 x2 p xp A ここの符号(正負)で判定 値そのものに意味はない 第1章 データ分析とJMP B A B 34/47 数量化2類 1.データ:健康診断データ(健常/患者と吐き気と頭痛) ・グループ分けに使いたい複数個の変数がある ・グループを示す1個の質的変数がある 知りたいこと 1)疾患にかかっているか否かを吐き気と頭痛から判別できるか 2)判別できるとすれば,その精度はどのくらいか 3)同じ健康診断で吐き気=無,頭痛=多は健常者か 吐き気 頭痛 0 無 0 無 分かること yˆ 12.80 9.6 少 6.4 少 1)判別関数の推定 20.8 多 14.4 多 により予測可能 2)判別率10/10=0であり十分である 3)判別関数に吐き気=無,頭痛=多を代入すると yˆ 1.60 を 得る この場合,健常者は正値であるので患者と予測できる 第1章 データ分析とJMP 35/47 主成分分析 試験の成績データ 生徒 国語 x1 英語 x2 数学 x3 理科 x4 1 86 79 67 68 2 71 75 78 84 3 42 43 39 44 4 62 58 98 95 5 96 97 61 63 6 39 33 45 50 7 50 53 64 72 8 78 66 52 47 9 51 44 76 72 10 89 92 93 91 1)分散最大の合成変数を順次 作る A UDV ' 2)主成分軸の確定 Z 0 1x1 2 x2 p x p 3)主成分軸の解釈 (永田&棟近 多変量解析法入門,サイエンス社,2000より引用) 第1章 データ分析とJMP 36/47 主成分分析 1.データ:学業成績データ(国語,英語,数学,理科) ・合成指標を作る複数個の変数がある ・変数の役割は全て同じ 知りたいこと 1)主成分の構成により低い次元でデータを解釈できないか 2)それぞれの主成分の説明力はどれくらいか 3)科目や生徒の特徴付け,分類をどのようにできるか 国語 英語 数学 理科 x x x x z 0.487 分かること 0.493 0.511 0.508 1)主要成分の推定 x x x x 1 1 2 2 3 3 4 4 1 1 z2 0.527 1 1 2 1 0.474 2 2 3 2 0.481 3 3 4 3 0.516 4 4 4 2)第2主成分までの累積寄与率は0.986であり十分である 3)係数の値より,第1主成分は総合力,第2主成分は文系,理 系の違い 第1章 データ分析とJMP 37/47 主成分分析 ‘ŠŠÖ‚Æ ˆöŽq•‰‰×—Ê Žå ¬ •ª •ª Í : ‘ŠŠÖŒ W ” s—ñ‚©‚ç ŒÅ—L’l 2.7207 1.2218 0.0524 0.0051 Šñ—^—¦ 68.0183 30.5450 1.3103 0.1264 —Ý ÏŠñ—^—¦ 68.0183 98.5633 99.8736 100.0000 ŒÅ—Lƒx ƒNƒgƒ‹ ‘Œê 0.48727 0.52734 0.49897 0.48529 ‰pŒê 0.51054 0.47400 -0.53867 -0.47383 ” Šw 0.50832 -0.48075 0.50411 -0.50632 — ‰È 0.49349 -0.51587 -0.45467 0.53256 0.75 1 1 ‘ Œê ‰pŒê 0.5 3 0.25 0 10 6 Žå ¬•ª2 Žå ¬•ª2 — ‰ È Žå ¬•ª1 Žå ¬•ª2 0.3113 0.8037 0.5829 0.3983 0.8421 0.5239 0.9721 0.8385 -0.5314 1.0000 0.8140 -0.5702 0.8140 1.0000 0.0000 -0.5702 0.0000 1.0000 1 5 8 2 7 -1 -2 -1 0 Žå ¬•ª1 1 主成分得点 ” Šw — ‰È -0.5 4 -2 0 -0.25 9 -3 ‰pŒê ” Šw 0.9670 0.3761 1.0000 0.4146 0.4146 1.0000 0.3983 0.9721 0.8421 0.8385 0.5239 -0.5314 Žå ¬ •ª 1‚ÆŽå ¬ •ª 2‚Ì“ñ•Ï— Ê‚ÌŠÖŒ W Žå ¬ •ª 1‚ÆŽå ¬ •ª 2‚Ì“ñ•Ï— Ê‚ÌŠÖŒ W 2 ‘Œê 1.0000 0.9670 0.3761 0.3113 0.8037 0.5829 ‘ Œê ‰pŒê ” Šw — ‰È Žå ¬•ª1 Žå ¬•ª2 2 3 -0.75 -1 -1 -0.75 -0.5 -0.25 0 .25 Žå ¬•ª1 第1章 データ分析とJMP 因子負荷量 .5 .75 1 38/47 主成分分析の例 第一成分 新しい物好きの選好度 丈夫そうな 現代的な 質感 B 高級感 楽しい 全体の選好度 好きな 親しみのある G 新鮮な G F 精密感 D オリジナリティー 使いやすそうな 飽きのこない 小さく見える カメラらしい 目立つ B E F 第二成分 D A E C A 第1章 データ分析とJMP C 1994年 39/47 正準判別分析の例 デジタルカメラのデザイン評価による布置 4 3 非流線 機能 I F B 2 1 E 伝統 J 新規 A H -1 D G 0 C ³ €2 期待 -2 精密 -3 抵抗 -4 -4 -3 -2 -1 0 ³ €1 1 2 3 4 2002:これは,正準判別と呼ばれる手法を使っています 第1章 データ分析とJMP 40/47 対応分析 児童の得意科目データ 生徒 1 国語 x1 社会 x2 算数 x3 ○ ○ 3 ○ 4 ○ 図工 x6 ○ ○ ○ ○ ○ ○ ○ 6 ○ 7 ○ ○ ○ 9 ○ 体育 x7 ○ ○ 5 10 音楽 x5 ○ 2 8 理科 x4 ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ 1)行と列との相関が高くなるように並べ替える 2)データの頻度から合理的な得点を与える (永田&棟近 多変量解析法入門,サイエンス社,2000より引用) 第1章 データ分析とJMP 41/47 対応分析 1.データ:学童の好きな科目データ(国語,英語,数学,理科,等) ・合成指標を作る複数個の質的な変数がある ・変数の役割は全て同じ 知りたいこと 1)科目と児童に数量を与え,低い次元でデータを解釈できないか 2)そのような数量化によって説明力はどれくらいか 3)科目や児童の特徴付け,分類をどのようにできるか 分かること 1)科目に与える主要な数量として,成分1(-0.581,-0.840,・・・, -0.949)と成分2(-0.336,-0.335,・・・,1.000)を得る.児童に与える 数量として (0.167,1.120,・・・, -0.291)と成分2(-0.179,-397, ・・・,-0.616)を得る. 2)第2成分までの累積寄与率は0.655でありほどほどの説明力 3)数量で散布図を描くと,科目や児童の特徴付けができる 第1章 データ分析とJMP 42/47 対応分析 Ú × JMP出力 ƒ‚ƒUƒCƒN } 1.00 10 9 8 7 6 5 4 3 2 1 Ž™“¶ 0.75 0.50 0.25 0.00 ‰¹Šy ŽZ ” ŽÐ‰ï ‘Ìˆç ‘Œê } H ‰È–Ú — ‰È “ÁˆÙ’l Šµ « ”ä—¦ —Ý Ï 0.74966 0.56198 0.4417 0.4417 0.54189 0.29364 0.2308 0.6725 0.42648 0.18188 0.1430 0.8155 0.33831 0.11445 0.0900 0.9055 0.32467 0.10541 0.0829 0.9883 0.12187 0.01485 0.0117 1.0000 ‰È–Ú c1 c2 c3 Ž™“¶ ‰¹Šy -1.307 0.5287 -0.0208 1 ‘Œê 0.443 -0.8475 0.2678 2 ŽZ ” -0.408 0.0000 -0.6800 3 ŽÐ‰ï 0.865 0.4814 -0.3945 4 } H -0.650 0.4464 0.7240 5 ‘̈ç 1.152 0.5462 0.2461 6 — ‰ È -0.287 -0.5409 -0.0298 7 8 9 10 1.5 c1 -0.219 -1.052 1.064 0.205 1.345 -0.998 -0.890 0.725 0.320 -0.112 5 ŽÐ‰ï 8 ‘Œê 0.5 9 c1 4 0.0 10 1— ‰È ŽZ ” -0.5 } H 7 クロス表のカテゴリ数が多い場合に, その詳細を検討する -1.0 -1.5 -1.5 c3 0.7518 0.0181 0.6025 -0.4904 -0.1739 0.5263 -0.5711 0.0525 -0.0612 -0.3455 ‘̈ç 3 1.0 c2 -0.5794 0.5998 -0.2779 -0.4184 0.9483 0.2671 -0.0075 -0.1664 0.6801 -0.8540 -1.0 -0.5 6 .0 c2 2 ‰¹Šy .5 1.0 1.5 ‰È–Ú Ž™“¶ 第1章 データ分析とJMP 43/47 クラスター分析 試験の成績データ 生徒 国語 x1 英語 x2 数学 x3 理科 x4 1 86 79 67 68 2 71 75 78 84 3 42 43 39 44 4 62 58 98 95 5 96 97 61 63 6 39 33 45 50 7 50 53 64 72 8 78 66 52 47 9 51 44 76 72 10 89 92 93 91 1)項目間(生徒)の距離を定義 2)データから距離を測定 3)集落(クラスター)の 作成と解釈 (永田&棟近 多変量解析法入門,サイエンス社,2000より引用) 第1章 データ分析とJMP 44/47 クラスター分析 1.データ:学童の成績データ(国語,英語,数学,理科) ・距離を作る複数個の量的な変数がある ・変数の役割は全て同じ 知りたいこと 1)似た能力を持った生徒をグルーピングできないか 2)そのようなグループにはどのような特徴をもった生徒が多いか 分かること 1)距離2500で切ると{1,5,8}, {2,4,10} , {3,6,7,9}の3グループ 2) {1,5,8}は総合力が高く文系科目が得意, {2,4,10} は総合力 が高く理系科目が得意, {3,6,7,9}は総合的学力が低い 第1章 データ分析とJMP 45/47 クラスター分析 JMP出力(ウォード法) Ž÷Œ` } ƒNƒ‰ƒXƒ^ [ ‚Ì ” 9 8 7 6 5 4 3 2 1 ‹——£ 0.471117279 0.529416099 0.744159508 1.034668340 1.355895175 1.386843179 2.120907188 2.925488473 4.129762622 Œ‹ ‡ æ 3 7 1 2 2 1 3 1 1 Œ‹ ‡ŽÒ 6 9 5 10 4 8 7 2 3 Œ‹ ‡ æ ” Šw ‘Œê ‘Œê Œ‹ ‡ŽÒ — ‰È ‰pŒê ” Šw ƒNƒ‰ƒXƒ^ [•ª Í ‚Ì—š—ð ƒNƒ‰ƒXƒ^ [ ‚Ì ” 3 2 1 ‹——£ 0.500842402 0.545108074 3.312815361 ‘ Œê ‰pŒê ”Š w — ‰È 1 5 8 2 10 4 3 6 7 9 ƒNƒ‰ƒXƒ^ [•ª Í ‚Ì—š—ð クラスターは樹形図をみながら主観的に分割する 第1章 データ分析とJMP 46/47 グラフィカルモデリング 比較的新しい多変量解析の手法 グラフ理論と多変量正規分布に基づく条件付独立 性の変数選択が結び付いたもの G-GM(ソフト)により解析する 因果推論と内部要約の双方の分析が可能 解釈はグラフにより行う 上司に対する従業員満足度 (テクノメ研,グラフィカルモデリングの実際,日科技連1999) 第1章 データ分析とJMP 47/47
© Copyright 2025 ExpyDoc