多変量データ分析B 第9回 第5章:クラスター分析 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 2004.6.16. SFC5限 第5章 クラスター分析 1/63 第5章 クラスター分析 クラスター分析 目標 クラスター分析とは何ができる道具かを理解しよう クラスター分析のコンピュータ出力を読み取れる力を身 につけよう クラスター分析のからくりと前提を理解しよう 課題を通じて対応分析の使い手になろう 注)距離概念を理解すること, JMPではクラスター分析結果のデンドログラム の表示に特徴がある. 第5章 クラスター分析 2/63 適用例と解析ストーリー データ 試験の成績データ 生徒 国語 x1 英語 x2 数学 x3 理科 x4 1 86 79 67 68 2 71 75 78 84 3 42 43 39 44 4 62 58 98 95 5 96 97 61 63 6 39 33 45 50 7 50 53 64 72 8 78 66 52 47 9 51 44 76 72 10 89 92 93 91 1)項目間(生徒)の距離を定義 2)データから距離を測定 3)集落(クラスター)の 作成と解釈 第5章 クラスター分析 3/63 適用例と解析の目的 スライド27のデータセットは,主成分分析で使ったデータである. 主成分分析では,主成分得点から主観的にサンプルの分類を 行った.これは,散布図の布置から視覚的に選び出したもの. ここでは,サンプル間の多次元空間上の距離のみに基づいて 分類(クラスター化)する方法について紹介する. クラスター分析は,元々,分類学などで用いられた統計的仮定の まったくない方法であったが,統計学者がその有効性に着目して 研究し大きな発展があったといわれる.この意味において,クラス ター分析は異端の方法とも言える. クラスター分析は分類,集落化,層別化などを行う方法論の総称で, クラスター分析の方法を分類するためにクラスター分析が必要である と悪口を叩かれるくらい多くの方法が提唱されている. 第5章 クラスター分析 4/63 解析ストーリー 1)個々の対象間の近さを測るための距離,クラスターを併合する 際の距離を事前に決める. 個々の対象間の距離を全て計算し,距離が最小となる対象を 統合して最初のクラスターを作る. 新しいクラスターと対象間の距離を全て計算して,対象間の距離 を含めて最小のものを統合する. これを全てのクラスターが統合されるまで繰り返す. 2)クラスターの統合過程をデンドログラム(樹形図)で表し, 適当な距離で切断することでグループ化する. 各グループに含まれる対象を調べて,グループの特徴を求める. 第5章 クラスター分析 5/63 変数が2個の場合のクラスター分析 最短距離法による分類 1)クラスターの生成方法 ユーグリッド空間を考え,その距離の小さいものから結合する. 2)デンドログラム 結合過程を樹形図で表し,適当な距離で切断し,クラスターを構成 後,そのクラスターの解釈を行う 上の4つの散布図について主観でクラスターを作成してみよ. 6/63 第5章 クラスター分析 5.1 一次元のクラスター分析 180 ‘Ì d(ƒ|ƒ“ƒh) 160 140 120 B 100 80 60 45 図5.1 50 55 60 65 g’·(ƒCƒ“ƒ`) 70 75 身長と体重でのクラスター 上の散布図での確率楕円はクラスター分析により分 類した結果の表示である クラスター分析は分類整理のためのツールである クラスター化の方法について一次元のデータで考える 第5章 クラスター分析 7/63 5.1.1 階層的方法と非階層的方法 1/3 日常の分類整理方法の光景を思い浮かべる 1)沢山の商品カタログが分類されないで山積みになっている. 2)飲み干したワインのラベルが整理されないで箱に数多く入っている. 3)商品のCS調査の生データがDBに記録されたままになっている. ・・・ 第5章 クラスター分析 8/63 5.1.1 階層的方法と非階層的方法 2/3 階層的分類 <方法 1> ①カタログやラベルなどを大きなテーブル -コンピュータ内の仮想的なもの を含む- の上に並べる. ②内容のよく似た個体を一緒にまとめる. ③②を繰返すことで,似た個体の束ができる.束の数や大きさが適当なところ で打ち切る. 分類する個体が多い場合には,方法 1 は困難であり,方法 2 が有利である.し かし,方法 1 は,結果をみてクラスター数を決めることができる.方法 1 を階 層的方法,方法 2 を非階層的方法と呼ぶ.非階層的方法は,k 個の代表 -すな わち平均― を用いて分類するため,k-means 法とよばれる. 第5章 クラスター分析 9/63 5.1.1 階層的方法と非階層的方法 3/3 非階層的方法 <方法 2> ①あらかじめ幾つに分類するか決めて箱を用意する. ②各箱に 1 つ個体を入れ箱の代表とする. ③箱の代表の選び方は,知見から典型的な個体を選ぶか,適当に仮決めし逐次 修正するか,いずれかである. ④各個体を箱の代表と比べて,一番近い箱に必ず入れる. ⑤すべて箱に入ったら中身を吟味し,箱の代表を再度選ぶ. ⑥箱の中の個体を代表と比べ,内容があまりにも違っている個体は,他の箱の 代表と比べ,一番近い箱へ移動させる. ⑦入替えがなくなるまで,⑤⑥を繰返す. 第5章 クラスター分析 10/63 難しい距離(類似度)の定義 ①個体間の距離をどう定義するか. ②階層的方法では,幾つかの個体が寄り集まってできたクラスター間の距離を どう定義するか. 活用術 5.1:標準化と CLUST 距離はすべての次元が等しく扱われるため,測定単位の違う変量を分析に用 いる場合は,測定単位に依存しない距離-標準化-に変換する必要がある. 第5章 クラスター分析 11/63 5.1.2 階層的クラスター データ 表5.1 語句 得点 楽しい カップアイスの評価得点 安心感 冷たい | | 11 31 美味しい シンプルな 親しみやすい コクのある とても甘い 高カロリーな ボリューム感 | | | | | | | | 50 60 78 91 98 106 160 220 最短距離法 重心法 図5.2 最も近い点で連結 最長距離法 クラスター間の距離の定義 重心で連結 第5章 クラスター分析 最も遠い点で連結 12/63 5.1.3 最短距離法 表5.1 語句 得点 楽しい カップアイスの評価得点 安心感 美味しい シンプルな 親しみやすい コクのある とても甘い 高カロリーな ボリューム感 | | | | | | | | 50 60 78 91 98 106 160 220 冷たい | | 11 31 表5.2 語句 得点 隣同士の距離 得点 隣同士の距離 得点 隣同士の距離 得点 隣同士の距離 得点 隣同士の距離 楽しい 冷たい | | 11 31 20 19 11 31 20 19 11 31 20 19 11 31 20 19 11 31 20 19 最短距離法の計算 安心感 美味しい シンプルな 親しみやすい コクのある とても甘い 高カロリーな ボリューム感 | | | | | | | | 50 60 78 91 98 106 160 220 10 18 13 7 8 54 60 (91,98) 50 106 160 220 60 78 8 10 18 13 54 60 (91,98,106) 50 160 220 60 78 54 10 18 13 60 (91,98,106) (50,60) 160 220 78 54 18 13 60 (50,60) (78,91,98,106) 160 220 18 54 60 第5章 クラスター分析 13/63 5.1.4 最長距離法 表5.1 語句 得点 楽しい 安心感 冷たい | | 11 31 美味しい シンプルな 親しみやすい コクのある とても甘い 高カロリーな ボリューム感 | | | | | | | | 50 60 78 91 98 106 160 220 表5.3 語句 得点 隣同士の距離 得点 隣同士の距離 得点 隣同士の距離 得点 隣同士の距離 得点 隣同士の距離 得点 カップアイスの評価得点 楽しい 冷たい | | 11 31 20 19 11 31 20 19 11 31 20 41 11 31 20 29 (11,31) 39 (11,31) 最長距離法の計算 安心感 美味しい シンプルな 親しみやすい コクのある とても甘い 高カロリーな ボリューム感 | | | | | | | | 50 60 78 91 98 106 160 220 10 18 13 7 8 54 60 50 60 78 (91,98) 106 160 220 10 18 20 15 54 60 (50,60) 78 (91,98) 106 160 220 28 20 15 54 60 (50,60) 78 (91,98,106) 160 220 28 28 69 60 (50,60) 78 (91,98,106) 160 220 28 28 69 60 (50,60,78) (91,98,106) 160 220 第5章 クラスター分析 14/63 5.1.5 重心法 表5.1 語句 得点 楽しい 安心感 冷たい | | 11 31 美味しい シンプルな 親しみやすい コクのある とても甘い 高カロリーな ボリューム感 | | | | | | | | 50 60 78 91 98 106 160 220 表5.4 語句 得点 隣同士の距離 得点 隣同士の距離 得点 隣同士の距離 得点 隣同士の距離 得点 隣同士の距離 得点 カップアイスの評価得点 楽しい 冷たい | | 11 31 20 19 11 31 20 19 11 31 20 24 11 31 20 24 21 34 21 重心法の計算 安心感 美味しい シンプルな 親しみやすい コクのある とても甘い 高カロリーな ボリューム感 | | | | | | | | 50 60 78 91 98 106 160 220 10 18 13 7 8 54 60 50 60 78 94.5 106 160 220 10 18 16.5 11.5 54 60 55 78 94.5 106 160 220 23 16.5 11.5 54 60 55 78 98.33333333 160 220 23 20.333 61.66666667 60 55 78 98.33333333 160 220 23 20.333 61.66666667 60 55 93.25 160 220 第5章 クラスター分析 15/63 5.1.7 Ward法 表5.1 語句 得点 語句 得点 √(ΔSW) 得点 √(ΔSW) 得点 √(ΔSW) 得点 √(ΔSW) 得点 √(ΔSW) 得点 楽しい 安心感 美味しい シンプルな 親しみやすい コクのある とても甘い 高カロリーな ボリューム感 | | | | | | | | 50 60 78 91 98 106 160 220 冷たい | | 11 31 楽しい カップアイスの評価得点 表5.5 冷たい | | 11 31 14.14 13.44 11 31 14.14 13.44 11 31 14.14 19.60 11 31 14.14 19.60 21 27.76 21 安心感 Ward法の計算 美味しい シンプルな 親しみやすい コクのある とても甘い 高カロリーな ボリューム感 | | | | | | | | 50 60 78 91 98 106 160 220 7.07 12.73 9.19 4.95 5.66 38.18 42.43 50 60 78 94.5 106 160 220 7.07 12.73 13.47 9.39 38.18 42.43 55 78 94.5 106 160 220 18.78 13.47 9.39 38.18 42.43 55 78 98.33 160 220 18.78 17.61 53.40 42.43 55 78 98.33 160 220 18.78 17.61 53.40 42.43 55 93.25 160 220 第5章 クラスター分析 16/63 デンドログラムで比較 Å’Z‹——£–@ Šy‚µ‚¢ —₽‚¢ ˆÀ SŠ´ ƒRƒN‚Ì‚ ‚é ”ü–¡‚µ‚¢ ‚Æ‚Ä‚àŠÃ‚¢ ƒVƒ“ƒvƒ‹‚È ‚ƒJƒ ƒŠ [‚È e‚µ‚Ý‚â‚·‚¢ ƒ{ƒŠƒ… [ƒ€Š´ Å’·‹——£–@ Šy‚µ‚¢ —₽‚¢ ˆÀ SŠ´ ƒRƒN‚Ì‚ ‚é ”ü–¡‚µ‚¢ ‚Æ‚Ä‚àŠÃ‚¢ ƒVƒ“ƒvƒ‹‚È ‚ƒJƒ ƒŠ [‚È e‚µ‚Ý‚â‚·‚¢ ƒ{ƒŠƒ… [ƒ€Š´ 図5.3 d S–@ Šy‚µ‚¢ —₽‚¢ ˆÀ SŠ´ ƒRƒN‚Ì‚ ‚é ”ü–¡‚µ‚¢ ‚Æ‚Ä‚àŠÃ‚¢ ƒVƒ“ƒvƒ‹‚È ‚ƒJƒ ƒŠ [‚È e‚µ‚Ý‚â‚·‚¢ ƒ{ƒŠƒ… [ƒ€Š´ ŒQ•½‹Ï–@ Šy‚µ‚¢ —₽‚¢ ˆÀ SŠ´ ƒRƒN‚Ì‚ ‚é ”ü–¡‚µ‚¢ ‚Æ‚Ä‚àŠÃ‚¢ ƒVƒ“ƒvƒ‹‚È ‚ƒJƒ ƒŠ [‚È e‚µ‚Ý‚â‚·‚¢ ƒ{ƒŠƒ… [ƒ€Š´ Ward–@ Šy‚µ‚¢ —₽‚¢ ˆÀ SŠ´ ƒRƒN‚Ì‚ ‚é ”ü–¡‚µ‚¢ ‚Æ‚Ä‚àŠÃ‚¢ ƒVƒ“ƒvƒ‹‚È ‚ƒJƒ ƒŠ [‚È e‚µ‚Ý‚â‚·‚¢ ƒ{ƒŠƒ… [ƒ€Š´ 5つの方法によるデンドログラム 使う方法により,デンドログラムの形が変わることに注目 第5章 クラスター分析 17/63 距離を考える Å’Z‹——£–@ Šy‚µ‚¢ —₽‚¢ ˆÀ SŠ´ ƒRƒN‚Ì‚ ‚é ”ü–¡‚µ‚¢ ‚Æ‚Ä‚àŠÃ‚¢ ƒVƒ“ƒvƒ‹‚È ‚ƒJƒ ƒŠ [‚È e‚µ‚Ý‚â‚·‚¢ ƒ{ƒŠƒ… [ƒ€Š´ Å ’·‹——£–@ Šy‚µ‚¢ —₽‚¢ ˆÀ SŠ´ ƒRƒN‚Ì‚ ‚é ”ü–¡‚µ‚¢ ‚Æ‚Ä‚àŠÃ‚¢ ƒVƒ“ƒvƒ‹‚È ‚ƒJƒ ƒŠ [‚È e‚µ‚Ý‚â‚·‚¢ ƒ{ƒŠƒ… [ƒ€Š´ 図5.4 d S–@ Šy‚µ‚¢ —₽‚¢ ˆÀ SŠ´ ƒRƒN‚Ì‚ ‚é ”ü–¡‚µ‚¢ ‚Æ‚Ä‚àŠÃ‚¢ ƒVƒ“ƒvƒ‹‚È ‚ƒJƒ ƒŠ [‚È e‚µ‚Ý‚â‚·‚¢ ƒ{ƒŠƒ… [ƒ€Š´ ŒQ•½‹Ï–@ Šy‚µ‚¢ —₽‚¢ ˆÀ SŠ´ ƒRƒN‚Ì‚ ‚é ”ü–¡‚µ‚¢ ‚Æ‚Ä‚àŠÃ‚¢ ƒVƒ“ƒvƒ‹‚È ‚ƒJƒ ƒŠ [‚È e‚µ‚Ý‚â‚·‚¢ ƒ{ƒŠƒ… [ƒ€Š´ Ward–@ Šy‚µ‚¢ —₽‚¢ ˆÀ SŠ´ ƒRƒN‚Ì‚ ‚é ”ü–¡‚µ‚¢ ‚Æ‚Ä‚àŠÃ‚¢ ƒVƒ“ƒvƒ‹‚È ‚ƒJƒ ƒŠ [‚È e‚µ‚Ý‚â‚·‚¢ ƒ{ƒŠƒ… [ƒ€Š´ 平方根変換後のデンドログラム 活用術 5.2:変数変換と CLUST 所得などのように,分布が歪んでいる場合には,そのまま CLUST を適用す ると,高所得者が細分され,低所得者が全部ひとまとまりになる.先に対数変 換などの対称分布にしておく. Å’Z‹——£–@ Šy‚µ‚¢ —₽‚¢ ˆÀ SŠ´ Å’·‹——£–@ Šy‚µ‚¢ —₽‚¢ ˆÀ SŠ´ d S–@ ŒQ•½‹Ï–@ Šy‚µ‚¢ Šy‚µ‚¢ —₽‚¢ —₽‚¢ 第5章 クラスター分析 ˆÀ SŠ´ ˆÀ SŠ´ Ward–@ Šy‚µ‚¢ —₽‚¢ ˆÀ SŠ´ 18/63 5.1.8 非階層的クラスター分析 1/7 1.階層的分類法 2.非階層的分類法 2.1分割最適化型分類法 2.1.1 k-means法 分類方法の本質的考え方 クラスタ-のまとまりの良さmあるいはクラスター間の離れ具合を, 何かの基準で測り,これを最大化(最小化)するという方針で分類 を行う 1)クラスターの約束 クラスター化のための評価基準,クラスター内の等質性 2)分類方法 分類のための算法(アルゴリズム) 3)分け方の数 n個の個体をg群に分けることの容易さ 19/63 第5章 クラスター分析 5.1.8 非階層的クラスター分析 2/7 数値例で確認 1変数35個体のデータを2分類することを考える データ 5,11,12,9,11 4, 14,16,13,5 1, 6, 3, 4,11 12, 4, 8, 1, 6 15, 9,13, 7,12 3,10, 5,10, 3 5, 4, 2, 4,15 x 15 10 5 平均7.8 平方和 665.6 分散 19.58 0 ƒ‚ [ƒ ƒ“ƒg •½‹Ï 7.8 •W €•Î · 4.4245306 •½‹Ï‚Ì•W €Œë · 0.7478822 •½‹Ï‚Ì ã‘¤95% M—ŠŒÀŠE 9.3198794 •½‹Ï‚̉º‘¤ 95% M—ŠŒÀŠE 6.2801206 N 35 直感的な考え方 ヒストグラムを作り2山になっているところで区切ればよいだろう 問題点:客観性&アルゴリズム(一般性)がない. 20/63 第5章 クラスター分析 5.1.8 非階層的クラスター分析 3/7 では,35個のデータを2群に分けるとして,その方法は全部で 幾つあるか... 答え:171億7986万9183とおりある ・大規模データで2群に分けるとしても全ての方法を試すことは 現実的に不可能である. ・クラスターの評価基準が決まっても,それを最適にする分類の 組み合わせを網羅的に調べることができない それに代わる方法を見つける必要があろう ・相関比η2を使う 群間変動と群内変動の比較 第5章 クラスター分析 21/63 5.1.8 非階層的クラスター分析 4/7 2つの分類方法を選び出した 171億数千万とおり “ñ•Ï—Ê‚ÌŠÖŒW ŒQ•ª‚¯1‚É‚æ‚éx‚̈ꌳ”z’u•ª Í 12.4286(14) 4.7143(21) 1 16 14 12 10 8 6 4 2 0 x x 16 14 12 10 8 6 4 2 0 ŒQ•ª‚¯2‚É‚æ‚éx‚̈ꌳ”z’u•ª Í 2 8.000(17) 7.61111(18) 1 2 ŒQ•ª‚¯1 ŒQ•ª‚¯2 ˆêŒ³”z’u‚Ì•ªŽU•ª Í ˆêŒ³”z’u‚Ì•ªŽU•ª Í •ªŽU•ª Í •ªŽU•ª Í —vˆö Ž©—R“x •½•û˜a •½‹Ï•½•û —vˆö Ž©—R“x •½•û˜a •½‹Ï•½•û ŒQ•ª‚¯1 1 499.88571 499.886 ŒQ•ª‚¯2 1 1.32222 1.3222 Œë · 33 165.71429 5.022 Œë · 33 664.27778 20.1296 ‘S‘Ì( C ³ Ï‚Ý) 34 665.60000 ‘S‘Ì( C ³ Ï‚Ý) 34 665.60000 方法1が方法2よりも優れているようにみえる 全体の平方和を群間と群内に分解して評価すればよい 22/63 第5章 クラスター分析 5.1.8 非階層的クラスター分析 5/7 ST SW SB クラスター内 (群内)平方和 クラスター間 (群間)平方和 クラスター内平方和が小さくて,クラスター間平方和が大きいほうが うまく分類されたと考えればよいだろう. つまりSB最大 あるいはSW最小を判断基準にすればよい p変数空間でg個のクラスターに 分割するイメージ 第5章 ・ある個体は複数のクラスター にまたがって所属しない ・どの個体もいずれかのクラス ターに所属している 23/63 クラスター分析 5.1.8 非階層的クラスター分析 6/7 分割の総数の計算 第2種のスターリング数によって表される 1 g g g i n P n, g 1 i g ! i 1 i g 2のと き 1 2 2 2i P n,2 1 i n 2n1 1 2! i 1 i n,gの与え方によって,あっという間に天文学的数字になる 全分割方法を調べるのは実質的に不可能なので 簡便法(一部実施方法によるアルゴリズムが必要) 第5章 クラスター分析 24/63 5.1.8 非階層的クラスター分析 7/7 分割方法のアルゴリズム概要 1)初期配置または初期分割 -クラスター数の決定 -全個体をクラスターに仮決めする ・クラスターの識別,初期の各クラスターの重心の設定 2)各クラスターの縮約値の計算 -平均ベクトル -平方和,分散 3)最適化基準の改良,反復 -個体のクラスター間移動と再配置 -クラスターの最適化基準の比較 4)収束判定 -クラスター別の縮約値の算出 -クラスタリングの履歴の整理 25/63 第5章 クラスター分析 k-means法 1/4 k-means法 k個の分割(クラスター)について,平均値(ベクトル)と平方和 を用いて改良を進める方法 クラスター評価基準 ・クラスター内平方和Sw(g) 方法 ・平方和の分解公式を利用して, 個体1つずつ,クラスターを移動させて評価基準の変化の様子 を調べるものである. 第5章 クラスター分析 26/63 k-means法 2/4 x t , nt xr x k , nk y k , nk 1 x l , nl 移動させる 群t 群k 群l x t , nt 1個減る xr yx , nl 1 1個増える l クラスター内平方和の変化量 変化なし nl p l 2 S yl Sxl xrj x j nl 1 j 1 nk p k 2 S yk Sxk xrj x j nk 1 j 1 第5章 クラスター分析 ここに着目 27/63 k-means法 3/4 個体rのクラスター間移動に伴なう平方和の変化量は p 2 nl p n l k 2 k S xrj x j xrj x j nl 1 j 1 nk 1 j 1 従って,ΔS<0ならば個体rの移動により平方和が改善 それ以外は改善されなかったと判断 k-means法のアルゴリズム 手順1.n個の個体をg個のクラスターに初期分割する 手順2.移動させる候補の個体rを選び,順次クラスター移動 (クラスターサイズが1の場合は手順5へ:シングルトン) 手順3.ΔS<0となるクラスターが見つかれば移動 手順4.移動のあった2つのクラスターの平均ベクトル,平方和の 計算 手順5.ΔSの様子に変化が見られなかったら終了,聡でなければ 28/63 手順2へ 第5章 クラスター分析 k-means法 4/4 留意点 ・初期配置の方式 クラスター数の決定,初期代表値の選定 ・移動&再配置の方式 ・最適化基準の選択 局所最適であること:分割の全てのとおり数の検索は困難 ・アルゴリズム ・シングルトンの影響(外れ値) ・クラスターサイズへの配慮 第5章 クラスター分析 29/63 k-means法の手順 K-means法の計算 表5.6 語句 楽しい 得点 | 11 種子 境界値 ΔSW 境界値 ΔSW 境界値 ΔSW 境界値 ΔSW 境界値 安心感 美味しい シンプルな 親しみやすい コクのある とても甘い 高カロリーな ボリューム感 | | | | | | | | 50 60 78 91 98 106 160 220 〇 〇 〇 70.50 98.50 -659.92 30.67 81.75 162.00 2719.92 30.67 81.75 162.00 -4233.55 30.67 86.60 190.00 -239.12 38.00 93.25 190.00 冷たい | 31 クラスタ―間変動S B x1 x x2 x x3 x クラスタ―内変動SW x x4 x 全変動 ST x1 x2 x3 x4 図5.5 平方和の分解 第5章 クラスター分析 30/63 2次元でのクラスターの形成方法 1/5 簡単なデータセットによる理解 生徒No. 国語x1 英語x2 1 5 1 2 4 2 3 1 5 4 5 4 5 5 5 6 #3 5 #5 4 #4 3 グラフより直感的に {(#4,#5),(#1,#2)},#3 であることが分かる #2 2 #1 1 0 0 1 2 3 4 5 6 距離の定義 我々の世界の代表的な距離:ユーグリッド距離 相関関係の確率による距離:マハラノビス距離 より一般的な包含的距離 :ミンコフスキー距離 ここでは,分かりやすいユーグリッド距離を使う 第5章 クラスター分析 31/63 2次元でのクラスターの形成方法 2/5 平面におけるユーグリッド距離 x j1 三平方の定理を利用して , xj2 dij xi1, xi 2 x i1 x j1 xi 2 x j 2 2 2 5つの点のユーグリッド距離を計算すると 1 2 3 4 5 1 2 3 0 1.4142 0 5.6569 4.2426 0 3 2.2361 4.1231 4 3.1623 4 4 0 1 5 0 最短距離法は,5つの クラスターの中で距離が 最短なクラスターを結合する 距離最短は#4-#5の距離1であるから,これらを 同じクラスターC1(4,5)とする. 第5章 クラスター分析 32/63 2次元でのクラスターの形成方法 3/5 生徒No. 国語x1 英語x2 1 5 1 2 4 2 3 1 5 4 5 4 5 5 5 6 #3 5 #5 C1 4 #4 3 今度は, #1,#2,#3,C1 の距離を測る #2 2 #1 1 0 0 1 2 3 4 5 6 C1から#1,#2,#3への距離は,#4と#5からの距離の短い方を採用 する. C1 1 2 3 4 5 1 2 3 0 1.4142 0 5.6569 4.2426 0 3 2.2361 4.1231 4 3.1623 4 4 0 1 第5章 クラスター分析 5 最短は#1-#2の 距離d12=1.41 0 33/63 2次元でのクラスターの形成方法 4/5 生徒No. 国語x1 英語x2 1 5 1 2 4 2 3 1 5 4 5 4 5 5 5 6 #3 5 #5 C1 4 #4 3 今度は, C2,#3,C1 の距離を測る #2 2 C2 #1 1 0 0 1 2 3 4 5 6 C1から#3,C2への距離は,#4と#5からの距離の短い方を採用する. C2から#3,C1への距離は,#1と#2からの距離の短い方を採用する. C2 C1 1 2 3 4 5 1 2 3 0 1.4142 0 5.6569 4.2426 0 3 2.2361 4.1231 4 3.1623 4 4 0 1 5 最短はC1-C2の 距離dc1c2=2.24 0 第5章 クラスター分析 34/63 2次元でのクラスターの形成方法 5/5 生徒No. 国語x1 英語x2 1 5 1 2 4 2 3 1 5 4 5 4 5 5 5 6 #3 5 #5 C1 4 #4 3 今度は, C3,#3 の距離を測る #2 2 C3 C2 #1 1 0 0 1 2 3 4 5 6 C3から#3への距離は,#1,#2,#4と#5からの距離の最短を採用する.. C2 C3 C1 1 2 3 4 5 1 2 3 0 1.4142 0 5.6569 4.2426 0 3 2.2361 4.1231 4 3.1623 4 4 0 1 5 最短はC3-#3の 距離d3C3=4.00 0 第5章 クラスター分析 35/63 デンドログラム 生徒No. 国語x1 英語x2 1 5 1 2 4 2 3 1 5 4 5 4 5 5 5 6 5 ⅳ) ⅰ) 4 3 ⅲ) 2 樹状図 5 ケース 最近隣法 ユークリッド距離 ⅱ) 1 4.5 0 4.0 0 結合距離 3.0 英が得意 2.0 英・国共に得意 1.5 国が得意 1.0 0.5 2 3 4 5 6 距離に着目してデンドログラムで 表すと分かりやすい 3.5 2.5 1 C_3 C_5 #3 #5 C_4 C_2 #4 #2 C_1 #1 主観的に距離2で切断する ・3つのクラスターが得られた 距離は客観的 クラスター数,解釈には分析者の 意図が入る 第5章 クラスター分析 36/63 変数がp個の場合のクラスター分析 1/2 変数がp個になっても同様の考え方で距離を測る P次元のユーグリッド距離は dij x p k 1 ik x jk 2 特定の問題以外は,ユーグリッド距離で測定すればよいので, 他の距離については,ここでは省略する. JMPによる分析 ・スライド3のデータを入力する ・メニューの分析の多変量から クラスター分析をクリックする 1.変数を 全て指定 2.クリックして 読み込む 3.オプションで階層型,手法-最短距離法を 設定してOKボタンをクリックする. 37/63 第5章 クラスター分析 変数がp個の場合のクラスター分析 2/2 ŠK‘wŒ^ƒNƒ‰ƒXƒ^ [•ª Í JMPでの出力 Žè–@ = Å’Z‹——£–@ } デンドログラム Ž÷Œ` どの科目も 比較的に優秀 どの科目も 点数が高くはない クラスターの解釈 クラスター分析 +主成分分析で 解釈すると理解しやすい Žå ¬•ª1‚ÆŽå ¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW 2 5 8 Žå ¬•ª2 1 0 1 3 6 7 9 -1 -2 10 2 4 -3 -2 -1 0 1 Žå ¬•ª1 2 1 5 2 10 4 8 7 9 3 6 ƒNƒ‰ƒXƒ^ [•ª Í‚Ì—š—ð ƒNƒ‰ƒXƒ^ [‚Ì ” 9 サンプルの結合過程 8 7 6 5 4 3 2 1 3 ‹——£ 0.666260446 0.748707427 1.052400469 1.297035918 1.463242000 1.501541188 1.574743389 1.747747904 1.899372402 Œ‹ ‡ æ 3 7 1 1 1 1 1 1 1 距離の結合過程 第5章 クラスター分析 Œ‹ ‡ŽÒ 6 9 5 2 10 4 8 7 3 38/63 クラスター間の距離 A.最短距離法 B.最長距離法 ・最初に全てのサンプルの距離を計算する. ・クラスターを結合する場合に,最も近い距離をクラスター間の距離にするか, 最も遠い距離にするかの違いがある. ・最短距離法は,特定の場合,例えば地震や火山帯のクラスターに利用され るが一般に用いると,鎖効果が出て好ましくない. ⅰ) ⅳ) ⅲ) ⅱ) 最短距離法 最長距離法 第5章 クラスター分析 39/63 Ward法 1)ウォード法の特徴 実用的であること.すなわちよいクラスターが作れる. 鎖効果がおきにくい. ある1つのクラスターに対象が順次1つづつ追加されていく 現象 鎖効果が起きると対象の群分けが達成できなくなる. 鎖効果 よいクラスター 2)変数が2個の場合のウォード法 3)変数がp個の場合のウォード法 第5章 クラスター分析 40/63 変数が2個の場合のウォード法 1/5 生徒No. 国語x1 英語x2 1 5 1 2 4 2 3 1 5 4 5 4 5 5 5 6 5 4 #2 3 2 重心 1 #1 0 0 1 2 3 4 5 6 生徒#1と#2を1つのクラスタにまとめたときの平方和を計算 平方和とは重心からの距離の二乗和であった 2 2 S12 xik x k 2 i 1 k 1 5 4.5 4 4.5 1 1.5 2 1.5 0.25 4 1 2 2 2 2 平面における2点の平均からの距離の二乗和を計算する 第5章 クラスター分析 41/63 変数が2個の場合のウォード法 2/5 平面における2点の平均からの距離の二乗和を計算する X1,X2平均 x1,x2平方和 平方和 2 3 4 5 1 4.5 1.5 3 3 5 2.5 5 3 2 3 4 5 1 0.5 0.5 8 8 0 4.5 0 8 2 3 4 5 1 1 16 4.5 8 2 2.5 4.5 4.5 3 3.5 3 3.5 2 4.5 0.5 0.5 3 3 4 4.5 5 5 3 4.5 2 4.5 8 8 5 4.5 4 0.5 0 0 5 0.5 2 3 4 9 2.5 5 8.5 8 0.5 5 平面における平方和最小なのは(#4-#5)であるから これをC1とする 第5章 クラスター分析 42/63 変数が2個の場合のウォード法 3/5 平面における各クラスターの二乗和の増分で判断する X1,X2平均 2 3 45 1 4.5 1.5 3 3 5 3.33 2 2.5 3.5 4.667 3.667 3 3.667 4 4.667 5 x1,x2平方和 平方和 C1 2 3 45 増分 1 0.5 0.5 8 8 0 8.67 0 8.17 2 4.5 4.5 0.667 4.667 0.667 4.167 1 2 2 1 3 16 9 45 8.1666667 4.833333333 3 10.67 10.67 5 4.5 4 0.667 0.167 3 0 5 0.5 4 5 10.83333333 C1では#4,5と他のサンプルの平方和を計算し,その 増分で評価する 例) S145 8.67, S45 0.5, S1 0 C2は#1,2とする S145 S145 S45 S1 8.167 第5章 クラスター分析 43/63 変数が2個の場合のウォード法 4/5 平面における各クラスターの二乗和の増分で判断する X1,X2平均 2 3 45 1 4.5 1.5 3 3 5 3.33 2 3.333 2.667 4.75 3 3 3.667 4 4.667 5 x1,x2平方和 平方和 C1 2 3 45 増分 増分 0.5 0.5 8.17 8.17 0.25 9 2 3 45 12 8.667 8.667 0.75 10 0.75 9.5 3 10.67 10.67 5 4.5 4 0.667 0.167 C2=12 3 16.33333333 9.25 10.83333333 0 5 0.5 C1=45 C1,C2の平方和の増分の計算 S1245 10.75, S12 1.00, S45 0.5 S1245 S1245 S12 S45 10.75 1 0.5 9.25 C3をC1,C2とする 第5章 クラスター分析 44/63 変数が2個の場合のウォード法 5/5 平面における各クラスターの二乗和の増分で判断する X1,X2平均 3 1245 4 3.4 3 1245 0.75 10 12 13.2 x1,x2平方和 平方和 3 差分 3 1245 25.2 14.45 C1 C3,#3の平方和の増分の計算 S12345 25.2, S1245 10.75, S3 0 S1245 S12345 S1245 S3 25.2 10.75 14.45 これで完了 第5章 クラスター分析 45/63 変数がp個の場合のウォード法 JMPを使いウォード法でスライドのデータを分析してみよう ŠK‘wŒ^ƒNƒ‰ƒXƒ^ [•ª Í Žè–@ = Ward–@ Ž÷Œ` } 1 5 8 2 10 4 3 6 7 9 ƒNƒ‰ƒXƒ^ [•ª Í‚Ì—š—ð ƒNƒ‰ƒXƒ^ [‚Ì ” 9 8 7 6 5 4 3 2 1 ‹——£ 0.471117279 0.529416099 0.744159508 1.034668340 1.355895175 1.386843179 2.120907188 2.925488473 4.129762622 Œ‹ ‡ æ 3 7 1 2 2 1 3 1 1 第5章 クラスター分析 Œ‹ ‡ŽÒ 6 9 5 10 4 8 7 2 3 46/63 5.2 クラスター分析の活用指針 用いる方法によって,結果が大きく異なる可能 性がある. 構成されたクラスターが意味があるものなのか を知見に基づいて判断する必要がある. 主成分と組み合わせると分りやすい 第5章 クラスター分析 47/63 5.2.1 クラスター分析の目的と到達レベル データ分析者の CLUST の目的は,主に以下のような事柄であろう. ・多変量データを少数個(2~5 程度)のクラスターで説明する. データ分析者の CLUST の目的は,主に以下のような事柄であろう. ・発見されたクラスターで個体の特徴を掴む. ・多変量データを少数個(2~5 程度)のクラスターで説明する. ・主成分上のクラスターの布置で仮説を発見する. ・発見されたクラスターで個体の特徴を掴む. データ分析者のCLUSTの到達レベルは,例えば以下のようなものであろう ・主成分上のクラスターの布置で仮説を発見する. ・PCA や FA と複合させてポジショニングや狙いのセグメントを探索する データ分析者のCLUSTの到達レベルは, 例えば以下のようなものであろう. ・顧客の使用実体と商品満足度を結び付け, 商品の持つ強み弱みを摘出する ・PCA や FA と複合させてポジショニングや狙いのセグメントを探索する. ・業界の特許や技術動向などから幾つかの群を求め,技術戦略を立案する. ・ 顧客の使用実体と商品満足度を結び付け,商品の持つ強み弱みを摘出する. ・業界の特許や技術動向などから幾つかの群を求め,技術戦略を立案する. 第5章 クラスター分析 48/63 5.2.2 クラスター分析の手順 1/4 分析前のチェック!!! 本当にCLUSTの問題かどうか検討しておく. 分析にあたっては,クラスター自体検討する必要のない場合 予め分類情報をもった変量がある場合など 事前検討に時間を使う. 事前に知見から,どの程度のクラスターが得られるか仮説を立てる 直接CLUSTには使わないがクラスターの性格を決めるような項目 の準備など 第5章 クラスター分析 49/63 5.2.2 クラスター分析の手順 2/4 ①分析に必要な変量を選定する 分析目的に対して無意味な変量を含んでいると分析結果の 解釈が困難になる 変量選定には十分な吟味が必要である ②個体の数は目的に応じて集める CLUSTは,記述の意味合いが強い手法であるので,無作為 に集まられた個体でも,意図的に集められた個体でもよい ③データは分析しやすいようにデータ行列にまとめる DBの活用や実際にアンケート等によりデータを収集する 必要であれば,対数変換や単位当りの比率に加工しておく 第5章 クラスター分析 50/63 5.2.2 クラスター分析の手順 3/4 ④外れ値チェック データのモニタリングによって,外れ値 ―たった1個でクラス ターが形成されそうな個体― には色を変えたり,マーカを変 えたりしておく ⑤距離の定義を決める JMPの階層的方法では,標準化ユーグリッド距離が初期設 定になっている ⑥目的や個体数から階層的方法か非階層的方法か を選ぶ マイニング分野では,必然的に非階層的方法を選択せざる を得ない 第5章 クラスター分析 51/63 5.2.2 クラスター分析の手順 4/4 ⑦方法の選択 Ward法を実行し他の方法と比較する.クラスター数は,デンド ログラムの結合の形や知見などから決定する(階層的方法) クラスター数を決める(非階層的方法) ⑧クラスターの性格を決める 事前情報や分析に使わなかった項目も活用し,クラスターと のクロス集計表分析などを行う(階層的方法) 何度か初期値を変えてCLUSTを実行する(非階層的方法) 知見とバイプロットやパラレルプロットからクラスターの性格を決める ⑨最後の確認 解釈が困難な場合には⑦に戻り再検討する 場合によっては,変量や個体の見直しCLUSTを再実行する 52/63 第5章 クラスター分析 JMPによる k-means法の分析 1/4 スライド3のデータを分析する 1.メニューの分析から 分類→大規模ファイルのクラスタ をクリックする 2.ダイアログが現れるので4つの変数を分析する変数に指定する ここをクリックして K Means法に変える クラスター数を指定する ここでは,クラスタ数を3とするが,探索的にクラスタ数を 決める必要がある 53/63 第5章 クラスター分析 JMPによる k-means法の分析 2/4 クラスター数の基準 Calinski-Harabaszの分散比基準 SB g SW g Vg / g 1 n g gクラスター時での分散比で判断するもの 平方和基準で測れるようなクラスターが存在するときは そのクラスター数付近で分散比は大きくなる この基準はお手軽なものであるが, データの空間配置のパターンにより 必ずしも最良の保証が得られるとは 限らない 第5章 クラスター分析 54/63 JMPによる k-means法の分析 3/4 赤▼をクリックしてバイプロット を選択 ”½•œƒNƒ‰ƒXƒ^ [•ª Í Ý’èƒpƒlƒ‹ K-MeansƒNƒ‰ƒXƒ^ [•ª Í ƒoƒCƒvƒ ƒbƒg •W €•Î ·‚Ńf [ƒ^‚ð•W €‰» ƒNƒ‰ƒXƒ^ [‚Ì F•ª‚¯ •W–{’Š o—¦‚ðŽg‚Á‚Ä‹——£‚ðƒVƒtƒg ƒNƒ‰ƒXƒ^ [“à‚Ì•W €•Î ·‚ðŽg—p 2.0 5 1.5 1.0 ƒNƒ‰ƒXƒ^ [—v–ñ Å‘å‹——£ 0 0 0 ‘ Œê 96 62 39 3 0.0 3 6 -0.5 ” Šw 61 98 45 101 ” Šw — ‰È 2 -1.0 9 -1.5 4 -2.0 ‰pŒê 97 58 33 2 7 Ž–‘O‹——£ 0 0 0 ƒNƒ‰ƒXƒ^ [•½‹Ï ƒNƒ‰ƒXƒ^ [ 1 2 3 1 ‘ Œê ‰pŒê 0.5 Žå ¬•ª2 ƒXƒeƒbƒv Šî € 0 0 ƒNƒ‰ƒXƒ^ [ “x ” 1 0 2 0 3 0 8 — ‰È 63 95 50 -2 -1 0 Žå ¬•ª1 1 2 ŒÅ—L’l 2.720733 1.22179950.0524115 0.005056 ƒNƒ‰ƒXƒ^ [•W €•Î · ƒNƒ‰ƒXƒ^ [ ‘ Œê ‰pŒê ” Šw — ‰È 1 6.84790677 7.1853761 6.45602408 5.99217597 2 6.84790677 7.1853761 6.45602408 5.99217597 3 6.84790677 7.1853761 6.45602408 5.99217597 第5章 クラスター分析 55/63 JMPによる k-means法の分析 4/4 Žå ¬•ª1‚ÆŽå ¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW 2 分類されたけ-スに色分けして 第1&第2主成分平面に布置 5 8 Žå ¬•ª2 1 1 楕円で囲ったものが ウォード法によるクラスタ 3 0 10 6 2 7 -1 -2 9 プロットの色がk-means法の クラスタ 4 -3 -2 -1 0 Žå ¬•ª1 1 2 3 構成されるクラスタの要素が 異なることに注意 このデータでは,ウォード法の結果と第1&2主成分平面とよく 合っているが,K-means法の結果と第1&2主成分平面との布置の 一致はよろしくない.このような結果は,データ構造に依存する 56/63 第5章 クラスター分析 5.3.1 理想の恋人(1) 1/2 理想の恋人データを使う 非常に小さい標本であることに注意 n=20 階層型クラスター分析 手法 =Ward法 樹形図 経済力 性格 趣味 相性 容姿 距離 年齢 1 16 6 11 18 19 13 20 3 12 15 5 4 9 8 2 7 10 14 17 クラスター1 クラスター3 クラスター2 クラスター分析の履歴 クラスターの数 距離 19 0.593721010 18 1.061293413 17 1.120122650 16 1.387373407 15 1.516320855 14 1.718666956 13 1.763473563 12 1.878577843 11 1.931205232 10 1.997082103 9 2.153375333 8 2.273528880 7 2.778118129 6 2.921482497 5 2.949965045 4 3.350878295 3 3.644718593 2 4.738608270 1 5.196520211 結合先 結合者 3 12 14 17 4 9 3 15 13 20 1 16 18 19 6 11 3 5 10 14 4 8 6 18 6 13 2 7 3 4 2 10 1 6 1 3 1 2 クラスター分析の履歴 クラスターの数 距離 6 2.809925874 5 3.677529368 4 4.338605988 3 4.608817692 2 4.865357785 1 5.417249612 結合先 経済力 趣味 容姿 容姿 経済力 経済力 第5章 クラスター分析 結合者 性格 相性 距離 年齢 趣味 容姿 57/63 5.3.1 理想の恋人(1) 2/2 ƒpƒ‰ƒŒƒ‹ƒvƒ ƒbƒg ƒNƒ‰ƒXƒ^ [2 •½‹Ï(”N—î) •½‹Ï(Žï–¡) ƒNƒ‰ƒXƒ^ [3 •½‹Ï(‘Š «) •½‹Ï(‹——£) •½‹Ï( «Ši) •½‹Ï(—eŽp) •½‹Ï(Œo Ï—Í) ƒNƒ‰ƒXƒ^ [1 図5.7 パラレルプロットによる3つのクラスターの特徴 個体クラスターの特徴や意味について検討 方法 各変量について,クラスターごとの平均を計算し,パラレルプロット により相対的な検討を行う クラスター1&3とクラスター2の違いは,クラスター2は,経済力,容 姿,正確,距離といった外観的な項目を相対的に重要視していない クラスター1とクラスター2&3の違いは,クラスター1は,相性や趣味 といった項目を相対的に重要視していない. 第5章 クラスター分析 58/63 5.3.2 理想の恋人(2) 1/2 今度はマハラノビス距離を使う 主成分得点の利用 Ž÷Œ` } •W €‰»Žå ¬•ª1‚Æ•W €‰»Žå ¬•ª2‚Ì“ñ•Ï—Ê‚ÌŠÖŒW 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 -2 -1.5 -1 -0.5 0 .5 1 1.5 2 •W €‰»Žå ¬•ª1 •W €‰»Žå ¬•ª2 1 13 2 6 19 18 11 3 16 20 12 5 15 4 8 9 7 10 14 17 図5.8 主成分得点へのCLUST 第5章 クラスター分析 59/63 5.3.2 理想の恋人(2) 2/2 ユーグリッド距離とマハラノビス距離では結果 がことなる マハラノビス距離の注意点 活用術 5.3:主成分得点の CLUST 主成分得点に基づいて CLUST を行う場合は,以下の点に注意する. ・得点は標準化したものを使う. ・用いる主成分の数は固有値上位のものに限る. 第5章 クラスター分析 60/63 5.3.3 選挙データへの k-means法の適用 1/3 2000&2001年度の比例区の選挙データについてk-means法で 分析してみよう. データについて, 手順1.各政党の得票数は総得票数で割って県別の 政党別得票率を求める 手順2.政党別得票率に対して対数変換する 手順4.変数として用いる政党は 自民,民主,公明,共産,自由,社民 の6政党 手順5.データセットは以下のように準備する 北海道 ~沖縄 2000年 北海道 ~沖縄 2001年 第5章 クラスター分析 変数:政党別得票率 の対数 61/63 5.3.3 選挙データへの k-means法の適用 2/3 JMPを使い k-means法を適用する ・求めるクラスター数は2とする (ここでは,年度の違い(小泉効果)により群が構成 されるという仮説にたつ) ・得られたクラスターを保存する ・主成分分析で,第2主成分まで求める ・主成分平面とクラスターを視覚的に比較する テキストでは群を3つに指定している 違いをも読み取ろう 第5章 クラスター分析 62/63 5.3.3 選挙データへの k-means法の適用 3/3 1Žå ¬•ª‚Æ2Žå ¬•ª‚Ì“ñ•Ï—Ê‚ÌŠÖŒW 2 ‰ªŽR 橋本氏 1 2Žå ¬•ª 0 “‡ ª 青木氏 ‹{ è 武藤氏 Ž-Ž™“‡ •Ÿˆä Î ì -1 ‰ªŽR “‡ ª 羽田氏 ’·–ì ’·–ì ‹{ è •Ÿˆä Ž-Ž™“‡ 森氏 Î ì -2 クラスターは 確かに選挙年による 構成比率(の対数)の 構造変化を捉えてくれる どの県についても小泉効果 (矢印方向と長さ)が認められる -3 K-means法による クラスターで色分け -4 -2 ŠâŽè -1 保守(与党)軸 2001年 0 1Žå ¬•ª 小沢氏 ŠâŽè 1 2 革新(野党)軸 2000年 第5章 クラスター分析 63/63
© Copyright 2024 ExpyDoc