情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図 書)第6章 情報知能学科 白井 英俊 前回のコメント・質問 • 連関規則を作る時に、信頼度、サポートの下限の値を記入し ますが、信頼度は事前確率より高くないといけないので、 itemFrequenryで出した値の中で、一番高いのより、少し高く しといたほうがいいでしょうか。 • itemFrequencyPlotとすることによって一行前にあった itemFrequencyという変数(?)をplotしてるのでしょうか? • 温泉のデータマイニングの時、効能的には一緒なのにヘッド とボディの部分を入れ替えるだけで確率が変わるのが少し 納得がいかなかった • 信頼度とか前提確率とかはわかるのですがsupport(サポー ト)っていったい何なんだろうと思った 前回のコメント・質問(続き) • inspect(SORT(雨ルール, “support”)[1:10, ]) について 1. SORTって小文字でもいいのでは。何か意味があるのでし ょうか? 2. [1:10,]ってところは1~10まで並べるって意味なのでしょ うか? • options(digits=2)での表示桁数の変更はなぜ行っているので しょうか? • print(inspect(温泉ルール[c(20,21, 70, 69, 3, 4, 127, 83, 61), ]), digits=3)で、表示の最後にNULLと表示されるのはなぜでし ょうか? • Rを開きなおさずに、それまでの実行をなかったことにできる ようなコマンドやツールはないのですか? 6章 クラスター分析 • クラスター分析: 観測対象を、互いに似たも の同士(「類似度」)でグループ分け • 二つの分類: 1. 階層的: 「階層」とは動植物の体系のように、分 類が大分類から小分類へと段階的に分類が細 かくなっているようなもの 2. 非階層的 6.1 階層的クラスター分析 • 類似度の定義 ユークリッド距離(日常的な感覚の「距離」) 2変数の場合: ( xi1, xi 2 ) と ( x j1, x j 2 ) の 距離dij = ( xi1 x j1 ) 2 ( xi 2 x j 2 ) 2 多変量の場合(n次元) d ij n 2 ( x x ) ik jk k 1 6.1.2 動物の分類を例に • 階層的クラスター分類の手順 1. 変数を用いて個々の対象間の距離をすべて計算し、そ の中で距離が最も短い対象同士を併合して、最初のク ラスターを作成 2. 新しく併合されたクラスターと他の対象間の距離を再度 計算し、手順1で計算された対象間の距離を含めてもっ とも近いものを併合する。 3. 手順2を繰り返して、すべてのクラスターが統合されるま で計算 4. クラスターが併合される過程を表すデンドログラムを描く 動物の分類を例にした距離 動物 体重(kg) 脳の重さ(g) 標準化(平均0.0、分散1.0) 動物 体重 脳の重さ 牛 465 423 牛 0.921 -0.581 馬 521 655 馬 1.175 0.016 ゴリラ 207 406 ゴリラ -0.246 -0.625 人間 62 1320 人間 -0.902 1.727 チンパンジー 52 440 チンパンジー -0.947 -0.537 距離を求める 牛 「牛」と「馬」を一つのクラスターにする 最小値 馬 ゴリラ 馬 0.65 ゴリラ 1.17 1.56 人間 2.94 2.69 2.44 チンパンジー 1.87 2.19 0.71 人間 2.26 クラスター間の距離 ゴリラ C1:牛+馬 ゴリラ 1.34 人間 2.80 チンパンジー 2.01 最小値 人間 2.44 0.71 2.26 「ゴリラ」と「チンパンジー」を 一つのクラスターにする • 重心法: クラスターの重心(平均)からの距離 • 最短距離法: クラスター内の要素からの最短距離 • 最長距離法: クラスター内の要素からの最長距離 • 群平均法: クラスター内の要素からの距離の平均 デンドログラム 人間 1.0 距離行列 hclust (*, "average") チンパンジー ゴリラ 馬 牛 0.5 Height 1.5 2.0 2.5 動物のクラスター分析 6.1.4 ウォード法 • ウォード法:2つのクラスターを併合する時に、クラ スター内の平方和を最小にするようにクラスターを併 合する クラスター間の距離:2つのクラスターを併合した時 の平方和(散布度)の増加量で定義 平方和の増加量が大きい⇒2つのクラスターが類似していない ⇒平方和の増加量が小さいものから併合することで、似たも の同士がまとまる 散らばりの変化量=併合後の平方和 - ∑(それぞれの平方和) ウォード法(続き) • 利点:鎖効果が起こりにくい 鎖効果:ある一つのクラスターに対象が一つずつ順 番に吸収されて、クラスターの形成がなされていく 減少。 特に最短距離法でこれが起こりやすい 重心法は、クラスター併合後に距離が短くなる場 合があり、距離の単調性が保証されない クラスター法は実用場面でよく使われ、お勧め ヒートマップ (図6.5) 六本木 銀座 お台場 横浜 新宿 渋谷 上野 浅草 吉祥寺 先進的 派手 いそがしい しゃれた 開放的 冷静 早稲田 6.2 非階層的クラスター分析 • 非階層的手法では、あらかじめ指定したクラ スター数で観測対象を分類 • 利点:計算が速い。大量のデータを処理する場合 は、クラスター数の大体の目星をつけて、クラスター 数を変えて非階層的手法を数回実施した方が効率 が良い(場合が多い) • 欠点: クラスター数を指定しなければ分析できない k-means法 • MacQueen(1967)による提案 1. N個の観測対象をK個の初期クラスターに任意に 分類しておく 2. 各クラスターの中心点を計算 3. N個の観測対象のK個のクラスターの中心点への 距離を計算(N*K個) 4. すべての観測対象に関して、その時点で各自が 所属しているクラスターへの距離が、K個のクラス ターの中で一番近ければ計算終了。さもなければ、 一番近いクラスターに割り当てなおして2へ。 k-means法の確認 4つの観測対象、2次元の特徴量 この観測対象を2つのクラスターに 分ける(K=2) 観測対象 (1) AB と CD に分類 (2) クラスターの中心点を 求める: AB = (2,3), CD = (-1,-1) x1 x2 A 6 4 B -2 2 C 0 -2 D -2 0 k-means法の確認(続) (3) それぞれの観測対象から 、これらの中心点への距 離を計算(右表、赤字は各 行の最小値) 観測対象 (AB) (CD) A 17 74 B 17 10 C 29 2 D 25 2 (4) Bが誤分類されているため、 クラスター を(A)と(BCD)に分類し、中心点を計算: (A)=(6,4), (BCD)=(-1.3, 0 ) 観測対象 (5)それぞれの観測対象か ら、これらの中心点への距 離を計算(右表)⇒終了 (A) (BCD) A 0 69.8 B 68 4.44 C 72 5.78 D 80 0.44 非階層法の注意 • クラスターの解釈は分析者の責任 • 初期クラスターの初期値に依存するため、出 力はいつも同じとは限らない • 分析者の判断により、適切なクラスター数を 決定して解釈を行う
© Copyright 2024 ExpyDoc