情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図 書)第5章 情報知能学科 白井 英俊 確率と分布 確率とは:以下の三つの公理を満たす事象の集合 に対する数値 1.各事象(ei)の測度(値)は0以上1以下: 0 ≦P(E=ei) ≦1 2.全事象集合の測度: P(E = e ) 1 i i 3.排反事象の和の確率は、各事象の確率の和に 等しい 事前確率、条件付き確率、同時確率 • 事前確率 p(A) : これはP(E=A)の略記 特定の条件なしで事象Aが生起する確率 • 条件付き確率 P(B|A) :事象Aが成り立っていると いう条件のもとで事象Bが成り立つ確率 事象AとBが「独立」ならば、P(B|A) = P(B) • 同時確率 p(A,B) : これはP(E=A∧B)の略記 基本公式: p(A,B) = p(A) * P(B|A) = p(B) * P(A|B) AとBが独立ならば p(A,B) = p(A) * P(B) 条件付確率の例 • 事象Aが成り立っているという条件のもとで事象B が成り立つ確率が「条件付確率」: P(B|A) • 事象AとBが「独立」ならば、P(B|A) = P(B) 例:「qの後にuが現れる確率」は条件付き確率の例 =「qが入力文字の直前の文字である」という条件 のもとで、「uが入力文字である」確率 実際には0.9以上。これは直前の文字が何かを 問わない「uが入力文字である」確率と比べては るかに大きい 5章 連関規則 • 連関規則(連想規則) A → B 「属性Aをもつオブザベーションが、属性Bをもつ傾 向にある」という知識 •用語:ルールヘッド、ルールボディ バスケット分析:膨大な購買記録データの中か ら有用な連関規則を見つけること 「有用な」連関規則A → Bの要因 (1) p(A) : 高い方がよい。適用機会が多いため。 p(B|A)に対する前提確率 (2) p(B|A) : 高い方がよい。「信頼度」(confidence) (3) p(A,B) : 高い方がよい。「サポート」(support) 参考: p(A,B) = p(A) * P(B|A) (4) p(B) : p(A,B)と比較して低い方がよい。 (5) 改善率(リフト, lift) : 1以上がよい (p.157) p(B|A) / p(B) = p(A,B) / (p(A)*p(B)) 有用な連関規則の例 • 温泉データから(表5.2) (前提確率、信頼度) 高血圧に効く→動脈硬化に効く (0.18, 0.88) 動脈硬化に効く→高血圧に効く (0.20, 0.79) 筋肉痛に効く→関節痛に効く (0.04, 1.00) • 10年間の東京の天気から(晴0.54,雨0.27) 前日が晴→当日も晴 前々日、前日晴→当日も晴 前日が雨→当日も雨 前々日晴、前日雨→当日雨 (0.54, 0.68) (0.37, 0.71) (0.27, 0.44) (0.10, 0.48) 従来の方法との比較 • 従来の分割表の解析:分割表全体を対象 クラメールの係数(記述統計) 独立性の検定(推測統計) 対数線形モデル(多変量解析) 問題点:データが膨大になると、分析結果の有用 性が薄れる(分析コストが指数関数的に増大) データマイニングの方法: 「抽出された情報や発 見された知識の価値 > 抽出コスト」なら成功 少し考えてみよう • 事例:「紙おむつを買う客はビールを一緒に買う可 能性が高い」という連関規則を発見し、それらを並 べて陳列することで売り上げを伸ばしたスーパー マーケット • 「紙おむつを買う→ビールを買う」規則の発見 • 「ビールを買う→紙おむつを買う」規則とはど う違うか?
© Copyright 2024 ExpyDoc