情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』

情報知能学基礎演習
豊田秀樹(2008)『データマイニング入門』 (東京図
書)第5章
情報知能学科
白井 英俊
確率と分布
確率とは:以下の三つの公理を満たす事象の集合
に対する数値
1.各事象(ei)の測度(値)は0以上1以下:
0 ≦P(E=ei) ≦1
2.全事象集合の測度:
 P(E = e )  1 i
i
3.排反事象の和の確率は、各事象の確率の和に
等しい
事前確率、条件付き確率、同時確率
• 事前確率 p(A) : これはP(E=A)の略記
特定の条件なしで事象Aが生起する確率
• 条件付き確率 P(B|A) :事象Aが成り立っていると
いう条件のもとで事象Bが成り立つ確率
事象AとBが「独立」ならば、P(B|A) = P(B)
• 同時確率 p(A,B) : これはP(E=A∧B)の略記
基本公式: p(A,B) = p(A) * P(B|A)
= p(B) * P(A|B)
AとBが独立ならば p(A,B) = p(A) * P(B)
条件付確率の例
• 事象Aが成り立っているという条件のもとで事象B
が成り立つ確率が「条件付確率」: P(B|A)
• 事象AとBが「独立」ならば、P(B|A) = P(B)
例:「qの後にuが現れる確率」は条件付き確率の例
=「qが入力文字の直前の文字である」という条件
のもとで、「uが入力文字である」確率
実際には0.9以上。これは直前の文字が何かを
問わない「uが入力文字である」確率と比べては
るかに大きい
5章 連関規則
• 連関規則(連想規則) A → B
「属性Aをもつオブザベーションが、属性Bをもつ傾
向にある」という知識
•用語:ルールヘッド、ルールボディ
バスケット分析:膨大な購買記録データの中か
ら有用な連関規則を見つけること
「有用な」連関規則A → Bの要因
(1) p(A)
: 高い方がよい。適用機会が多いため。
p(B|A)に対する前提確率
(2) p(B|A) : 高い方がよい。「信頼度」(confidence)
(3) p(A,B) : 高い方がよい。「サポート」(support)
参考: p(A,B) = p(A) * P(B|A)
(4) p(B)
: p(A,B)と比較して低い方がよい。
(5) 改善率(リフト, lift) : 1以上がよい (p.157)
p(B|A) / p(B) = p(A,B) / (p(A)*p(B))
有用な連関規則の例
• 温泉データから(表5.2)
(前提確率、信頼度)
高血圧に効く→動脈硬化に効く (0.18, 0.88)
動脈硬化に効く→高血圧に効く (0.20, 0.79)
筋肉痛に効く→関節痛に効く (0.04, 1.00)
• 10年間の東京の天気から(晴0.54,雨0.27)
前日が晴→当日も晴
前々日、前日晴→当日も晴
前日が雨→当日も雨
前々日晴、前日雨→当日雨
(0.54, 0.68)
(0.37, 0.71)
(0.27, 0.44)
(0.10, 0.48)
従来の方法との比較
• 従来の分割表の解析:分割表全体を対象
クラメールの係数(記述統計)
独立性の検定(推測統計)
対数線形モデル(多変量解析)
問題点:データが膨大になると、分析結果の有用
性が薄れる(分析コストが指数関数的に増大)
データマイニングの方法: 「抽出された情報や発
見された知識の価値 > 抽出コスト」なら成功
少し考えてみよう
• 事例:「紙おむつを買う客はビールを一緒に買う可
能性が高い」という連関規則を発見し、それらを並
べて陳列することで売り上げを伸ばしたスーパー
マーケット
• 「紙おむつを買う→ビールを買う」規則の発見
• 「ビールを買う→紙おむつを買う」規則とはど
う違うか?