中小企業のための経済・経営セミナー 中小企業で情報

データマイニングの考え方
データマイニングってなに?
統計学、パターン認識、人工知能等のデータ解析の技
法を大量のデータに網羅的に適用することで知識を取り
出す技術。通常のデータの扱い方からは想像が及びに
くい、ヒューリスティク(heuristic、発見的)な知識獲得が
可能であるという期待を含意していることが多い。(
Wikipedia)
データマイニングとは、データの集合の中から、知識を
発見しよう、というものです。ここでいう知識とは、データ
の中に見られるルールとか法則のことです。(国立情報
学研究所)
多量のデータから有用な知識を発掘する技術の総称(
データマイニングの基礎:オーム社)
2
データの種類と尺度
 量的データ 数値
 距離尺度(間隔尺度) 時点任意
差は意味を持つ。例)温度
 比尺度(比例尺度) 距離+原点
自然科学の計量データ
質的データ 数量という概念がない、言葉、文字
 名義尺度 区別するための記号
質的相違を直接表現
 序数尺度(順序尺度)
なんらかの基準による順序を表す
3
データ分析で得られる知見
分析目的:何を知ることができるのか
予測型 変数 𝑦 の値(量的データ)を 𝑥1 , … , 𝑥𝑝 の値
で予測
例) 𝑦 は 3𝑥 + 5 に近い値
判別型 変数 𝑦 の値(質的データ)を 𝑥1 , … , 𝑥𝑝 の値
で判別
例) 𝑥1 が赤、 𝑥2 が 12 であれば、 𝑦 は 旅行
関係性型 変数 𝑥1 , … , 𝑥𝑝 間、または個体 1, … , 𝑛
間の関係性、変数と個体間の関係性を調べることで
データの背後にある現象構造を明らかにする
4
増加する利用可能なデータ
 情報技術の進歩
大量のデータの蓄積、処理が可能
 ネットワーク環境の整備
データの収集が容易
⇒ 大量の生のデータを収集・蓄積
データウェアハウス (Data Warehouse)
集約前のデータ … 詳細な分析
企業では、様々な意思決定支援に用いる
 さらに、SNSの発達、等
⇒ ビッグデータ
5
データ分析の考え方
 検証型(仮説検証指向)
仮説をたて、それを検証する
一般的な分析
多変量解析
 探索型(発見指向)
有益な情報を探索する
データマイニング(狭義?)
6
データマイニング
 有益かもしれない情報を発見する
⇒ 探索型
 例えば、金曜の夕方に紙おむつを買う客は缶ビー
ルも買うことが多い ⇒ 気づくか?
 マイニングの種類
 アソシエーション: 関連性
 クラスタリング: 分類
 クラシフィケーション: 集合意味付け
…
7
相関規則 : association rule
 データ項目の集合: I = {A, B, C, …}
 トランザクション: I の部分集合 バスケットデータ
ID
Transaction
001
002
{A, B, C}
{B, C, D, F}
003
004
005
006
{A, C}
{A, C, E}
{A}
{A, C}
007
008
{B, C}
{A, C}
相関規則:X⇒Y
X が起これば Y も起こる
確信度 (confidence)
高い確率か
支持度 (support)
役に立つか
8
確信度 : confidence
 X⇒Y : X が起これば Y も起こる
確信度 : | T(X∪Y) | / | T(X) |
 T(X) : X を含むトランザクション集合
 注意 : T(X∪Y)=T(X)∩T(Y)
 方向性がある
T(X)
T(Y)
○ X⇒Y
× Y⇒X
9
支持度 : support
 X⇒Y を支持する
支持度 : | T(X∪Y) | / D
 D : 全データの件数
全データに占める X∪Y を含むデータの割合
= X∪Y が起こる確率
 X∪Y を含むデータの件数が多いほど相関規則が
支持される
 X∪Y を含むデータが少なければ、確信度が高くて
も役にたたない
10
最小確信度、最小支持度
 確信度、支持度が高いほど相関規則は有用
 最小値を設定
最小確信度 : minimum confidence
最小支持度 : minimum support
 マイニングアルゴリズムは、確信度と支持度が最小
値を超える相関規則を求める
= 役に立ちそうな相関規則
役に立つかもしれない相関規則
11
相関ルールの例
 minimum confidence = 0.8
minimum support
= 0.3 のとき
ID
Transaction
001
002
003
{A, B, C}
{B, C, D, F}
{A, C}
004
005
006
{A, C, E}
{A}
{A, C}
007
008
{B, C}
{A, C}
A⇒C の相関規則
| T({A}) | = 6
| T({A,C}) | = 5
D
=8
confidence = 5/6 = 0.833..
support = 5/8 = 0.625
12
確信度と支持度を求める
 support(X) = | T(X) | / D とする
 X⇒Y の支持度 : | T(X∪Y) | / D
= support(X∪Y)
 X⇒Y の確信度 : | T(X∪Y) | / | T(X) |
= (| T(X∪Y) | / D) / (| T(X) | / D)
= support(X∪Y) / support(X)
 データ項目集合の support を求めれば、確信度と
支持度を得ることができる
13
有益な関連性を知りたい
相関ルール X⇒Y で、確信度と支持度を求める
計算するための時間は?
A⇒B, A⇒C, A⇒D, …
AB⇒C, AB⇒D, AB⇒E, …
AC⇒B, AC⇒D, AC⇒E, …
…
すべて求めるには時間がかかりすぎる
14
Supportの求め方
P⊆Q ならば support(P)≧support(Q)
T(P)
T(Q)
T(P) / D ≧ T(Q) / D
 support(P1∪P2) ≧ k
⇒ support(P1) ≧ k, support(P2) ≧ k
 support(P) < k
⇒ support(Q) < k (P⊆Q)
support(P) が最少支持度よりも小さければ P より大
きい Q の support(Q) も最少支持度より小さい
15
a priori アルゴリズム
最少支持度:0.3
 1st step の結果
2nd step の計算
support(A) = 0.4
support(AB) < 0.3
support(B) = 0.2
support(AC)
support(C) = 0.3
support(BC) < 0.3
support(B) は最少支持度よりも小さい
⇒ B を含む support(B) も最少支持度より小さい
⇒ 計算から除外
16
規則の興味深さ
 興味深さの主観的評価
⇒ 新規性,有用性,意外性
 有用性は確信度,支持度で評価
 多数の相関規則から興味深いものを探す
 確信度が高いものは常識が多い
例) パンを買う人は牛乳を買うことが多い
 新規性や意外性を定量的に表現できないか
 数値で表す方法を考える
 数値が大きいものを求める
17
リフト値の考え方
 X⇒Y で Y の確率がもともと高い
⇒ 確信度の高さは Y によるもの
確信度が高くても興味深いとは言えない
 ○○を買う人は△△を買うことが多い
 ○○を買わなくても△△を買うことが多い
X の影響を指標とすることを考える
Y の確率に X がどのように影響したか
どのように数値化すればよいか
⇒ Y の確率がどれぐらい上昇したか
18
リフト値の計算
 Y の確率に X がどのように影響したか
⇒ Y の確率がどれぐらい上昇したか
 Y の確率 : P(Y)
X が起こったときの Y の確率(条件付き確率) :
P(Y | X) = T(X∪Y) / T(X) = P(X∩Y) / P(X)
 X⇒Y のリフト値 : X による Y の確率の上昇率
P(Y | X) / P(Y)
= P(X∩Y) / P(X) P(Y)
= 確信度 / P(Y)
 リフト値 > 1 ならば、Xが起こった方がXが起こらな
いよりもYの確率が高い
19
conviction
 リフト値では評価できない場合がある
X
Y X
3
2
0
5 (D=10)
2/10 ⇒ 2/5
Y
0
5
0
どちらも
リフト値
は 2.0
5 (D=10)
5/10 ⇒ 5/5
 X⇒Y は、右の場合の方が興味深い
 X が起これば高い確率で Y も起こる
 リフト値とは異なる指標が必要
20
conviction
 リフト値とは異なる指標
X
Y X
3
2
0
0
Y
5
0
どちらも
リフト値
は 2.0
5 (D=10)
5 (D=10)
 Y を評価 : X によって Y が減るか?
 X⇒Y のconviction:X⇒Y のリフト値の逆数
= P(X) P(Y) / P(X∩Y)
 8/10⇒3/5 : 5/10×8/10 / 3/10 = 1.33
5/10⇒0/5 : 5/10×5/10 / 0/10 = ∞
21
Φ係数
 カイ二乗値 : 2つの確率事象 X,Y が独立かどうか
を評価するための指標
 クラメールの連関係数:
0 ~ P(X∩Y) を 0 ~ 1 に規格化したもの
 正の完全連関と負の完全連関を区別しない
⇒ -1 ~ 1 となるように修正 : Φ係数
 確率事象 X,Y を 0 と 1 の値をとる確率変数とした
場合の相関係数に等しい
22
興味指標の比較
項目
意味
支持度
確信度
共起確率 条件付き
確率
リフト値
Conviction
Φ係数
期待確信度
実確信度比
排反事象の
リフト値
相関係数
興味指標の
適切性
△
△
○
○
○
解釈の
容易性
◎
◎
○
△
○
相関規則の
方向性
なし
あり
なし
あり
なし
最小支持度
との相性
-
○
△
◎
○
23
相関ルールの利用
 {A,B}⇒{C} をどのように利用するか
 A,B,C のセット商品を発売する
 商品の配置を工夫する
 近づける : 利便性
 遠ざける : 店内を歩き回ってもらう
 A や B の特売時に C の在庫を増やす
24
集合への拡張
 {A,B}⇒{C,D} の解釈
 A と B を同時に買う人は C と D も同時に買う
 A または B を買う人は C または D を買う
 抽象度の違いで相関の有無が異なる
× : アサヒスーパードライと
カルビー塩味ポテトチップス
○ : アサヒビールとカルビーポテトチップス
× : ビールとポテトチップス
25
一般化相関ルール
 項目の抽象度を上げる
⇒ 分類階層 (taxonomy) を用いる
Clothes
Outerwear
Jackets
Footwear
Shirts Shoes Hiking Boots
Ski Pants
26
実際に利用されるのか?
 一部は製品が発売されている
 処理効率(スピード)が問題
データの構成法
例えば、mOLAP vs rOLAP
アルゴリズム
 利用者が有効に利用できるか
道具にすぎない
27