中小企業のための経済・経営セミナー 中小企業で情報

新しいデータ分析技術
増加する利用可能なデータ
 情報技術の進歩
大量のデータの蓄積、処理が可能
 ネットワーク環境の整備
データの収集が容易
⇒ 大量の生のデータを収集・蓄積
データウェアハウス (Data Warehouse)
集約前のデータ … 詳細な分析
企業では、様々な意思決定支援に用いる
データ分析の考え方
 検証型(仮説検証指向)
仮説をたて、それを検証する
一般的な分析
容易に行うためには?
データキューブ
 探索型(発見指向)
有益な情報を探索する
どのようにして探索する? データマイニング
OLTPからOLAPへ
 OLTP : Online Transaction Processing
業務の効率化 … 情報システムの導入
データベースの構築
 OLAP : Online Analytical Processing
オンラインでデータを分析
意思決定を支援
多次元データベースの利用
データキューブの概念
多次元データベース
 データを多次元空間に配置する
必要なデータをオンラインで
支店の比較
30
売り上げの推移
日付
地区ごとに集約
…
品目
テレビ
4月
支店
新宿
データキューブ
 人が理解できるのは2次元
⇒ キューブの1つの面を表示
東京
4月
5月
6月
東京
4月
5月
6月
東京
4月
5月
6月
東京テレビ 4月 100 5月 110 6月 120
100
110
120
テレビ
100
110
120
テレビ
テレビ
パソコン100 75 110 80 120 95
75
80
95
パソコン
75
80
95
パソコン
パソコン
冷蔵庫 75 25 80 30 95 25
25
30
25
冷蔵庫
25
30
25
冷蔵庫
冷蔵庫
合計 25 200 30 220 25 240
200
220
240
合計
200
220
240
合計
200
220
240
合計
合計
合計
合計
合計 330
330
330
330 250
250
250
250 80
80
80
80 660
660
660
660
操作
・スライシング
・ダイシング
・ドリリング
スライシング : Slicing
 キューブの断面を見る
福岡
大坂
テレビ
東京テレビ
4月
東京
4月
東京 パソコン
4月
東京
4月
東京
4月
東京
4月
100
テレビ
100
テレビパソコン
100
テレビ 冷蔵庫
100
テレビ
100
テレビ
100
テレビ
パソコン
冷蔵庫7575
パソコン
75
パソコン 合計
75
パソコン
75
パソコン
75
パソコン
25
冷蔵庫
冷蔵庫 合計 25
25
冷蔵庫
25
冷蔵庫
25 200
冷蔵庫
冷蔵庫
合計 25
200
合計
200
合計
200
合計
200
合計
200
合計
4月
4月
1005月
1005月
5月
5月
75
5月
5月
110
75110
110
110
25
110
110
25 8080
80
80
200
80
80
200 3030
30
30
30 220
30
220
220
220
220
220
5月
6月
合計
5月
6月
合計
1106月 120合計 330
1106月
120合計 270
6月
合計
6月
合計
80120 合計
95330 250
6月
合計
6月
80120 95330
225
120
330
120
330
30
25
120
330
120
330
95
250 4580
30 95
25 250
95
250
95
250
220
240
660
東京
4月
5月
6月
合計
95
250
95
250
25
220 25 東京
240 8080 4月
540
5月
6月
合計
東京 80
4月
5月
6月
合計
25大坂
804月
25
100 5月 110 6月 120 合計330
テレビ
25 240
80
25
80
660
110
120
330
テレビ660 100
240テレビ
100
110
120
330
240
660
240
660
250
パソコン
240テレビ
660 80 7575 90 8080 1009595 270250
240
660
パソコン
75
80
95
250
パソコン
パソコン
冷蔵庫 65 25 70 30 90 25 225 80
25
30
25
80
冷蔵庫
25
30
25
80
冷蔵庫
冷蔵庫
合計 15 200 20 220 10 240 45 660
200
220
240
660
合計
200
220
240
660
合計
160
280
200
540
合計
ダイシング : dicing
 軸を変える
東京
4月
5月
6月
合計
東京
4月
5月
6月
合計
東京
4月
5月
6月
合計
東京テレビ 4月 100 5月 110 6月 120 合計330
100
110
120
330
テレビ
100
110
120
330
テレビ
テレビ
パソコン100 75 110 80 120 95 330 250
75
80
95
250
パソコン
75
80
95
250
パソコン
パソコン
80
冷蔵庫 75 25 80 30 95 25 250東京
4月
5月
6月
25
30
25
80
冷蔵庫
東京
4月
5月
6月
25
30
25
80
冷蔵庫
東京
4月
5月
6月
80テレビ
冷蔵庫
660 4月
合計 25 200 30 220 25 240テレビ
5月
6月
100
110
120
200
220東京 240 4月テレビ
660 5月 100 6月 110 合計 120
合計
200
220東京
240 4月テレビ
660 5月
合計
6月 110 合計 120
1006月
200
220東京 240 4月 東京
660
合計
5月 100
合計
110合計
120 95
75
80330
パソコン
4月テレビ東京 100パソコン
大坂 110名古屋
120
75
80
100パソコン
110 75 120 80 330 9595
テレビ
100 大坂
110
120
330
テレビ
100 25
25 9590240
30250
冷蔵庫
80 8080 60
テレビ
パソコン100 75
25
30
冷蔵庫
75冷蔵庫 80 25 95 30 250 2525
パソコン
75
80
95 70 220
250
パソコン
200
240
合計
65 3060200
45
185 8060240
パソコン
25 合計
25 220
冷蔵庫 75 名古屋
25 合計 30 200 25 220 80 240
冷蔵庫
25 合計
30 240 25 270 80 280
冷蔵庫
15 240 55 660
冷蔵庫
合計 25 200 15 220
200
220
240
660
合計
200
220
240
660
合計
200
160
120
480
合計
合計
合計
合計
合計330
330
330
330 250
250
250
270 80
80
80
190 660
660
660
790
ドリリング : drill down/up
 詳細化/集約
Drill Up
東京
4月
5月
6月
合計
東京
4月
5月
6月
合計
東京
4月
5月
6月
合計
テレビ
テレビ 4月 100 5月 110 6月 120 合計 330
100
110
120
330
テレビ
100
110
120
330
テレビ
東京
パソコン100 75 110 80 120 95 330 250
75
80
95
250
パソコン
75
80
95
250
パソコン
大坂
冷蔵庫 80 25 90 30 100 25 270 80
25
30
25 東京 80 4月
冷蔵庫
5月
6月
25
30
25 東京
80 4月
冷蔵庫
5月
6月
名古屋
240 190 660
合計 60 200 70 220 60 東京
4月
5月
6月
200
220
240
660
合計
テレビ
4月
5月
6月
100
110
120
テレビ
200
220
240テレビ 660 100
合計
110
120
240
270
280テレビ 790 100
合計
110
120
銀座
パソコン 40 75 35 80 40 95
75
80
95
パソコン
75
80
95
パソコン
新宿
冷蔵庫 30 25 40 30 40 25
25
30
25
冷蔵庫
25
30
25
冷蔵庫
渋谷合計 30 200 35 220 40 240
200
220
240
合計
200
220
240
合計
100
110
120
合計
詳細化
Drill Down
合計
合計
合計
合計330
330
330
115 250
250
250
110 80
80
80
105 660
660
660
330
データマイニング
 有益かもしれない情報を発見する
⇒ 探索型
 例えば、金曜の夕方に紙おむつを買う客は
缶ビールも買うことが多い ⇒ 気づくか?
マイニングの種類
アソシエーション:関連性
クラスタリング :分類
クラシフィケーション:集合意味付け
相関規則 : association rule
 データ項目の集合: I = {A, B, C, …}
 トランザクション: I の部分集合
001
002
003
004
005
006
007
008
{A, B, C}
{B, C, D, F}
{A, C}
{A, C, E}
{A}
{A, C}
{B, C}
{A, C}
相関規則:X⇒Y
Xが起こればYも起こる
確信度 (confidence)
高い確率か
支持度 (support)
役に立つか
確信度 : confidence
 X⇒Y : Xが起こればYも起こる
確信度 : |T(X∪Y)| / |T(X)|
T(X) : Xを含むトランザクション集合
注意 : T(X∪Y)=T(X)∩T(Y)
 方向性がある
T(X)
T(Y)
○ X⇒Y
× Y⇒X
支持度 : support
 X⇒Y を支持する
支持度 : |T(X∪Y)| / D
 D : 全データの件数
 X∪Y の件数が多いほど相関規則が支持さ
れる
 X∪Y の件数が少なければ、確信度が高くて
も役にたたない
最小確信度、最小支持度
 確信度、支持度が高いほど相関規則は有用
 最小値を設定
最小確信度 : minimum confidence
最小支持度 : minimum support
 マイニングアルゴリズムは、確信度と支持度
が最小値を超える相関規則を求める
相関ルールの例
 minimum confidence = 0.8
minimum support
= 0.3 のとき
001
002
003
004
005
006
007
008
{A, B, C}
{B, C, D, F}
{A, C}
{A, C, E}
{A}
{A, C}
{B, C}
{A, C}
A⇒C の相関規則
|T({A})|
=6
A
|T({A,C})|
A,C = 5
D
=8
confidence = 5/6 = 0.833..
support = 5/8 = 0.625
相関規則を求める
 support(X) = |T(X)| / D とする
 X⇒Y の支持度 : |T(X∪Y)| / D
= support(X∪Y)
 X⇒Y の確信度 : |T(X∪Y)| / |T(X)|
= support(X∪Y) / support(X)
 supportを求めれば、確信度と支持度を得る
ことができる
有益な関連性を知りたい
相関ルール X⇒Y で、確信度と支持度を求
める
計算するための時間は?
A⇒B, A⇒C, A⇒D, …
AB⇒C, AB⇒D, AB⇒E, …
AC⇒B, AC⇒D, AC⇒E, …
…
すべて求めるには時間がかかりすぎる
Supportの求め方
P⊆Q ならば support(P)≧support(Q)
T(P)
T(Q)
T(P) / D ≧ T(Q) / D
 support(P1∪P2) ≧ k
⇒ support(P1) ≧ k, support(P2) ≧ k
 support(P) < k
⇒ support(Q) < k (P⊆Q)
規則の興味深さ
 興味深さの主観的評価
⇒ 新規性,有用性,意外性
 有用性は確信度,支持度で評価
 多数の相関規則から興味深いものを探す
 確信度が高いものは常識が多い
 新規性や意外性を定量的に表現できないか
リフト値
 X⇒Y で Y の確率がもともと高い
⇒ 確信度の高さは Y によるもの
 Y の確率に X がどのように影響したか
⇒ Y の確率がどれぐらい上昇したか
 X⇒Y のリフト値 : 確信度 / P(Y)
= P(Y|X) / P(Y)
= P(X∩Y) / P(X) P(Y)
conviction
 リフト値とは異なる評価方法
X
Y X
3
2
0
0
5
Y
0
どちらも
リフト値
は 2.0
5 (D=10)
5 (D=10)
 ̄
Y の評価 : X によって  ̄
Y が減るか?
 ̄のリフト値の逆数
 X⇒Y のconviction:X⇒Y
 ̄ / P(X∩Y)
 ̄
= P(X) P(Y)
Φ係数
 カイ二乗値 : 2つの確率事象 X,Y が独立か
どうかを評価するための指標
 クラメールの連関係数:
0 ~ P(X∩Y) を 0 ~ 1 に規格化したもの
 正の完全連関と負の完全連関を区別しない
⇒ -1 ~ 1 となるように修正 : Φ係数
 確率事象 X,Y を 0 と 1 の値をとる確率変数
とした場合の相関係数に等しい
興味指標の比較
項目
意味
支持度
確信度
共起確率 条件付き
確率
リフト値
Conviction
Φ係数
期待確信度
実確信度比
排反事象の
リフト値
相関係数
興味指標の
適切性
△
△
○
○
○
解釈の
容易性
◎
◎
○
△
○
相関規則の
方向性
なし
あり
なし
あり
なし
最小支持度
との相性
-
○
△
◎
○
相関ルールの利用
 {A,B}⇒{C} をどのように利用するか
A,B,C のセット商品を発売する
商品の配置を工夫する
近づける : 利便性
遠ざける : 店内を歩き回ってもらう
AやBの特売時にCの在庫を増やす
集合への拡張
 {A,B}⇒{C,D} の解釈
 AとBを同時に買う人はCとDも同時に買う
 AまたはBを買う人はCまたはDを買う
 抽象度の違いで相関の有無が異なる
× : アサヒスーパードライと
カルビー塩味ポテトチップス
○ : アサヒビールとカルビーポテトチップス
× : ビールとポテトチップス
一般化相関ルール
 項目の抽象度を上げる
⇒ 分類階層 (taxonomy) を用いる
Clothes
Outerwear
Jackets
Footwear
Shirts Shoes Hiking Boots
Ski Pants
実際に利用されるのか?
 一部は製品が発売されている
 処理効率(スピード)が問題
データの構成法
例えば、mOLAP vs rOLAP
アルゴリズム
 利用者が有効に利用できるか
道具にすぎない