新しいデータ分析技術 増加する利用可能なデータ 情報技術の進歩 大量のデータの蓄積、処理が可能 ネットワーク環境の整備 データの収集が容易 ⇒ 大量の生のデータを収集・蓄積 データウェアハウス (Data Warehouse) 集約前のデータ … 詳細な分析 企業では、様々な意思決定支援に用いる データ分析の考え方 検証型(仮説検証指向) 仮説をたて、それを検証する 一般的な分析 容易に行うためには? データキューブ 探索型(発見指向) 有益な情報を探索する どのようにして探索する? データマイニング OLTPからOLAPへ OLTP : Online Transaction Processing 業務の効率化 … 情報システムの導入 データベースの構築 OLAP : Online Analytical Processing オンラインでデータを分析 意思決定を支援 多次元データベースの利用 データキューブの概念 多次元データベース データを多次元空間に配置する 必要なデータをオンラインで 支店の比較 30 売り上げの推移 日付 地区ごとに集約 … 品目 テレビ 4月 支店 新宿 データキューブ 人が理解できるのは2次元 ⇒ キューブの1つの面を表示 東京 4月 5月 6月 東京 4月 5月 6月 東京 4月 5月 6月 東京テレビ 4月 100 5月 110 6月 120 100 110 120 テレビ 100 110 120 テレビ テレビ パソコン100 75 110 80 120 95 75 80 95 パソコン 75 80 95 パソコン パソコン 冷蔵庫 75 25 80 30 95 25 25 30 25 冷蔵庫 25 30 25 冷蔵庫 冷蔵庫 合計 25 200 30 220 25 240 200 220 240 合計 200 220 240 合計 200 220 240 合計 合計 合計 合計 合計 330 330 330 330 250 250 250 250 80 80 80 80 660 660 660 660 操作 ・スライシング ・ダイシング ・ドリリング スライシング : Slicing キューブの断面を見る 福岡 大坂 テレビ 東京テレビ 4月 東京 4月 東京 パソコン 4月 東京 4月 東京 4月 東京 4月 100 テレビ 100 テレビパソコン 100 テレビ 冷蔵庫 100 テレビ 100 テレビ 100 テレビ パソコン 冷蔵庫7575 パソコン 75 パソコン 合計 75 パソコン 75 パソコン 75 パソコン 25 冷蔵庫 冷蔵庫 合計 25 25 冷蔵庫 25 冷蔵庫 25 200 冷蔵庫 冷蔵庫 合計 25 200 合計 200 合計 200 合計 200 合計 200 合計 4月 4月 1005月 1005月 5月 5月 75 5月 5月 110 75110 110 110 25 110 110 25 8080 80 80 200 80 80 200 3030 30 30 30 220 30 220 220 220 220 220 5月 6月 合計 5月 6月 合計 1106月 120合計 330 1106月 120合計 270 6月 合計 6月 合計 80120 合計 95330 250 6月 合計 6月 80120 95330 225 120 330 120 330 30 25 120 330 120 330 95 250 4580 30 95 25 250 95 250 95 250 220 240 660 東京 4月 5月 6月 合計 95 250 95 250 25 220 25 東京 240 8080 4月 540 5月 6月 合計 東京 80 4月 5月 6月 合計 25大坂 804月 25 100 5月 110 6月 120 合計330 テレビ 25 240 80 25 80 660 110 120 330 テレビ660 100 240テレビ 100 110 120 330 240 660 240 660 250 パソコン 240テレビ 660 80 7575 90 8080 1009595 270250 240 660 パソコン 75 80 95 250 パソコン パソコン 冷蔵庫 65 25 70 30 90 25 225 80 25 30 25 80 冷蔵庫 25 30 25 80 冷蔵庫 冷蔵庫 合計 15 200 20 220 10 240 45 660 200 220 240 660 合計 200 220 240 660 合計 160 280 200 540 合計 ダイシング : dicing 軸を変える 東京 4月 5月 6月 合計 東京 4月 5月 6月 合計 東京 4月 5月 6月 合計 東京テレビ 4月 100 5月 110 6月 120 合計330 100 110 120 330 テレビ 100 110 120 330 テレビ テレビ パソコン100 75 110 80 120 95 330 250 75 80 95 250 パソコン 75 80 95 250 パソコン パソコン 80 冷蔵庫 75 25 80 30 95 25 250東京 4月 5月 6月 25 30 25 80 冷蔵庫 東京 4月 5月 6月 25 30 25 80 冷蔵庫 東京 4月 5月 6月 80テレビ 冷蔵庫 660 4月 合計 25 200 30 220 25 240テレビ 5月 6月 100 110 120 200 220東京 240 4月テレビ 660 5月 100 6月 110 合計 120 合計 200 220東京 240 4月テレビ 660 5月 合計 6月 110 合計 120 1006月 200 220東京 240 4月 東京 660 合計 5月 100 合計 110合計 120 95 75 80330 パソコン 4月テレビ東京 100パソコン 大坂 110名古屋 120 75 80 100パソコン 110 75 120 80 330 9595 テレビ 100 大坂 110 120 330 テレビ 100 25 25 9590240 30250 冷蔵庫 80 8080 60 テレビ パソコン100 75 25 30 冷蔵庫 75冷蔵庫 80 25 95 30 250 2525 パソコン 75 80 95 70 220 250 パソコン 200 240 合計 65 3060200 45 185 8060240 パソコン 25 合計 25 220 冷蔵庫 75 名古屋 25 合計 30 200 25 220 80 240 冷蔵庫 25 合計 30 240 25 270 80 280 冷蔵庫 15 240 55 660 冷蔵庫 合計 25 200 15 220 200 220 240 660 合計 200 220 240 660 合計 200 160 120 480 合計 合計 合計 合計 合計330 330 330 330 250 250 250 270 80 80 80 190 660 660 660 790 ドリリング : drill down/up 詳細化/集約 Drill Up 東京 4月 5月 6月 合計 東京 4月 5月 6月 合計 東京 4月 5月 6月 合計 テレビ テレビ 4月 100 5月 110 6月 120 合計 330 100 110 120 330 テレビ 100 110 120 330 テレビ 東京 パソコン100 75 110 80 120 95 330 250 75 80 95 250 パソコン 75 80 95 250 パソコン 大坂 冷蔵庫 80 25 90 30 100 25 270 80 25 30 25 東京 80 4月 冷蔵庫 5月 6月 25 30 25 東京 80 4月 冷蔵庫 5月 6月 名古屋 240 190 660 合計 60 200 70 220 60 東京 4月 5月 6月 200 220 240 660 合計 テレビ 4月 5月 6月 100 110 120 テレビ 200 220 240テレビ 660 100 合計 110 120 240 270 280テレビ 790 100 合計 110 120 銀座 パソコン 40 75 35 80 40 95 75 80 95 パソコン 75 80 95 パソコン 新宿 冷蔵庫 30 25 40 30 40 25 25 30 25 冷蔵庫 25 30 25 冷蔵庫 渋谷合計 30 200 35 220 40 240 200 220 240 合計 200 220 240 合計 100 110 120 合計 詳細化 Drill Down 合計 合計 合計 合計330 330 330 115 250 250 250 110 80 80 80 105 660 660 660 330 データマイニング 有益かもしれない情報を発見する ⇒ 探索型 例えば、金曜の夕方に紙おむつを買う客は 缶ビールも買うことが多い ⇒ 気づくか? マイニングの種類 アソシエーション:関連性 クラスタリング :分類 クラシフィケーション:集合意味付け 相関規則 : association rule データ項目の集合: I = {A, B, C, …} トランザクション: I の部分集合 001 002 003 004 005 006 007 008 {A, B, C} {B, C, D, F} {A, C} {A, C, E} {A} {A, C} {B, C} {A, C} 相関規則:X⇒Y Xが起こればYも起こる 確信度 (confidence) 高い確率か 支持度 (support) 役に立つか 確信度 : confidence X⇒Y : Xが起こればYも起こる 確信度 : |T(X∪Y)| / |T(X)| T(X) : Xを含むトランザクション集合 注意 : T(X∪Y)=T(X)∩T(Y) 方向性がある T(X) T(Y) ○ X⇒Y × Y⇒X 支持度 : support X⇒Y を支持する 支持度 : |T(X∪Y)| / D D : 全データの件数 X∪Y の件数が多いほど相関規則が支持さ れる X∪Y の件数が少なければ、確信度が高くて も役にたたない 最小確信度、最小支持度 確信度、支持度が高いほど相関規則は有用 最小値を設定 最小確信度 : minimum confidence 最小支持度 : minimum support マイニングアルゴリズムは、確信度と支持度 が最小値を超える相関規則を求める 相関ルールの例 minimum confidence = 0.8 minimum support = 0.3 のとき 001 002 003 004 005 006 007 008 {A, B, C} {B, C, D, F} {A, C} {A, C, E} {A} {A, C} {B, C} {A, C} A⇒C の相関規則 |T({A})| =6 A |T({A,C})| A,C = 5 D =8 confidence = 5/6 = 0.833.. support = 5/8 = 0.625 相関規則を求める support(X) = |T(X)| / D とする X⇒Y の支持度 : |T(X∪Y)| / D = support(X∪Y) X⇒Y の確信度 : |T(X∪Y)| / |T(X)| = support(X∪Y) / support(X) supportを求めれば、確信度と支持度を得る ことができる 有益な関連性を知りたい 相関ルール X⇒Y で、確信度と支持度を求 める 計算するための時間は? A⇒B, A⇒C, A⇒D, … AB⇒C, AB⇒D, AB⇒E, … AC⇒B, AC⇒D, AC⇒E, … … すべて求めるには時間がかかりすぎる Supportの求め方 P⊆Q ならば support(P)≧support(Q) T(P) T(Q) T(P) / D ≧ T(Q) / D support(P1∪P2) ≧ k ⇒ support(P1) ≧ k, support(P2) ≧ k support(P) < k ⇒ support(Q) < k (P⊆Q) 規則の興味深さ 興味深さの主観的評価 ⇒ 新規性,有用性,意外性 有用性は確信度,支持度で評価 多数の相関規則から興味深いものを探す 確信度が高いものは常識が多い 新規性や意外性を定量的に表現できないか リフト値 X⇒Y で Y の確率がもともと高い ⇒ 確信度の高さは Y によるもの Y の確率に X がどのように影響したか ⇒ Y の確率がどれぐらい上昇したか X⇒Y のリフト値 : 確信度 / P(Y) = P(Y|X) / P(Y) = P(X∩Y) / P(X) P(Y) conviction リフト値とは異なる評価方法 X Y X 3 2 0 0 5 Y 0 どちらも リフト値 は 2.0 5 (D=10) 5 (D=10)  ̄ Y の評価 : X によって  ̄ Y が減るか?  ̄のリフト値の逆数 X⇒Y のconviction:X⇒Y  ̄ / P(X∩Y)  ̄ = P(X) P(Y) Φ係数 カイ二乗値 : 2つの確率事象 X,Y が独立か どうかを評価するための指標 クラメールの連関係数: 0 ~ P(X∩Y) を 0 ~ 1 に規格化したもの 正の完全連関と負の完全連関を区別しない ⇒ -1 ~ 1 となるように修正 : Φ係数 確率事象 X,Y を 0 と 1 の値をとる確率変数 とした場合の相関係数に等しい 興味指標の比較 項目 意味 支持度 確信度 共起確率 条件付き 確率 リフト値 Conviction Φ係数 期待確信度 実確信度比 排反事象の リフト値 相関係数 興味指標の 適切性 △ △ ○ ○ ○ 解釈の 容易性 ◎ ◎ ○ △ ○ 相関規則の 方向性 なし あり なし あり なし 最小支持度 との相性 - ○ △ ◎ ○ 相関ルールの利用 {A,B}⇒{C} をどのように利用するか A,B,C のセット商品を発売する 商品の配置を工夫する 近づける : 利便性 遠ざける : 店内を歩き回ってもらう AやBの特売時にCの在庫を増やす 集合への拡張 {A,B}⇒{C,D} の解釈 AとBを同時に買う人はCとDも同時に買う AまたはBを買う人はCまたはDを買う 抽象度の違いで相関の有無が異なる × : アサヒスーパードライと カルビー塩味ポテトチップス ○ : アサヒビールとカルビーポテトチップス × : ビールとポテトチップス 一般化相関ルール 項目の抽象度を上げる ⇒ 分類階層 (taxonomy) を用いる Clothes Outerwear Jackets Footwear Shirts Shoes Hiking Boots Ski Pants 実際に利用されるのか? 一部は製品が発売されている 処理効率(スピード)が問題 データの構成法 例えば、mOLAP vs rOLAP アルゴリズム 利用者が有効に利用できるか 道具にすぎない
© Copyright 2024 ExpyDoc