データマイニングの考え方 データマイニングってなに? 統計学、パターン認識、人工知能等のデータ解析の技 法を大量のデータに網羅的に適用することで知識を取り 出す技術。通常のデータの扱い方からは想像が及びに くい、ヒューリスティク(heuristic、発見的)な知識獲得が 可能であるという期待を含意していることが多い。( Wikipedia) データマイニングとは、データの集合の中から、知識を 発見しよう、というものです。ここでいう知識とは、データ の中に見られるルールとか法則のことです。(国立情報 学研究所) 多量のデータから有用な知識を発掘する技術の総称( データマイニングの基礎:オーム社) 2 データの種類と尺度 量的データ 数値 距離尺度(間隔尺度) 時点任意 差は意味を持つ。例)温度 比尺度(比例尺度) 距離+原点 自然科学の計量データ 質的データ 数量という概念がない、言葉、文字 名義尺度 区別するための記号 質的相違を直接表現 序数尺度(順序尺度) なんらかの基準による順序を表す 3 データ分析で得られる知見 分析目的:何を知ることができるのか 予測型 変数 𝑦 の値(量的データ)を 𝑥1 , … , 𝑥𝑝 の値 で予測 例) 𝑦 は 3𝑥 + 5 に近い値 判別型 変数 𝑦 の値(質的データ)を 𝑥1 , … , 𝑥𝑝 の値 で判別 例) 𝑥1 が赤、 𝑥2 が 12 であれば、 𝑦 は 旅行 関係性型 変数 𝑥1 , … , 𝑥𝑝 間、または個体 1, … , 𝑛 間の関係性、変数と個体間の関係性を調べることで データの背後にある現象構造を明らかにする 4 増加する利用可能なデータ 情報技術の進歩 大量のデータの蓄積、処理が可能 ネットワーク環境の整備 データの収集が容易 ⇒ 大量の生のデータを収集・蓄積 データウェアハウス (Data Warehouse) 集約前のデータ … 詳細な分析 企業では、様々な意思決定支援に用いる さらに、SNSの発達、等 ⇒ ビッグデータ 5 データ分析の考え方 検証型(仮説検証指向) 仮説をたて、それを検証する 一般的な分析 多変量解析 探索型(発見指向) 有益な情報を探索する データマイニング(狭義?) 6 データマイニング 有益かもしれない情報を発見する ⇒ 探索型 例えば、金曜の夕方に紙おむつを買う客は缶ビー ルも買うことが多い ⇒ 気づくか? マイニングの種類 アソシエーション: 関連性 クラスタリング: 分類 クラシフィケーション: 集合意味付け … 7 相関規則 : association rule データ項目の集合: I = {A, B, C, …} トランザクション: I の部分集合 バスケットデータ ID Transaction 001 002 {A, B, C} {B, C, D, F} 003 004 005 006 {A, C} {A, C, E} {A} {A, C} 007 008 {B, C} {A, C} 相関規則:X⇒Y X が起これば Y も起こる 確信度 (confidence) 高い確率か 支持度 (support) 役に立つか 8 確信度 : confidence X⇒Y : X が起これば Y も起こる 確信度 : | T(X∪Y) | / | T(X) | T(X) : X を含むトランザクション集合 注意 : T(X∪Y)=T(X)∩T(Y) 方向性がある T(X) T(Y) ○ X⇒Y × Y⇒X 9 支持度 : support X⇒Y を支持する 支持度 : | T(X∪Y) | / D D : 全データの件数 全データに占める X∪Y を含むデータの割合 = X∪Y が起こる確率 X∪Y を含むデータの件数が多いほど相関規則が 支持される X∪Y を含むデータが少なければ、確信度が高くて も役にたたない 10 最小確信度、最小支持度 確信度、支持度が高いほど相関規則は有用 最小値を設定 最小確信度 : minimum confidence 最小支持度 : minimum support マイニングアルゴリズムは、確信度と支持度が最小 値を超える相関規則を求める = 役に立ちそうな相関規則 役に立つかもしれない相関規則 11 相関ルールの例 minimum confidence = 0.8 minimum support = 0.3 のとき ID Transaction 001 002 003 {A, B, C} {B, C, D, F} {A, C} 004 005 006 {A, C, E} {A} {A, C} 007 008 {B, C} {A, C} A⇒C の相関規則 | T({A}) | = 6 | T({A,C}) | = 5 D =8 confidence = 5/6 = 0.833.. support = 5/8 = 0.625 12 確信度と支持度を求める support(X) = | T(X) | / D とする X⇒Y の支持度 : | T(X∪Y) | / D = support(X∪Y) X⇒Y の確信度 : | T(X∪Y) | / | T(X) | = (| T(X∪Y) | / D) / (| T(X) | / D) = support(X∪Y) / support(X) データ項目集合の support を求めれば、確信度と 支持度を得ることができる 13 有益な関連性を知りたい 相関ルール X⇒Y で、確信度と支持度を求める 計算するための時間は? A⇒B, A⇒C, A⇒D, … AB⇒C, AB⇒D, AB⇒E, … AC⇒B, AC⇒D, AC⇒E, … … すべて求めるには時間がかかりすぎる 14 Supportの求め方 P⊆Q ならば support(P)≧support(Q) T(P) T(Q) T(P) / D ≧ T(Q) / D support(P1∪P2) ≧ k ⇒ support(P1) ≧ k, support(P2) ≧ k support(P) < k ⇒ support(Q) < k (P⊆Q) support(P) が最少支持度よりも小さければ P より大 きい Q の support(Q) も最少支持度より小さい 15 a priori アルゴリズム 最少支持度:0.3 1st step の結果 2nd step の計算 support(A) = 0.4 support(AB) < 0.3 support(B) = 0.2 support(AC) support(C) = 0.3 support(BC) < 0.3 support(B) は最少支持度よりも小さい ⇒ B を含む support(B) も最少支持度より小さい ⇒ 計算から除外 16 規則の興味深さ 興味深さの主観的評価 ⇒ 新規性,有用性,意外性 有用性は確信度,支持度で評価 多数の相関規則から興味深いものを探す 確信度が高いものは常識が多い 例) パンを買う人は牛乳を買うことが多い 新規性や意外性を定量的に表現できないか 数値で表す方法を考える 数値が大きいものを求める 17 リフト値の考え方 X⇒Y で Y の確率がもともと高い ⇒ 確信度の高さは Y によるもの 確信度が高くても興味深いとは言えない ○○を買う人は△△を買うことが多い ○○を買わなくても△△を買うことが多い X の影響を指標とすることを考える Y の確率に X がどのように影響したか どのように数値化すればよいか ⇒ Y の確率がどれぐらい上昇したか 18 リフト値の計算 Y の確率に X がどのように影響したか ⇒ Y の確率がどれぐらい上昇したか Y の確率 : P(Y) X が起こったときの Y の確率(条件付き確率) : P(Y | X) = T(X∪Y) / T(X) = P(X∩Y) / P(X) X⇒Y のリフト値 : X による Y の確率の上昇率 P(Y | X) / P(Y) = P(X∩Y) / P(X) P(Y) = 確信度 / P(Y) リフト値 > 1 ならば、Xが起こった方がXが起こらな いよりもYの確率が高い 19 conviction リフト値では評価できない場合がある X Y X 3 2 0 5 (D=10) 2/10 ⇒ 2/5 Y 0 5 0 どちらも リフト値 は 2.0 5 (D=10) 5/10 ⇒ 5/5 X⇒Y は、右の場合の方が興味深い X が起これば高い確率で Y も起こる リフト値とは異なる指標が必要 20 conviction リフト値とは異なる指標 X Y X 3 2 0 0 Y 5 0 どちらも リフト値 は 2.0 5 (D=10) 5 (D=10) Y を評価 : X によって Y が減るか? X⇒Y のconviction:X⇒Y のリフト値の逆数 = P(X) P(Y) / P(X∩Y) 8/10⇒3/5 : 5/10×8/10 / 3/10 = 1.33 5/10⇒0/5 : 5/10×5/10 / 0/10 = ∞ 21 Φ係数 カイ二乗値 : 2つの確率事象 X,Y が独立かどうか を評価するための指標 クラメールの連関係数: 0 ~ P(X∩Y) を 0 ~ 1 に規格化したもの 正の完全連関と負の完全連関を区別しない ⇒ -1 ~ 1 となるように修正 : Φ係数 確率事象 X,Y を 0 と 1 の値をとる確率変数とした 場合の相関係数に等しい 22 興味指標の比較 項目 意味 支持度 確信度 共起確率 条件付き 確率 リフト値 Conviction Φ係数 期待確信度 実確信度比 排反事象の リフト値 相関係数 興味指標の 適切性 △ △ ○ ○ ○ 解釈の 容易性 ◎ ◎ ○ △ ○ 相関規則の 方向性 なし あり なし あり なし 最小支持度 との相性 - ○ △ ◎ ○ 23 相関ルールの利用 {A,B}⇒{C} をどのように利用するか A,B,C のセット商品を発売する 商品の配置を工夫する 近づける : 利便性 遠ざける : 店内を歩き回ってもらう A や B の特売時に C の在庫を増やす 24 集合への拡張 {A,B}⇒{C,D} の解釈 A と B を同時に買う人は C と D も同時に買う A または B を買う人は C または D を買う 抽象度の違いで相関の有無が異なる × : アサヒスーパードライと カルビー塩味ポテトチップス ○ : アサヒビールとカルビーポテトチップス × : ビールとポテトチップス 25 一般化相関ルール 項目の抽象度を上げる ⇒ 分類階層 (taxonomy) を用いる Clothes Outerwear Jackets Footwear Shirts Shoes Hiking Boots Ski Pants 26 実際に利用されるのか? 一部は製品が発売されている 処理効率(スピード)が問題 データの構成法 例えば、mOLAP vs rOLAP アルゴリズム 利用者が有効に利用できるか 道具にすぎない 27
© Copyright 2024 ExpyDoc