データマイニングアルゴリズム 「アプリオリ」と「ID3」の比較 菊池研 阿久津忍 倉野奈央子 はじめに データマイニング 大量のデータの中から有益な情報、知識を抽出す る技術。 金曜日に紙おむつと缶ビールを一緒に買う男性が多い 朝食用にシリアルを購入する来店客は同時にバナナを買う 例が多かっ た 主要な二つのアルゴリズム -アプリオリ -決定木 [Rakesh Agrawalら 1993] アプリオリ(Apriori) 最小サポート・確信度による相関ルール X⇒Yの効率的な検索 サポート(支持度) ルールの出現頻度 Supp(X⇒Y)=b/N 確信度 ルールの確からしさ Conf(X⇒Y)=b/a 条件を満たす全てのルールの抽出 X⇒Y,Y⇒X,X∧Y⇒Z,・・・ [John Ross Quinlan 1979] 決定木(ID3) エントロピー最小化に よる分類 知りたい項目(ターゲット属 性)がある時に使う。 誤差の少ない決定木が1つ 抽出 単一の決定木の抽出 ターゲット属性 アプリオリと決定木(ID3)の違い 出力 アプリオリ 決定木(ID3) 複数のルール 単一の木 ターゲット属性 なし 原理 あり サポート・確信度 エントロピー 目的 2つのアルゴリズムでは同じ結果が得られる か? 1.アプリオリシステムの性能 2.出現属性の比較 3.論理関係の比較 アンケートデータ 対象:東海大学生100人(男63、女37) 実施期間:2006年5月下旬~7月上旬 形式:2択の質問項目(20問)を属性として 用いる 属性は恋愛感について。(無関係の属性も含 む) 束縛する人について興味がありました! 目的 2つのアルゴリズムでは同じ結果が得られる か? 1.アプリオリシステムの性能 2.出現属性の比較 3.論理関係の比較 重要属性の比較 (例1) アプリオリ 相手色に染まらない⇒ 海外ある ダイエット中でない∧ 相手色に染まらない⇒ 海外ある 感情を表に出さない⇒ 海外ある 決定木 海外に行った経験があるか 相手色に染まるか 感情を表に出すか 重要属性の比較・適合率 アプリオリ 属性 ターゲット Q1 Q4 Q12 Q9 Q14 Q18 Q19 Q20 ID3 アプリオリ Supp=0.3,Conf=0.6 m=2 m=3 Q12 ○ 3 4 1 2 1 2 1 1 1 3 Q9 Q18 Q14 Q19 1 アプリオリの適合率は2/3 決定木の適合率は1/2 決定木 N=20,m=2 1.アプリオリシステムの性能 2.出現属性の比較 3.論理関係の比較 論理関係の比較 アプリオリとID3の出力したルールに矛盾が ないかを確かめる。 アプリオリ:菊池研⇒つぶあん派 決定木:菊池研⇒こしあん派 矛盾!! 全ルールを確かめた結果 矛盾はなかった 一致するルールが少なかった →両者のルールのサポートの違いに起因 サポートと確信度の散布図 0.9 Apriori ID3 0.8 0.7 conf 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.05 0.1 0.15 0.2 supp 0.25 0.3 0.35 0.4 まとめ 決定木で上位に出現する属性は、アプリオリ でも相関が高い。 抽出された知識の論理的な関係に矛盾はな いが、アプリオリでの相関ルールに対応する 葉は少なかった。 両者の出力形式の違いや、抽出ルールのサ ポートの違いに起因している。 束縛する人はこんな人! ご清聴ありがとうございました 予備スライド Q1 あなたの性別は? 男 女 Q2 異性の友達が・・・ 多い 少ない Q3 異性間の友情は・・・ 成立する 成立しない Q4 海外に行ったことが・・・ ある ない Q5 さびしがり屋ですか? はい いいえ Q6 犬と猫ならどっちが好き? 犬 猫 Q9 感情を表に出すタイプ? はい いいえ Q11 付き合った経験が・・・ ある ない Q14 相手色に・・・ 染まる 染まらない Q15 いつでも自分を1番に考えてほしい? はい いいえ Q16 人のケータイを黙ってみたことが・・・ ある ない Q17 一人の時間は大切ですか? はい いいえ Q20 あなたは束縛をする人ですか? はい いいえ 1.アプリオリシステムの性能 2.出現属性の比較 3.論理関係の比較 アプリオリシステムの性能 最小確信度とルール数の関 係 最小サポートとルール数の関 係 12000 80 supp=60 supp=70 supp=80 supp=90 supp=100 70 60 Number of rules 10000 8000 6000 4000 conf=60 conf=70 conf=80 conf=90 conf=100 50 40 30 20 2000 0 10 0 20 40 60 min conf 80 100 0 20 30 40 50 60 70 min supp 80 90 100 出現属性の比較 決定木とアプリオリにおける出現属性の一致 度を確かめる。 重要属性の比較 高さや出現回数に注目 出現属性の再現率 一致の度合い(再現率) 重要属性の比較 (例2) アプリオリ 異性の友情は成立する⇒ 一人の時間は大切 決定木 人のケータイを黙って見たこ とがあるか 交際経験があるか ケータイ見てない⇒ 一人の時間は大切 束縛しない⇒ 一人の時間は大切 異性の友情は成立する∧ 交際経験ある⇒ 一人の時間は大切 異性間の友情 は成立するか 出現属性の再現率 ターゲット属性 ID3 アプリオリ Q4 2/4 2/7 Q7 3/4 3/5 Q9 3/3 3/14 平均再現率 0.75 0.37 アプリオリの方が多くの相関ルールが出力される ため、平均値は小さい。 論理関係の比較 抽出された規則の論理的な矛盾がないかど うか検討する。 アプリオリとID3 8個中1個完全一致、残り7個無矛盾 ルール 染まらない∧ 感情出す⇒ 海外ある 自分嫌い∧ 感情出さない⇒ 海外ない 染まる⇒ 海外ない supp conf 0.20 0.80 染まる 0.20 0.69 0.28 0.64 染まらない 感情出す 属性 ターゲット Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10 Q11 Q12 Q13 Q14 Q15 Q16 Q17 Q18 Q19 Q20 ID3 m=5,C=9 アプリオリ Supp=0.3,Conf=0.6 m=2 m=3 1 ○ 3 4 2 1 1 1 1 1 3 2 1 2 1
© Copyright 2024 ExpyDoc