A k‐Nearest Neighbor Based Algorithm for Multi‐label Classification Min Ling Zhang , Zhi Min‐Ling Zhang , Zhi‐Hua Hua Zhou Intn'l Conf. on Granular Computing (GrC), 2005 2005, pp. 718‐721 (Oct.06, 2014, 加瀬担当) 718 721 (O 06 2014 加瀬担当) Abstract • マルチラベル分類 – 各データが複数ラベル所持 – 所持ラベル数不定 • ML‐kNN ML kNN (Multi‐Label k‐Nearest Neighbor) (Multi Label k Nearest Neighbor) – kNNに基づく手軽な方法 1 テストデータに近いk個の学習データ特定 1. テストデ タに近いk個の学習デ タ特定 2. そのk個よりラベル決定(MAP原理を用いる) • 実験結果(バイオ関連データにより) – 他方法と比べ謙遜無し Introduction • マルチラベル分類の必要性(例) ルチラベル分類の必要性(例) – テキスト分類 • 各テキストが複数トピック所持 – バイオインフォマティックス • 各たんぱく質が複数機能所持 • マルチラベル問題の定義 – 学習データが複数ラベル所持 学習デ タが複数ラ ル所持 – テストデータに複数ラベル付与 ※所持ラ ル数は不定 ※所持ラベル数は不定 Introduction • マルチラベル分類簡易方法 ベ 分類簡 方法 – 各クラスに対する2値分類問題に分解 各クラ 対する 値分類問題 分解 • ラベル間関係無考慮(単純すぎる) • 従来提案方法 – Multi‐label decision trees – Multi‐label kernel method etc. • 未解決問題 – 手軽なマルチラベル分類方法なし 2 Multi Label Learning 2. Multi‐Label Learning • マルチラベル分類は文書分類の必要性から 生まれた – 各文書が複数トピックを同時所持 関連研究 • BoosTexter [Schapire, Singer] – AdaBoostに基づく 基 く – 予測が難しいものに重み付け • ベイズ的方法[McCallum] ベイズ的方法[M C ll ] – 混合分布仮定,EM推定 • カーネル法使用方法[Elisseeff and Weston] – Ranking Lossとマージンに基づく Ranking Lossとマージンに基づく • 決定木[Clare and King] – C4.5に基づく 関連研究 • PMM1, PMM2 [Ueda and Saito] – 各語はあるカテゴリに属していると仮定 各語はあるカテ リ 属し る 仮定 • 決定木 [Comite et al.] – AdaBoostに基づき決定木学習 d に基づき決定木学習 • [Boutell et al.] – シーン分類に適用 – 各クラスに対する2値分類問題へ分解 評価基準 • 記号表記 – • d次元空間の事例 – • Q種類のラベル集合 Q種類 ラ 集合 – • 学習データ集合 (Y : ラベル集合) – • マルチラベル分類器 – • 順位付け関数 (例. <l1のほうが高順位>) – • 分類器を順位付け関数で表現 (t(x):閾値) 評価基準 • Hamming Loss(値↓;性能↑) 値 性能 Δ : 対称差 一致しないラベル数の平均 致しないラベル数の平均 • One‐error(値↓:性能↑) 判定結果がランキング1位でなかった場合の平均回数 評価基準 • Coverage(値↓:性能↑) 値 性能 実際の所持ラベル中で 一番ランキングの低いも のの上位にいくつの持 ちうるラベルがあるかの 平均 • Ranking Loss(値↓:性能↑) Ranking Loss(値↓:性能↑) 実際の所持ラベルより 非所持ラベルのランキ ングが高いものの組み 合わせ数とその全組み 合わせ数の比の平均 評価基準 • Average Precision(値↑:性能↑) 値 性能 所持ラベル数により重み付け 所持ラベル中の上位ラベル個数 / 総ラベル中の上位ラベル個数 / 総ラベル中の上位ラベル個数 3 ML kNN 3. ML‐kNN • : 事例xのカテゴリベクトル 事例 ゴ ベ –例 例. <1, 0, 0, 1> → 1と4番目のラベル所持 , , , → 番目 ラ ル所持 • • : カテゴリベクトル要素 カテゴリベクトル要素 : xに性質が近いデータ集合 3 ML kNN 3. ML‐kNN • Membership counting vector – 各ラベル所持の近いデータ件数ベクトル 各ラ ル所持 近 デ タ件数 ク ル – 例.N(x)中(“政治”:2件“経済”:3件“国際”:1件) → C = <2, 3, 1> C = <2 3 1> 3 ML kNN 3. ML‐kNN • • :テストデータtがラベルl所持 デ タ が ベ 所持 :テストデ タtがラベルl非所持 :テストデータtがラベルl非所持 • :N(t)中にラベルl所持データがj件 3 ML kNN 3. ML‐kNN • カテゴリベクトル推定 ゴ ベ 推定 t近所にl所持データがC件の時, 近所 所持 件 時, tはラベルlを所持するかしないか? ベイズの定理より・・・ それぞれ推定 3 ML kNN 3. ML‐kNN • (1)to(3): 計算 (2) (l所持学習データ件数 /全件数) をラプラス補正 プ 補 • (4)to(14): (4)t (14) 計算 (6)to(7) 初期化 (9) xiに近いデータk内のl所持件数計算 (10) 自信がlを所持している (13) lを所持しある件数の近いデータがlを所持 3 ML kNN 3. ML‐kNN • (15)to(19):ラベル推定 (18) カテゴリベクトル (19) 確率値ベクトル 4 Experiments 4. Experiments A.Elisseeff , J.Weston(2002)使用データに基づく 使 デ タ 基づく • • • • • Yeast gene functional data 学習データ:1500 テストデータ:917 データ次元: デ タ次元: 103 103 クラス種類: 14 平均付与ラベル数: 4.2±1.6 4 Experiments 4. Experiments 変化なし 提案手法 k=7が最良 比較手法 kNNの性能はRank‐SVMに匹敵 5 Conclusion 5. Conclusion • 手軽なマルチラベル分類手法提案 軽な ベ 分類 法提案 • バイオインフォマティックスデータより実験 • 他の手法に匹敵するという結果
© Copyright 2025 ExpyDoc