情報処理北海道シンポジウム 2014 識別精度が一様でない識別子の集合による多数決 三上絢子 ∗ 工藤峰一 中村篤祥 (北大情報科学研究科)† はじめに 1 教師あり学習は既知のデータ(トレーニングデータ) を元に未知のデータを識別する関数, 識別子 (classifier), を学習する問題である. 複雑な識別境界を表現できる識 1 (C が x のラベルを正しく推定した場合) C(x) = 0 (otherwise) 別子はトレーニングデータに対して敏感で過学習を起こ つまり, 識別子はクラスラベルを正しく識別した時 しやすく, テストデータを識別した際の性能, 汎化性能, に”1” を, その他の場合では ”0” を出力すると考える. が低くなる傾向にある. アンサンブル学習は複数の単純 C が x のラベルを正しく推定する確率を(平均)識別精 な識別子を組み合わせることにより精度の高い識別子を 度と呼ぶ. 識別精度が {p, p − δ, p + δ}(0 ≤ p ≤ 1, δ は 生み出す, 教師あり学習の枠組みである. 2 クラス識別の 場合, 弱識別子, すなわち識別精度が 0.5 よりもわずかに p + δ ≤ 1 かつ 0 ≤ p − δ となるような任意の定数) で ある三種類の識別子を考える. この三つの識別子がそれ 良い識別子を複数使うことにより, 単独の識別子による ぞれ n 個あり, 全ての識別子は互いに独立であると仮定 ものよりも汎化性能の高い識別子が構成できることは知 する. つまり全部で 3n 個の識別子がある. この時, 一つ られている [1, 2]. のデータ x に対し識別精度 p, p − δ, p + δ の識別子が n アンサンブル学習における識別子の組み合わせ方法で 最も多く使われるのは多数決である. 多数決を用いた手 法の例として, ランダムサブスペース法 [3] やランダム フォレスト [4] が挙げられる. 多数決による識別精度の改善が成功するための要件と して, • 個々の識別子の識別精度 p > 0.5 であること • 識別子同士が十分に異なっている(多様である)こと が挙げられる. 識別子同士が十分に異なっているときには, 識別子の 「多様性が高い」と言える. これまでに多様性を計る目的 個中 i 個誤る確率を, それぞれ Fp (i), Fp−δ (i), Fp+δ (i) と し, 以下のように定義する. ( ) n Fp (i) = (1 − p)i (p)n−i i ( ) n Fp+δ (i) = (1 − p − δ)i (p + δ)n−i i ( ) n Fp−δ (i) = (1 − p + δ)i (p − δ)n−i i また, 高々i 個の識別子が誤る確率 Ip (i), Ip−δ (i), Ip+δ (i) を以下のように定義する. でペアワイズ相関や κ 係数など様々な尺度が提案されて Ip (i) = Σij=0 Fp (j) いる [5]. 相関が高い識別子は多様性が低く, 実際に Oh Ip+δ (i) = Σij=0 Fp+δ (j) は相関の高い識別子による多数決では識別精度の改善率 Ip−δ (i) = Σij=0 Fp−δ (j) が低下することがあることを示した [6]. 従来の多様性尺度を用いた性能解析は殆どの場合, 統 合するすべての識別子が同一の識別率を持つと仮定して (1) (2) この時, 多数決による識別精度 Pmaj は以下のように 表せられる. 行われている. しかし, 一般には識別率の異なる識別子 を複数用いることになる. 本研究では, 識別率の異なる 3 種類の識別子が多数あるとして, 多数決としてそれらの 推測結果を統合する場合の効果を解析する. 多数決による識別精度 2 問題の定式化 2.1 特徴ベクトル x とクラスラベル y の組である入力デー タ (x, y) があるとき, 識別子 C の出力を次のように評価 する. Pmaj = Σi+j+k≤⌈ 23 n⌉ [Fp (i) + Fp−δ (j) + Fp−δ (k)] 1 1 2n = Ip (n)Σi=0 Fp−δ (i)Ip+δ ( n − i) 2 1 1 1 2n 2 n+i + Σi=0 Ip (n − i)Σj=0 Fp−δ (j)Fp+δ ( n + i − j) 2 3 1 n 2 n−i +Σi= 1 n+1 Ip (n−i)Σj=0 Fp−δ (i− n+j)Fp+δ (n−j) 2 2 (3) 一例として, p = 0.51, n=20 のとき, δ を変化させたと ∗ [email protected] † 札幌市北区北 14 条西 9 丁目北海道大学大学院情報科学研究科 きの Pmaj の値を図 1 に示す. 情報処理北海道シンポジウム 2014 このとき, 正規分布の再生性から以下に示すような正 規分布に従う. U= 1 vX + vY + vZ (X + Y + Z) ≃ N (p, ) 3n 3n (6) この分布について, δ の値が変化したときの分散の値 を図 2 に示す. 分散 vX +vY +vZ 3n は三点 vx , vy , vz の重心 の y 軸座標値を n で割った値である. 識別子の数が 3n で固定, つまり n が一定で δ が増加した場合, この分散 の値は減少する. 多数決では過半数の得票が正解して いる場合に正しく識別できるので, 多数決の識別精度は 1 Pmaj = P ( 3n (X + Y + Z) > 12 ) と表せられる. 従って 分布の平均 p が 0.5 よりわずかでも大きい場合, 分散の Fig. 1 精度の差 δ が増加するに伴い多数決による識別 減少に伴って値が 0.5 を下回る確率が減少するため, 多 精度も向上する様子(p = 0.51, n=20) 数決の識別精度が改善する. また当然 n に反比例して分 散は減少する. 実際には正規分布の仮定に依らず, 具体 2.2 的な式変形により Pmaj < p を示すことができる. 正規分布への近似による直感的な理解 識別精度 p, p − δ, p + δ のそれぞれ n 個の識別子のう ち正解する識別子の個数をそれぞれ X, Y, Z と表記する. 確率変数 X, Y, Z はそれぞれ二項分布に従い, 以下のよ うに定義できる. ( ) n i P (X = i) = p (1 − p)n−i i ( ) n P (Y = i) = (p − δ)i (1 − p + δ)n−i i ( ) n P (Z = i) = (p + δ)i (1 − p − δ)n−i i (4) また, X, Y, Z にそれぞれの期待値 E[X], E[Y ], E[Z] と 分散 V [X], V [Y ], V [Z] は, V [X] = nvx = np(1 − p) E[X] = np E[Y ] = n(p − δ) V [Y ] = nvy = n(p − δ)(1 − p + δ) E[Z] = n(p + δ) V [Z] = nvz = n(p + δ)(1 − p − δ) (5) ここで, n が十分に大きい時, X, Y, Z の分布は正規分 布で以下のように近似できる. Fig. 2 多数決による分散 (n = 1, p = 0.6). こ こで, f (p) = p(1 − p) 上の三点, p(1 − p) = vx , (p − δ)(1 − p + δ) = vy , (p + δ)(1 − p − δ) = vz の 重心が (vx +vy +vz ) 3 の値であり, p, (p − δ), (p + δ) で多数 決を行った際の識別率の分散の n 倍である. 精度差 δ が 大きいとき分散は減少する. 3 まとめ 本論文ではアンサンブル学習において, 識別精度の異 なる識別子同士を組み合わせた場合の多数決での識別精 X ≃ N (np, nvX ) Y ≃ N (n(p − δ), nvY ) Z ≃ N (n(p + δ), nvZ ) 度の効果を検討した. 具体的には, 三種類の識別子を複 数個使った場合には, それらの識別率が離れている方が 近い時よりも多数決を取る効果があることを理論的に明 らかにした. 一方で, それならば, 最も識別率の高い識別子だけを使 多数決の得票割合を U = 1 3n (X + Y + Z) と表す. えばよいという議論もあるかもしれない. しかし, 識別 子の識別率をトレーニングデータから推測するのは難し 情報処理北海道シンポジウム 2014 く, それ自体, パターン認識の主要課題の一つとなってい る. そのため実用上は, 平均識別率の正しい値は分から ない複数の識別子を利用することになる. 本研究は, 複 数の識別子全体の平均識別率が 1/2 よりも高いことだけ が分かっている状況で, ばらばらな識別率を持つ識別子 を複数使って多数決をとることの効果を裏付けたもので ある. これまでは同一の平均識別率を仮定した解析が主 であったため, 本研究で行われた異なる平均識別率の仮 定下での成果は意義深い. 特に, 組み合わせに依っては, 平均識別率が 1/2 よりも低い識別子が含まれていても統 合する効果があることがわかったことが興味深い. 今回は全ての識別子が独立であると仮定したが, 実際 には正の相関を持つ場合が多い. 特に識別精度が高い識 別子の場合には相関が高くならざるを得ないため, 多数 決の精度に強い影響を与える. このような時に識別精度 の低い識別子を多数決に加えることの効果を今後検討し たい. 参考文献 [1] L. K. Hansen and P. Salamon. Neural network ensembles. IEEE transactions on Pattern Analysis and Machine Intelligence, Vol. 12, No. 10, pp. 993– 1001, 1990. [2] L. Breiman. Bagging predictors. Machine Learning, Vol. 24, No. 2, pp. 123–140, 1996. [3] T. K. Ho. The random subspace method for constructing decision forests. Pattern Analysis and Machine Intelligence, IEEE, Vol. 20, No. 8, pp. 832– 844, 1998. [4] L. Breiman. Random forests. Machine learning, Vol. 45, pp. 5–32, 2001. [5] L. I. Kuncheva and C. J. Whitaker. Measures of Diversity in Classifier Ensembles. Machine Learning, Vol. 51, No. 2, pp. 181–207, 2003. [6] S. B. Oh. On the relationship between majority vote accuracy and dependency in multiple classifier systems. Pattern Recognition Letters, Vol. 24, No. 1-3, pp. 359–363, 2003.
© Copyright 2025 ExpyDoc