平成 25 年度創成シミュレーション工学専攻修士論文梗概集 計算応用科学分野 パラメトリック計画法を用いたマルチインスタンス SVM 学籍番号 24413506 氏名 石原 直樹 指導教員名 竹内 一郎 准教授 1 はじめに 機械学習における教師あり学習は,過去の入力サン プルの特徴と出力 (教師ラベル) から,未知のサンプル に対する出力を予測する問題である.しかし,サンプル の特徴を取得する容易さに比べ,教師ラベルの取得は コストが高いことが多く,曖昧な教師ラベル情報を用 いて学習を行う弱ラベルデータ学習が注目されている. 中でも,薬剤活性分析や画像のカテゴリ分類など多く の現実社会での問題がマルチインスタンス学習 (MIL: Multi-Instance Learning) と呼ばれる枠組みで扱えるこ とが指摘されている. 本稿では,MIL に SVM(Support Vector Machine) を 適用したマルチインスタンス SVM[1] に注目する.通 常の教師あり学習の手法である SVM を MIL にそのま ま適用することはできないため,様々なモデルが提案 されている.このとき,主に二つの問題が生じる. 一つは,解くべき問題に適したモデルを選択するこ とである.従来研究では,モデルの候補をあらかじめ 決め,候補の中から判別に用いるモデルを決定してい る.しかし,最適なモデルを選択するには,候補とな るモデルを増やす必要があり,全ての候補のモデルを 学習するとコストが大きくなる. 二つ目は,一般にマルチインスタンス SVM が非凸 最適化問題となるため,より良い局所最適解を得るこ とが求められる点である. 本稿では,従来研究で提案されているマルチインス タンス SVM を統一的な枠組みで定式化し,その局所 最適解の性質を明らかにする.また,二つのモデルを 統合したモデルを示し,パラメトリック計画法を用い た効率的なアルゴリズムを提案する. 2 マルチインスタンス学習 MIL では,バッグと呼ばれる学習インスタンス (サ ンプル) の集合に対して教師ラベルが与えられる.正ラ ベル (+1) が付与されているバッグは正バッグと呼ば れ,負ラベル (−1) が付与されているバッグは負バッグ と呼ばれる.バッグのラベルは, 正バッグ : 少なくとも一つのインスタンスが正ラベル 負バッグ : 全てのインスタンスが負ラベル と定義される.しかし, 「どのインスタンスが正ラベル であるか」や「正ラベルのインスタンスが何個含まれ るか」は未知である. 例えば,画像のカテゴリ分類のタスクでは,画像を 物体 (インスタンス) の集合であるバッグとみなし,各 インスタンスを特徴ベクトルとして表現する.画像内 に一つでも対象カテゴリに分類される物体が存在すれ ば,その画像は対象カテゴリに分類される. マルチインスタンス学習では,学習インスタンス {xi ∈ Rd }ni=1 とバッグおよびそのラベル {(Bℓ , Yℓ )}N ℓ=1 が学習データとして与えられる.ここで,Bℓ はバッ グ ℓ に属するインスタンスのインデックス集合を表し, Yℓ ∈ {−1, +1} はバッグのラベルを表す. 3 マルチインスタンス SVM SVM は,分類境界 f (x) = 0 と 2 クラスとの距離 (マージン) を最大にする判別関数 f (x) = w⊤ x を学習 する問題である.しかし,MIL では与えられているイ ンスタンスの特徴ベクトルとバッグのラベルが一対一 に対応しないため,SVM をそのまま適用することがで きない.そこで,主に二つの手法が提案されている. 一つ目は,MI-SVM[1] と呼ばれ,バッグ毎に一つの 代表インスタンスを決定し,代表インスタンスの特徴 ベクトルをバッグの特徴ベクトルとして扱う手法であ る.バッグの特徴ベクトルとバッグのラベルを用いて分 類器を学習することができるが,分類器によって選ば れる代表ベクトルが変わるため非凸最適化問題となる. 二つ目は,mi-SVM[1] と呼ばれ,各インスタンスの ラベルを推定し,その推定ラベルを用いて分類器を学 習する手法である.推定ラベルは分類器によって変化 するため非凸最適化問題となる. マルチインスタンス SVM は一般に,インスタンス のラベル y ∈ {−1, +1}n および,正則化パラメータ C を個別に拡張した個別重み c ∈ Rn + を用いて, min min y∈Y,c∈C f n ∑ 1 ∥w∥2 + ci [1 − yi f (xi )]+ , 2 i=1 (1) と定式化される. 既存研究で提案されているモデルの多くは,Y およ び C を適切に設定することで,(1) の形式で表現するこ とができる.また,詳細は省くが,y = y ′ , c = c′ と固 定したときの (1) の解を fy′ ,c′ と表すと,f = fy′ ,c′ と 固定したときの (1) の解が y ′ , c′ である場合,fy′ ,c′ が 局所最適解であることを証明できる. 平成 25 年度創成シミュレーション工学専攻修士論文梗概集 計算応用科学分野 4 パラメトリック計画法を用いたマルチインスタン ス SVM Ele. Sun. Hor. 本稿では,パラメトリック計画法と呼ばれる手法を 用いたマルチインスタンス SVM を提案する. 上述の通り,マルチインスタンス SVM は,Y, C を選 ぶことによって様々なモデルを表現できるため,M = Y × C と表記する.提案手法では,混合パラメータ θ = [0, 1] を用いて,二つのモデルを混合したパラメトリッ クモデルを min (1 − θ)J(f |y0 , c0 ) + θJ(f |y1 , c1 ), f と定式化する.このとき,θ = 0 では M0 と一致し, θ = 1 では M1 と一致する.また,θ = (0, 1) では M0 と M1 を混合したモデルを表現することができる. 提案アルゴリズムでは,局所最適解を θ の関数とし て表し,θ を 0 から 1 まで変化させた際の局所最適解 の変化を追跡する. より単純なモデルから複雑なモデルへ変化させれば, アニーリングとみなすことができ,より良い局所最適 解を得ることが期待される.また,アルゴリズム中で, モデル選択の基準となる誤分類率なども同時に追跡す ることにより,最適な θ を決定することができる.こ れは,θ を無限個の候補の中から選択しているとみな せるため,θ を固定して交互最適化を行う従来の手法 よりも効率的により良いモデルを選択することが可能 となる. また,提案アルゴリズムは,半教師あり学習やクラ スタリングなどに応用することもできる. 5 表 2: mi-SVM の目的関数値 mi-SVM fix→mi C-ann. 1450.151 1359.757 1417.255 1013.103 1001.755 667.305 1053.488 1060.348 342.755 Ele. Sun. Hor. 計算機実験 提案手法の有効性を実データに対する計算機実験に よって比較する.本稿では,提案手法と MI-SVM お よび mi-SVM を比較した.全ての手法でガウシアン カーネルを使用し,ガウシアンカーネルのパラメータ は γ ∈ {1/d, 5/d, 10/d} とした.d は入力データの次元 数である.また,正則化パラメータは C ∈ {n, 5n, 10n} とした.n は学習データのインスタンス数である. 学習データで学習を行い,検証データの誤判別率を最 小にしたパラメータを用いて,測定したテストデータの 誤判別率を表 1 に示す.提案手法として,MI-SVM か ら mi-SVM へ変化させた MI→mi とその逆の mi→MI の結果を掲載する.どちらもより良いモデルを選択で きていることがわかる. 次にアニーリングについて検証する.γ = 1/d, C = 10n とし,バッグのラベルをインスタンスのラベルと みなした SVM から mi-SVM へ変化させた fix→mi と mi-SVM の C を 10−3 から提案手法によって増加させ た C-ann. および交互最適化による mi-SVM の目的関 数値を表 2 に示す. CPU Time(sec) min (c0 , y0 ) ∈ M0 (c1 , y1 ) ∈ M1 表 1: テストデータの誤判別率 MI-SVM mi-SVM MI→mi mi→MI 0.314 0.325 0.285 0.309 0.175 0.175 0.190 0.159 0.107 0.121 0.104 0.107 35 30 25 20 15 10 5 0 Proposed Naive 1 2 3 4 5 6 7 8 9 10 the number of candidates 図 1: モデル選択にかかる計算時間 提案手法によってアニーリングを実現することがで き,より良い局所最適解を得られていることがわかる. 特に C を増加させた場合に顕著に向上している. また,θ を離散的に変化させた場合 (Naive) と提案手 法によって連続的に変化させた場合 (Proposed) のモデ ル選択にかかる計算時間を図 1 に示す.従来手法では モデルの候補数が増えると計算時間も増えるのに対し, 提案手法の計算時間はモデルの候補数に依存しない. 6 まとめ 本稿では,マルチインスタンス SVM の一般的な定 式化と局所最適性条件を導出し,二つのモデルを混合 したパラメトリックモデルを考え,効率的なアルゴリ ズムを提案した. 今後,人工データなどを用いて,インスタンスの分 類の精度や,データの性質による精度の違いを調べる 必要がある.また,他手法との比較も行う. 参考文献 [1] S. Andrews, I. Tsochantaridis, and T. Hofmann. Support vector machines for multiple-instance learning. In Advances in Neural Information Processing Systems, Vol. 15, pp. 561–568. The MIT Press, 2003.
© Copyright 2024 ExpyDoc