半教師あり学習チュートリアル

DMLA 2008-06-17
小町守
半教師あり学習
チュートリアル
本チュートリアルのねらい

(自分の博士論文に関係のある)半教師あり学
習についての紹介
 長所と短所のサーベイ

半教師あり学習使ってみようという人を増やす
2
イントロダクション

半教師あり学習(Semi-supervised learning)
 ラベルありデータとラベルなしデータの両方を利用し
た学習法全般
 ラベルありデータ:
正解が付与されているデータ
 ラベルなしデータ: 正解が付与されていないデータ
 種類
 クラスタリング、分類、回帰、ランキング、…
3
本チュートリアルで想定するNLPタスク

固有表現抽出タスク
新しい
新しい
NE 新しい
NE
NE
シード
NE
シード
パターン
大規模
データ
大規模
データ
大規模
データ
新たなパターン獲得
4
本チュートリアルで想定するNLPタスク

語義曖昧性解消タスク
シード
用例
分類器
大規模
データ
大規模
データ
大規模
データ
新たな用例獲得
5
半教師あり学習の目的
ラベルありデータとラベルなしデータが存在
 ラベルなしデータを使って性能向上したい

 (前提)
 ラベルなしデータは大量に獲得可能
 ラベルありデータは作成にコストがかかる
人手でつけるのは面倒
 専門知識が必要
 アノテーションツールが使いにくい(などなど……)

6
半教師あり学習が有効な場合(1)

前提
 インスタンスがたくさんあるところに分離平面を引き
たくない
7
半教師あり学習が有効な場合(2)
前提: データのよい生成モデルがある
Gaussian Mixture のパラメータは EM で求めることができる
クラスのラベルは正解付きデータから推定
8
2つのアルゴリズム

分類器に基づく手法
 初期分類器から始め、反復的に分類器を洗練
 Self-training/co-training

データに基づく手法
 データに備わっている構造を発見し、分類器を構築
する際に用いる
 グラフベースの手法
9
分類器の予測結果に基づく手法
•
仮定
–
•
分類器の出した確信度の高い予測結果は正しい
アルゴリズム
ラベルありデータから分類器を教師あり学習
2. ラベルなしデータのラベルを予測
3. ラベルなしデータと予測結果(擬似的な正解ラベル)
をラベルありデータに追加
4. 繰り返し
1.
10
SELF-TRAINING

Yarowsky 1995
 語義曖昧性解消(インスタンスは語義)
One sense per discourse の制約により新しいパターン獲得
11
実際の学習法
ラベルなしデータのラベルを予測
 予測ラベルを正解と見なしてラベルありデータに
追加

 閾値以上の確信度の予測結果のみを追加
 確信度の上位k個の予測結果のみを追加
 重み付きで全ての予測結果を追加

ラベルありデータ+予測ラベル付きラベルなし
データで分類器を教師あり学習
12
2015/9/30
ブートストラップ(固有表現抽出)

パターン抽出とインスタンス獲得を交互に繰
り返して少量のシードインスタンスを反復的に
増やす
インスタンス
MacBook Air
コーパス
パターン
アップルMacBook Air注文
アップル#注文
iPod touch
アップルiPod touch注文
MacBook Pro
アップルMacBook Pro注文
#:インスタンス
が入るスロット
13
特長と問題点

特長
 複雑な仮定が不要
 ラッパーとして用いることができる
 既存の分類器との親和性が高い
 NLP

で実際よく使われている
問題点
 真の分布に基づく分類器の実現は困難
 初期に間違えると間違いが増幅される
 収束条件がよく分からない
14
SELF-TRAINING の問題点(CONT.)

高次元スパース空間(素性の数が膨大で、訓練
事例にはほとんど現れない場合)には不向き
 NLP

では典型的には高次元スパース空間
本質的な性能の向上は見込めない
 分類器自身が知っていることを再学習しても情報量
は増えない
 (Cf.
能動学習 active learning)
 ラベルなしデータの量を増やしても性能が向上しな
いことが多い
15
CO-TRAINING (MULTIVIEW LEARNING)
•
仮定
–
–
–
•
素性分割が可能
分割した素性それぞれで十分な分類器が学習可能
分割した素性が条件付き独立
アルゴリズム
–
–
–
–
–
分割した素性から2つの学習器を学習
ラベルなしデータをそれぞれの分類器で分類
分類器1の確信度上位k個を分類器2のラベルありデータに
追加
分類器2の確信度上位k個を分類器1のラベルありデータに
追加
繰り返し
16
CO-TRAINING

Blum & Mitchell 1998
 ウェブページのラベル付け
View 1
による分類器
View1 の分類器
の予測ラベルを
View2 の分類器
の訓練事例に、
逆も同様にして反
復
View 2
による分類器
View1 ページにリンクしているハイパーリンクのテキスト
View2 ウェブページのテキストそのもの
17
CO-TRAINING の特長と問題点

特長
 Self-training
より間違いに強い
 タスクの特徴をうまく捉えた使い方をした場合、ラベ
ルありデータの数が少ない場合は性能が向上したと
いう報告あり

問題点
 自然に素性を分割できる場合のみ有効
 全素性を使って教師あり学習したほうがよい性能を得られ
る場合が多い(ランダムに素性を分割する話もある)
18
CO-TRAINING の兄弟
•
Co-EM
–
–
–
•
上位k個だけでなく全部の結果を追加する
各分類器が確率的にラベルなしデータを予測
ラベルなしデータと予測結果を重みP(y|x)で追加
Multiview Learning
–
–
–
–
素性分割なし
複数のタイプの分類器を学習
ラベルなしデータを全ての分類器で予測
ラベルの多数決の結果を追加
19
EM (DEMPSTER ET AL, 1977)

ラベルありデータとラベルなしデータの対数尤度
を最大化
log(P(y
i
|  )P(xi | yi,)) log(P(y |  )P(x j | y,))
i
j
Ll:ラベルありデータの対数尤度

y
Lu: ラベルなしデータの対数尤度
θ
π
x
y
20
STABLE MIXING OF INFORMATION
(CORDUNEANU 2002)

ラベルありデータとラベルなしデータの対数尤度
を線形補間
(1  )Ll  Lu
EM で最適化することができる
 最適なλの値を求めるためのステップが必要


21
EMの特長と問題点

特長
 ラベルなしデータを自然に組み込むことができる
 テキスト分類タスクではよい性能を示している

問題点
 適切な生成モデルを使わないとよい性能は出ない
 パラメータを決めるステップが入る
 少量のラベルありデータのときは性能向上するが大
量にラベルありデータがあるときは性能が悪化する
という報告(Merialdo, 1994)もある
22
類似度グラフを用いる手法

仮定
 類似サンプルは同一ラベルを持つ傾向にある

前提
 サンプル間の類似度を定義可能
 事前知識,

kNN
アイデア
 類似度グラフに対してグラフベースのアルゴリズム
を用いてクラスタリング
23
類似度グラフによる手法の直感的解釈

Overlap がない状態でもpropagationでうまくいく

隣接するノードは類似のラベルを持つ(図は
Zhu 2007 より引用)
24
類似度グラフによるラベルなしデータの利用
25
グラフによる手法の特長と問題点
•
特長
–
–
•
グラフ理論など数学的な背景が確立
よいグラフが得られていればよい性能が得られる
問題点
–
–
–
適切なグラフ構造(やエッジの重み)を得ることが難しい
計算量が相対的に大きい
Transductive な方法が多い
•
•
Transductive: テスト事例が既知のときの学習
Inductive: 未知データを含む全データを対象
26
まとめ

Self/co-training
 教師あり学習との親和性が高いのでよく使われてき
た
 うまくいったりいかなかったり、タスクに応じて使わな
いといけない

グラフに基づく手法
 NLP
タスクにおけるよいグラフは自明でない
 計算量が相対的に大きい
27
資料
言語処理学会第14回年次大会チュートリアル:
半教師あり学習による分類法:—現状と自然言語
処理への適用—, 鈴木潤・藤野昭典
 ICML 2007 Tutorial: Semi-supervised Learning,
Xiaojin Zhu.
 NAACL 2006 Tutorial: Inductive Semisupervised Learning with Applicability to NLP, A.
Sarkar and G. Haffari.

28