Automatic Language Acquistion, an Interactive

Automatic Language
Acquisition, an
Interactive Approach
† Robert J. Martin †大西昇
‡山村毅
†名古屋大学 ‡愛知県立大学
発表内容
Lingquest システムの紹介
 背景:

 人間が作るモデル
 従来の自動獲得

提案
 インタラクティブ・アプローチの概念
 設計
 Use

まとめ
Case (例)
Lingquest System というのは…

自動的な自然言語獲得ツール
Lingquest System というのは…
自動的な自然言語獲得ツール
 特定の言語、ドメインに依存しない

Lingquest System というのは…
自動的な自然言語獲得ツール
 特定の言語、ドメインに依存しない
 結果として得られるモデルは再利用、共用で
きる、

 例:J-POP?
Lingquest System というのは…
自動的な自然言語獲得ツール
 特定の言語、ドメインに依存しない
 結果として得られるモデルは再利用、共用で
きる、

 例:J-POP=英語+日本語
Lingquest System というのは…
自動的な自然言語獲得ツール
 特定の言語、ドメインに依存しない
 結果として得られるモデルは再利用、共用で
きる
 ある言語定理でモデルを実現するツールだけ
ではなく、基本の言語定理、モデル等で始ま
り、インタラクティブ実験で適応なモデル,定理
とモデルを作る方法を発見するものである

背景
人間が作ったモデル
言語学者
も必要
時間
かかる
効率が悪い
整備も
必要
目的
効率のよい自動獲得方法を開発
関連研究

統計的な方法(Deligne & Bimbot)
+ 簡単、効率がよい
- 局所極大(EM 元), sparse data

インタラクティブな方法 (J. Riloff)
+ 局所極大問題のような問題に成功できる
- まだ人間に依存する

帰納的方法 (R. Mooney)
+ 人間に読みやすいルール(symbolic), 見ていない
データに強い,新しいルールを推論できる
提案
自動獲得方法を
組み合わせる
統計的な
方法
インタラクティブ
な方法
帰納的
方法
+ 人間より
効率がよい
- 局所極大、
sparse data等
+ 統計問題
に成功
- また人間から
モデルの問題
+ 新しい
ルールを
自動的に
作れる
提案(続き)

人間が作ったモデル
+ 深い(抽象パターン認
識), 信用性が高い
- 遅い, 効率が悪い, 整
備しにくい

人間が
フィードバック
を与える
統計的に
パターン
を求める
コンピュータが作った
モデル
+ 速い, 順応で整備が
やすい
- 浅い (表層認識のみ),
データの限界
フィードバック
を利用し、
ルールを帰納
設計

3成分システム:
Learner: 学習方法を使い、データを変化出来る
モデルを出す:DataLearnerModel
 Model: モデルを使い、データの変化をユーザ
に出力する:DataModelData’
 Meta-Learner: ユーザのフィードバックを利用し、
新しい学習方法を推論する:
Data’’ + Model’’Meta-LearnerLearner

人間が作る方法
At-1Bt
Model
Data
At-1 ? t
入力
?
At-1 B t
出力
人間が作る方法
At-1Bt
Model
Data
At-1 ? t
入力
At-1 B t
出力
自動獲得
?t-1?t
Learner
At-1Bt
Model
Data
?
At-1 B t
入力
At-1 ? t
出力
At-1 B t
Meta-Learning(メタ学習)
MetaLearner
????
?t-1?t
Learner
Model
Data
Ct-1Dt
?
Ct-1 D t
At-1 B t
入力
At-1Bt
At-1 ? t
出力
At-1 B t
設計(Behavior)
Hybrid, Interactive Bootstrapping:
1. 自動獲得を利用して簡単なモデルを作る
2. ユーザのモデルとデータのフィードバックを
受ける。
3a. フィードバックで変形されたモデル(強い),
データ(弱い)を用いて1に戻る
3b. ユーザのフィードバックを利用して帰納的に
新モデル,学習方法を作ったら1に戻る

Lingquest:
Use Case
1.
ModelAlpha = LearnerAlpha(DataJ)
= {…,で,は,な,い,…}
2. Modelμ-gram = LearnerEM(RepJ =
ModelAlpha(DataJ)):
= {…,で,は,な,い,ない,はない,…}
3. Modelμ-gram(“ではない”) = [で][はない]
4. User corrects:
1.
Strong : Modelμ-gram = {…,で,は,な,い,ない,では…}
2.
Weak : RepJ = [では][ない]
Lingquest:
Use Case(続き)
5a. Lingquestがユーザのフィードバックでモデ
ル、Representationを評価し直して
2に戻る
5b.類似行列、feature selection等で新しい変
形を帰納的に探す
e.g.- [で][もない][でも][ない]
2に戻る
まとめ
コンピュータの計算能力と人間の知的能力で
協力する、Lingquestというシステムを提案し
た
 情報工学のContribution:

 人間がモデルを作る方法より効率がいい
 自動獲得システムの問題はいくつかを解決する
(EM局所極大や浅いモデルなど)
 簡単にユーザがコンピュータの結果を直すだけで
はなく、インタラクションで学ぶ方法を開発する