Automatic Language Acquisition, an Interactive Approach † Robert J. Martin †大西昇 ‡山村毅 †名古屋大学 ‡愛知県立大学 発表内容 Lingquest システムの紹介 背景: 人間が作るモデル 従来の自動獲得 提案 インタラクティブ・アプローチの概念 設計 Use まとめ Case (例) Lingquest System というのは… 自動的な自然言語獲得ツール Lingquest System というのは… 自動的な自然言語獲得ツール 特定の言語、ドメインに依存しない Lingquest System というのは… 自動的な自然言語獲得ツール 特定の言語、ドメインに依存しない 結果として得られるモデルは再利用、共用で きる、 例:J-POP? Lingquest System というのは… 自動的な自然言語獲得ツール 特定の言語、ドメインに依存しない 結果として得られるモデルは再利用、共用で きる、 例:J-POP=英語+日本語 Lingquest System というのは… 自動的な自然言語獲得ツール 特定の言語、ドメインに依存しない 結果として得られるモデルは再利用、共用で きる ある言語定理でモデルを実現するツールだけ ではなく、基本の言語定理、モデル等で始ま り、インタラクティブ実験で適応なモデル,定理 とモデルを作る方法を発見するものである 背景 人間が作ったモデル 言語学者 も必要 時間 かかる 効率が悪い 整備も 必要 目的 効率のよい自動獲得方法を開発 関連研究 統計的な方法(Deligne & Bimbot) + 簡単、効率がよい - 局所極大(EM 元), sparse data インタラクティブな方法 (J. Riloff) + 局所極大問題のような問題に成功できる - まだ人間に依存する 帰納的方法 (R. Mooney) + 人間に読みやすいルール(symbolic), 見ていない データに強い,新しいルールを推論できる 提案 自動獲得方法を 組み合わせる 統計的な 方法 インタラクティブ な方法 帰納的 方法 + 人間より 効率がよい - 局所極大、 sparse data等 + 統計問題 に成功 - また人間から モデルの問題 + 新しい ルールを 自動的に 作れる 提案(続き) 人間が作ったモデル + 深い(抽象パターン認 識), 信用性が高い - 遅い, 効率が悪い, 整 備しにくい 人間が フィードバック を与える 統計的に パターン を求める コンピュータが作った モデル + 速い, 順応で整備が やすい - 浅い (表層認識のみ), データの限界 フィードバック を利用し、 ルールを帰納 設計 3成分システム: Learner: 学習方法を使い、データを変化出来る モデルを出す:DataLearnerModel Model: モデルを使い、データの変化をユーザ に出力する:DataModelData’ Meta-Learner: ユーザのフィードバックを利用し、 新しい学習方法を推論する: Data’’ + Model’’Meta-LearnerLearner 人間が作る方法 At-1Bt Model Data At-1 ? t 入力 ? At-1 B t 出力 人間が作る方法 At-1Bt Model Data At-1 ? t 入力 At-1 B t 出力 自動獲得 ?t-1?t Learner At-1Bt Model Data ? At-1 B t 入力 At-1 ? t 出力 At-1 B t Meta-Learning(メタ学習) MetaLearner ???? ?t-1?t Learner Model Data Ct-1Dt ? Ct-1 D t At-1 B t 入力 At-1Bt At-1 ? t 出力 At-1 B t 設計(Behavior) Hybrid, Interactive Bootstrapping: 1. 自動獲得を利用して簡単なモデルを作る 2. ユーザのモデルとデータのフィードバックを 受ける。 3a. フィードバックで変形されたモデル(強い), データ(弱い)を用いて1に戻る 3b. ユーザのフィードバックを利用して帰納的に 新モデル,学習方法を作ったら1に戻る Lingquest: Use Case 1. ModelAlpha = LearnerAlpha(DataJ) = {…,で,は,な,い,…} 2. Modelμ-gram = LearnerEM(RepJ = ModelAlpha(DataJ)): = {…,で,は,な,い,ない,はない,…} 3. Modelμ-gram(“ではない”) = [で][はない] 4. User corrects: 1. Strong : Modelμ-gram = {…,で,は,な,い,ない,では…} 2. Weak : RepJ = [では][ない] Lingquest: Use Case(続き) 5a. Lingquestがユーザのフィードバックでモデ ル、Representationを評価し直して 2に戻る 5b.類似行列、feature selection等で新しい変 形を帰納的に探す e.g.- [で][もない][でも][ない] 2に戻る まとめ コンピュータの計算能力と人間の知的能力で 協力する、Lingquestというシステムを提案し た 情報工学のContribution: 人間がモデルを作る方法より効率がいい 自動獲得システムの問題はいくつかを解決する (EM局所極大や浅いモデルなど) 簡単にユーザがコンピュータの結果を直すだけで はなく、インタラクションで学ぶ方法を開発する
© Copyright 2024 ExpyDoc