第11回 学 習 1 機械学習 知識学習(Knowledge-level learning): 過去に与えられた情報に基づき,問題解決を実 現するために必要な知識を獲得 記号レベル学習(symbol-level learning), スピードアップ学習(speed-up learning): 獲得した知識を,より効率よく利用できるように 洗練化 人工知能における最も挑戦的な分野 知識獲得ボトルネック(1980-)に触発 2 機械学習の諸概念 1. 2. 1. 2. 学習データの与え方 教師有り学習 ~ 例からの学習(概念学習) 教師無し学習 ~ 観察による学習 データの種類 数値(1950 -) ~ ニューラルネット、パターン認識 記号(1960 -) 3 機械学習の視点 学習の目的? ~ 法則 vs スキル 教示の程度? ~ 概念(個々)/評価報酬(一連)/自発(無し) 先験的な知識の質・量? 学習エージェントに与えるデータ量? ノイズの有無? 計算機構? 時間・データ量制約? 誤った学習の際のダメージ? 4 機械学習の分類 帰納的学習(inductive learning) 教師または与えられた概念の例を基に一般化 ~ 概念学習 :-記号による学習,ニューラルネットワーク学習 演繹的学習(deductive learning) 既に持っている知識からの演繹による概念獲得 ~ スピードアップ学習 類推学習 (analogical learning) 既存の概念の中から関連・類似したものを修正 5 学習方式の比較 6 推論方式の比較(再) 7 機械学習の分類:その他 発見的学習 (learning by discovery) 数値例を含む多数データから概念・法則を導出 強化学習 学習エージェントが環境に行う行為への報酬により 行為の決定法を獲得 事例に基づく学習(IBL: Instance-Based Learning) 過去の具体的な経験則で現状に最も適したものを抽出, 問題解決を実施 概念形成 属性・属性値からなる例の系列より自動分類 8 機械学習研究の沿革 9 帰納的学習 与えられた例題・事例より、帰納推論を用いて 一般的な概念を獲得 - 例題からの学習: 学習させたい概念(目標概念)に属する正の例 題と、その概念に属さない負の例題を与え、 一般的な知識を生成 ・完全性条件 ・無矛盾性条件 v.s. 大量例題要、膨大な空間探索、正当性無保証 10 帰納的学習の具体例: 「アーチ」の概念 離れて立つ2つのブロックと、それに支えら れた1つのブロックから成るもの 11 バージョン空間法(T.M.Mitchel,1977) 知識表現を限定せずに、例題からの学習の 一般的枠組みを与えたもの 訓練例 12 バージョン空間法のアルゴリズム 1. 2. 3. バージョン空間Hを初期化: S:最初に入力された正の例題そのもの G:あらゆる例題を満足する記述 入力された例題xに対し、以下を実行 - xが正の例題の場合: xを満足しない記述をGから削除、Sがxを満足するよ うにS内の記述を最小限一般化 - xが負の例題の場合: xを満足する記述をGから削除、Sがxを排除するよう にS内の記述を最小限特殊化 SとGが一致するまで、2を反復実行 両者が一致した時点のHが目標概念の記述となる 13 バージョン空間法の具体例: 「鳥類」の学習 食性(肉食・草食)、発生形態(卵生・胎生)、 体温(恒温・変温) → 「ペンギン」(肉食,卵生,恒温) S={(肉食,卵生, 恒温)} G={*,*,*} ペンギン 14 バージョン空間法の具体例: 「鳥類」の学習 →「ライオン」(肉食,胎生,恒温):負の例 ライオン S={(肉食,卵生, 恒温)}:そのまま G={*,卵生,*} →「ブンチョウ」 (草食,卵生,恒温) →「トカゲ」 (肉食,卵生,変 温) ? 15 「オッカムの剃刀」原理 H(S)= -Σp(c)Log p(c) p(c): カテゴリcに分類されるデータの割合 ID3(J.R.Quinlan, 1979) エキスパートシステムの知識獲得部で利用 決定木(decision tree)の学習 1. 例題の集合を、予め定められた幾つかの属性 に対する属性値の集合としてクラスに分類して 入力 2. 分類結果が正例・負例いずれか一方のみしか 含まないように、ある評価基準に従って分類 3. それぞれのクラスを定義する記述を決定木の 形式で出力 ・評価基準:情報量の期待値~最も多くの情報量を 減少させる属性を優先して選択 16 ID3の具体例 「鳥類」の学習 正負のみならず,複数のクラスを 同時指定した取り扱いが可能 17 概念クラスタリング 観測された事実を含意し背景知識と整合す る仮説を生成 ~ 予め定義された概念記述用言語を用 いて観測の一般化された記述を作成 例)中古車情報を特徴付ける概念の生成 属性:年式,排気量,色,走行距離,車検残り月数,価格 18 演繹的学習 獲得済みの既存の知識を組み合わせ、演繹 推論により導くことにより、より利用効率の 高い知識を生成 ルーツ:STRIPS (Stanford Univ. 1971: ロボットの行動計画立案) 19 説明に基づく一般化(T.M.Mitchel,1986) 与えられる一つの事例が学習しようとする概念の 実例になっていることを論理的に説明し,予め与 えた概念定義に用いられている記述要素より優 れた記述要素によって概念を再定義する 入力: ・目標概念: 学習すべき概念の定義~機能的記述 ・訓練例: 目標概念を満たす単一の例題 ・領域理論: 問題領域で成立する背景知識 ・操作性規範: 学習の結果得られる記述が 満足すべき条件 学習過程: ・説明 (explanation) ・一般化 (generalization) 20 説明に基づく一般化の例(入力) 事物cup(obj-1)より一般的なcup(obj)の記述獲得 ・目標概念 cup(x) ← liftable(x), stable(x), open-vessel(x) ・訓練例 part-of(obj-1, handle-1), is(obj-1, light), is(obj-1, color, red) ・領域理論 is(x,light), part-of(x,y), isa(y,handle) → liftable(x) part-of(x,y), isa(y,bottom),is(y,flat) → stable(x) part-of(x,y), isa(y,concavity), is(y,upward-pointing) → open-vessel(x) ・操作性規範 概念定義は訓練例を構造的要素で記述すること ~ 例えばliftableでなくlight, handle,flatなどで記述 21 学習の遂行 ・is(obj,light), part-of(obj,hndl-1), isa(hndl-1,handle) → liftable(obj) ・part-of(obj,btm-1), isa(btm-1,bottom),is(btm-1,flat) → stable(obj) ・ part-of(obj,concavity), isa(cncv-1,concavity), isa(upw1,upward-pointing) → open-vessel(obj) 学習結果 ・is(obj,light), part-of(obj, hndl-1), isa(hndl-1,handle), part-of(obj, btm-1), isa(btm-1, bottom), is(btm-1,flat), part-of(obj, concavity), isa(cmcv-1, comcavity), isa(upw-1, upward-pointing) → cup(obj) 22 類推学習 問題解決の対象である状況において、知識 が不足しているなどの理由により直接推論 結果が得られない場合に、類似した他の 状況を利用し両者の類似性を見出すこと により(類推)、新たな結論を導出 23 類推学習の具体例(T.G.Evans, 1968) A→B C→? 24 知識獲得と学習 エキスパートシステムの知識ベース構成のため、 ・問題解決のための知識を専門家から抽出 ・推論に適した形式に変換 ・知識の修正・追加の際の整合性チェック、冗長性 除去 知識獲得ボトルネック 対話型知識獲得支援システム インタビューエキスパートシステム 25 知識獲得支援ツールと開発過程の関連 26 知識抽出ツール 知識が無い状態からの知識収集・獲得を支援 (未だ少数) - COLAB: 知的な電子白板として開発 少人数で行われる会議を 生産的、協調的にガイドするグループウェアツール - CONSIST: KJ法(ボトムアップな知識整理法)に“関係の階層”という 概念を導入し、適切な抽象度や視点の模索を支援 - EPSILON: 専門家の問題解決過程を整理し、利用者とのインタ ビューをサポート 27 強化学習 未知の環境におかれた知的エージェントが環境と の相互作用を通して,目標達成のための適切な 行動規則を学習 エージェントは環境の状態遷移確率 Pa(s,s') や 報酬の与えられ方 Ra(s,s') についての知識を予 め持たない エージェントは環境との試行錯誤的な相互作用 を繰り返して,最適な政策を学習する. 28 強化学習(Q学習)のアルゴリズム 29 最大のQ値を持つ行動が最適な戦略 Q学習 Q学習: 状態s, 行動a, 行動価値関数Q(s,a),行動の集合A Q(st,at)←(1-α)Qt(st,at)+α(r(st,at)+ γmax Qt(st+1,a)) a α: 学習率~[0.0, 1.0] γ:減衰率~[0.0,1.0] :現在の行動の将来への影響 r(s,a): 報酬関数 Q(s,a): 状態sで行動aを選択し,以降ずっと最適 戦略をとり続ける時の報酬の期待値 30 31 強化学習の例 ロボカップ(サッカー)におけるシュート行動の学習(阪大・浅 田ら) 32
© Copyright 2024 ExpyDoc