研究テーマ: 状況・状態把握技術

第11回
学 習
1
機械学習


知識学習(Knowledge-level learning):
過去に与えられた情報に基づき,問題解決を実
現するために必要な知識を獲得
記号レベル学習(symbol-level learning),
スピードアップ学習(speed-up learning):
獲得した知識を,より効率よく利用できるように
洗練化
人工知能における最も挑戦的な分野
知識獲得ボトルネック(1980-)に触発
2
機械学習の諸概念

1.
2.

1.
2.
学習データの与え方
教師有り学習 ~ 例からの学習(概念学習)
教師無し学習 ~ 観察による学習
データの種類
数値(1950 -)
~ ニューラルネット、パターン認識
記号(1960 -)
3
機械学習の視点


学習の目的? ~ 法則 vs スキル
教示の程度?
~ 概念(個々)/評価報酬(一連)/自発(無し)




先験的な知識の質・量?
学習エージェントに与えるデータ量?
ノイズの有無?
計算機構? 時間・データ量制約?
誤った学習の際のダメージ?
4
機械学習の分類

帰納的学習(inductive learning)
教師または与えられた概念の例を基に一般化
~ 概念学習
:-記号による学習,ニューラルネットワーク学習


演繹的学習(deductive learning)
既に持っている知識からの演繹による概念獲得
~ スピードアップ学習
類推学習 (analogical learning)
既存の概念の中から関連・類似したものを修正
5
学習方式の比較
6
推論方式の比較(再)
7
機械学習の分類:その他

発見的学習 (learning by discovery)
数値例を含む多数データから概念・法則を導出

強化学習
学習エージェントが環境に行う行為への報酬により
行為の決定法を獲得

事例に基づく学習(IBL: Instance-Based Learning)
過去の具体的な経験則で現状に最も適したものを抽出,
問題解決を実施

概念形成
属性・属性値からなる例の系列より自動分類
8
機械学習研究の沿革
9
帰納的学習
与えられた例題・事例より、帰納推論を用いて
一般的な概念を獲得
- 例題からの学習:
学習させたい概念(目標概念)に属する正の例
題と、その概念に属さない負の例題を与え、
一般的な知識を生成
・完全性条件
・無矛盾性条件
v.s. 大量例題要、膨大な空間探索、正当性無保証
10
帰納的学習の具体例: 「アーチ」の概念
離れて立つ2つのブロックと、それに支えら
れた1つのブロックから成るもの
11
バージョン空間法(T.M.Mitchel,1977)
知識表現を限定せずに、例題からの学習の
一般的枠組みを与えたもの
訓練例
12
バージョン空間法のアルゴリズム
1.
2.
3.
バージョン空間Hを初期化:
S:最初に入力された正の例題そのもの
G:あらゆる例題を満足する記述
入力された例題xに対し、以下を実行
- xが正の例題の場合:
xを満足しない記述をGから削除、Sがxを満足するよ
うにS内の記述を最小限一般化
- xが負の例題の場合:
xを満足する記述をGから削除、Sがxを排除するよう
にS内の記述を最小限特殊化
SとGが一致するまで、2を反復実行
両者が一致した時点のHが目標概念の記述となる
13
バージョン空間法の具体例: 「鳥類」の学習
食性(肉食・草食)、発生形態(卵生・胎生)、
体温(恒温・変温)
→ 「ペンギン」(肉食,卵生,恒温)
S={(肉食,卵生,
恒温)}
G={*,*,*}
ペンギン
14
バージョン空間法の具体例: 「鳥類」の学習
→「ライオン」(肉食,胎生,恒温):負の例
ライオン S={(肉食,卵生,
恒温)}:そのまま
G={*,卵生,*}
→「ブンチョウ」
(草食,卵生,恒温)
→「トカゲ」
(肉食,卵生,変
温) ?
15
「オッカムの剃刀」原理
H(S)= -Σp(c)Log p(c)
p(c): カテゴリcに分類されるデータの割合
ID3(J.R.Quinlan, 1979)
エキスパートシステムの知識獲得部で利用
決定木(decision tree)の学習
1.
例題の集合を、予め定められた幾つかの属性
に対する属性値の集合としてクラスに分類して
入力
2.
分類結果が正例・負例いずれか一方のみしか
含まないように、ある評価基準に従って分類
3.
それぞれのクラスを定義する記述を決定木の
形式で出力
・評価基準:情報量の期待値~最も多くの情報量を
減少させる属性を優先して選択
16
ID3の具体例
「鳥類」の学習
正負のみならず,複数のクラスを
同時指定した取り扱いが可能
17
概念クラスタリング
観測された事実を含意し背景知識と整合す
る仮説を生成
~ 予め定義された概念記述用言語を用
いて観測の一般化された記述を作成
例)中古車情報を特徴付ける概念の生成
属性:年式,排気量,色,走行距離,車検残り月数,価格
18
演繹的学習
獲得済みの既存の知識を組み合わせ、演繹
推論により導くことにより、より利用効率の
高い知識を生成
ルーツ:STRIPS
(Stanford Univ. 1971:
ロボットの行動計画立案)
19
説明に基づく一般化(T.M.Mitchel,1986)
与えられる一つの事例が学習しようとする概念の
実例になっていることを論理的に説明し,予め与
えた概念定義に用いられている記述要素より優
れた記述要素によって概念を再定義する
入力:
・目標概念: 学習すべき概念の定義~機能的記述
・訓練例: 目標概念を満たす単一の例題
・領域理論: 問題領域で成立する背景知識
・操作性規範: 学習の結果得られる記述が
満足すべき条件
学習過程:
・説明 (explanation)
・一般化 (generalization)
20
説明に基づく一般化の例(入力)
事物cup(obj-1)より一般的なcup(obj)の記述獲得
・目標概念
cup(x) ← liftable(x), stable(x), open-vessel(x)
・訓練例
part-of(obj-1, handle-1), is(obj-1, light), is(obj-1, color, red)
・領域理論
is(x,light), part-of(x,y), isa(y,handle) → liftable(x)
part-of(x,y), isa(y,bottom),is(y,flat) → stable(x)
part-of(x,y), isa(y,concavity), is(y,upward-pointing) →
open-vessel(x)
・操作性規範
概念定義は訓練例を構造的要素で記述すること
~ 例えばliftableでなくlight, handle,flatなどで記述 21
学習の遂行
・is(obj,light), part-of(obj,hndl-1), isa(hndl-1,handle) →
liftable(obj)
・part-of(obj,btm-1), isa(btm-1,bottom),is(btm-1,flat) →
stable(obj)
・ part-of(obj,concavity), isa(cncv-1,concavity), isa(upw1,upward-pointing) → open-vessel(obj)
学習結果
・is(obj,light), part-of(obj, hndl-1), isa(hndl-1,handle),
part-of(obj, btm-1), isa(btm-1, bottom), is(btm-1,flat),
part-of(obj, concavity), isa(cmcv-1, comcavity),
isa(upw-1, upward-pointing)
→ cup(obj)
22
類推学習
問題解決の対象である状況において、知識
が不足しているなどの理由により直接推論
結果が得られない場合に、類似した他の
状況を利用し両者の類似性を見出すこと
により(類推)、新たな結論を導出
23
類推学習の具体例(T.G.Evans, 1968)
A→B
C→?
24
知識獲得と学習
エキスパートシステムの知識ベース構成のため、
・問題解決のための知識を専門家から抽出
・推論に適した形式に変換
・知識の修正・追加の際の整合性チェック、冗長性
除去
知識獲得ボトルネック
対話型知識獲得支援システム
インタビューエキスパートシステム
25
知識獲得支援ツールと開発過程の関連
26
知識抽出ツール
知識が無い状態からの知識収集・獲得を支援
(未だ少数)
- COLAB:
知的な電子白板として開発 少人数で行われる会議を
生産的、協調的にガイドするグループウェアツール
- CONSIST:
KJ法(ボトムアップな知識整理法)に“関係の階層”という
概念を導入し、適切な抽象度や視点の模索を支援
- EPSILON:
専門家の問題解決過程を整理し、利用者とのインタ
ビューをサポート
27
強化学習
未知の環境におかれた知的エージェントが環境と
の相互作用を通して,目標達成のための適切な
行動規則を学習


エージェントは環境の状態遷移確率 Pa(s,s') や
報酬の与えられ方 Ra(s,s') についての知識を予
め持たない
エージェントは環境との試行錯誤的な相互作用
を繰り返して,最適な政策を学習する.
28
強化学習(Q学習)のアルゴリズム
29
最大のQ値を持つ行動が最適な戦略
Q学習
Q学習:
状態s, 行動a, 行動価値関数Q(s,a),行動の集合A
Q(st,at)←(1-α)Qt(st,at)+α(r(st,at)+
γmax Qt(st+1,a))
a
α: 学習率~[0.0, 1.0]
γ:減衰率~[0.0,1.0]
:現在の行動の将来への影響
r(s,a): 報酬関数
Q(s,a): 状態sで行動aを選択し,以降ずっと最適
戦略をとり続ける時の報酬の期待値
30
31
強化学習の例
ロボカップ(サッカー)におけるシュート行動の学習(阪大・浅
田ら)
32