Sample Presentation

113718 後藤 俊司
113727 辻本 亮
• 113718 後藤 俊司, プログラム
• 113727 辻本 亮, R行列の生成, レポート
• 選択されたスイッチを中心に十時型にスイッ
チのON、OFFが切り替わる
• 選択を繰り返し、すべてのスイッチをOFFに変
化させればゲームクリア
選択
変化
選択
変化
• スイッチの数を2×2か、3×3から選択する
• スイッチがOFFの時は青、スイッチがONのときは
赤で表現する
• 選択されたスイッチを中心にスイッチが切り替わ
る
• 全てのスイッチがOFFになるとゲームを終了する
• 各スイッチの色により状態を決定する
• 各スイッチにON,OFFがあるので状態数は2^9と
なる
• 全てのスイッチがOFFの状態を状態0、全てON
の状態を状態511とする
・・・
状態0
状態1
状態2
状態3
状態508
状態509
状態510
・・・
状態511
•
•
•
•
スイッチを選択する
選択されたスイッチにより状態が変化する
この状態の変化を行動とする
各状態ごとに9個の行動を持つ
状態99の行動
状態99
状態104
状態99の全ての行動
• 各状態からの行動に報酬を定義する
• 全てのスイッチがOFFの状態になる、9個の行
動の報酬を100とし、それ以外の行動の報酬
を0とする
状態0になる行動
• 設定した状態、行動、報酬を用いて学習を行
う
• 少ない行動回数でゴール状態にたどり着ける
行動ほど、Q値が高くなる
• どの初期状態からでもQ値の高い行動をた
どっていけば最短の行動回数でゴール状態
にたどり着ける
• スイッチの数を4×4に変更するとエラーが発
生した
– 状態数が配列の指定できる長さの上限を超えて
しまったため
– 状態数の多いものに対して強化学習を用いる場
合には、状態の扱い方に工夫が必要