113718 後藤 俊司 113727 辻本 亮 • 113718 後藤 俊司, プログラム • 113727 辻本 亮, R行列の生成, レポート • 選択されたスイッチを中心に十時型にスイッ チのON、OFFが切り替わる • 選択を繰り返し、すべてのスイッチをOFFに変 化させればゲームクリア 選択 変化 選択 変化 • スイッチの数を2×2か、3×3から選択する • スイッチがOFFの時は青、スイッチがONのときは 赤で表現する • 選択されたスイッチを中心にスイッチが切り替わ る • 全てのスイッチがOFFになるとゲームを終了する • 各スイッチの色により状態を決定する • 各スイッチにON,OFFがあるので状態数は2^9と なる • 全てのスイッチがOFFの状態を状態0、全てON の状態を状態511とする ・・・ 状態0 状態1 状態2 状態3 状態508 状態509 状態510 ・・・ 状態511 • • • • スイッチを選択する 選択されたスイッチにより状態が変化する この状態の変化を行動とする 各状態ごとに9個の行動を持つ 状態99の行動 状態99 状態104 状態99の全ての行動 • 各状態からの行動に報酬を定義する • 全てのスイッチがOFFの状態になる、9個の行 動の報酬を100とし、それ以外の行動の報酬 を0とする 状態0になる行動 • 設定した状態、行動、報酬を用いて学習を行 う • 少ない行動回数でゴール状態にたどり着ける 行動ほど、Q値が高くなる • どの初期状態からでもQ値の高い行動をた どっていけば最短の行動回数でゴール状態 にたどり着ける • スイッチの数を4×4に変更するとエラーが発 生した – 状態数が配列の指定できる長さの上限を超えて しまったため – 状態数の多いものに対して強化学習を用いる場 合には、状態の扱い方に工夫が必要
© Copyright 2024 ExpyDoc