ドラミング、共演 琴坂信哉 QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB 中枢パターン生成機構が中枢神経系に存在し多くのリズム運動を作り出している。リミッ トサイクル振動子は外界からの周期的音響入力に同調する。 http://www.erato.atr.co.jp/DB/ パドリング Stefan Schaal QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB ボールと腕の運動が規定する物理学的ダイナミクスが安定なリミットサイク ル解を持つことを利用してパドリングを行った。 http://www.erato.atr.co.jp/DB/ 日本の脳研究 • 脳を守る • 脳を知る • 脳を創る ビデオカメラによる運動認知 Alesˇ Ude QuickTimeý Dz Cinepak êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB ビデオに基づく人の動きの取り込み:ヒトの運動データをヒューマノイドロボットの動きに 変換するためのキネマティックモデルを自動生成する。遮蔽がある場合にも2次元画面 内で実時間で確率的にブロッブを追跡するアルゴリズムも示す。 http://www.isd.atr.co.jp/cyh/index.html センスーツTMデモ(ロックンロール) Stefan Schaal QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB センスーツを用いて、ヒトの関節の動き46自由度を同時に計測できる。これを DBの動きに変換するのは簡単な問題ではない。 http://www.erato.atr.co.jp/DB/ キャッチボール Marcia Riley QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB ボールの自由落下軌道を視覚に基づいて予測する。 腕の軌道は予測した把持位置まで前向きに計画され、制御される。 http://www.erato.atr.co.jp/DB/ 脳を創ることによって知る • ロボットやコンピュータは人にくらべ てずっと劣る • 本当には脳が分かっていない • 創ってみて初めて働きが分かる • 脳だけを創っても不十分で、ヒトを 創ってみる • アトム計画 計算論的神経科学 脳の機能を、その機能を脳と同じ 脳の機能を 方法で実現できる計算機のプログ 計算機のプログ ラムあるいは人工的な機械で実現 ラムあるいは人工的な機械を作れる する 理解する 程度に、深く本質的に理解する ことを目指すアプローチを計算論 的神経科学と呼ぶ。 人工知能・ロボティクス 神経科学 ヒューマノイドDB (Dynamic Brain) • • • • • 30 自由度 身長190 cm 体重80 kg 柔らかい 生物に学んだ眼 球運動・視覚系 • SRCとKDBの共同 開発 QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB スティッキーハンド Joshua Hale QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB 運動軌道計画と軌道予測・力制御に基づいてヒトとロボットの物理 的相互作用を行った。 http://www.isd.atr.co.jp/cyh/index.html ジャグリング Christopher Atkeson QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB Chris Atkesonは上手なジャグラーです。 彼の3つ玉ジャグリングをDBにまねさせました。 http://www.isd.atr.co.jp/cyh/index.html 生物に学んだ眼球運動・視覚系 • それぞれの眼球 に2自由度 • 人工前庭器官: ジャイロセン サー • 中心かと周辺視 は2台のカメラ QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB 神経科学とロボティックス • 小脳内部モデルの教師 あり学習 • 視覚運動変換、棒立て、 見まね学習 • 大脳皮質確率的内部モ デルの教師なし学習 • 眼球運動の学習、視覚 追跡ターゲットの内部 モデル • エアホッケーの見まね 学習、起きあがりロ ボットの強化学習 • 大脳基底核の強化学習 沖縄舞踊(カチャーシ) Marcia Riley, Alesˇ Ude, Christopher Atkeson, Stefan Schaal QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB オプトトラックで踊り手の動きを計測し、それに基づいてB-スプライン ウェイブレットでヒューマノイドロボットの関節の軌道を計画した。 http://www.isd.atr.co.jp/cyh/index.html 見まねによるテニス Stefan Schaal QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB http://www.his.atr.co.jp/cyh/ 古い考え方と新しい考え方 • 大脳がヒトの知性の 源 • 小脳は運動の制御だ け • 言葉がヒトの知性の 特徴 • 小脳と大脳はすべて の機能に関わる • 小脳と大脳の違いは 学習の方法の違い (先生有りと無し) • 言葉に頼らないコ ミュニケーションが ヒト知性の秘密 小脳と大脳 外側面 内側面 小脳 底面 重 さ 表面積 ニューロン数 霊長類から の拡大率 130g 大脳 1対10 1,300g 50,000mm2 1対2 80,000mm2 1011 2.8 > 1011 〜 3.2 小脳とヒト知性 ◎小脳部位の系統発生 内側核0.8倍、歯状核4.5倍(キツネザル類比) 小脳皮質 体重 歯状核 背内側部 65kg 1,167mm3 ヒト 歯状核 腹外側部 歯状核 体積 幅・高さ 長さ チンパ ンジー 45kg 456mm3 同じ 2倍 同じ 半分 ◎小脳のサイズと知能 Paradiso (1997) 指タッピング r=0.22 p<0.05 言語記憶 r=0.27 p<0.02 一般的IQ (WAIS-R) r=0.19 p<0.07 大脳皮質左側頭葉は無相関 小脳の高次認知機能への関与 I. 脳活動計測 (1) (2) (3) (4) (5) (6) (7) 運動の想像 名詞からの動詞の連想 ペグボードパズル 複数の形の視覚識別 心的回転 皮膚感覚による物体認識 視覚的注意 SPECT PET fMRI PET PET fMRI fMRI Ryding et al. (1993) Raichle et al. (1994) Kim et al. (1994) Parsons et al. (1995) Parsons et al. (1995) Gao et al. (Bower) (1996) Allen et al. (1997) II. 損傷脳 (1) ハノイの塔 (2) 視覚運動認知 (3) 自閉症患者 小脳皮質変性症 Grafman et al. (Hallet M.) (1992) 小脳皮質変性症 Nawrot & Rizzo (1995) 小脳サイズ Courchesne et al. (1995) III. 解剖 (1) 46野 (2) IQ HSVI 小脳サイズ Middleton & Strick (1994) Paradiso et al. (1997) 大脳小脳連関 小脳皮質 小脳核 橋核 視床 大脳皮質 橋核 小脳 背側 46野 9野外側部 内側 中位核 歯状核 歯状核背側 大脳皮質 大脳皮質 歯状核外側 視床 VPLo X 1次運動野 腹側運動前野 歯状核腹側 MD/VL 前頭前野 小脳各部への主要な入力と出力 機能部位 解剖学的 部位 主入力 出力核 出力最終目標 機能 前庭小脳 片葉 前庭器官 前庭核 動眼運動 ニューロン 前庭動眼反射 脊髄小脳 虫部 脊髄 視聴覚 前庭 室頂核 脳幹 運動野 体幹運動制御 脊髄小脳 中間部 脊髄 中位核 大細胞性赤核 運動野 末梢部運動制御 大脳小脳 外側部 大脳 歯状核 小細胞性赤核 運動野 運動前野 運動開始 計画 タイミング 小脳皮質の神経回路・可塑性・理論 Marr-Albus-Ito理論 (〜1970) 星状細胞 ・登上線維が教師(誤差信号) 平行線維 バスケット 細胞 プルキンエ 細胞 ・平行線維-プルキンエ細胞の シナプス効率が可塑性により変化 苔状線維 平行線維 ゴルジ 細胞 プルキンエ 細胞 グロメルルス 登上線維 プルキンエ 細胞軸策 プルキンエ細胞 顆粒細胞 顆粒細胞 登上線維 下オリーブ核 ニューロン 長期抑圧・長期増強・RP (1982〜) 苔状線維 小脳内部モデル理論 (1984〜) ・小脳皮質は内部モデルを獲得 ・登上線維は運動指令誤差 A フィードバック制御 剛性、粘性 運動指令 目標軌道 ゲイン 制御対象 実現された軌道 時間遅れ 実現された軌道 B 逆モデルによる前向き制御 目標軌道 運動指令 逆モデル 実現された軌道 制御対象 PFMによるヒト腕剛性の測定 DZÇÃÉsÉNÉ`ÉÉǾå©ÇÈǞǽDžÇÕÅA ÅgQuickTimeýÅhã@î\ägí£Ç²ÅA ÅgÉVÉlÉpÉbÉNÅhêLí£ÉvÉçÉOÉâÉÄÇ™ïKóvÇÇ• ÅB A フィードバック制御 剛性、粘性 運動指令 目標軌道 ゲイン 制御対象 実現された軌道 時間遅れ 実現された軌道 B 逆モデルによる前向き制御 目標軌道 運動指令 逆モデル 実現された軌道 制御対象 A 目標軌道 運動指令 逆モデル C B 2 2 2 1 1 2 Ý1 Ý2 ÝÝ1 ÝÝ2 実現された軌道 1 (M2 L1 2M2 L1S2 cos 2 I 1 I 2 )ÝÝ1 (M2 L1S2cos 2 I2 )ÝÝ2 M2 L1S2 (2Ý1 Ý2 )Ý2sin 2 B1Ý1 2 (M2 L1S2 cos 2 I 2 )ÝÝ1 I2ÝÝ2 2 M 2 L1S2Ý1 sin 2 B2Ý2 2 逆ダイナミクスモデル 1 1 制御対象 順ダイナミクスモデル 1 2 1 2 Ý1 Ý2 1 2 1 2 Ý1 Ý2 視覚ー運動学習 Stefan Schaal QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB 計算論的神経回路モデルの学習で視覚運動変換を実現した。 http://www.erato.atr.co.jp/DB/ 見まねによる棒立て:道具の内部モデル Stefan Schaal QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB http://www.erato.atr.co.jp/DB/ 小脳フィードバック誤差学習 (1) (2) (3) (4) 単純スパイクはフィードフォワード運動指令を表わす 平行線維入力は目標軌道を表わす 小脳皮質は逆モデルを構成する 複雑スパイクは運動指令の空間での誤差を表わす 平行線維 顆粒細胞 苔状線維 単純スパイク 小脳皮質 プルキンエ細胞 逆モデル 運動指令 誤差 目標軌道 +- 軌道誤差 フィード バック 制御器 + フィード バック 運動指令 フィード フィード フォワード フォワード 運動指令 運動指令 複雑スパイク 登上線維 + 運動指令 制御対象 実際の 軌道 運動指令に関しての教師あり学習との比較 フィードバック誤差学習則 d dt ( ff )T fb (1) 教師あり学習 運動指令の教師信号が desired と与えられていて、2乗誤差 E 1 ( desired ff )T ( desired ff ) を 2 の最急降下方向に 減少させる(Widrow-Hoff 則) d dt ( ff )T ( desired ff) (2) fb が ( desired ff を近似している。つまり、フィードバック ) 運動指令が、逆モデルを学習するための運動指令の誤差信号と して働いている fb と desired が同じ座標系で表現されている 2つの信号の時間経過はある程度似ている フィードバック誤差学習としてみたLTD, LTP プルキンエ細胞の入出力モデル n xi プルキンエ細胞の出力 yは 本の平行線維入力 のシナプス荷重 による線形和 (1) y i xi i n LTDとLTPのモデル di dt xi (C Cspont) (2) フィードバック誤差学習による解釈 登上線維の発火頻度の自発放電からの C Cspont がフィードバック制御器 の運動指令に対応 di dt ( ff i ) fb ( (y) i ) fb xi (C Cs pont) (3) 複雑スパイクと単純スパイクの 近似的鏡像の相関 SS t wi t xi t (1) n dwi t dt xi t {CS t CSspont} wi t (2) wi t ~ xi t {CS t CSspont} (3) SS t xi t {CS t CSspont}xi t n ~ {CS t CSspont} 予測 フィードバック(学習後) : フィードバック(学習前) : フィードフォワード(時間遅れ、学習後) : フィードフォワード(時間遅れなし、学習後) : (4) 鏡像 相関なし 複雑スパイク 運動開始時 複雑スパイク 消失 追従眼球運動の神経生理学的研究 (電総研 河野、設楽、竹村、小林らによる実験) 背外側橋核 MST野 広い視野の動きにつられて 眼球が動く反射運動 小脳VPFL 追従眼球運動と単純・複雑スパイク 眼球運動速度 下方向80度/秒 上方向80度/秒 単純スパイク 50度/秒 時間(ミリ秒) 複雑スパイク 時間(ミリ秒) VPFL発火頻度 [spike/msec] 視覚刺激速度 stim. vel. [deg/sec] 同じ条件(1つのP-cell, 一定の視覚刺激速度) のデータをアンサンブル平均した結果 0 -20 -40 0.30 0.20 0.10 眼球位置 eye vel. [deg/sec] 眼球速度 eye pos.[deg] 眼球加速度 eye acc. [deg/sec ] 2 0.00 0 -2500 0 -20 -40 0 -4 200 250 300 350 time [msec] 400 450 プルキンエ細胞発火頻度の逆ダイナミクスモデル 5種類の刺激速度、6種類の刺激時間のデータから1組の係数を推定 stim vel.[deg/sec] Ý Ý Ý(t )K (t ) fbias f (t) M (t ) B 100 0 -100 spike/msec 0.4 500 1000 0.3 1500 2000 2500 3000 2500 3000 time [msec] 0.2 0.1 0.0 500 1000 1500 2000 time [msec] Coeff.det 0.78 MST 野 VPFLプルキンエ細胞 垂直細胞 水平細胞 背外側橋核 U U U C C I C I D D 単純ス パイ ク U I C 0.1 I 0.05 D D 発 0 0 火 確 率 小脳皮質 顆粒 プルキン エ 細胞 細胞 大脳皮質 MT MS T 上側頭溝壁 苔 状 線 維 0 視覚領野 + - 網膜 200 複雑ス パイ ク 副視索系 PT N OT 運動指令誤差 下オリ ーブ 核 + 0 100 200 時間 (ミリ秒) - 脳幹 + 0 発 火 頻 度 5 平行線維 登上線維 視覚 刺激 100 0.01 橋核 外側膝状体 50 外眼筋運動 ニューロン 眼球 運動 0 ス パ イ ク 数 / 秒 A C 単純スパイク a 0.1 50 0.05 0 発 火 確 率 0 0 100 複雑スパイク 5 0.01 背外側橋核 MST野 小脳皮質 B 顆粒 細胞 b 垂直細胞 水平細胞 VPFLプルキンエ細胞 0 プルキンエ 細胞 0 大脳皮質 MT MST 視覚領野 外側膝状体 平行線維 登上線維 視覚 刺激 運動指令誤差 + - 網膜 副視索系 PT NOT 200 ス パ 0 イ ク 数 秒 橋核 上側頭溝壁 100 時間(ミリ秒) 苔 状 線 維 発 火 頻 度 200 下オリーブ核 + - 脳幹 + 外眼筋運動 ニューロン 眼球運動 大脳皮質高次視覚野MST 視覚 刺激 網膜像 の動き v t + - rt p 10000 p 2 300 p 10000 p2 36000 p 2 120 p 90000 小脳皮質 E1 I1 E2 I 2 E3 I 3 V1 A1 V2 A2 V3 A3 単純スパイク SLV t e 0.039 p 登上線維の発火(複雑スパイク) p 一般化線形 モデル 2次 フィルター 16000 眼球運動 e 0.012 p t 脳幹を介する経路 平行線維 -0.120 0.120 -0.120 0.120 -0.120 0.120 -0.120 0.120 -0.170 0.006 -0.163 0.021 -0.145 0.063 -0.120 0.120 0.120 -0.120 0.120 -0.120 0.120 -0.120 0.120 -0.120 0.120 -0.120 0.188 -0.120 0.238 -0.120 0.256 -0.120 プルキンエ細胞 登上線維 平行線維 プルキンエ細胞 登上線維 大脳皮質 ポピュレーション符号化 確率的内部モデル 皮質ダイナミクス 確率分布 多重ピーク 教師なし学習 小脳皮質 発火率符号化 決定論的内部モデル 入出力変換 確率分布のモーメント 競合するモジュール 教師あり学習 眼球運動のプリミティブ • サッカード • 前庭動眼反射 (VOR) • 円滑性追跡眼球運動 • 追従眼球運動 (OFR) 円滑性追跡眼球運動 QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB 5ヶ月の乳児では 円滑性追跡眼球運動はない QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB 協力:本田佳野乃、大須理英子 5ヶ月の乳児では 追従眼球運動もない QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB 協力:本田佳野乃、大須理英子 大脳皮質内部モデルと 小脳内部モデルの違い • 眼球運動に関する小脳内部モデル • 前庭動眼反射適応の論争 • 大脳皮質の内部モデル:確率分布の時 間ダイナミクス • 分散非線形カルマンフィルターとして の大脳小脳連関 小脳内部モデルが大脳ポピュ レーション符号を解読する • フィードバック誤差学習によって、小脳 がポピュレーション符号から発火率符号 への復号器を学習で獲得する • この復号器においてニューロンの最適刺 激方向、速度選択性、発火頻度時間波形 の特性が変換される • 復号器の特性は制御対象の特性に応じて 適応的に決まる 円滑性追跡眼球運動の視標消滅 眼球速度 視標消滅 眼球位置 視標位置 眼球運動 眼球位置 視標位置 円滑性追跡眼球運動の視標消滅 VS 追従眼球運動視覚刺激消滅 追従眼球運動 視覚刺激消滅 円滑性追跡眼球運動 追従眼球運動 MST野, 背外側橋核, 小脳皮質腹側傍片葉 随意 反射 小さな指標 大きな刺激 視標消滅: MST野と眼球運動 500ms間維持 視覚刺激消滅: MST野と眼球運動 速やかに消滅 ・ MT野: 円滑性追跡眼球運動の 視標消滅 MSTd:円滑性追跡眼球運動の 視標消滅 Newsome et al., (1988) MST野: 円滑性追跡眼球運動の 視標消滅、潜時 Kawano et al., (1994) 背外側橋核: 追従眼球運動の 視覚刺激消滅 Kawano et al., (1992) VOR適応の座に関する小脳論争は 円滑性追跡眼球運動維持の場所で決まる • 前庭動眼反射適応は主に小脳皮質のプルキンエ細胞の LTDによるものか? • Yes:片葉仮説(伊藤) • No: 視線速度理論 (Miles & Lisberger); 脳幹が中心 (Lisberger & Sejnowski) • 『否』仮説では 脳幹ー小脳皮質のゲイン1のポジティブ フィードバック回路が円滑性追跡眼球運動維持 • 『是』仮説では MST野で視標予測 A * FL 登上線維 VN 前庭入力 B 前庭入力 * * 眼球運動 FL VPFL 眼球運動 VN C 視覚入力 MST * 前庭入力 FL VPFL VN * 登上線維 眼球運動 円滑性追跡眼球運動と追従眼球運動の制御モデル カルマンフィルターモデル 軌道入力 予測誤差 網膜の滑り ポピュレーション符号 とMST神経場 カルマンゲイン 内部モデル - It 軌道入力 中心窩 Kt + 遷移確率 Ft Pˆt (r, V) 生成行列 MST 中心窩外 e 小脳内部モデル による変換 Ht f + 小脳皮質 運動指令生成 - 中心窩外 + 推定確率 + 視標の動き + カルマンゲイン 50ms e シナプス荷重 プルキンエ細胞 脳幹 推定入力 眼球運動 サッカード Sethu Vijayakumar QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB http://www.erato.atr.co.jp/DB/ 前庭動眼反射適応 柴田智広 QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB 神経生理学、解剖学の知識に基づいて前庭動眼反 射の神経回路モデルをDBに組み込んだ。 http://www.erato.atr.co.jp/DB/ 円滑性追跡眼球運動 柴田智広 QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB 円滑性追跡眼球運動をゲイン1で行うためには視覚入力速度が0 の時にも視標の動きを身体座標で予測する必要がある。クイック マグと確率的トラッキングを用いてこれを実現した。 http://www.erato.atr.co.jp/DB/ 眼球運動プリミティブの統合 柴田智広 QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB ヒト強化学習は大脳基底核で 行われている • • • • 新しいマルコフ遷移確率強化学習課題 学習と報酬に関する情報理論的変数 尾状核(比較的前方部)が本質 春野、黒田、銅谷、外山、木村、鮫島、 今水、川人 「強化学習」 reinforcement learning • 「報酬」を最大化するような行動を,探索により学習 – 環境に応じて異なる最適行動を獲得 – 目標出力がわからない問題に適用可 – 人間や動物の行動学習のモデル • 応用例 – ゲームプログラム:バックギャモン,オセロ,.. – ロボット制御:移動ロボット,サッカー,... – 動的資源配分:携帯電話チャネル割り当て,.. Basal Ganglia •Frontal section Side view Reward Prediction by Dopamine Neurons (Schultz et al. 1993) unexpected reward reward predicting stimuli lack of reward エアホッケー Darrin Bentivegna QuickTimeý Dz ÉVÉlÉpÉbÉN êLí£ÉvÉçÉOÉâÉÄ Ç™Ç±ÇÃÉsÉNÉ`ÉÉǾå©ÇÈÇ…ÇÕïKóvÇÇ• ÅB 行動プリミティブの記述に基づいて対戦型 ゲームのヒトのやり方を観察して学習する。 http://www.his.atr.co.jp/cyh/
© Copyright 2025 ExpyDoc