階層的強化学習を適用したPOMDPによる音声対話制御 岸本 康秀,滝口 哲也,有木 康雄(神戸大) 階層型強化学習を適用したPOMDP 研究背景・目的 レストラン検索システム 音声対話システムの様々な状況での理由 カーナビゲーションシステム、コールセンター、ロボット 雑音や言い誤りによる誤認識、誤動作が問題 M 不確実性に頑健な音声対話システム 1 0 M 音声対話システムの対話管理部にPOMDPを適用 状態を完全観測出来ないと仮定 確率分布によってユーザの状態を推測する →不確実性に対処することが出来る s s' o M o' 信念更新式 強化学習 S:3km以内でいいですか? U:はい [はい] ~信頼度:0.9 RL a' RL b' (s' ) k p(o'| s' , a) p(s' | s, a)b(s) sS •状態価値関数 o' n arg maxn b(s)Vt (s) (b) a 実験条件 •階層型POMDPの状態数[4,6,6,6]、行動数[6,13,13,13] •従来のPOMDPの状態数216、行動数39 •学習手法はPBVIを使用 全ての到達しうる状態に対して最適な方策を構築する代わりに、 状態空間のいくつかの代表点でのみ最適な方策を探索する •ユーザシミュレーションを用いて、コンセプト誤り率を変えて利得を計算 •従来型のPOMDPと学習が収束するまでの計算コストを比較する n n t s 問題点 状態数が増えることで計算コストが指数的に増大 拡張性に問題 階層的強化学習 タスクを各部分問題に分解して局所的な方策を学習して統合 r M r M 1 0 s o r' o' s' o o' a s' o' a' a' r s' o' a' M a' s 1 1 o r' s' a o' r' s' a' o' 結果とまとめ •計算時間 従来型:1249.8秒 階層型:0.9秒 •探索空間(状態数×行動数)を97%削減、計算を効率化 •学習にかかる計算コストを大幅に削減できた •拡張性に優れたシステムの実現が可能 r' r' s' a 0 0 r' s a' 30 s M 2 0 o r' s' a o' r r' s s' a' o' o a' M r' s' a o' 2 1 r r' s s' a' o' r' a' M 2 2 o s' o' a r r' s s' a' o' o a' M 2 3 r' s' a o' s' o' a' V (s) r (s, a ) P (s'| s, a ) P (o'| s' , a )V l m l m l m s' l m, 1 o' 最適方策 l m 25 25 20 20 15 15 10 10 ( s' ) 5 5 0 0 -5 0 (b ) a l* m n t n arg maxn b (s)V (s) l m s メリット 拡張性に優れている 再利用性、タスクの変更が容易 信念更新の計算が容易になる l ,n m ,t 従来型POMDP 30 0 a' 状態価値関数 l m, 階層型POMDP r' Average return r M 1 2 実験 •最適方策 * M 1 1 S:条件に合う店を検索します V (s) r (s, a ) P(s'| s, a ) P(o'| s' , a )V 1 (s' ) s' M 1 0 S:他に条件はありますか? U:予算は5000円以内 [5000円以内] ~信頼度:0.9 S:他に条件はありますか? U:ここから3km以内の店がいい [3km以内] ~信頼度:0.4 a 0 0 店までの 距離 S:どんなレストランを希望ですか? U:洋食を食べたいな [洋食] ~信頼度:0.85 r' s M 1 2 初期状態 b’(s’) s 1 1 価格 対話例 r ルート ジャンル POMDP b(s) M 00 50 100 150 0.1 0.2 0.3 0.4 200 -5 0 -10 -10 -15 -15 Number of belief points 500 1000 1500 0.5 0.6 Number of belief points 状態数 行動数 探索空間(状態数×行動数) 従来型のPOMDP 216 39 8424 階層型POMDP [4,6,6,6] [6,13,13,13] 258
© Copyright 2024 ExpyDoc