階層的強化学習を適用したPOMDPに よるカーナビゲーションシステムの 音声対話制御 神戸大学大学院 工学研究科 情報知能学専攻 CS17 有木研究室 091T517T 岸本康秀 研究背景・目的 カーナビの音声認識システムが普及していない 特定のコマンドを話さなければならない ○コンビニ検索 ×検索コンビニ 誤認識を避けられない ユーザの自由な発話に対しても頑健 誤認識からの回復が可能 www.***.com 従来の音声対話システム マルコフ決定過程(MDP)を用いた音声対話システム MDPの利点 確率モデルで表現することにより、方策を自動で学習 オートマトン的に手作業で設定を行う必要がない 明確な基準で評価を行うことが出来る 報酬の設定により定量的な評価を行える www.***.com MDPの欠点 状態を完全観測出来ると仮定している 音声対話においては、雑音環境下や発話誤りなどによって 観測誤りが起こりやすい ユーザの状態を確実に決定するのは難しい 誤認識からの回復が難しい s1 a1 FMを聞きたい s2 s3 www.***.com 部分観測マルコフ決定過程(POMDP) MDPのモデルを拡張し、状態観測に不確実性を付加 したモデル 状態を確率分布(信念)で推測する。 MDPでは一意的にユーザの状態を決定していた www.***.com ベイジアンネットワーク b’(s’) b(s) Bayesian Network s ? s old belief s s’ new belief action a o’ data b' (s' ) k P(o'| s' , a) P(s'| s, a)b(s) sS www.***.com ダイナミックベイジアンネットワーク r s o r' S’ am RL o' am RL www.***.com 学習 ある状態における信念×報酬で期待報酬が計算で きる tターン後に得られる利得 t Vt 1 b ( s)r ( s, a ) 1 s 上式を最大にするような方策を求める 方策は、将来獲得出来る報酬を最大にするアクショ ンaを信念分布bのみから選択できる www.***.com Value Iteration 動的計画法 全ての状態と行動の遷移を考慮 方策評価と方策改善を繰り返す S0 a0 S1 ・・・ ・・・ ・・・ ・・・・・・・ at ・・・・ S t 1 ・・・ ・・・ ・・・ www.***.com 状態 A,B 行動 a1 (-1,-1)、 a2 (+5,-10)、 a3 (-10,+5) value 10 5 a2 a1 a3 0 -5 -10 -15 s=A b=(1,0) b s=B b=(0,1) www.***.com value 10 5 a2 a1 a3 0 -5 -10 -15 -20 -25 s=A b=(1,0) s=B b=(0,1) www.***.com 問題点 大量のベクトルが列挙される 計算量が膨大になる 状態空間または行動空間が大きい場合には、計算 不可能 www.***.com Point-based Value Iteration 状態空間のいくつかの代表点でのみ最適な方策を 探索 任意の状態に対して、定数個の方策の中から最も良 いものを選ぶ www.***.com 10 5 0 -5 -10 -15 b1 b2 b3 www.***.com 階層的強化学習 状態空間が巨大で複雑な時、大域的な方策を一度 に求めるのは困難 状態数が多いと信念更新が煩雑になる タスクを階層的に分解し、各部分問題に対して、局所 的な方策を学習。 それらを統合することによって、大きなタスクの実現 が可能。 www.***.com 階層的強化学習 サブタスクを選択する層 ユーザのゴールを求めるサブタスクを実行する層 ルートはサブタスクをゴールに設定し、PBVIで最適化 を行う ルート 店舗検索 オーディオ エアコン www.***.com 対話例1 POMDP 従来システム navi:{ goal:<empty> } 初期状態 ホテル 学校 銀行 病院 コンビニ navi:{ goal:<empty> } U:銀行に行きたい。 [銀行]~0.4 ホテル 学校 銀行 病院 コンビニ S:すみません、 どこですか? U:銀行です。 [銀行]~0.42 navi:{ goal:<empty> } ホテル 学校 銀行 病院 コンビニ www.***.com 対話例2 POMDP 従来システム navi:{ goal:<empty> } 初期状態 ホテル 学校 銀行 病院 コンビニ navi:{ goal:<empty> } U:病院に行きたい。 [銀行]~0.4 ホテル 学校 銀行 病院 コンビニ S:すみません、 どこですか? U:病院です。 [病院]~0.9 navi:{ goal:<病院> } ホテル 学校 銀行 病院 コンビニ www.***.com 実験 POMDPの方策とユーザシミュレーションの対話を 1000回繰り返して平均利得、平均ターン数、正答率 を計算する。 手動で作ったHC1、HC2と比較 HC1:従来のカーナビを想定 HC2:ユーザの発話に毎回確認をとる コンセプト誤り率を変えて実験 www.***.com 報酬の設定 Corret answer Uncorrect answer ask -2 -2 confirm -0.5 -3 submit +7 -10 www.***.com 実験結果 15 Average return 10 5 POMDP HC1 HC2 0 -5 -10 0 0.2 0.4 Perr 0.6 0.8 www.***.com 実験結果2 10 average turn 8 6 POMDP HC1 HC2 4 2 0 0 0.2 0.4 Perr 0.6 0.8 www.***.com 実験結果3 correct answer rate(%) 100 90 80 70 POMDP HC1 HC2 60 50 40 30 0 0.2 0.4 Perr 0.6 0.8 www.***.com まとめ カーナビにPOMDPを適用 不確実性に対処 階層的強化学習を適用 従来よりも大きなタスクの実現が可能 シミュレーション実験により頑健性を確認 www.***.com Future Work 構音障害者のための環境制御装置 発話が曖昧 信頼度が低い シーンごとにタスクを階層化して最適化を行う ルート テレビ操作 チャンネル操作 オーディオ操作 メニュー操作 照明操作 番組表操作 www.***.com ご清聴ありがとうございました www.***.com 強化学習、利点 目標までの行動を人間が知らなくて良い。 タスク遂行のためのプログラミング強化学習で自動 化することにより、設計者の負担の軽減が期待でき る。 人間以上の行動を見つけ出す可能性がある。 Agent 観測値o アクションa 報酬r Environment (POMDP) www.***.com 強化学習 Bellman方程式 Vk*1 (b) max E r (b, a) Vk* (b' ) a Reward= r(b1,a1 ) + r(b2 , a2 ) + … + r(bT 1aT 1 ) + r(bT , aT ) s1 s2 b1 o1 a1 Policy (b1 ) a1 o2 sT-1 b2 a2 oT-1 (b2 ) a2 bT-1 sT aT-1 (bT 1 ) aT 1 oT bT aT (bT ) aT 強化学習 www.***.com 対話システムの構造 Control module Input module Au Speech recognition & Language understanding ~ Au Sm user (Su , Sd ) ~ Am Dialog model Language generation Am Dialog manager Output module www.***.com 問題点?? なぜタスク変更するか PBVIの収束条件 平均利得が収束していく 確認したい ユーザシミュレーション 1000回の対話 信頼度の付与 コンセプト誤りが生じた時は、0.6以下の ランダムの信頼度を付与 www.***.com
© Copyright 2024 ExpyDoc