発話意図を考慮した部分観測マルコフ 決定過程を用い

階層的強化学習を適用したPOMDPに
よるカーナビゲーションシステムの
音声対話制御
神戸大学大学院 工学研究科
情報知能学専攻
CS17 有木研究室
091T517T 岸本康秀
研究背景・目的
カーナビの音声認識システムが普及していない
 特定のコマンドを話さなければならない
○コンビニ検索 ×検索コンビニ
 誤認識を避けられない
ユーザの自由な発話に対しても頑健
誤認識からの回復が可能
www.***.com
従来の音声対話システム
マルコフ決定過程(MDP)を用いた音声対話システム
MDPの利点
 確率モデルで表現することにより、方策を自動で学習
オートマトン的に手作業で設定を行う必要がない
 明確な基準で評価を行うことが出来る
報酬の設定により定量的な評価を行える
www.***.com
MDPの欠点
状態を完全観測出来ると仮定している
 音声対話においては、雑音環境下や発話誤りなどによって
観測誤りが起こりやすい
 ユーザの状態を確実に決定するのは難しい
誤認識からの回復が難しい
s1
a1
FMを聞きたい
s2
s3
www.***.com
部分観測マルコフ決定過程(POMDP)
MDPのモデルを拡張し、状態観測に不確実性を付加
したモデル
状態を確率分布(信念)で推測する。
 MDPでは一意的にユーザの状態を決定していた
www.***.com
ベイジアンネットワーク
b’(s’)
b(s)
Bayesian Network
s
?
s
old belief
s
s’
new belief
action
a
o’
data
b' (s' )  k  P(o'| s' , a) P(s'| s, a)b(s)
sS
www.***.com
ダイナミックベイジアンネットワーク
r
s
o
r'
S’
am
RL
o'
am
RL
www.***.com
学習
ある状態における信念×報酬で期待報酬が計算で
きる
tターン後に得られる利得
t
Vt     1  b ( s)r ( s, a )
 1
s
上式を最大にするような方策を求める
方策は、将来獲得出来る報酬を最大にするアクショ
ンaを信念分布bのみから選択できる
www.***.com
Value Iteration
動的計画法
全ての状態と行動の遷移を考慮
方策評価と方策改善を繰り返す
S0
a0
S1
・・・
・・・
・・・
・・・・・・・
at
・・・・
S t 1
・・・
・・・
・・・
www.***.com
状態 A,B
行動 a1 (-1,-1)、 a2 (+5,-10)、 a3 (-10,+5)
value
10
5
a2
a1
a3
0
-5
-10
-15
s=A
b=(1,0)
b
s=B
b=(0,1)
www.***.com
value
10
5
a2
a1
a3
0
-5
-10
-15
-20
-25
s=A
b=(1,0)
s=B
b=(0,1)
www.***.com
問題点
大量のベクトルが列挙される
計算量が膨大になる
状態空間または行動空間が大きい場合には、計算
不可能
www.***.com
Point-based Value Iteration
状態空間のいくつかの代表点でのみ最適な方策を
探索
任意の状態に対して、定数個の方策の中から最も良
いものを選ぶ
www.***.com
10
5
0
-5
-10
-15
b1
b2
b3
www.***.com
階層的強化学習
状態空間が巨大で複雑な時、大域的な方策を一度
に求めるのは困難
状態数が多いと信念更新が煩雑になる
タスクを階層的に分解し、各部分問題に対して、局所
的な方策を学習。
それらを統合することによって、大きなタスクの実現
が可能。
www.***.com
階層的強化学習
サブタスクを選択する層
ユーザのゴールを求めるサブタスクを実行する層
ルートはサブタスクをゴールに設定し、PBVIで最適化
を行う
ルート
店舗検索
オーディオ
エアコン
www.***.com
対話例1
POMDP
従来システム
navi:{
goal:<empty>
}
初期状態
ホテル 学校 銀行 病院 コンビニ
navi:{
goal:<empty>
}
U:銀行に行きたい。
[銀行]~0.4
ホテル 学校 銀行 病院 コンビニ
S:すみません、
どこですか?
U:銀行です。
[銀行]~0.42
navi:{
goal:<empty>
}
ホテル 学校 銀行 病院 コンビニ
www.***.com
対話例2
POMDP
従来システム
navi:{
goal:<empty>
}
初期状態
ホテル 学校 銀行 病院 コンビニ
navi:{
goal:<empty>
}
U:病院に行きたい。
[銀行]~0.4
ホテル 学校 銀行 病院 コンビニ
S:すみません、
どこですか?
U:病院です。
[病院]~0.9
navi:{
goal:<病院>
}
ホテル 学校 銀行 病院 コンビニ
www.***.com
実験
POMDPの方策とユーザシミュレーションの対話を
1000回繰り返して平均利得、平均ターン数、正答率
を計算する。
手動で作ったHC1、HC2と比較
 HC1:従来のカーナビを想定
 HC2:ユーザの発話に毎回確認をとる
コンセプト誤り率を変えて実験
www.***.com
報酬の設定
Corret answer
Uncorrect answer
ask
-2
-2
confirm
-0.5
-3
submit
+7
-10
www.***.com
実験結果
15
Average return
10
5
POMDP
HC1
HC2
0
-5
-10
0
0.2
0.4
Perr
0.6
0.8
www.***.com
実験結果2
10
average turn
8
6
POMDP
HC1
HC2
4
2
0
0
0.2
0.4
Perr
0.6
0.8
www.***.com
実験結果3
correct answer rate(%)
100
90
80
70
POMDP
HC1
HC2
60
50
40
30
0
0.2
0.4
Perr
0.6
0.8
www.***.com
まとめ
カーナビにPOMDPを適用
 不確実性に対処
階層的強化学習を適用
 従来よりも大きなタスクの実現が可能
シミュレーション実験により頑健性を確認
www.***.com
Future Work
構音障害者のための環境制御装置
 発話が曖昧
 信頼度が低い
シーンごとにタスクを階層化して最適化を行う
ルート
テレビ操作
チャンネル操作
オーディオ操作
メニュー操作
照明操作
番組表操作
www.***.com
ご清聴ありがとうございました
www.***.com
強化学習、利点
目標までの行動を人間が知らなくて良い。
タスク遂行のためのプログラミング強化学習で自動
化することにより、設計者の負担の軽減が期待でき
る。
人間以上の行動を見つけ出す可能性がある。
Agent
観測値o
アクションa 報酬r
Environment
(POMDP)
www.***.com
強化学習
Bellman方程式


Vk*1 (b)  max E r (b, a)  Vk* (b' )
a
Reward= r(b1,a1 ) + r(b2 , a2 ) + … + r(bT 1aT 1 ) + r(bT , aT )
s1

s2
b1

o1
a1
Policy  (b1 )  a1
o2
sT-1
b2


a2
oT-1
 (b2 )  a2
bT-1
sT
aT-1
 (bT 1 )  aT 1
oT
bT
aT
 (bT )  aT
強化学習




www.***.com
対話システムの構造
Control module
Input module
Au
Speech recognition &
Language understanding
~
Au
Sm
user (Su , Sd )
~
Am
Dialog
model
Language generation
Am
Dialog
manager
Output module
www.***.com
問題点??
なぜタスク変更するか
PBVIの収束条件
 平均利得が収束していく 確認したい
ユーザシミュレーション
 1000回の対話
 信頼度の付与 コンセプト誤りが生じた時は、0.6以下の
ランダムの信頼度を付与
www.***.com