スライド 1

階層的強化学習を適用したPOMDPによる音声対話制御
岸本 康秀,滝口 哲也,有木 康雄(神戸大)
階層型強化学習を適用したPOMDP
研究背景・目的
レストラン検索システム
音声対話システムの様々な状況での理由
カーナビゲーションシステム、コールセンター、ロボット
雑音や言い誤りによる誤認識、誤動作が問題
M
不確実性に頑健な音声対話システム
1
0
M
音声対話システムの対話管理部にPOMDPを適用
状態を完全観測出来ないと仮定
確率分布によってユーザの状態を推測する
→不確実性に対処することが出来る
s
s'
o
M
o'
信念更新式
強化学習
S:3km以内でいいですか?
U:はい
[はい] ~信頼度:0.9
RL
a'
RL
b' (s' )  k  p(o'| s' , a) p(s' | s, a)b(s)
sS
•状態価値関数
o'
n  arg maxn  b(s)Vt (s)
 (b)  a
実験条件
•階層型POMDPの状態数[4,6,6,6]、行動数[6,13,13,13]
•従来のPOMDPの状態数216、行動数39
•学習手法はPBVIを使用
全ての到達しうる状態に対して最適な方策を構築する代わりに、
状態空間のいくつかの代表点でのみ最適な方策を探索する
•ユーザシミュレーションを用いて、コンセプト誤り率を変えて利得を計算
•従来型のPOMDPと学習が収束するまでの計算コストを比較する
n
n
t
s
問題点
状態数が増えることで計算コストが指数的に増大
拡張性に問題
階層的強化学習
タスクを各部分問題に分解して局所的な方策を学習して統合
r
M
r
M
1
0
s
o
r'
o'
s'
o
o'
a
s'
o'
a'
a'
r
s'
o'
a'
M
a'
s
1
1
o
r'
s'
a
o'
r'
s'
a'
o'
結果とまとめ
•計算時間 従来型:1249.8秒 階層型:0.9秒
•探索空間(状態数×行動数)を97%削減、計算を効率化
•学習にかかる計算コストを大幅に削減できた
•拡張性に優れたシステムの実現が可能
r'
r'
s'
a
0
0
r'
s
a'
30
s
M
2
0
o
r'
s'
a
o'
r
r'
s
s'
a'
o'
o
a'
M
r'
s'
a
o'
2
1
r
r'
s
s'
a'
o'
r'
a'
M
2
2
o
s'
o'
a
r
r'
s
s'
a'
o'
o
a'
M
2
3
r'
s'
a
o'
s'
o'
a'
V (s)  r (s, a )    P (s'| s, a ) P (o'| s' , a )V
l
m
l
m
l
m
s'
l
m, 1
o'
最適方策
l
m
25
25
20
20
15
15
10
10
( s' )
5
5
0
0
-5 0
 (b )  a
l*
m
n
t
n  arg maxn  b (s)V (s)
l
m
s
メリット
拡張性に優れている
再利用性、タスクの変更が容易
信念更新の計算が容易になる
l ,n
m ,t
従来型POMDP
30
0
a'
状態価値関数
l
m,
階層型POMDP
r'
Average return
r
M
1
2
実験
•最適方策
*
M
1
1
S:条件に合う店を検索します
V (s)  r (s, a )    P(s'| s, a ) P(o'| s' , a )V 1 (s' )
s'
M
1
0
S:他に条件はありますか?
U:予算は5000円以内
[5000円以内] ~信頼度:0.9
S:他に条件はありますか?
U:ここから3km以内の店がいい
[3km以内] ~信頼度:0.4
a
0
0
店までの
距離
S:どんなレストランを希望ですか?
U:洋食を食べたいな
[洋食] ~信頼度:0.85
r'
s
M
1
2
初期状態
b’(s’)
s
1
1
価格
対話例
r
ルート
ジャンル
POMDP
b(s)
M 00
50
100
150
0.1
0.2
0.3
0.4
200 -5 0
-10
-10
-15
-15
Number of belief points
500
1000
1500
0.5
0.6
Number of belief points
状態数
行動数
探索空間(状態数×行動数)
従来型のPOMDP
216
39
8424
階層型POMDP
[4,6,6,6]
[6,13,13,13]
258