内部仕様(レベル1).

ユーザの発話
例1) U: コーヒーカップを取って
属性「名称」に関する情報
S: 何色ですか?
←「名称」だけでは絞り込めない場合
「色」条件を追加するよう要求
U: 赤
属性「色」に関する情報
例2) U: 赤いコーヒーカップを取ってください
属性「色」に関する情報
属性「名称」に関する情報
属性の種類
名称

「コーヒーカップ」「ワイングラス」
色

「赤い」「ブルーの」
形

「丸い」「四角い」「大きい」
ユーザとロボットの言語理解の
相違による誤解
視覚的な情報を表現する単語の意味はユーザ
依存


「コップ」と「カップ」の違いは?
あらゆる人に対し「コーヒーカップ」か「ティーカップ」か
が一意に決まるか?
ユーザに特化することにより、単語が本来の意
味以上の情報をもつ


「コーヒーカップ」⇒数あるコーヒーカップの中でも、あ
る特定のコーヒーカップを意味
「赤い」や「食器棚の中にある」など、他の属性に関す
る視覚的情報を持つ
ユーザモデルの役割
視覚情報を表現する単語に対して、ある
ユーザの意図する意味を解明する
対話する中で暗示的に学習
問題: 発生しうるさまざまな誤解にいかに対
処するか?
誤解を3層に分け、対応を決定
ある属性kに対する
各オブジェクトの尤度
ユーザモデル
音声認識の確信度
CMS1
Sk
w11
画像認識の信頼度
CMI11
SとOoとの尤度
1
Ok1
Ok1
Lkl
Mk m
Oko
Oko
LkL
Mk M
OkO
OkO
Lk
1
Mk
音声
CMSL
言語
wLm
モデル
CMImO
オブジェクト
記号の説明
音声認識の信頼度: CMSl
 CMS
l
l
1
画像認識の信頼度: CMImo
CMI mo
CMI mo ' 
したがって
CMI
m mo
言語lとモデルmとの関連度: wlm
0  wlm  1

m
CMI mo '  1
信頼度算出
音声認識:認識率が低い認識結果(単語)
は棄却
画像認識:認識率が低い認識結果(オブ
ジェクト)は棄却
オブジェクトの尤度
発話Sが単語Llである確率: Ll
Ll  CMSl
モデルMmである確率: Mm
M m  l wlm  Ll
オブジェクトOoである尤度: Oo
Oo  m CMI mo '  M m
Ooを正規化: Oo’
Oo
Oo ' 
o Oo
複数の属性による尤度の統合
Dempster-Shaferの統合規則を利用
オブジェクトOoに対する属性kついての尤度: Ook
画像⇒音声の絞込み
ユーザモデル
音声認識の確信度
CMS1
S
L1
w11
Ll
画像認識の信頼度
M1
CMI11
Mm
O1
Oo
音声
CMSL
LL
言語
wLm
MM
モデル
CMImO
OO
オブジェクト
単語に対するオブジェクトの存
在確率
モデルMmに対応するオブジェクトが存在する確率: Mm’
(現段階では一つでも存在すればよい)
M m ' max CMI mo
o
単語Llに対応するオブジェクトが存在する期待値: Ll”
Ll "  E[ wlm  M m ' ] ⇒音声認識語彙の絞込みに利用
新しい音声認識の信頼度: CMSl”
Ll '  Ll "CMSl
Ll '
CMS l " 
l Ll '
⇒結果的に音声認識結果の
絞込みとなる
ユーザモデルの学習
ユーザモデル
SkとOoとの尤度
画像認識の信頼度
音声認識の確信度
CMSk
1
Sk
Lk
w11
1
Lkl
CMIk11
Sk+1とOoとの尤度
1
Ok1
Ok1
O 1’
Ok+11’
Mkm
Oko
Oko
Oo’
Ok+1o’
Mk
インスタンスと
断定
音声
CMSkL
LkL
言語
wLm
MkM
CMIkmO
OkO
モデル
正規化
OkO
OO’
Ok+1O’
Dempster-Shaferの
統合理論
ユーザモデルの学習(1/4)
ユーザモデル
画像認識の信頼度
音声認識の確信度
CMSk
1
Sk
Lk
w11
1
Lk
Mk1
Mk
l
m
Ook
O 
k
O
o o
k
o
CMIk11
CMIkmO
Oko
Oko
Oo
音声
CMIkMO
CMSkL
LkL
言語
wLm
MkM
モデル
Ook  Oo  Ook
Ook  (Oo  Ook )   Ook
ユーザモデルの学習(2/4)
M 1  CMI1o '   M m  CMI mo '   M M  CMI Mo '  O ok
CMI mo '
m CMI mo ' とすると
M m  M
 CMI
M
 CMI
mo
m
m
M m
'2
mo
'
CMI


 CMI
m
m

 O ok
mo
mo
'
'
 O ok 
2
CMI mo '

m
CMI mo '
2
 O ok
CMI mo '
m CMI mo '
ユーザモデルの学習(3/4)
L1  w1m    Ll  wlm    LL  wLm  M m
Ll
wlm  w
w
l Ll
l Ll
2
 M m
L
l
wlm 
l
L
L
l
2
l
l

とすると
l
L
l
Ll
L
l
Ll
l
 M m 
2
 M m
l
ユーザモデルの学習(4/4)

Ll
CMI mo '
k
k
wlm 

 (Oo  Oo )  o Oo
2
2
l Ll m CMI mo '
発話理解の確信度
ユーザの発話(単語)に対して解釈したモ
デルがどれだけ確からしいか

単語Llから各モデルへの関連度の分散: Dl
⇒言語理解の確信度

発話理解の確信度:l Dl  CMSl