中間審査会1

視覚情報を話題の対象とする
音声対話システムの構築
京都大学情報学研究科
M2 山肩 洋子
研究の背景
介助ロボット
ロボットの行動範囲を制限しない⇒ユー
ザの視野外(遠隔地)で行動
音声のみでロボットを操作
視覚情報を話題の対象とする
問題設定
ユーザは実世界のあるインスタンスに対し何らかの
アクションを起こしたいという欲求を持つ
音声対話によりロボットに命令・実行
目標
実世界中のオブジェクトより、ユーザの意図したイ
ンスタンスを同定
話題の対象世界
欲求: あのコップがほしい
信念: 机の上にあったはず
対象世界
•ユーザは対象世界をある程度知っている
•ユーザは対話の時点で見ることができな
い
カメラ
ユーザ
ロボット
発話:
机の上のコップをとって
音声認識
画像認識
ユーザの意図するインスタンス「あのコップ」
研究の目的1
言語理解

視覚情報を表現する言語のもつ視覚的意味
を理解
例) ティーカップは
ではなくて
では
は絶対にティーカップと呼ばないの
か?⇒ユーザに依存

ユーザに特化した言語理解を学習
ユーザに特化した言語理解
一般化
ユーザモデル
ティーカップ
Yes
ユーザモデル
ティーカップ
探索経験
Yes
ティーカップ
No
Yes
学習
No
Yes
No
別のインスタンス
?
Yes!
ロボット
探索空間
言語理解のユーザモデル
過去に探索に成功した経験から言語の意味を学
習
学習するのはインスタンスではなくイメージ(特徴
量)
例)
ではなくて、その形状
⇒別のインスタンスに対しても正しく探索
未知の形状に対してもイメージの近さで判断
例)
もティーカップと呼ぶかもしれない
⇒ほかになければこれでもOK
ユーザモデルの学習
対話する中で徐々に学習


はじめは質問・確認発話が多い
学習が進むにつれてシステム内部で判断⇒質問が減
少
問題

探索成功事例から学習
⇒誤解にいかに対処するか?
 誤解を検知する
 誤解を解消する
研究の目的2
誤解処理
1.
誤解原因の推定
探索過程において常に処理の動作をモニタリング
⇒誤解発生の可能性を監視
2.
誤解の解消
誤解のレベルに応じた誤解の解消
誤解発生の可能性
ユーザの言っているコップは
どんな物体?
?
音声⇒言語
「コップ」と言っ
た?
それとも・・・
言語⇔モデル
モデル
画像
机の上には
がある?
本当に机の上?
ユーザの信念の確かさ
誤解の種類
認識誤り

ノイズが発生
 音声 ⇒ 言語
 画像 ⇒ イメージ・モデル
ユーザとロボットとの理解の相違

言語 ⇔ イメージ・モデル
ユーザの信念の誤り


ユーザの記憶(忘却・勘違い)
対象世界の変化(配置の移動・状態の変化)
誤解解決のレベル
1. 内部処理により解決できるレベル
音声・画像の相互作用
ユーザモデルによる言語理解
2. ユーザとの対話により解決できるレベル
確認発話・質問発話
条件の追加要求
3. ユーザの信念の誤り
代替案の提示
誤解発生を仮定した上でのオブジェクト再推定
ユーザとの対話により妥協点を探る
モニタリング
各レベルごとに振る舞いをセンサ情報として出力
⇒誤解の解決過程をモニタリング


有効な誤解解決手段が存在するか?
結果が向上しているか?
モニターが最も可能性の高いレベルにスイッチン
グ
レベル3
レベル2
レベル1
情報
センサ
モニター
モニタリング(レベル1)
言語理解の
確信度
ユーザモデル
音声認識の
信頼度
音声
音声認識
プランニング
オブジェクトの
尤度
オブジェクトの候補
画像認識の信頼度
画像認識
画像
プランニング(レベル1)
音声・画像の相互作用
目標物体の場所を指定⇒認識対象を視野内に絞る


認識語彙(モデル)の絞込み
認識結果の絞込み
ユーザモデルによる言語・イメージの解釈
各オブジェクトのインスタンスとの尤度を算出
ユーザはインスタンスを複数の属性により指定
例)「赤いコーヒーカップをとってください」
属性1
属性2
オブジェクトの尤度は属性ごとに算出した尤度を統合
センサ (レベル1)
音声認識の信頼度(単語単位)
画像認識の信頼度(各オブジェクトとイメージ・モデル
との尤度)
言語理解の確信度(ユーザモデルの成熟度)


学習の経験値
言語とイメージ・モデルとの関連の確信度
属性ごとのオブジェクトの尤度
モニタリング(レベル2)
信頼度・確信度・尤度の向上を図る
発話理解の
確信度
質問
オブジェクトの尤度
言語理解の確信度
確信度
音声認識の
信頼度
プランニング
ユーザモデル
オブジェクトの
尤度
尤度
画像認識の
信頼度
オブジェクトの候補
プランニング
音声認識
画像認識
応答
プランニング(レベル2)
レベル1から渡された情報により誤解原因を
推定⇒解決を図る
音声認識の信頼度が低い⇒確認発話
画像認識の信頼度が低い⇒画像の再取り込み・
再認識
対話回数が少ない・言語理解の確信度が低い⇒
条件の追加要求
対処リストを作成⇒すでに行ったものはロックしてゆく
センサ情報(レベル2)
ユーザの信念に対する理解度

レベル1からのセンサ情報から考えられる誤
解に対して、考えられる解決策をどれだけ
行ったか
モニタリング(レベル3)
ユーザとの対話によりユーザの妥協点を探る
ユーザの信念の
確信度 発話理解の
プランニング
信頼度
発話理解の
確信度
質問
言語理解の確信度
確信度
音声認識の
信頼度
プランニング
ユーザモデル
代替案の提示
オブジェクトの
再探索
尤度
オブジェクトの
尤度
オブジェクトの尤度
尤度
画像認識の
信頼度
オブジェクトの候補
プランニング
音声認識
画像認識
プランニング(レベル3)
妥協点の推定


妥協できる属性の順序
妥協案
 場所「机の上」⇒「食器棚の中」でもよい
 色「赤」⇒「青」でもよい
代替案の提示
言語理解に誤解が発生していると仮定し、尤度の高
いオブジェクトを代替案として選定
例)「赤いコーヒーカップを取ってきて」
「紫のデミタスでいいですか?」←ユーザのわかる呼び名で
センサ情報(レベル3)
インスタンスに対するユーザのこだわり

インスタンスの属性ごとのこだわりの強さにし
たがって最探索
ユーザの信念に対するユーザ自信の確信
度

妥協できない⇒ユーザは自信あり⇒今のまま
の条件で最探索
モニターによるスイッチング
レベル3
ユーザの信念の誤り
ユーザが十分な
確信を持っている
妥協案による
最探索
あいまいな情報が
無い
レベル2
対話により解決できるレベル
条件の追加
信頼度・確信度・尤度が
十分でない
レベル1
内部処理できるレベル
ユーザの発話
例1) U: コーヒーカップを取って
属性「名称」に関する情報
S: 何色ですか?
←「名称」だけでは絞り込めない場合
「色」条件を追加するよう要求
U: 赤
属性「色」に関する情報
例2) U: 赤いコーヒーカップを取ってください
属性「色」に関する情報
属性「名称」に関する情報
属性の種類
名称

「コーヒーカップ」「ワイングラス」
色

「赤い」「ブルーの」
模様

「柄のある」「無地の」「花柄の」
形

「丸い」「四角い」「大きい」「小さい」
言語(名称): L
カテゴリごとにシソーラスを用いて語彙を
分類

コップ類)カップ、グラス、ジョッキ、タンブラー、湯の
み、ウイスキーグラス、ウォーターグラス、マグカッ
プ、・・・

皿類)丸皿、角皿、長角皿、取り皿、コンポート、皿、
グラタン皿
イメージモデル: M
「名称」に対してありうる形状をイメージモデルとして
表現
モデル1
モデル2
モデル3
モデル4
例(一部)
モデル5
モデル6
ユーザモデル: w
単語とイメージ・モデル(イラスト)との関連
度をアンケート
平均値を一般化ユーザモデルとする
モデル1
カップ
グラス
ジョッキ
タンブラー
湯のみ
ウイスキーグラス
ウォーターグラス
マグカップ
コーヒーマグ
0.4
0.6
0.4
0.4
0.4
0.2
0.6
0.2
0.2
モデル2
0.4
0.2
0.6
0.2
0.2
0.2
0.2
0.6
0.2
例(一部)
モデル3
0.4
0.6
0.4
0.6
0.4
0.4
0.6
0.2
0.2
記号の説明
音声認識の信頼度: CMSl
 CMS
l
l
1
画像認識の信頼度: CMImo
CMI mo
CMI mo ' 
したがって
CMI
m mo
言語lとモデルmとの関連度: wlm
0  wlm  1

m
CMI mo '  1
ある属性kに対する
各オブジェクトの尤度
ユーザモデル
音声認識の確信度
CMS1
Sk
w11
画像認識の信頼度
CMI11
SとOoとの尤度
1
Ok1
Ok1
Lkl
Mk m
Oko
Oko
LkL
Mk M
OkO
OkO
Lk
1
Mk
音声
CMSL
言語
wLm
モデル
CMImO
オブジェクト
信頼度算出
音声認識:認識率が低い認識結果(単語)
は棄却
画像認識:認識率が低い認識結果(オブ
ジェクト)は棄却
オブジェクトの尤度
発話Sが単語Llである確率: Ll
Ll  CMSl
モデルMmである確率: Mm
M m  l wlm  Ll
オブジェクトOoである尤度: Oo
Oo  m CMI mo '  M m
Ooを正規化: Oo’
Oo
Oo ' 
o Oo
複数の属性による尤度の統合
Dempster-Shaferの統合規則を利用
オブジェクトOoに対する属性kついての尤度: Ook
画像⇒音声の絞込み
ユーザモデル
音声認識の確信度
CMS1
S
L1
w11
Ll
画像認識の信頼度
M1
CMI11
Mm
O1
Oo
音声
CMSL
LL
言語
wLm
MM
モデル
CMImO
OO
オブジェクト
単語に対するオブジェクトの存
在確率
モデルMmに対応するオブジェクトが存在する確率: Mm’
(現段階では一つでも存在すればよい)
M m ' max CMI mo
o
単語Llに対応するオブジェクトが存在する期待値: Ll”
Ll "  E[ wlm  M m ' ] ⇒音声認識語彙の絞込みに利用
新しい音声認識の信頼度: CMSl”
Ll '  Ll "CMSl
Ll '
CMS l " 
l Ll '
⇒結果的に音声認識結果の
絞込みとなる
ユーザモデルの学習
ユーザモデル
SkとOoとの尤度
画像認識の信頼度
音声認識の確信度
CMSk
1
Sk
Lk
w11
1
Lkl
CMIk11
Sk+1とOoとの尤度
1
Ok1
Ok1
O 1’
Ok+11’
Mkm
Oko
Oko
Oo’
Ok+1o’
Mk
インスタンスと
断定
音声
CMSkL
LkL
言語
wLm
MkM
CMIkmO
OkO
モデル
正規化
OkO
OO’
Ok+1O’
Dempster-Shaferの
統合理論
ユーザモデルの学習(1/4)
ユーザモデル
画像認識の信頼度
音声認識の確信度
CMSk
1
Sk
Lk
w11
1
Lk
Mk1
Mk
l
m
Ook
O 
k
O
o o
k
o
CMIk11
CMIkmO
Oko
Oko
Oo
音声
CMIkMO
CMSkL
LkL
言語
wLm
MkM
モデル
Ook  Oo  Ook
Ook  (Oo  Ook )   Ook
ユーザモデルの学習(2/4)
M 1  CMI1o '   M m  CMI mo '   M M  CMI Mo '  O ok
CMI mo '
m CMI mo ' とすると
M m  M
 CMI
M
 CMI
mo
m
m
M m
'2
mo
'
CMI


 CMI
m
m

 O ok
mo
mo
'
'
 O ok 
2
CMI mo '

m
CMI mo '
2
 O ok
CMI mo '
m CMI mo '
ユーザモデルの学習(3/4)
L1  w1m    Ll  wlm    LL  wLm  M m
Ll
wlm  w
w
l Ll
l Ll
2
 M m
L
l
wlm 
l
L
L
l
2
l
l

とすると
l
L
l
Ll
L
l
Ll
l
 M m 
2
 M m
l
ユーザモデルの学習(4/4)

Ll
CMI mo '
k
k
wlm 

 (Oo  Oo )  o Oo
2
2
l Ll m CMI mo '
センサ情報(レベル1)
画像認識:現在選定されているオブジェクトOoに対す
る CMImo
max CMI mo   ⇒画像の再認識
m
以下の値が小さい場合、レベル2に移行
音声認識の信頼度
発話理解の確信度
属性ごとのオブジェクトの尤度
発話理解の確信度
ユーザの発話(単語)に対して解釈したモ
デルがどれだけ確からしいか

単語Llから各モデルへの関連度wlmの分散: Dl
⇒言語理解の確信度

発話理解の確信度:l Dl  CMSl
プランニング(レベル2)
オブジェクトの尤度により、どの属性に誤解が
発生している可能性が高いかを決定
max CMS l  
l
 D  CMS
加要求
l
l
l

:単語Llの音声認識結果確認
・対話回数が少ない:条件の追
質問リストを作成⇒すでに行ったものはロックしてゆ
く
条件の追加要求
追加する条件⇒カテゴリごとにあらかじめ
決定木を作成
有効な項目順に質問を行う
例) コップ類⇒「名称」→「色」→「柄」→「形状」
皿類⇒「名称」→「形状」→「柄」→「色」
候補に差異が見られない質問は飛ばす
センサ情報(レベル2)
以下の条件によりレベル3へ移行
ユーザの信念に対する理解度を示す


対話回数がN回以上
質問リストのすべての項目がロック
プランニング(レベル3)
代替案の提示

もっとも尤度の高いオブジェクトに対して、最
尤の経路をたどって単語(呼び名)を探索⇒代
替案の提示に用いる
例)「赤いコップを探して」
「紫のデミタスでいいですか?」
呼び名の選定
ユーザモデル
L1
w11
Ll
M1
CMI1o
Mm
言語
wLm
MM
モデル
CMI mo
m CMI mo
Oo
CMImo
LL
CMI mo ' 
画像認識の信頼度
代替案として選定された
オブジェクト
l  arc max m wlmCMI mo '
なる単語Llを呼び名とする
実験
サンプルシナリオ1

レベル1で解決できる
サンプルシナリオ2

レベル2で解決できる
サンプルシナリオ3

レベル3で解決できる