視覚情報を話題の対象とする 音声対話システムの構築

視覚情報を話題の対象とする
音声対話システム
京都大学情報学研究科
知能情報学専攻
山肩 洋子 河原 達也 奥乃 博
http://winnie.kuis.kyoto-u.ac.jp/
研究の目的
ユーザとの音声対話により実世界中で
オブジェクトを探索
⇒ユーザの意図したイメージモデルを特定
• 対話を通してユーザモデルを動的に更新する
ことにより、ユーザに適応的な言語理解を実
現
• 探索過程で生じる曖昧性や誤解に対処
ユーザとロボットによる
協調的なオブジェクト探索タスク
対象世界
信念
•ユーザは対象世界をある程度知っている
•ユーザは対話の時点で見ることができない
机の上に
があったはず
音声
何色でしたか?
音声合成
画像認識
ユーザ
カメラにより撮影
音声
ロボット
音声認識
机の上のコーヒーカップを
取ってください。
ユーザの意図するオブジェクト
対話における曖昧性・誤解の所在
• 認識誤り (音声認識・画像認識)
• 言語理解におけるユーザの個人差による曖
昧性
• ユーザの信念の誤りによる誤解
言語理解におけるユーザの個人差
•
ユーザ: 「コーヒーカップを取って」
•
ロボット: 「コーヒーカップ」の意味する
イメージモデルを選定
例)「コーヒーカップ」と言えば
それが無ければ
でも構わない
はコーヒーカップとは呼ばない
⇒ 誰に対しても同じことが言えるか? NO!
言語理解におけるユーザモデル
• 単語とイメージモデルとの関連の強さを
アンケート(『コップ類』について被験者12人)
⇒有意な個人差が見られる
イメージモデル
モデル1
カップ
グラス
ジョッキ
タンブラー
湯のみ
ウイスキーグラス
ウォーターグラス
マグカップ
コーヒーマグ
単語
モデル2
0.4
0.6
0.4
0.4
0.4
0.2
0.6
0.2
0.2
モデル3
0.4
0.2
0.6
0.2
0.2
0.2
0.2
0.6
0.2
0.4
0.6
0.4
0.6
0.4
0.4
0.6
0.2
0.2
「コップ類」のユーザモデル
単語とイメージモデルとの
関連度
曖昧性・誤解解消のための
1. システムのみによる解決
 音声認識・画像認識の相互作用
 ユーザモデルを用いた言語理解
2. ユーザとの確認対話による曖昧性の解消
 確認発話
例)S: 「コーヒーカップですね?」
 探索条件の追加要求
例)S: 「色は何色でしたか?」
プランニングレベル
3. ユーザの信念の誤りへの対処

代替案の提示
ユーザの言語理解にあわせた表現を用いて提示
例)ユーザにとって代替案
が「ティーカップ」であれば
S: 「ティーカップならありますがこれでいいですか?」

妥協点の推定
例)U: 「赤いコーヒーカップを取ってきて」
S: 「青のコーヒーカップでもいいですか?」
U: 「いいえ」⇒『赤』の条件を重視し再探索
•
•
1→2→3の順に実行
解の曖昧性が解消された時点で終了
言語理解における
ユーザモデルの利用
• ユーザモデルを介して単語とイメージモデルを解釈
• 探索成功事例より、そのユーザに適応するよう
ユーザモデルを学習
ユーザモデル
言語理解
音声
ユーザ
単語
音声認識
イメージ
モデル
システム
オブジェクト
画像認識
対象世界
Belief Networkを用いた言語理解
学習率により
学習度合いを調節
尤度差をフィードバック
ユーザモデル
音声認識の
信頼度
CMS
k
1
Sk
Lk
w11
1
Lkl
Dempster-Shaferの
統合理論
画像認識の
信頼度
CMI k11
1
Ok1
O1
Ok+11
Mkm
Oko
Oo
Ok+1o
Mk
音声
CMS kL
曖昧性がなくなった時点で
目標オブジェクトと断定
LkL
単語
単語の
音声認識による
信頼度
単語信頼度
wLm
Mk M
イメージモデル
CMI
k
mO
OkO
オブジェクト
画像認識による単語信頼度
OO
Ok+1O
検証実験
シナリオ
• ユーザ: 「机の上のコーヒーカップを取ってきて」
• 机の上に存在するオブジェクト: 以下の3つ
正解
オブジェクト1
オブジェクト2
オブジェクト3
• ユーザの意図するインスタンス: オブジェクト1
• 音声「コーヒーカップ」は明瞭に認識されなかった
• ユーザの信念には誤りは無い
学習による対話回数の削減
『名称』に関する尤度
0.36
プランニングレベル2へ移る条件
•尤度>0.3
•発話理解の確信度>0.3
•1位と2位との尤度差
>1位の尤度の10%
0.34
0.32
0.3
0.28
0.26
0.6
0.8
1
1.2
0.24
0.22
0.2
0.18
0
1
2
3
4
5
探索回数
学習率1.2 ⇒ 3回目以降
1 ⇒ 4回目以降
0.6, 0.8 ⇒ 5回目以降
プランニングレベル1で
正解オブジェクトを同定
音声認識・画像認識による
単語の信頼度
•
一般的には存在するのは「ティーカップ」
⇒「ティーカップ」の信頼度が上昇
• ユーザモデルを学習することにより、ユーザにとって「コーヒーカップ」が存
在すると認識
⇒「コーヒーカップ」の信頼度が上昇
単語の信頼度
0.5
誤った絞込み
ユーザモデルの学習より
正しく絞り込み
0.4
0.3
コーヒーカップ
ティーカップ
カップ
コップ
0.2
0.1
0
音声認識の
信頼度
0
1
2
3 探索回数
おわりに
簡単なシナリオで以下を検証し、本研究の有効性を確認
した
• ユーザモデルの動的な更新による曖昧性解消
• 探索における対話回数の削減
• 画像認識結果から音声認識結果の絞り込み
今後の課題
• 状況依存のユーザモデル
• 複数の属性を同時に扱えるシステムの構築