O k 1 - 京都大学

視覚情報を話題の対象とする
音声対話システムの構築
京都大学情報学研究科
知能情報学専攻
山肩 洋子 河原 達也 奥乃 博
研究の目的
ユーザとロボットによる協調的なオブジェクト
探索タスク

ユーザの発話を音声認識・言語理解
⇒ユーザの意図したイメージモデルを特定
ユーザに適応的な言語理解の実現


ユーザの個人差をユーザモデルで扱う
探索成功事例より個人差を学習
探索過程で生じるあいまい性や誤解に対処
ユーザとロボットによる
協調的なオブジェクト探索タスク
対象世界
信念
•ユーザは対象世界をある程度知っている
•ユーザは対話の時点で見ることができな
い
机の上に
があったはず
音声
何色でしたか?
音声合成
画像認識
ユーザ
カメラにより撮影
音声
ロボット
音声認識
机の上のコーヒーカップを
取ってください。
ユーザの意図するインスタンス
言語理解におけるユーザの個人差
ユーザ: 「コーヒーカップを取って」
システム: 「コーヒーカップ」の意味するイ
メージモデルを特定
例)「コーヒーカップ」と言えば
それが無ければ
でもかまわない
はコーヒーカップとは呼ばない
⇒ 誰に対しても同じことが言えるか? NO!
言語理解における
ユーザモデルの利用
ユーザモデルを介して単語とイメージモデ
ルを解釈
探索成功事例より、そのユーザに適応す
るようユーザモデルを学習
ユーザモデル
言語理解
単語
音声
イメージ
モデル
画像認識
音声認識
ユーザ
オブジェクト
システム
対象世界
対話における
あいまい性・誤解の分類
探索成功事例を得るため、対話によりあい
まい性・誤解を解消
認識誤り


音声認識
画像認識
言語理解における個人差によるあいまい
性
ユーザの信念の誤りによる誤解
あいまい性・誤解解消のための
プランニングレベル
1. システムのみによる解決
2. ユーザとの確認対話によるあいまい性の
解消
3. ユーザの信念の誤りへの対処
順に実行
解消すべきあいまい性や誤解がなくなった時点で
終了
システムのみによる解決
(レベル1)
音声認識・画像認識の相互作用
認識対象をユーザに指定された範囲内に絞る
探索範囲を指定⇒音声認識語彙をその探索範
囲に存在するオブジェクトを表現する語彙に限定
 名称を指定⇒画像認識モデルをその名称に関連
するイメージモデルに限定

⇒認識率の向上を図る
ユーザモデルを用いた言語理解
ユーザとロボットの言語理解の相違を軽減
確認対話によるあいまい性の
解消(レベル2)
確認発話


音声認識の信頼度が低い⇒認識結果確認
複数の候補が選定⇒選択要求
探索条件の追加要求

解が一意に決定できない、ユーザモデルが未熟
⇒まだ指定されていない属性についてユーザ
に質問し、解の確実性を高める
ユーザの信念の誤りへの対処
(レベル3)
代替案の提示
ユーザの提示した条件との尤度が高いオブジェクトを
解の候補とする
レベル2のときとは異なる言語表現を用いて提示
例)U: 「赤いコーヒーカップを取ってきて」
S: 「ティーカップでもいいですか?」
妥協点の推定

目標オブジェクトに対する属性の優先順位を推定
例)U: 「赤いコーヒーカップを取ってきて」
S: 「青のコーヒーカップでもいいですか?」
U: 「いいえ」⇒『赤』を重視して再探索
言語理解のための事前知識
―― 単語 ――
本研究では主に『名称』に属する単語の
言語理解におけるあいまい性を扱う
シソーラスを用いて語彙をカテゴリに分類

『コップ類』
カップ、グラス、ジョッキ、コップ、タンブラー、湯のみ、ウイス
キーグラス、ウォーターグラス、マグカップ、・・・

『皿類』
丸皿、角皿、長角皿、取り皿、コンポート、皿、グラタン皿、・・・
語彙数: 各カテゴリに対し20語程度
言語理解のための事前知識
―― イメージモデル ――
各カテゴリに対し、ありうるさまざまな形状
のイメージモデルを用意
モデル1
モデル2
モデル3
モデル4
モデル5
モデル6
「コップ類」のイメージモデル
テンプレートマッチングにおけるテンプレートに相当
言語理解のための事前知識
―― ユーザモデル ――
単語のカテゴリ別に作成
単語とイメージモデル(イラスト)との関連の強さを
アンケート(被験者12人)
⇒ベースのユーザモデルを作成
イメージモデル
モデル1
カップ
グラス
ジョッキ
タンブラー
湯のみ
ウイスキーグラス
ウォーターグラス
マグカップ
コーヒーマグ
単語
0.4
0.6
0.4
0.4
0.4
0.2
0.6
0.2
0.2
モデル2
0.4
0.2
0.6
0.2
0.2
0.2
0.2
0.6
0.2
モデル3
0.4
0.6
0.4
0.6
0.4
0.4
0.6
0.2
0.2
単語とイメージモデルとの
関連度
「コップ類」のユーザモデル
Belief Networkを用いた言語理解
断定された目標オブジェクトの尤度差を学習
ユーザモデル
音声認識の
信頼度
CMS
k
Lk
1
Sk
w11
1
Lkl
画像認識の
信頼度
CMI k11
Dempster-Shaferの
統合理論
1
Ok1
O1
Ok+11
Mkm
Oko
Oo
Ok+1o
Mk
音声
あいまい性がなくなった時点で
目標オブジェクトと断定
CMS kL
LkL
単語
wLm
MkM
CMI kmO
Ok O
OO
Ok+1O
イメージモデル
属性kに関する尤度計算
属性k+1に関する
尤度計算
音声・画像の相互作用
ユーザモデル
音声認識の確信度
CMS1
S
L1
w11
Ll
画像認識の信頼度
M1
CMI11
Mm
O1
Oo
音声
CMSL
LL
単語
音声認識の
確信度
統合
wLm
MM
モデル
CMImO
OO
オブジェクト
単語に対するオブジェクトが
存在する確率
検証実験(シナリオ)
ユーザの発話: 「机の上のコーヒーカップを取っ
てきて」
机の上に存在するオブジェクト:
オブジェクト1
オブジェクト2
オブジェクト3
ユーザの意図するインスタンス: オブジェクト1
ユーザの信念には誤りは無い
各オブジェクトの尤度の遷移
『名称』に関する尤度
0.35
0.3
インスタンスの尤度は
大きく上昇
0.25
0.2
0.15
オブジェクト1
オブジェクト2
オブジェクト3
0.1
0.05
0
1
2
3
学習回数
形状のまったく異なるオブジェクト2については
それほど変化が見られない
学習率における変化
『名称』に関する尤度
0.36
受理条件:
0.34
•尤度>0.3
•発話理解の確信度>0.3
•1位と2位との尤度差
>位置の尤度の10%
0.32
0.3
0.28
0.26
0.6
0.8
1
1.2
0.24
0.22
0.2
0.18
0
1
2
3
4
5
学習回数
学習率が1.2で探索回数3回目、1では4回、0.6と0.8
では5回目以降、条件の追加要求を行わない
ユーザモデルの学習による音声
認識信頼度更新の遷移
音声認識の信頼度
コーヒーカップ
コップ
ユーザモデルの学習より
正しく絞り込み
カップ
ティーカップ
0.5
0.45
誤った絞込み
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
初期値
0
1
学習回数
2
3
まとめ
あいまい性・誤解解消のためのプランニングを3段
階に階層化


実現が容易なプランニングレベルから実行
代替案を提示するレベルまでを実現
探索成功事例をユーザモデルにフィードバック


発話に対する正解オブジェクトの尤度上昇を確認
視覚情報で音声認識結果を正しく絞り込めた