Document

視覚情報を話題の対象とする
音声対話システムの構築
山肩洋子
平成13年8月23日
問題設定
ユーザは実世界のあるオブジェクトに対し何らかの
アクションを起こしたいという欲求を持つ
音声対話によりロボットに命令・実行
本研究の目標
実世界中よりユーザの意図したオブジェクトを同定
話題の対象世界
欲求: あのコップがほしい
信念: 机の上にあったはず
対象世界
•ユーザは対象世界をある程度知っている
•ユーザは対話の時点で見ることができな
い
カメラ
ユーザ
ロボット
発話:
机の上のコップをとって
音声認識
画像認識
ユーザの意図するオブジェクト「あのコップ」
誤解発生の可能性
ユーザの言っているコップは
どんな物体？
？
音声⇒言語
「コップ」と言っ
た？
それとも・・・
言語⇔モデル
モデル
画像
机の上には
がある？
本当に机の上？
ユーザの信念の確かさ
誤解の分類
認識誤り ⇒ 音声・画像の相互作用


音声 ⇒ 言語
画像 ⇒ モデル
理解の相違 ⇒ ユーザモデルの利用

言語 ⇔ モデル
ユーザの信念の誤り ⇒ ユーザの発話と実世界


との整合性
ユーザの記憶（忘却・勘違い）
対象世界の変化（配置の移動・状態の変化）
誤解解消のための
処理
ユーザの言う「コップ」は
ユーザモデル
机の上にコップがあるから
机の上で
「コップ」と言ったのは正し
をさがそう
いだろう
音声・画像の相互作用
該当する物がありそうだから、
ユーザの発話は正しい
ユーザの発話と実世界との整合性
発話プランニング
取っ手がついていますよね？
認識モデルの確認
「コップ」ですよね？
音声認識結果確認
「湯のみ」ならあります。こ
れでいいですか?
どんな色でしたか？
条件の追加要求
机の上には見つかりません。食
器棚の中を探しますか？
代替案の提案
対話の流れ
ユーザ
仮説の選定
確認・提案
•オブジェクトの仮説
•誤解発生の仮説
•受理・棄却
•信念更新・意図変更
発話プランニング
発話プランニング
推定の
確からしさを算出
フィードバック
パラメータ学習
システム
判断
•ユーザモデル
•探索履歴
本研究の新規性
画像情報を用いた音声言語理解
言語理解（言語⇔画像認識モデル）
従来: 言語対モデルは一対一
本研究: 言語対モデルは多対多
⇒ ユーザモデル学習によりあいまい性削減
対話による誤解の解消


誤解原因の推定による発話プランニング
ユーザは過去に得た信念に基づいて発話
⇒ ユーザの発話自体の誤りに対しても対処
システムの概要
ユーザ
発話
発話
学習
ユ
ー
ザ
モ
デ
ル
学習
システム
音声認識
オブジェクト推定
画像認識
誤解発生の仮説の
選定
認識
発話の意図理解
対象世界
実行
質問生成
動作の決定
プランニング
尤度計算（ある条件との尤度）
信念ネットワーク(belief network)
尤度を逆伝播 ⇒ 音声認識の信頼度を変更
ユーザモデル
音声認識の確信度
Lk1
Sk
w11
SkとOoとの尤度
画像認識の信頼度
M1
O1
X1
Lkl
Mm
Oo
Xo
LkL
MM
OO
XO
言語
モデル
オブジェクト
w1m
音声
尤度計算（複数の条件の統合）
ある物体がある条件に近い
⇒ その物体がユーザの意図するオブジェ
クトである「証拠」の一つ
複数の証拠を統合 ⇒ Dempster-Shafer理
論を利用


命題の確率を計算するのではなく、証拠が命
題を支持する確率を計算
信念の度合いを区間値で算出
ユーザモデルの学習
提案をユーザが受理 ⇒ ユーザモデルの学習
勾配降下法
訓練集合D={D1,…,Dm}
wi：与えられた親変数 U を持つノード X に対する条件
確率テーブルの中のある特定の成分
U=ui の場合ケース X=xi に対する成分
P ( D j ) / wi
 ln P (D)

wi
P( D j )
j
P ( D j ) / wi
P( D j )

P ( xi , u i | D j )
wi
直接計算されるか小数のテーブル成分
を合計することにより簡単に得られる
誤解発生の仮説の選定
1. 認識率（条件付確率）より判断
2. 誤解: そうと仮定することにより推定の確からし
さが向上
すべての仮説について推定の確からしさを算出
2.
値が上昇する仮説を選定
全探索的アプローチ ⇒ 有効性を確かめた後、効率化を
図る
1.
博士後期課程における研究計画
ユーザモデル（言語と画像認識モデルの相関
関係）
 画像認識モデルの記述形式
 学習機構
人間対ロボットの円滑なコミュニケーション

人間対人間のコミュニケーションの分析
 対話の履歴を用いた誤解原因の推定
 発話プランニング
何をどのように聞けば良いのか？
対話の流れ
1. ユーザが音声対話によりオブジェクトを指定
2. ロボットは最尤のオブジェクトを音声対話により
ユーザに提案
1.
ユーザの意図理解


2.
3.
発話の音声認識・対象世界の画像認識
誤解の仮説
オブジェクト探索
発話プランニング
3. ユーザが判定


受理: 終了
棄却: 2に戻る
音声・画像認識の相互作用
音声・画像の両認識結果を互いに絞り込む
まずはユーザモデルを信頼
音声認識結果より画像認識に用いるモデルを絞
込み
画像認識結果を逆伝播することにより音声認識の
信頼度を更新 ⇒ ユーザへの確認発話削減
場所依存の物体の存在確率
ある場所 r に物体 s （特徴fs1,fs2,…,fsn)が存在
する確率 P(s|r) ← 過去の履歴より算出
「場所」の音声認識の信頼度 P(r)
ユーザの提示した場所 r に検索条件の特徴の
物体 s が存在する確率
P(s)=P(s|r)・P(r)
P(s) が最大になるような場所 r がユーザより指
定される確率が高い
⇒ 「場所」の音声認識結果に作用
履歴探索による場所の選定
過去に探索した場所について探索履歴を保存

画像認識結果（モデルとオブジェクト間の信頼度）
場所情報に誤解が生じていると判断される場合



過去の履歴に対し探索
事後確率の高いオブジェクトの存在⇒正しい場所で
ある確率が高い
ユーザに提示⇒受理された場合カメラを移動
代替案の提示
名称⇒機能を表す⇒意味的に近いものは
代替案となり得る
名称を階層的に記述⇒同義語・関連語の
情報を持つ
探索失敗した特徴を同義語・関連語により
再探索⇒代替案として提示

Download Report