スライド 1

2011年3月PRMU研究会
Discrimination of Unknown Objects from Known Objects
Using Multimodal Information
小篠裕子* 有木康雄* 岩橋直人** 中野幹生***
*神戸大学大学院 システム情報学研究科 情報科学専攻
知能情報講座 メディア情報研究室
** 独立行政法人情報通信研究機構
*** ホンダリサーチインスティチュートジャパン
研究目的
現在のロボットの問題点
・1対1対応で教えたことしかできない
・認識はできても認知はできない
人間とロボットのインタラクションの中で、ロボットが新しい言語音
声を覚えて、画像情報にグラウンディングするための手法の開発
→ そのための第一のハードルとして、音声と画像のマルチモー
ダル情報を用いた未知語・未知物体の検知が必要
音声情報、画像情報を統合した未知物体の検知手法を提案
達成したいタスク
• 話者がロボットに「机の上にある○○をとってください」と発話
• 話者は必ず机の上にある物(ロボットにとって既知/未知)を
known
unknown
発話する
ボール
本
机の上のボールを
取ってください
known
はい。これですね。
机の上の本を
取ってください
unknown
これですか?
音声情報、画像情報を統合した未知物体の検知手法を提案
提案手法
音声情報、画像情報を統合したマルチモーダル情報を用いた
未知物体の検知手法を提案
Speech s
Image o
Speech Processing
Cs
Image Processing
Co
Calculation of
Confidence Measure
Detection of Unknown Objects
Unknown
Known
Object Recognition
“Unknown”
“Object Names”
Detection of Unknown
Objects and Their Names
提案手法
音声情報、画像情報を統合したマルチモーダル情報を用いた
未知物体の検知手法を提案
Speech s
Image o
Speech Processing
Cs
Image Processing
Co
Calculation of
Confidence Measure
Detection of Unknown Objects
Unknown
Known
Object Recognition
“Unknown”
“Object Names”
Detection of Unknown
Objects and Their Names
信頼度(コンフィデンス)の算出
音声特徴量 MFCCの時系列データ
時間長 の音声の入力データ
Speech s

[Λ𝑖 ]
Speech Processing
物体名音声モデル
※HMM
Cs
画像特徴量
vi  [area, l * , a * , b* , Fourier ]
Image o
[𝑔𝑖 ]
Image Processing
Co
物体画像モデル
※MAP適応させたGaussian Model
音声の対数尤度
画像の対数尤度
Ps (s; i )  log P(s; i )
Po (o; gi )  log P(o; gi )
音声のコンフィデンス
Cs ( s;  i ) 
P( s;  i )
1
log
n( s )
max P( s;  ui )
ui
画像のコンフィデンス
P(o; g i )
Co (o; g i )  log
max P( x; g i )
x
提案手法
音声情報、画像情報を統合したマルチモーダル情報を用いた
未知物体の検知手法を提案
Speech s
Image o
Speech Processing
Cs
Image Processing
Co
画像と音声のコンフィデンスを
Calculation of
ロジスティック関数によって統合
Confidence
Measure
した値で未知物体の検知を行う
Detection of Unknown Objects
Unknown
Known
Detection of Unknown
Objects and Their Names
Object Recognition
“Unknown”
“Object Names”
既知と判定された物体の名前を返す
未知物体の検知を考えるにあたって
Image Confidence
-250
-200
-150
-100
-50
既知画像-既知音声
0
0
-1
-1.5
-2
未知画像-未知音声
-2.5
-3
Speech Confidence
-0.5
-3.5
Unknown
-4
Known
未知物体の検知を考えるにあたって
Image Confidence
-250
-200
-150
-100
-50
既知画像-既知音声
0
0
-1
-1.5
-2
未知画像-未知音声
-2.5
-3
Speech Confidence
-0.5
-3.5
Unknown
-4
Known
未知物体の検知を考えるにあたって
Image Confidence
-250
-200
-150
-100
-50
0
既知画像-既知音声
0
-0.5
-1
Speech Confidence
未知物体と既知物体に分類可能?
-1.5
-2
未知画像-未知音声
-2.5
-3
-3.5
-4
Unknown
Known
閾値判定による未知物体検知
Cs
Co
① ロジスティック関数に
各クラスのコンフィデンスを代入
Detection of Unknown Objects
Unknown
Known
Object Recognition
“Unknown”
“Object Names”
Fc (Cs , Co ) 
1
1  e ( 0 1Cs  2Co )
② 各クラスの Fc (Cs , Co ) の値のうち
最大なものをとってきて閾値判定
Fc (Cs , Co )   未知と判定
Fc (Cs , Co )   既知と判定
Fc (Cs , Co ) が最大となった
クラス名を返す
未知物体検知のための学習
既知画像-既知音声の組み合わせを教師信号1、
未知画像-未知音声の組み合わせを教師信号0としてロジスティック関数を学習
(←フィッシャーのスコアリングアルゴリズム)
学習データ
N  {CS (s j ; i ),Co (o j ; gi ), di | i  1,, N}
M
P(d |  0 , 1 ,  2 )  
j 1
N
i
i
i
i
i, j
(
F
(
C
,
C
))
(
1

F
(
C
,
C
 c S j oj
c
Sj
o j ))
i 1
d  (d1, j ,, d N , j )
Image Confidence
-300
-200
1
1  e ( 0 1Cs  2Co )
閾値判定により未知物体検知を行う
Unknown
Known
-100
0
0
-0.5
-1
-1.5
-2
-2.5
-3
-3.5
-4
Speech Confidence
Fc (Cs , Co ) 
1 d i , j
d
未知物体検知評価実験
50クラス各10画像の画像データ、画像の各50クラスに対応する
50クラスの音声を用意した。
soujiki
mugcup
oven
shampoo
nabe
kabin
book
tissue
shirokuma
airon
kagami
silkhat
jyoro
soccorball
(1)既知の入力データが正しく既知と判定されるかを実験、判定精度を求めた。
・ 画像は各クラスから1データ取り出し、これらをテストデータに、それ以外を
学習データにして実験。データ数分実験を行った。
(2)未知の入力データが正しく未知と判定されるかの実験、判定精度を求めた。
・ 1クラスを未知の入力のテストデータとし、他のデータを学習データとして実
験。データ数分実験を行った。
未知物体検知性能評価結果
提案手法での未知物体検知の性能は最大で97%となった
既知物体認識精度評価実験
50クラス各10画像の画像データ、画像の各50クラスに対応する
50クラスの音声を用意した。
(1) 画像の特徴量と認識精度に関する考察 (%)
Lab
Area
Fourier
Lab+Fourier All
88.0
8.4
48.4
98.2
98.8
色、形(輪郭)が支配的に効いている
既知物体認識精度評価実験
50クラス各10画像の画像データ、画像の各50クラスに対応する
50クラスの音声を用意した。
(2)画像は各クラスから1データ取り出し、これらをテストデータに、それ以外を
学習データにして実験。データ数分実験を行った。
複数物体における未知物体検知
提案手法①により、1物体における未知物体検知が可能となった。
→ 複数物体は?
Image Confidence
Speech Confidence
複数物体における未知物体検知
提案手法①により、1物体における未知物体検知が可能となった。
→ 複数物体は?
既知画像-既知音声
Image Confidence
Speech Confidence
複数物体における未知物体検知
提案手法①により、1物体における未知物体検知が可能となった。
→ 複数物体は?
既知画像-既知音声
Image Confidence
Speech Confidence
未知画像-未知音声
複数物体における未知物体検知
提案手法①により、1物体における未知物体検知が可能となった。
→ 複数物体は?
既知画像-既知音声
Image Confidence
Speech Confidence
未知画像-未知音声
複数物体でのシーン
known
ボール
unknown
本
既知画像-既知音声
Image Confidence
Speech Confidence
机の上のボールを
取ってください
known
未知画像-未知音声
複数物体でのシーン
known
ボール
unknown
本
Image Confidence
Speech Confidence
机の上のボールを
取ってください
既知画像-既知音声
known
既知音声-未知画像、未知音声-既知画像判定が不安定になり
判別できない可能性が残る
複数物体でのシーン
known
ボール
unknown
本
机の上のボールを
取ってください
known
known
ボール
known
コップ
unknown
本
机の上のボールを
取ってください
known
既知音声-未知画像、未知音声-既知画像判定が不安定になり
判別できない可能性が残る
提案手法②
既知画像-既知音声とそれ以外(既知画像-未知音声、未知画像
-既知音声、未知画像-未知音声)の2クラスに分類
Image Confidence
Image Confidence
Speech Confidence
Speech Confidence
既知物体-既知音声をすべてのシーンで取ってこれるようになる
提案手法②
ロボットにとって音声が既知である場合
known
ボール
unknown
本
机の上のボールを
取ってください
known
はい。これですね。
known
ボール
known
コップ
unknown
本
机の上のボールを
取ってください
known
はい。これですね。
実験結果
Logistic関数を用いたモダリティ統合での評価
既知物体既知音声、既知物体未知音声、未知物体既知音声、
未知物体未知物体をテストデータとしたとき、既知物体既知音声と
それ以外の2クラスに正しく分類されたか
提案手法①
提案手法②
Confidence
75.0%
90.8%
Likelihood
75.0%
75.95%
既知物体-既知音声
それ以外
85.4%
※ディテクター1の閾値、0.98
92.6%
提案手法②
ロボットにとって音声が既知
known
ボール
unknown
本
机の上のボールを
取ってください
known
ロボットにとって音声が未知
known
ボール
unknown
本
机の上の本を
取ってください
unknown
既知画像を候補からはじいて「これですか?」と取り出すことができない
提案手法②
ロボットにとって音声が未知
unknown
本
机の上の本を
取ってください
Image Confidence
Speech Confidence
known
ボール
unknown
提案手法② ディテクター1
既知画像-既知音声とそれ以外とを
分けるディテクター
提案手法②
ロボットにとって音声が未知
unknown
本
机の上の本を
取ってください
unknown
Image Confidence
Speech Confidence
known
ボール
提案手法② ディテクター1
既知物体を候補からはじいて「これですか?」と
取り出すことができない
提案手法②
ロボットにとって音声が未知
unknown
本
机の上の本を
取ってください
unknown
Image Confidence
Speech Confidence
known
ボール
もう一本ディテクターを用意して解決
提案手法③
既知物体-既知音声、未知物体-未知音声と既知物体-未知音声、
未知物体-既知音声の3クラスに分類する
→既知物体既知音声とそれ以外、未知物体未知音声とそれ以外という
2つのディテクターを用いた分類を行う
①
Image Confidence
②
Speech Confidence
③
未知物体-未知音声の入力時も、「これですか?」とロボットが質問できる
ようになる
提案手法③実験結果
既知物体既知音声、既知物体未知音声、未知物体既知音声、
未知物体未知物体をテストデータとしたときのディテクター1と
ディテクター2の精度
ディテクター1
ディテクター2
Confidence
90.8%
76.05%
Likelihood
75.95%
75.35%
既知物体-既知音声
それ以外
85.4%
96.2%
※ディテクター1の閾値、0.98
未知物体-未知音声
それ以外
84.1%
※ディテクター2の閾値、0.63
68.0%
実験結果
Logistic関数を用いたモダリティ統合での評価
既知物体既知音声、既知物体未知音声、未知物体既知音声、
未知物体未知物体をテストデータとしたとき、3クラスに正しく分類されたか
提案手法③
Confidence
82.32%
Likelihood
50.5%
既知物体既知音声 未知物体未知音声 それ以外
90.8%
76.05%
79.51%
※ディテクター1の閾値、0.9 ディテクター2の閾値、0.6
まとめ
音声情報、画像情報を統合したマルチモーダル情報を用いた
未知物体の検知手法を提案
Bring me unknown names on the table.
unknown
?
known
known
known
Thank you !
統合の効果
50クラス各10画像の画像データ、画像の各50クラスに対応する50クラスの
音声を用意した。
画像認識
音声画像
統合での認識 (%)
○
○
94.8
○
×
4.0
×
○
1.2
×
×
0.0
Logistic(P(o),P(s))
精度
100
TH=0.975
80
a_2=0.15036682
60
a_1=0.02034389
40
a_0=9.17086547
20
0
0
0.2
0.4
0.6
0.8
1
閾値
Logistic(C(o),C(s))
精度
100
TH=0.96
a_2=5.16284406e-03
80
60
a_1=5.22129323e+00
40
a_0=7.64271572e+00
20
0
0
0.2
0.4
0.6
0.8
1
閾値
シーンに基づいた実験
ランダムに物体を50セット選んで各物体を正しく未知既知判定
できるかを評価
シーン①
known unknown
シーン②
シーン③
known known unknown
シーン①
known known unknown unknown
シーン②
シーン③
未知物体 40%
40%
42%
既知物体 96%
92%
88%
考察
2.既知物体未知音声、未知物体既知音声の分布がばらけていて、うまく
分類することができなかったのではないか。
Image confidence measure
-400
-300
-200
-100
0
0
-1
-1.5
-2
-2.5
-3
-3.5
-4
-4.5
-5
Speech confidence measure
-0.5
known-known
unknown-unknown
known-unknown.unknown-known
未知物体検知性能評価結果
50クラスの画像、音声に対し、
・
・
・
・
・
・
・
・
画像尤度のみでの認識精度
音声尤度のみでの認識精度
画像のコンフィデンスのみでの認識精度
音声のコンフィデンスのみでの認識精度
画像尤度と音声尤度を足し合わせた値での認識精度(対数尤度なので加算)
画像尤度と音声尤度をロジスティック関数で判定したときの認識精度
画像と音声のコンフィデンスを足し合わせた値での認識精度
画像と音声のコンフィデンスをロジスティック関数で判定したときの認識精度
以上、8個の認識精度を求めた。