スライド 1 - CS17 Ariki Laboratory, Kobe

2011年12月SI研究会
Detecting Unknown Objects and Unknown Names
Using Multimodal Information
小篠裕子＊岩橋直人＊＊堀貴博＊中谷良平＊
有木康雄＊中野幹夫＊＊＊
＊神戸大学大学院システム情報学研究科情報科学専攻
知能情報講座メディア情報研究室
＊＊独立行政法人情報通信研究機構
＊＊＊ホンダリサーチインスティチュートジャパン
研究目的
現在のロボットの問題点
・１対１対応で教えたことしかできない
・認識はできても認知はできない
人間とロボットのインタラクションの中で、ロボットが新しい言語音
声を覚えて、画像情報にグラウンディングするための手法の開発
→ そのための第一のハードルとして、音声と画像のマルチモー
ダル情報を用いた未知語・未知物体の検知が必要
音声情報、画像情報を統合したマルチモーダル情報を用いた
未知物体の検知手法を提案
達成したいタスク
• 話者がロボットに「机の上にある○○をとってください」と発話
• 話者は必ず机の上にある物（ロボットにとって既知/未知）を
known
unknown
発話する
ボール
本
机の上のボールを
取ってください
known
はい。これですね。
机の上の本を
取ってください
unknown
これですか？
音声情報、画像情報を統合したマルチモーダル情報を用いた
未知物体の検知手法を提案
提案手法
音声情報、画像情報を統合したマルチモーダル情報を用いた
未知物体の検知手法を提案
Speech s
Image o
Speech Processing
Cs
Image Processing
Co
Calculation of
Confidence Measure
Detection of Unknown Objects
Unknown
Known
Object Recognition
“Unknown”
“Object Names”
Detection of Unknown
Objects and Their Names
提案手法
音声情報、画像情報を統合したマルチモーダル情報を用いた
未知物体の検知手法を提案
Speech s
Image o
Speech Processing
Cs
Image Processing
Co
Calculation of
Confidence Measure
Detection of Unknown Objects
Unknown
Known
Object Recognition
“Unknown”
“Object Names”
Detection of Unknown
Objects and Their Names
信頼度（コンフィデンス）の算出
音声特徴量 MFCCの時系列データ
時間長の音声の入力データ
Speech s

[Λ𝑖 ]
Speech Processing
物体名音声モデル
※HMM
Cs
画像特徴量
vi  [area, l * , a* , b* , foiurier]
Image o
[𝑔𝑖 ]
Image Processing
Co
物体画像モデル
※MAP適応させたGaussian Model
音声の対数尤度
画像の対数尤度
Ps (s; i )  log P(s; i )
Po (o; gi )  log P(o; gi )
音声のコンフィデンス
Cs ( s;  i ) 
P( s;  i )
1
log
n( s )
max P( s;  ui )
ui
画像のコンフィデンス
P(o; g i )
Co (o; g i )  log
max P( x; g i )
x
提案手法
音声情報、画像情報を統合したマルチモーダル情報を用いた
未知物体の検知手法を提案
Speech s
Image o
Speech Processing
Cs
Image Processing
Co
画像と音声のコンフィデンスを
Calculation of
ロジスティック関数によって統合
Confidence
Measure
した値で未知物体の検知を行う
Detection of Unknown Objects
Unknown
Known
Detection of Unknown
Objects and Their Names
Object Recognition
“Unknown”
“Object Names”
既知と判定された物体の名前を返す
未知物体の検知を考えるにあたって
Image Confidence
-250
-200
-150
-100
-50
既知画像-既知音声
0
0
-1
-1.5
-2
未知画像-未知音声
-2.5
-3
Speech Confidence
-0.5
-3.5
Unknown
-4
Known
未知物体の検知を考えるにあたって
Image Confidence
-250
-200
-150
-100
-50
既知画像-既知音声
0
0
-1
-1.5
-2
未知画像-未知音声
-2.5
-3
Speech Confidence
-0.5
-3.5
Unknown
-4
Known
未知物体の検知を考えるにあたって
Image Confidence
-250
-200
-150
-100
-50
既知画像-既知音声
0
0
-0.5
-1
-1.5
-2
未知画像-未知音声
-2.5
-3
Speech Confidence
未知物体と既知物体に分類可能？
-3.5
Unknown
-4
Known
閾値判定による未知物体検知
Cs
Co
① ロジスティック関数に
各クラスのコンフィデンスを代入
Detection of Unknown Objects
Unknown
Known
Object Recognition
“Unknown”
“Object Names”
Fc (Cs , Co ) 
1
1  e ( 0 1Cs  2Co )
② 各クラスの Fc (Cs , Co ) の値のうち
最大なものをとってきて閾値判定
Fc (Cs , Co )   未知と判定
Fc (Cs , Co )   既知と判定
Fc (Cs , Co ) が最大となった
クラス名を返す
未知物体検知のための学習
既知画像-既知音声の組み合わせを教師信号１、
未知画像-未知音声の組み合わせを教師信号０としてロジスティック関数を学習
（←フィッシャーのスコアリングアルゴリズム）
学習データ
N  {CS (s j ; i ),Co (o j ; gi ), di | i  1,, N}
M
P(d |  0 , 1 ,  2 )  
j 1
N
i
i
i
i
i, j
(
F
(
C
,
C
))
(
1

F
(
C
,
C
 c S j oj
c
Sj
o j ))
i 1
d  (d1, j ,, d N , j )
Image Confidence
-300
-200
1
1  e ( 0 1Cs  2Co )
閾値判定により未知物体検知を行う
Unknown
Known
-100
0
0
-0.5
-1
-1.5
-2
-2.5
-3
-3.5
-4
Speech Confidence
Fc (Cs , Co ) 
1 d i , j
d
未知物体検知評価実験
50クラス各10画像の画像データ、画像の各50クラスに対応する
50クラスの音声を用意した。
soujiki
mugcup
oven
shampoo
nabe
kabin
book
tissue
shirokuma
airon
kagami
silkhat
jyoro
soccorball
（1）既知の入力データが正しく既知と判定されるかを実験、判定精度を求めた。
・画像は各クラスから1データ取り出し、これらをテストデータに、それ以外を
学習データにして実験。データ数分実験を行った。
（2）未知の入力データが正しく未知と判定されるかの実験、判定精度を求めた。
・ 1クラスを未知の入力のテストデータとし、他のデータを学習データとして実
験。データ数分実験を行った。
未知物体検知性能評価結果
Likelihood
P(o)+P(s)
Object P(o)
93.20%
Speech P(s)
66.00%
Confidence
78.70%
C(o)+C(s)
Object C(o)
93.20%
Speech C(s)
95.00%
94.60%
Logistic(P(o),P(s))
89.40%
Logistic(C(o),C(s))
97.00%
提案手法での未知物体検知の性能は最大で97％となった
既知物体認識精度評価実験
50クラス各10画像の画像データ、画像の各50クラスに対応する
50クラスの音声を用意した。
（1）画像は各クラスから1データ取り出し、これらをテストデータに、それ以外を
学習データにして実験。データ数分実験を行った。
Likelihood
P(o)+P(s)
Object P(o)
98.80%
Speech P(s)
96.00%
Confidence
99.40%
C(o)+C(s)
Object C(o)
98.80%
Speech C(s)
96.00%
99.40%
Logistic(P(o),P(s))
100.00%
Logistic(C(o),C(s))
100.00%
複数物体における未知物体検知
提案手法①により、１物体における未知物体検知が可能となった。
→ 複数物体は？
Image Confidence
Speech Confidence
未知画像-未知音声
複数物体における未知物体検知
提案手法①により、１物体における未知物体検知が可能となった。
→ 複数物体は？
既知画像-既知音声
Image Confidence
Speech Confidence
未知画像-未知音声
複数物体における未知物体検知
提案手法①により、１物体における未知物体検知が可能となった。
→ 複数物体は？
既知画像-既知音声
Image Confidence
Speech Confidence
未知画像-未知音声
複数物体における未知物体検知
提案手法①により、１物体における未知物体検知が可能となった。
→ 複数物体は？
既知画像-既知音声
Image Confidence
Speech Confidence
未知画像-未知音声
複数物体でのシーン
known
ボール
unknown
本
既知画像-既知音声
Image Confidence
Speech Confidence
机の上のボールを
取ってください
known
未知画像-未知音声
既知音声-未知画像、未知音声-既知画像判定が不安定になり
判別できない可能性が残る
複数物体でのシーン
known
ボール
unknown
本
既知画像-既知音声
Image Confidence
Speech Confidence
机の上のボールを
取ってください
known
未知画像-未知音声
既知音声-未知画像、未知音声-既知画像判定が不安定になり
判別できない可能性が残る
複数物体でのシーン
known
ボール
unknown
本
机の上のボールを
取ってください
known
known
ボール
known
コップ
unknown
本
机の上のボールを
取ってください
known
既知音声-未知画像、未知音声-既知画像判定が不安定になり
判別できない可能性が残る
提案手法②
既知画像-既知音声とそれ以外（既知画像-未知音声、未知画像
-既知音声、未知画像-未知音声）の２クラスに分類
Image Confidence
Image Confidence
Speech Confidence
Speech Confidence
既知物体-既知音声をすべてのシーンで取ってこれるようになる
提案手法②
ロボットにとって音声が既知である場合
known
ボール
unknown
本
机の上のボールを
取ってください
known
はい。これですね。
known
ボール
known
コップ
unknown
本
机の上のボールを
取ってください
known
はい。これですね。
実験結果
Logistic関数を用いたモダリティ統合での評価
既知物体既知音声、既知物体未知音声、未知物体既知音声、
未知物体未知物体をテストデータとしたとき、既知物体既知音声と
それ以外の２クラスに正しく分類されたか
提案手法①
提案手法②
Confidence
75.0%
90.8%
Likelihood
75.0%
75.95%
既知物体-既知音声
それ以外
85.4%
※ディテクター１の閾値、0.98
92.6%
提案手法②
ロボットにとって音声が既知
known
ボール
unknown
本
机の上のボールを
取ってください
known
ロボットにとって音声が未知
known
ボール
unknown
本
机の上の本を
取ってください
unknown
既知画像を候補からはじいて「これですか？」と取り出すことができない
提案手法②
ロボットにとって音声が未知
unknown
本
机の上の本を
取ってください
Image Confidence
Speech Confidence
known
ボール
unknown
提案手法② ディテクター１
既知画像-既知音声とそれ以外とを
分けるディテクター
提案手法②
ロボットにとって音声が未知
unknown
本
机の上の本を
取ってください
unknown
Image Confidence
Speech Confidence
known
ボール
提案手法② ディテクター１
既知物体を候補からはじいて「これですか？」と
取り出すことができない
提案手法②
ロボットにとって音声が未知
unknown
本
机の上の本を
取ってください
unknown
Image Confidence
Speech Confidence
known
ボール
もう一本ディテクターを用意して解決
提案手法③
既知物体-既知音声、未知物体-未知音声と既知物体-未知音声、
未知物体-既知音声の3クラスに分類する
→既知物体既知音声とそれ以外、未知物体未知音声とそれ以外という
２つのディテクターを用いた分類を行う
①
Image Confidence
②
Speech Confidence
③
未知物体-未知音声の入力時も、「これですか？」とロボットが質問できる
ようになる
提案手法③実験結果
既知物体既知音声、既知物体未知音声、未知物体既知音声、
未知物体未知物体をテストデータとしたときのディテクター１と
ディテクター２の精度
ディテクター１
ディテクター２
Confidence
90.8%
76.05％
Likelihood
75.95%
75.35％
既知物体-既知音声
それ以外
85.4%
92.6%
※ディテクター１の閾値、0.98
未知物体-未知音声
それ以外
100.0%
※ディテクター２の閾値、0.63
68.0%
実験結果
Logistic関数を用いたモダリティ統合での評価
既知物体既知音声、既知物体未知音声、未知物体既知音声、
未知物体未知物体をテストデータとしたとき、３クラスに正しく分類されたか
提案手法③
Confidence
63.15%
Likelihood
50.5%
既知物体既知音声未知物体未知音声それ以外
95.8%
24.0%
66.4%
※ディテクター１の閾値、0.9 ディテクター２の閾値、0.6
まとめ
音声情報、画像情報を統合したマルチモーダル情報を用いた
未知物体の検知手法を提案
Thank you !

Download Report