2011年12月SI研究会 Detecting Unknown Objects and Unknown Names Using Multimodal Information 小篠裕子* 岩橋直人** 堀貴博* 中谷良平* 有木康雄* 中野幹夫*** *神戸大学大学院 システム情報学研究科 情報科学専攻 知能情報講座 メディア情報研究室 ** 独立行政法人情報通信研究機構 *** ホンダリサーチインスティチュートジャパン 研究目的 現在のロボットの問題点 ・1対1対応で教えたことしかできない ・認識はできても認知はできない 人間とロボットのインタラクションの中で、ロボットが新しい言語音 声を覚えて、画像情報にグラウンディングするための手法の開発 → そのための第一のハードルとして、音声と画像のマルチモー ダル情報を用いた未知語・未知物体の検知が必要 音声情報、画像情報を統合したマルチモーダル情報を用いた 未知物体の検知手法を提案 達成したいタスク • 話者がロボットに「机の上にある○○をとってください」と発話 • 話者は必ず机の上にある物(ロボットにとって既知/未知)を known unknown 発話する ボール 本 机の上のボールを 取ってください known はい。これですね。 机の上の本を 取ってください unknown これですか? 音声情報、画像情報を統合したマルチモーダル情報を用いた 未知物体の検知手法を提案 提案手法 音声情報、画像情報を統合したマルチモーダル情報を用いた 未知物体の検知手法を提案 Speech s Image o Speech Processing Cs Image Processing Co Calculation of Confidence Measure Detection of Unknown Objects Unknown Known Object Recognition “Unknown” “Object Names” Detection of Unknown Objects and Their Names 提案手法 音声情報、画像情報を統合したマルチモーダル情報を用いた 未知物体の検知手法を提案 Speech s Image o Speech Processing Cs Image Processing Co Calculation of Confidence Measure Detection of Unknown Objects Unknown Known Object Recognition “Unknown” “Object Names” Detection of Unknown Objects and Their Names 信頼度(コンフィデンス)の算出 音声特徴量 MFCCの時系列データ 時間長 の音声の入力データ Speech s [Λ𝑖 ] Speech Processing 物体名音声モデル ※HMM Cs 画像特徴量 vi [area, l * , a* , b* , foiurier] Image o [𝑔𝑖 ] Image Processing Co 物体画像モデル ※MAP適応させたGaussian Model 音声の対数尤度 画像の対数尤度 Ps (s; i ) log P(s; i ) Po (o; gi ) log P(o; gi ) 音声のコンフィデンス Cs ( s; i ) P( s; i ) 1 log n( s ) max P( s; ui ) ui 画像のコンフィデンス P(o; g i ) Co (o; g i ) log max P( x; g i ) x 提案手法 音声情報、画像情報を統合したマルチモーダル情報を用いた 未知物体の検知手法を提案 Speech s Image o Speech Processing Cs Image Processing Co 画像と音声のコンフィデンスを Calculation of ロジスティック関数によって統合 Confidence Measure した値で未知物体の検知を行う Detection of Unknown Objects Unknown Known Detection of Unknown Objects and Their Names Object Recognition “Unknown” “Object Names” 既知と判定された物体の名前を返す 未知物体の検知を考えるにあたって Image Confidence -250 -200 -150 -100 -50 既知画像-既知音声 0 0 -1 -1.5 -2 未知画像-未知音声 -2.5 -3 Speech Confidence -0.5 -3.5 Unknown -4 Known 未知物体の検知を考えるにあたって Image Confidence -250 -200 -150 -100 -50 既知画像-既知音声 0 0 -1 -1.5 -2 未知画像-未知音声 -2.5 -3 Speech Confidence -0.5 -3.5 Unknown -4 Known 未知物体の検知を考えるにあたって Image Confidence -250 -200 -150 -100 -50 既知画像-既知音声 0 0 -0.5 -1 -1.5 -2 未知画像-未知音声 -2.5 -3 Speech Confidence 未知物体と既知物体に分類可能? -3.5 Unknown -4 Known 閾値判定による未知物体検知 Cs Co ① ロジスティック関数に 各クラスのコンフィデンスを代入 Detection of Unknown Objects Unknown Known Object Recognition “Unknown” “Object Names” Fc (Cs , Co ) 1 1 e ( 0 1Cs 2Co ) ② 各クラスの Fc (Cs , Co ) の値のうち 最大なものをとってきて閾値判定 Fc (Cs , Co ) 未知と判定 Fc (Cs , Co ) 既知と判定 Fc (Cs , Co ) が最大となった クラス名を返す 未知物体検知のための学習 既知画像-既知音声の組み合わせを教師信号1、 未知画像-未知音声の組み合わせを教師信号0としてロジスティック関数を学習 (←フィッシャーのスコアリングアルゴリズム) 学習データ N {CS (s j ; i ),Co (o j ; gi ), di | i 1,, N} M P(d | 0 , 1 , 2 ) j 1 N i i i i i, j ( F ( C , C )) ( 1 F ( C , C c S j oj c Sj o j )) i 1 d (d1, j ,, d N , j ) Image Confidence -300 -200 1 1 e ( 0 1Cs 2Co ) 閾値判定により未知物体検知を行う Unknown Known -100 0 0 -0.5 -1 -1.5 -2 -2.5 -3 -3.5 -4 Speech Confidence Fc (Cs , Co ) 1 d i , j d 未知物体検知評価実験 50クラス各10画像の画像データ、画像の各50クラスに対応する 50クラスの音声を用意した。 soujiki mugcup oven shampoo nabe kabin book tissue shirokuma airon kagami silkhat jyoro soccorball (1)既知の入力データが正しく既知と判定されるかを実験、判定精度を求めた。 ・ 画像は各クラスから1データ取り出し、これらをテストデータに、それ以外を 学習データにして実験。データ数分実験を行った。 (2)未知の入力データが正しく未知と判定されるかの実験、判定精度を求めた。 ・ 1クラスを未知の入力のテストデータとし、他のデータを学習データとして実 験。データ数分実験を行った。 未知物体検知性能評価結果 Likelihood P(o)+P(s) Object P(o) 93.20% Speech P(s) 66.00% Confidence 78.70% C(o)+C(s) Object C(o) 93.20% Speech C(s) 95.00% 94.60% Logistic(P(o),P(s)) 89.40% Logistic(C(o),C(s)) 97.00% 提案手法での未知物体検知の性能は最大で97%となった 既知物体認識精度評価実験 50クラス各10画像の画像データ、画像の各50クラスに対応する 50クラスの音声を用意した。 (1)画像は各クラスから1データ取り出し、これらをテストデータに、それ以外を 学習データにして実験。データ数分実験を行った。 Likelihood P(o)+P(s) Object P(o) 98.80% Speech P(s) 96.00% Confidence 99.40% C(o)+C(s) Object C(o) 98.80% Speech C(s) 96.00% 99.40% Logistic(P(o),P(s)) 100.00% Logistic(C(o),C(s)) 100.00% 複数物体における未知物体検知 提案手法①により、1物体における未知物体検知が可能となった。 → 複数物体は? Image Confidence Speech Confidence 未知画像-未知音声 複数物体における未知物体検知 提案手法①により、1物体における未知物体検知が可能となった。 → 複数物体は? 既知画像-既知音声 Image Confidence Speech Confidence 未知画像-未知音声 複数物体における未知物体検知 提案手法①により、1物体における未知物体検知が可能となった。 → 複数物体は? 既知画像-既知音声 Image Confidence Speech Confidence 未知画像-未知音声 複数物体における未知物体検知 提案手法①により、1物体における未知物体検知が可能となった。 → 複数物体は? 既知画像-既知音声 Image Confidence Speech Confidence 未知画像-未知音声 複数物体でのシーン known ボール unknown 本 既知画像-既知音声 Image Confidence Speech Confidence 机の上のボールを 取ってください known 未知画像-未知音声 既知音声-未知画像、未知音声-既知画像判定が不安定になり 判別できない可能性が残る 複数物体でのシーン known ボール unknown 本 既知画像-既知音声 Image Confidence Speech Confidence 机の上のボールを 取ってください known 未知画像-未知音声 既知音声-未知画像、未知音声-既知画像判定が不安定になり 判別できない可能性が残る 複数物体でのシーン known ボール unknown 本 机の上のボールを 取ってください known known ボール known コップ unknown 本 机の上のボールを 取ってください known 既知音声-未知画像、未知音声-既知画像判定が不安定になり 判別できない可能性が残る 提案手法② 既知画像-既知音声とそれ以外(既知画像-未知音声、未知画像 -既知音声、未知画像-未知音声)の2クラスに分類 Image Confidence Image Confidence Speech Confidence Speech Confidence 既知物体-既知音声をすべてのシーンで取ってこれるようになる 提案手法② ロボットにとって音声が既知である場合 known ボール unknown 本 机の上のボールを 取ってください known はい。これですね。 known ボール known コップ unknown 本 机の上のボールを 取ってください known はい。これですね。 実験結果 Logistic関数を用いたモダリティ統合での評価 既知物体既知音声、既知物体未知音声、未知物体既知音声、 未知物体未知物体をテストデータとしたとき、既知物体既知音声と それ以外の2クラスに正しく分類されたか 提案手法① 提案手法② Confidence 75.0% 90.8% Likelihood 75.0% 75.95% 既知物体-既知音声 それ以外 85.4% ※ディテクター1の閾値、0.98 92.6% 提案手法② ロボットにとって音声が既知 known ボール unknown 本 机の上のボールを 取ってください known ロボットにとって音声が未知 known ボール unknown 本 机の上の本を 取ってください unknown 既知画像を候補からはじいて「これですか?」と取り出すことができない 提案手法② ロボットにとって音声が未知 unknown 本 机の上の本を 取ってください Image Confidence Speech Confidence known ボール unknown 提案手法② ディテクター1 既知画像-既知音声とそれ以外とを 分けるディテクター 提案手法② ロボットにとって音声が未知 unknown 本 机の上の本を 取ってください unknown Image Confidence Speech Confidence known ボール 提案手法② ディテクター1 既知物体を候補からはじいて「これですか?」と 取り出すことができない 提案手法② ロボットにとって音声が未知 unknown 本 机の上の本を 取ってください unknown Image Confidence Speech Confidence known ボール もう一本ディテクターを用意して解決 提案手法③ 既知物体-既知音声、未知物体-未知音声と既知物体-未知音声、 未知物体-既知音声の3クラスに分類する →既知物体既知音声とそれ以外、未知物体未知音声とそれ以外という 2つのディテクターを用いた分類を行う ① Image Confidence ② Speech Confidence ③ 未知物体-未知音声の入力時も、「これですか?」とロボットが質問できる ようになる 提案手法③実験結果 既知物体既知音声、既知物体未知音声、未知物体既知音声、 未知物体未知物体をテストデータとしたときのディテクター1と ディテクター2の精度 ディテクター1 ディテクター2 Confidence 90.8% 76.05% Likelihood 75.95% 75.35% 既知物体-既知音声 それ以外 85.4% 92.6% ※ディテクター1の閾値、0.98 未知物体-未知音声 それ以外 100.0% ※ディテクター2の閾値、0.63 68.0% 実験結果 Logistic関数を用いたモダリティ統合での評価 既知物体既知音声、既知物体未知音声、未知物体既知音声、 未知物体未知物体をテストデータとしたとき、3クラスに正しく分類されたか 提案手法③ Confidence 63.15% Likelihood 50.5% 既知物体既知音声 未知物体未知音声 それ以外 95.8% 24.0% 66.4% ※ディテクター1の閾値、0.9 ディテクター2の閾値、0.6 まとめ 音声情報、画像情報を統合したマルチモーダル情報を用いた 未知物体の検知手法を提案 Thank you !
© Copyright 2024 ExpyDoc