音声認識との統合によるシステム要求検出 佐古淳,山形知行,滝口哲也,有木康雄(神戸大) 目的 音声による機器の操作 – ロボット・カーナビなど 雑談に反応してシステムが誤動作 – スイッチを用いた音声入力制御 – 使いにくい・音声を使うメリットが減少 「こっちに、 えーと、来て」 「こっちに来て」 って言うと動くよ 了解 スイッチレスで 自動的にシステム要求と雑談を判別 従来手法 音声対話認識率や状況の違いによる音声対話の言語的・音響的特徴の比較 [伊藤ら,2005] 発話検証用モデルを用いた音声操作プロジェクタ [石塚ら,1998] AdaBoostを用いたシステムへの問い合わせと雑談の判別 [佐古ら,2006] 弱識別器 音声認識結果からのシステム要求判別 音声認識結果 えーこっちに来て、とか 投票 システム要求 or 雑談 ブースティングにより投票重みを学習 こっち 来て 写真 ください とか なあ えー まあ システム がある 要求 がある 問題点 音声認識誤りの影響を受けて要求と雑談の判別を誤る システム要求検出を音声認識に統合 認識仮説まで用いることにより認識誤りの影響を軽減 雑談 提案手法 音声認識との統合 言語 モデル 音響 モデル 音声認識 ˆ W arg max P(W | O) arg max P(W ) P(O | W ) W W 提案手法 O 観測信号 W 単語列 要求依存の 言語モデル ˆs,Wˆ arg max P( s,W | O) s 要求 s ,W arg max P( s) P(W | s) P(O | W , s) 手法1 s ,W arg max P(W ) P(O | W ) P( s | W , O) 手法2(提案手法) s ,W 認識仮説から の要求推定 要求推定モデル ˆs,Wˆ arg max P(W ) P(O | W ) P(s | W , O) s ,W 仮説単語列から識別的に sを推定 ブースティングを利用 ブースティングの出力: f (W , O) 1 || ||1 t h ( W , O ) tt t 1 ht (W , O) : 弱識別器 t : 投票重み ブースティングの出力は確率ではない(値域も0~1でない) sigmoid関数を用いて疑似確率化 疑似確率 ワードグラフ 来て Boosting Score 2.35 こっちに して -0.35 1 確率 要求: 0.9 雑談: 0.1 0.5 1 sigm oid( x) 1 exp(w1 x w0 ) 要求: 0.4 雑談: 0.6 0 x (boosting score) 実験 音声認識条件 コーパス 収録環境 – 2人とロボットが存在 – 人同士で会話しながら任意にシステム要求 – マイクは発話者2人の胸元に設置 – コマンドは8種 – 異なり単語数:約700語 規模 – 1時間程度(実質発話時間は20分程度) – 切り出し後にラベル付与 – 330発話(うち49発話がシステム要求) 音響モデル:CSJベースにMLLR+MAP適応 言語モデル:書き起こしから学習 – 未知語なし(語彙数700語) – 話者Aの認識に話者Bのモデルを利用 認識結果 – 単語正解制度:42.1% – キーワードF値:0.76(ブースティングで選択さ れた単語) 実験結果 Recall Precision F-measure 1.00 0.95 0.90 0.85 0.80 0.75 0.70 0.65 手法1 提案手法 Boosting Confidence 要求依存LM 仮説からの要求識別 ※Confidence:受理可能なコマンドのみでtrigram構築 認識結果の単語信頼度の平均を閾値で識別 N 0 雑談 1 CM (wi ) threshold N i 1 0 システム要求 提案手法 – 認識結果を用いたBoostingと同等 – 認識誤りによるキーワード欠落が改善 手法1 – 識別能力は高くない – 雑談に引きずられる Confidence – 構築コストが低い – 要求+否定後に弱い (例:こっちに来てとか) まとめ まとめ システム要求検出を音声認識に統合 音声認識誤りの影響を軽減し性能改善 今後の課題 大規模コーパスでの実験 コンテキストの利用 より柔軟な表現の受理 音響による手法との統合 第9回 音声言語シンポジウム 2007年12月20日(木)・21日(金) NTT CS研
© Copyright 2024 ExpyDoc