ワードグラフを考慮したシステム要求検出 神戸大学大学院 自然科学研究科 佐古淳,山形知行,滝口哲也,有木康雄 日本音響学会2007年秋期研究発表会 背景・目的 音声による機器の操作 – ロボット・カーナビなど 雑談に反応してシステムが誤動作 – スイッチを用いた音声入力制御 – 使いにくい・音声を使うメリットが減少 スイッチレスで 自動的にシステム要求と雑談を判別 目的 システム要求と雑談の判別 「どうやって 「こっちに、 動かすの?」 えーと、来て」 「こっちに来て」 って言うと動くよ …… 了解 従来の発表 Boostingによるシステム要求検出 – 音響学会[2007’03] 音声認識結果 認識誤りを含む えーこっちに来て、とか 単純に認識結果を用いるのではなく 投票 音声認識とシステム要求検出の統合を行う システム要求 or 雑談 Boostingにより投票重みを学習 提案手法 音声認識とシステム要求検出の統合 音声認識 Wˆ arg max P(W | O) arg max P(W ) P(O | W ) W 提案手法 sˆ,Wˆ arg max P( s,W | O) W 要求依存の 言語モデル O 観測信号 W 単語列 s 要求 s ,W arg max P( s) P(W | s) P(O | W , s) 手法1 s ,W arg max P(W ) P(O | W ) P( s | W , O) s ,W 手法2 認識仮説から の要求推定 手法1 要求依存の言語モデルを利用 sˆ,Wˆ arg max P(s) P(W | s) P(O | W , s) s ,W システム要求依存のtrigram 雑談依存のtrigram 尤度の高い方を選択 提案手法:手法2 認識仮説からの要求推定 sˆ,Wˆ arg max P(W ) P(O | W ) P(s | W , O) s ,W 仮説単語列から要求推定 本研究では言語情報のみ利用 Boostingのスコアをsigmoid関数により疑似確率化 sˆ,Wˆ arg max P(W ) P(O | W ) s ,W 1 1 exp(w1 t t f t (W , O) w0 ) 提案手法:手法2 認識仮説からの要求推定 sˆ,Wˆ arg max P(W ) P(O | W ) P(s | W , O) s ,W ワードグラフ こっちに 来て して Boosting Score 2.35 確率 要求:0.9 雑談:0.1 ー0.35 要求:0.4 雑談:0.6 音声認識尤度と確率を統合 ワードグラフ上での探索 sˆ,Wˆ arg max P(W ) P(O | W ) P(s | W , O) s ,W – 単語列の確率 – 要求推定の確率 総合的に評価 計算コスト大 ワードグラフ上での探索に限定 実験 音声認識結果に対する要求検出 コーパス 収録環境 – 2人とロボットが存在 – 人同士で会話しながら任意にシステム要求 – マイクは発話者2人の胸元に設置 – コマンドは8種 – 異なり単語数:約700語 規模 – 1時間程度(実質発話時間は20分程度) – 切り出し後にラベル付与 – 330発話(うち49発話がシステム要求) 音声認識結果の判別 実験条件 – 音響モデル: CSJベースにMLLR+MAP適応 – 言語モデル: 書き起こしから学習 未知語なし(語彙数700語) 話者Aの認識に、話者Bのモデルを利用 – 認識結果 単語正解精度:42.1% キーワードF値:0.76 (Boostingで選択された単語) 音声認識結果の判別 音響分析条件・HMM サンプリング周波数 特徴パラメータ フレーム長 フレーム周期 窓タイプ タイプ H 混合数 M 母音(V) M 子音+母音(CV) 音 響 分 析 条 件 16KHz MFCC(25次元) 20ms 10ms ハミング窓 244音節 32混合 5状態3ループ 7状態5ループ 比較手法 従来発表内容 [音響学会’07] – 認識結果を用いたBoostingによる識別 認識結果の単語信頼度を用いた手法 – 受理可能なコマンドのみでtrigram構築 – 認識結果の単語信頼度の平均を閾値で識別 0 雑談 1 N CM (wi ) threshold N i 1 0 システム要求 実験結果 10 folds cross validation 識別能力は高くない Precision システム要求と雑談が 混ざると雑談と判定 1.00 Recall 構築コストが低い F-Measure コマンド+否定語に弱い – ×こっちに来てとか 0.95 0.90 0.85 0.80 0.75 認識結果を用いた Boostingと同等 認識誤りによるキー ワード欠落が改善 0.70 0.65 手法1 手法2 Boosting 要求依存LM 仮説からの要求識別 Confidence まとめ 音声認識とシステム要求検出の統合 提案手法により性能改善 – 認識誤りによるキーワード欠落が改善 – F値においてBoosting (0.95) (0.96) 今後の課題 – 音響からの推定との統合 – 柔軟な表現の受理 従来手法 キーワード・スポッティング ネットワーク文法 ガベージ・モデル 問題点 – 柔軟な表現の受理が困難 単語ベース – ネットワークの構築コスト 自動的に学習 – ガベージ・モデルの構築方法 単語ベースでの要求検出 単語ベースで受理(検出) – 「えー こっちに 来て ちょうだい」 – 「こっちに えーと 来て」 問題点 – 「こっちに 来て って言うと」 – わき出しに弱い 提案手法 単語ベースで受理+拒否 – えー こっちに 来て ちょうだい – こっちに えーと 来て – こっちに 来て って言うと 投票 システム要求 雑談 単語による要求・雑談への重み付き投票で判別 – どの単語を用いるか - 投票の重みは? ブースティングにより学習 ブースティング ブースティングによるテキスト分類 – Decision Stumps [Schapire,98] 単語ベースの単純・高速な手法 単語Aがある true 単語Aがない false システム要求 雑談 注目する単語と投票重みをコーパスから学習 コーパス 収録環境 – 2人とロボットが存在 – 人同士で会話しながら任意にシステム要求 – マイクは発話者2人の胸元に設置 – コマンドは8種 – 異なり単語数:約700語 規模 – 1時間程度(実質発話時間は20分程度) – 切り出し後にラベル付与 – 330発話(うち49発話がシステム要求) コーパス 具体例 ラベル -1 -1 +1 -1 +1 -1 +1 +1:システム要求 -1:雑談 発話内容 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と こっち に 来 て ください ふふふ 来 た こっち おいでー あと 写真 を 撮っ て が ある なあ 写真 を 撮っ て 実験 音声認識結果に対する要求検出 音声認識結果の判別 音響分析条件・HMM サンプリング周波数 特徴パラメータ フレーム長 フレーム周期 窓タイプ タイプ H 混合数 M 母音(V) M 子音+母音(CV) 音 響 分 析 条 件 16KHz MFCC(25次元) 20ms 10ms ハミング窓 244音節 32混合 5状態3ループ 7状態5ループ 音声認識結果の判別 実験条件 – 音響モデル: CSJベースにMLLR+MAP適応 – 言語モデル: 書き起こしから学習 未知語なし(語彙数700語) 話者Aの認識に、話者Bのモデルを利用 – 認識結果 単語正解精度:42.1% キーワードF値:0.76 音声認識結果の判別 AdaBoostにより選択された素性語例 素性語例(キーワード) システム 要 求 ください 写真 来て おいで 場所 止まっ 雑 で たら とか の 談 ん って あー よ 素性語数:約40語 /700語 向こう が ない ちょっと 音声認識結果の判別 実験結果 – Leave-one-out 法により実験 – 結果はF値が最大のケース 適合率 再現率 F値 unigram 0.92 0.92 0.92 bi-gram 0.94 0.92 0.93 高精度に判別可能 従来手法 キーワード・スポッティング ネットワーク文法 ガベージ・モデル 問題点 問題点 – – 柔軟な表現の受理が困難 柔軟な表現の受理が困難 – ネットワーク文法の構築コスト – ネットワーク文法の構築コスト – ガベージ・モデルの構築方法 – ガベージ・モデルの構築方法 キーワード・フィルタリング ブースティングによる学習の結果…… システム要求素性 雑談素性 約20語 約20語 ガベージ・モデル 語彙全体 約660語 – 未知語発話時…… ガベージ単語と認識 :判別に影響無し 雑談素性と認識 :問題低 システム要求素性と認識:問題あり 未知語を含む要求検出 – 辞書から単語を削除(キーワード以外) 要求検出F値 1 0.9 0.8 0.7 F 0.6 値 0.5 0.4 0.3 0.2 未知語がある場合でも頑健に動作 0.1 0 10% 20% 30% 40% 50% 辞書未知語率 まとめ システム要求と雑談の判別 音声認識結果(言語情報)を利用 – 単語認識精度:42.1%において – 適合率:0.94 再現率:0.92 F値:0.93 – 未知語に対しても頑健に動作 今後の課題 – タスクの規模・難易度の向上 – 言語のみで判別不能なケースへの対応
© Copyright 2025 ExpyDoc