ブースティングとキーワードフィルタリング によるシステム要求検出 神戸大学大学院 自然科学研究科 佐古淳,滝口哲也,有木康雄 背景・目的 音声による機器の操作 – ロボット・カーナビなど 雑談に反応してシステムが誤動作 – スイッチを用いた音声入力制御 – 使いにくい・音声を使うメリットが減少 スイッチレスで 自動的にシステム要求と雑談を判別 目的 システム要求と雑談の判別 「どうやって 「こっちに、 動かすの?」 えーと、来て」 「こっちに来て」 って言うと動くよ …… 了解 従来手法 キーワード・スポッティング ネットワーク文法 ガベージ・モデル 問題点 – 柔軟な表現の受理が困難 単語ベース – ネットワークの構築コスト 自動的に学習 – ガベージ・モデルの構築方法 単語ベースでの要求検出 単語ベースで受理(検出) – 「えー こっちに 来て ちょうだい」 – 「こっちに えーと 来て」 問題点 – 「こっちに 来て って言うと」 – わき出しに弱い 提案手法 単語ベースで受理+拒否 – えー こっちに 来て ちょうだい – こっちに えーと 来て – こっちに 来て って言うと 投票 システム要求 雑談 単語による要求・雑談への重み付き投票で判別 – どの単語を用いるか - 投票の重みは? ブースティングにより学習 ブースティング ブースティングによるテキスト分類 – Decision Stumps [Schapire,98] 単語ベースの単純・高速な手法 単語Aがある true 単語Aがない false システム要求 雑談 注目する単語と投票重みをコーパスから学習 コーパス 収録環境 – 2人とロボットが存在 – 人同士で会話しながら任意にシステム要求 – マイクは発話者2人の胸元に設置 – コマンドは8種 – 異なり単語数:約700語 規模 – 1時間程度(実質発話時間は20分程度) – 切り出し後にラベル付与 – 330発話(うち49発話がシステム要求) コーパス 具体例 ラベル -1 -1 +1 -1 +1 -1 +1 +1:システム要求 -1:雑談 発話内容 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と こっち に 来 て ください ふふふ 来 た こっち おいでー あと 写真 を 撮っ て が ある なあ 写真 を 撮っ て 実験 音声認識結果に対する要求検出 音声認識結果の判別 音響分析条件・HMM サンプリング周波数 特徴パラメータ フレーム長 フレーム周期 窓タイプ タイプ H 混合数 M 母音(V) M 子音+母音(CV) 音 響 分 析 条 件 16KHz MFCC(25次元) 20ms 10ms ハミング窓 244音節 32混合 5状態3ループ 7状態5ループ 音声認識結果の判別 実験条件 – 音響モデル: CSJベースにMLLR+MAP適応 – 言語モデル: 書き起こしから学習 未知語なし(語彙数700語) 話者Aの認識に、話者Bのモデルを利用 – 認識結果 単語正解精度:42.1% キーワードF値:0.76 音声認識結果の判別 AdaBoostにより選択された素性語例 素性語例(キーワード) システム 要 求 ください 写真 来て おいで 場所 止まっ 雑 で たら とか の 談 ん って あー よ 素性語数:約40語 /700語 向こう が ない ちょっと 音声認識結果の判別 実験結果 – Leave-one-out 法により実験 – 結果はF値が最大のケース 適合率 再現率 F値 unigram 0.92 0.92 0.92 bi-gram 0.94 0.92 0.93 高精度に判別可能 従来手法 キーワード・スポッティング ネットワーク文法 ガベージ・モデル 問題点 問題点 – – 柔軟な表現の受理が困難 柔軟な表現の受理が困難 – ネットワーク文法の構築コスト – ネットワーク文法の構築コスト – ガベージ・モデルの構築方法 – ガベージ・モデルの構築方法 キーワード・フィルタリング ブースティングによる学習の結果…… システム要求素性 雑談素性 約20語 約20語 ガベージ・モデル 語彙全体 約660語 – 未知語発話時…… ガベージ単語と認識 :判別に影響無し 雑談素性と認識 :問題低 システム要求素性と認識:問題あり 未知語を含む要求検出 – 辞書から単語を削除(キーワード以外) 要求検出F値 1 0.9 0.8 0.7 F 0.6 値 0.5 0.4 0.3 0.2 未知語がある場合でも頑健に動作 0.1 0 10% 20% 30% 40% 50% 辞書未知語率 まとめ システム要求と雑談の判別 音声認識結果(言語情報)を利用 – 単語認識精度:42.1%において – 適合率:0.94 再現率:0.92 F値:0.93 – 未知語に対しても頑健に動作 今後の課題 – タスクの規模・難易度の向上 – 言語のみで判別不能なケースへの対応
© Copyright 2024 ExpyDoc