AdaBoostを用いた システムへの問い合わせと雑談の判別 神戸大学大学院 自然科学研究科 佐古淳,滝口哲也,有木康雄 背景・目的 音声による機器の操作 – ロボット・カーナビなど 雑談に反応してシステムが誤動作 – スイッチを用いた音声入力制御 – 使いにくい・音声を使うメリットが減少 スイッチレスで 自動的にシステム要求と雑談を判別 目的 システム要求と雑談の判別(ケース1) 雑談 雑談 「こっちに来て」 …… 了解 目的 システム要求と雑談の判別(ケース2) 「どうやって 「こっちに、 動かすの?」 えーと、来て」 「こっちに来て」 って言うと動くよ …… 了解 従来手法 画像情報 – 視線 必ずしもシステムを見ない カーナビでは使用不能 音響情報 – ピッチ・パワー 距離一定の制約が必要 必ずしも判別可能でない 従来手法 言語情報 – キーワードスポッティング – キーワードのわき出しが問題 – 音声プロジェクタ [石塚ら’98] キーワードと競合する言語モデルを利用 ネットワーク文法でコマンド受理 従来手法 言語情報 – ネットワーク文法 柔軟な表現を受理できない /こっちに来て/ /*こっちに来て*/ ふふふ、こっちに来て こっちに来て よ こっちに来て ちょうだい こっちに、えーと、来て 拒否 こっちに来て とか わき出し こっちに来て って言うと 提案手法 素性(単語)をベースに判別 ふふふ、こっちに来て こっちに来て よ こっちに来て ちょうだい こっちに、えーと、来て こっちに来て とか こっちに来て って言うと システム要求素性 雑談素性 コーパスから素性を学習 AdaBoostにより学習 コーパス システム要求+雑談コーパス ロボットを例に収録 – カーナビを用いた収録は困難 マイク カメラ 車輪 コーパス 収録環境 – 2人とロボットが存在 – 人同士で会話しながら任意にシステム要求 – マイクは発話者2人の胸元に設置 – コマンドは8種 – 異なり単語数:約700語 規模 – 1時間程度(実質発話時間は20分程度) – 切り出し後にラベル付与 – 330発話(うち49発話がシステム要求) コーパス 具体例 ラベル -1 -1 +1 -1 +1 -1 +1 +1:システム要求 -1:雑談 発話内容 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と こっち に 来 て ください ふふふ 来 た こっち おいでー あと 写真 を 撮っ て が ある なあ 写真 を 撮っ て ブースティングによる素性の学習 AdaBoost – 多数の弱識別器による重み付き投票 – 弱識別器・重みを学習する手法 T f ( x) t ht ( x) t 1 ht (x) :弱識別器 t :重み ブースティングによる素性の学習 弱識別器 – Decision Stumps [Schapire’98] – 素性(単語・bi-gramなど)の有無で識別 例)「ください」がある システム要求 「とか」がない システム要求 「とか」がある 雑談 AdaBoostによる学習方法 – 最も精度のよい弱識別器を選択 – 識別誤りデータの重みを増やす 繰り返す 学習例 初期状態 ラベル -1 -1 +1 -1 +1 -1 +1 発話内容 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と こっち に 来 て ください ふふふ 来 た こっち おいでー あと 写真 を 撮っ て が ある なあ 写真 を 撮っ て 重み 0.14 0.14 0.14 0.14 0.14 0.14 0.14 学習例 「ください」がある +1 ラベル -1 -1 +1 -1 +1 -1 +1 h1 ( x) 1 0.46 発話内容 重み こっち 、 こっち で よかっ た っけ 0.1 こっち に 来 て 、 とか 言う と 0.1 こっち に 来 て ください 0.1 ふふふ 来 た 0.1 こっち おいでー 0.25 あと 写真 を 撮っ て が ある なあ 0.1 写真 を 撮っ て 0.25 学習例 「た」がない +1 ラベル -1 -1 +1 -1 +1 -1 +1 h2 ( x) 2 0.69 発話内容 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と こっち に 来 て ください ふふふ 来 た こっち おいでー あと 写真 を 撮っ て が ある なあ 写真 を 撮っ て 重み 0.06 0.25 0.06 0.06 0.16 0.25 0.16 学習例 「おいでー」がある +1 ラベル -1 -1 +1 -1 +1 -1 +1 h3 ( x) 3 0.64 発話内容 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と こっち に 来 て ください ふふふ 来 た こっち おいでー あと 写真 を 撮っ て が ある なあ 写真 を 撮っ て 重み 0.04 0.16 0.14 0.04 0.1 0.16 0.36 学習例 「とか」がない +1 ラベル -1 -1 +1 -1 +1 -1 +1 h4 ( x) 4 0.58 発話内容 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と こっち に 来 て ください ふふふ 来 た こっち おいでー あと 写真 を 撮っ て が ある なあ 写真 を 撮っ て 重み 0.08 0.11 0.09 0.08 0.07 0.33 0.23 識別例 識別関数 T f ( x) t ht ( x) t 1 h1(x) h2(x) h3(x) h4(x) 素性語 ください た おいでー とか 条件 ある ない ある ない 重みα 0.46 0.69 0.64 0.58 未知の入力: 「来て ください とか」+0.46+0.69-0.64-0.58=-0.07 比較手法 Support Vector Machines (SVM) – ネットワーク文法より柔軟 – 文章ベースによる判別 x2 マージン最大化 + x1 実験 クリーン(書き起こし)テキストの判別 音声認識結果に対する判別 クリーンテキストの判別 AdaBoost – 弱識別器:uni-gramを素性語 AdaBoostにより選択された素性 素性 システム 要 求 ください 写真 来て おいで 場所 止まっ 雑 で たら とか の 談 向こう ん って が ない あー よ ちょっと クリーンテキストの判別 SVM – カーネル:Gauss Kernel – 特徴量:単語の頻度ベクトル 例)「こっち、こっちに来て」 … こっち … に … 来て … 0 2 0 1 0 1 0 – 約70個のサポートベクターにより判別 クリーンテキストの判別 実験結果 – Leave-one-out 法により実験 – 結果はF値が最大のケース 適合率 再現率 Boosting 94.0% 95.9% 0.95 SVM 97.9% 95.9% 0.97 適合率 高い:わき出し少 F値 再現率 高い:未検出少 クリーンテキストの判別 成功例 – こっちに来てって言ったら -1 – ふふふ、こっちに、えーと、来て +1 失敗例 +1:システム要求 -1:雑談 – ジェローム ツー +1 -1(未知素性) – ちょっと認識してない、止まって +1 -1 – こっちに来てって言うと -1 +1 ブースティングとSVMの比較 性能はSVMが上? Boosting 適合率 94.0% SVM 97.9% 未知の表現に対する適合率は? ブースティングとSVMの比較 実験 – 学習:「こっちに来て、とか」 – 未学習:「向こうに行って、とか」 – 未学習:「写真を撮って、とか」 – 未学習:「ついて来て、とか」 ……など 結果 識別率 Boosting 100.0% 識別 SVM 21.4% 素性ベースの方が未知表現に対し柔軟な可能性 ブースティングとSVMの比較 ブースティング (Decision stumps) – 素性が学習済みなら未知文章も判別可 – 判別に有効な素性が明確 Support Vector Machines – 既知表現では高精度 – 未知表現の判別が苦手 実験 クリーン(書き起こし)テキストの判別 音声認識結果に対する判別 音声認識結果の判別 音響分析条件・HMM サンプリング周波数 特徴パラメータ フレーム長 フレーム周期 窓タイプ タイプ H 混合数 M 母音(V) M 子音+母音(CV) 音 響 分 析 条 件 16KHz MFCC(25次元) 20ms 10ms ハミング窓 244音節 32混合 5状態3ループ 7状態5ループ 音声認識結果の判別 実験条件 – 音響モデル: CSJベースにMLLR+MAP適応 – 言語モデル: 書き起こしから学習 音 響 モ デ ル 未知語なし Open: 話者Aの認識に、話者Bのモデルを利用 言語モデル Open Close Open 約30% - Close 約40% 約60% 音声認識結果の判別 実験結果 – Leave-one-out 法により実験 – 結果はF値が最大のケース 適合率 再現率 F値 クリーン Boosting 91.8% 91.8% 0.92 (0.95) SVM 97.8% 91.8% 0.95 (0.97) 音声認識結果も高精度に判別可能 まとめ システム要求と雑談の判別 音声認識結果(言語情報)を利用 – 単語認識精度:42.1%において – 適合率:91.8% 再現率:91.8% F値:0.92 今後の課題 – タスクの規模・難易度の向上 – 言語のみで判別不能なケースへの対応 – 音響情報との統合 ネットワーク文法との比較 受理できないケース – ふふふ、こっちに来て – こっちに来てちょうだい – こっちに来てよ – こっちに来て……あれ? – こっちに、えーと、来て 素性ベースでは判別可能 ブースティングとSVMの比較 識別関数 – AdaBoost ください がある 1 とか がない T f ( x) t ht ( x) t 1 素性の有無で投票 – SVM N f ( x) i yi xiT x i 1 ht (x) 1 とか がある ください がない i :重み yi :ラベル xi :SVの特徴ベクトル 文章全体との類似度(内積)で投票 ブースティングとSVMの比較 SVM – 未知:「写真を撮ってとか」を識別したい … こっち 0 0 に 来て … 0 0 0 写真 を 撮って … とか … 1 1 1 0 1 0 – 学習:「こっちに来てとか」 雑談 … こっち 0 1 に 来て … 1 1 0 写真 を 撮って … とか … 0 0 0 0 1 0 類似度 1 – 学習:「写真を撮って」 システム要求 … こっち 0 0 に 来て … 0 0 0 写真 を 撮って … とか … 1 1 1 0 システム要求と誤識別 0 0 類似度 3 ブースティングとSVMの比較 素性ベースの場合 – 学習:「こっちに来てとか」 素性 来て 投票先 システム要求 重み 中 とか 雑談 大 – 未知:「写真を撮ってとか」 素性 写真 とか 投票先 システム要求 雑談 重み 中 大
© Copyright 2024 ExpyDoc