ブースティングを用いた 野球実況中継に対するメタデータの作成 神戸大学大学院 自然科学研究科 佐古淳,滝口哲也,有木康雄 背景・目的 背景 – マルチメディアコンテンツの増大 – 検索や要約のための情報が必要 – スポーツが扱いやすくニーズも存在 野球実況中継のメタデータ生成 – 音声認識を利用 – ラジオ中継音声を利用 TV中継よりも情報が多い 目的 詳細なメタデータを生成 – 例)実況 or 解説者との会話 実況の中身(イベントの種類)など – ラベルを付与し教師あり学習 認識結果からメタタグの種別を推定 – テキスト分類問題 – 認識誤りを含むテキスト テキスト分類問題 分類手法 – Naïve Bayes – Support Vector Machines など – AdaBoostを用いたシステム要求識別 タスク:雑談を行いながら時々システムへ要求 適合率・再現率:ともに0.9以上 ブースティングを用いてメタデータ作成 ブースティング ブースティングの概要 – 複数の識別器を組み合わせる手法 – 重み付き投票により識別 弱識別器 A > 0.5 Bがある Bがない … true 0.5 false C<5 … クラス +1 クラス -1 用いる弱識別器と重みを学習 ブースティング ブースティングによるテキスト分類 – Decision Stumps [Schapire 98] 単純・高速な手法 単語Aがある true 単語Aがない false クラス +1 クラス -1 注目する単語と投票重みを学習 ブースティング 識別器の学習 + AB - CD 重み付き 分類誤り 最小化 + ACE + AB - CD + ACE + BC Aがある + + BC - CE を選択 - CE コーパス 繰り返し ブースティング 基本的には2値分類手法 マルチクラスに拡張 (one-vs-rest) 識別器A 識別器B 識別器C クラスA以外 クラスB以外 クラスC以外 クラスA クラスB クラスC 得票が最大のクラスを選択 比較手法 Support Vector Machines (SVM) – 文章ベースによる判別 (入力とSVの特徴ベクトル全体の内積ベース) x2 マージン最大化 + x1 コーパス 仕様 – ラジオ実況中継音声 – 約2200発話(句点で分割) – 発話時間:1時間半 – 異なり単語数:約3000 – メタタグ情報の種類:21種類 主なタグ:実況一般,会話,投球,イベント コーパス具体例 実況一般 – ヤクルト二十三回戦、この甲子園球場… – 先頭バッターを打ち取りました 会話 – 速いですか – 文句なしの立ち上がりですね 投球 – 第一球を投げた イベント – 打ちました – 一、二塁間破った 実験 クリーン(書き起こし)テキストの識別 音声認識結果に対する識別 クリーンテキストの判別 AdaBoost – 弱識別器:unigram、bi-gramを素性 AdaBoostにより選択された素性例 タグ種別 実況一般 素性例 (unigram) の ます !ね まし 会話 ええ !た はい !球 投球 第 目 投げ !ね 打ち た !まし ごろ イベント 約450/3000語が識別に関与 キーワード クリーンテキストの判別 SVM – カーネル:2次の多項式カーネル – 特徴量:単語の頻度ベクトル 例)「第一球、投げました」 … 第一球 … 投げ … ました … 0 1 0 1 0 1 0 クリーンテキストの識別 10Foldの交差検定により評価 1 0.9 0.8 0.7 F 値 0.6 Ada(uni) 0.5 Ada(bi) 0.4 SVM 0.3 0.2 0.1 0 全体正解率 会話 実況一般 イベント 投球 実験 クリーン(書き起こし)テキストの判別 音声認識結果に対する判別 音声認識結果の識別 音響分析条件・HMM サンプリング周波数 特徴パラメータ フレーム長 フレーム周期 窓タイプ タイプ H 混合数 M 母音(V) M 子音+母音(CV) 音 響 分 析 条 件 16KHz MFCC(25次元) 20ms 10ms ハミング窓 244音節 32混合 5状態3ループ 7状態5ループ 音声認識結果の識別 実験条件 – 音響モデル: CSJベースに話者適応 – 言語モデル: 書き起こしから学習 未知語なし 言語モデル 音 響 モ デ ル Open Closed Open 0.65/0.80 73.4/0.85 Closed 70.4/0.84 78.3/0.88 単語正解精度 / キーワードF値 音声認識結果の識別 10Foldの交差検定により評価 1 0.9 0.8 0.7 F 値 0.6 Ada(uni) 0.5 Ada(bi) 0.4 SVM 0.3 0.2 0.1 0 全体正解率 会話 実況一般 イベント 投球 考察 メタタグ識別率 – 音声認識結果でも高い性能 – ただし、実況イベントでは大きく性能低下 音声認識性能が著しく低下するため – ブースティング・SVMは同程度の性能 学習はブースティングが高速 音声認識結果の識別 頑健性に対する評価実験 – 認識性能の低下に対する頑健性 音響・言語モデルのOpen/Closedを利用 – 未知語に対する頑健性 音声認識辞書からランダムに単語を削除 ただし、識別に関連しない単語に限定 識別には「未知語なし」のモデルを使用 音声認識結果の識別 単語正解精度とメタタグ正解率 0.9 0.8 0.7 0.6 0.5 認識結果で学習 0.4 クリーンテキストで学習 0.3 0.2 0.1 0 78.3% 0.88 73.4% 0.85 70.4% 0.84 65.0% 0.80 単語正解精度 キーワードF値 音声認識結果の識別 未知語率とメタタグ正解率・未知語適合率 0.90 0.80 適合率 / 正解率 0.70 0.60 0.50 未知語適合率 メタタグ正解率 0.40 0.30 0.20 0.10 0.00 10% 20% 30% 未知語率 40% 50% 考察 頑健性 – 単語正解精度の低下に頑健 キーワードのF値は高い – 未知語に対しても頑健 識別に関与しない単語がガベージの役割 キーワードに誤認識されても重みが低い まとめ ブースティングを用いてメタデータを作成 音声認識結果を利用 – 単語認識精度:65.0%において – メタタグ識別率0.84、個別タグのF値0.8~0.9 – 認識性能低下・未知語に対して頑健 今後の課題 – 実況イベント識別性能の改善 – 音声認識精度改善への適用 ネットワーク文法との比較 受理できないケース – ふふふ、こっちに来て – こっちに来てちょうだい – こっちに来てよ – こっちに来て……あれ? – こっちに、えーと、来て 素性ベースでは判別可能 ブースティングとSVMの比較 識別関数 – AdaBoost ください がある 1 とか がない T f ( x) t ht ( x) t 1 素性の有無で投票 – SVM N f ( x) i yi xiT x i 1 ht (x) 1 とか がある ください がない i :重み yi :ラベル xi :SVの特徴ベクトル 文章全体との類似度(内積)で投票 ブースティングとSVMの比較 SVM – 未知:「写真を撮ってとか」を識別したい … こっち 0 0 に 来て … 0 0 0 写真 を 撮って … とか … 1 1 1 0 1 0 – 学習:「こっちに来てとか」 雑談 … こっち 0 1 に 来て … 1 1 0 写真 を 撮って … とか … 0 0 0 0 1 0 類似度 1 – 学習:「写真を撮って」 システム要求 … こっち 0 0 に 来て … 0 0 0 写真 を 撮って … とか … 1 1 1 0 システム要求と誤識別 0 0 類似度 3 ブースティングとSVMの比較 素性ベースの場合 – 学習:「こっちに来てとか」 素性 来て 投票先 システム要求 重み 中 とか 雑談 大 – 未知:「写真を撮ってとか」 素性 写真 とか 投票先 システム要求 雑談 重み 中 大 ブースティングによる素性の学習 弱識別器 – Decision Stumps [Schapire’98] – 素性(単語・bi-gramなど)の有無で識別 例)「ください」がある システム要求 「とか」がない システム要求 「とか」がある 雑談 AdaBoostによる学習方法 – 最も精度のよい弱識別器を選択 – 識別誤りデータの重みを増やす 繰り返す 学習例 初期状態 ラベル -1 -1 +1 -1 +1 -1 +1 発話内容 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と こっち に 来 て ください ふふふ 来 た こっち おいでー あと 写真 を 撮っ て が ある なあ 写真 を 撮っ て 重み 0.14 0.14 0.14 0.14 0.14 0.14 0.14 学習例 「ください」がある +1 ラベル -1 -1 +1 -1 +1 -1 +1 h1 ( x) 1 0.46 発話内容 重み こっち 、 こっち で よかっ た っけ 0.1 こっち に 来 て 、 とか 言う と 0.1 こっち に 来 て ください 0.1 ふふふ 来 た 0.1 こっち おいでー 0.25 あと 写真 を 撮っ て が ある なあ 0.1 写真 を 撮っ て 0.25 学習例 「た」がない +1 ラベル -1 -1 +1 -1 +1 -1 +1 h2 ( x) 2 0.69 発話内容 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と こっち に 来 て ください ふふふ 来 た こっち おいでー あと 写真 を 撮っ て が ある なあ 写真 を 撮っ て 重み 0.06 0.25 0.06 0.06 0.16 0.25 0.16 学習例 「おいでー」がある +1 ラベル -1 -1 +1 -1 +1 -1 +1 h3 ( x) 3 0.64 発話内容 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と こっち に 来 て ください ふふふ 来 た こっち おいでー あと 写真 を 撮っ て が ある なあ 写真 を 撮っ て 重み 0.04 0.16 0.14 0.04 0.1 0.16 0.36 学習例 「とか」がない +1 ラベル -1 -1 +1 -1 +1 -1 +1 h4 ( x) 4 0.58 発話内容 こっち 、 こっち で よかっ た っけ こっち に 来 て 、 とか 言う と こっち に 来 て ください ふふふ 来 た こっち おいでー あと 写真 を 撮っ て が ある なあ 写真 を 撮っ て 重み 0.08 0.11 0.09 0.08 0.07 0.33 0.23
© Copyright 2025 ExpyDoc