トピックモデルとタスクの知識を用いた 言語モデルによる野球実況中継の構造化 神戸大学大学院 自然科学研究科 佐古淳,滝口哲也,有木康雄 背景・目的 背景 – マルチメディアコンテンツの増大 – 検索や要約のための情報が必要 – スポーツが扱いやすくニーズも存在 野球実況中継の構造化 – 音声認識を利用 – ラジオ中継音声を利用 TV中継よりも情報が多い システム概要 ラジオ音声 音声認識 投げました。ボール。ファールボール。 ……。投げた、空振り三振。…… 構造化 1st top 0S 0B 1S 2S 1B 1 out 0S 0B 1S 1B 構造情報 0 out 問題点 ラジオ音声 音声認識 投げました。ボール。ファールボール。 ……。投げた、空振り三振。…… – 音声認識性能 音響・言語モデル適応済み 単語正解精度65.0% フォアボール 誤認識 音声認識性能の向上 誤認識への対応(タスクの知識を利用) が必要 提案手法 従来の提案 – 状況と単語を同時推定する音声認識 タスク知識を利用 状況の推定により構造化可能 単語誤りの改善はキーワードのみに限定 – 話題遷移を考慮した言語モデル 全体的な単語誤りの改善 構造化のための仕組みなし 従来の2手法の統合 従来手法 状況と単語を同時推定する音声認識 話題遷移を考慮した言語モデル 状況と単語を同時推定する音声認識 単語系列Wと状況系列Sを同時推定 ※観測音声O P(O | W , S ) P(W , S ) ˆ ˆ ( S ,W ) arg max P(W , S | O) arg max P(O) ( S ,W ) ( S ,W ) i 1 i 1 i 1 i ˆ ˆ (S ,W ) arg maxP(O | W , S ) P(si | s1 w1 ) P(wi | w1 s1 ) ( S ,W ) i 近似 ˆ ˆ (S ,W ) arg maxP(O | W , S ) P(si | si 1wi 1wi N ) P(wi | wi 1si ) ( S ,W ) i 状況依存 音響モデル 状況遷移 モデル 状況依存 言語モデル 状況と単語を同時推定する音声認識 単語系列Wと状況系列Sを同時推定 ˆ ˆ (S ,W ) arg maxP(O | W , S ) P(si | si 1wi 1wi N ) P(wi | wi 1si ) ( S ,W ) i 状況依存言語モデル wi 1 wi wi 1 si 1 si si 1 状況遷移の制約 (ルール等) 状況と単語を同時推定する音声認識 ファールボール をフォアボール と誤認識 三振! – 「三振」と認識 遷移確率0 – 「阪神」と認識 言語尤度低下 wi 1 wi wi 1 si 1 si si 1 次のバッター 状況と単語を同時推定する音声認識 利点 – タスク知識を利用して誤認識を回復 – 状況を推定する機構(構造化可能) 欠点 – 改善はキーワードに限定 (フォアボール・ファールボール・三振など) – 人手によるラベルの付与が必要 従来手法 状況と単語を同時推定する音声認識 話題遷移を考慮した言語モデル 話題遷移を考慮した言語モデル 目的 – 話題毎の特徴を表現した言語モデル – 話題間の遷移確率 言語 モデル 野球中継 発話内容がある程度固定 発話順序に偏り 話題のクラスタリング クラスター間の遷移確率 Ergodic HMM 話題遷移を考慮した言語モデル 従来手法 – Stochastic Switching N-gram [長野ら,02] 言語 モデル – EMアルゴリズムを用いて学習 – 複数言語モデル – 言語モデル間の遷移確率 – 出現単語ベースで学習 潜在的な話題を考慮した モデルを提案 Ergodic HMM 話題遷移を考慮した言語モデル PLSA [hoffman,1999] – 文書を構成する潜在トピックを学習 – 潜在トピック毎の単語unigram確率を学習 例:W杯、経済効果、Webサイトについての記事 P(w | d ) P(w | z) P( z | d ) 情報 zZ サッカー 経済 d: 文書 w: 単語 z: 潜在トピック P( w | z ) :潜在トピックにおけるunigram確率 P( z | d ) :文書に含まれる潜在トピックの割合 話題遷移を考慮した言語モデル 話題モデルの学習 学習コーパス P( z1 | d1 ) P( z2 | d1 ) P( zT | d1 ) P( z1 | d 2 ) P( z2 | d 2 ) P( zT | d 2 ) P( z1 | di ) P( z2 | di ) 文書 (発話) P( zT | di ) 文書iにおける 特徴ベクトル P( z1 | d i ) xi P( z | d ) T i 話題遷移を考慮した言語モデル Topic HMM P( z1 | d i ) xi P( z | d ) T i 特徴ベクトル: pLSAにより分析した 各文書の潜在トピック HMM: P( x1 xN ) P( x1 xN s1 sN ) S N P( s1 ) P( x1 | s1 ) P( si | si 1 ) P( xi | si ) S 1イニングの表裏を 1サンプルとして学習 i 2 潜在トピック 話題遷移確率 出力確率 話題遷移を考慮した言語モデル 潜在トピック出力確率 各話題における出力確率は 平均の出力確率で代表 zT 話題1 P( z | di ) z2 話題2 P( xi | s2 ) 話題K z1 1 , xi ( si ) (平均) P( xi | si ) 0 , otherwise (si )は T P ( z1 | si ) xi P( z | s ) T i P( z t 1 t | si ) 1 となるよう正規化 話題遷移を考慮した言語モデル 言語モデル適応 P(W ) P( w1 wt , s1 st ) S t P( s1 ) P( w1 | s1 ) P ( si | s1i 1w1i 1 ) P ( wi | w1i 1s1i ) i 2 S t max P( si | si 1 ) P( wi | wi 1wi 2 si ) S i 1 unigram rescaling [gildea,99] P( wi | si ) P( wi | wi 1wi 2 , si ) P( wi | wi 1wi 2 ) P( wi ) pLSA P(w | d ) P(w | z) P( z | d ) zZ P(w | si ) P(w | z) P( z | si ) zZ pLSA Topic HMM 話題遷移を考慮した言語モデル unigram rescaling P( wi | si ) P( wi | wi 1 , si ) P( wi | wi 1 ) P( wi ) wi 1 wi P( wi | si ) T P( w | z ) P( z t 1 si 1 i t t | si ) si 話題遷移確率 潜在トピック P ( z1 | si ) xi P( z | s ) T i 話題遷移を考慮した言語モデル 利点 – 多くの単語について認識誤りが改善 – ラベルの付与が必要ない 欠点 – 知識を用いないため構造化不可能 提案手法 従来の2手法を統合 – 定式化 P(W , S ) P( w1 wt , s1 st , k1 kt ) K P( s1 ) P (k1 | s1 ) P( w1 | s1k1 ) K t P( si | s1i 1w1i 1k1i 1 ) P(ki | w1i 1s1i k1i 1 ) P( wi | w1i 1s1i k1i ) i 2 t max P( si | si 1wii1M 1 ) P(ki | ki 1si ) P( wi | wii12 si ki ) K i 1 提案手法 従来の2手法の統合 wi 1 wi ki 1 ki si 1 si – 状況毎に話題遷移 モデルを作成 – 近似 w:単語 k:話題 s:状況 提案手法 認識の手順 通常の音声認識 N-Best出力 話題毎にunigram rescaling 状況毎にリスコアリング 実験 4手法での比較 – 通常の音声認識 – 状況と単語を同時推定する音声認識 – 話題遷移を考慮した言語モデル – 2手法を統合した音声認識 評価 – 単語正解精度 – キーワード検出のF値 – 構造化正解率(投球毎に判定) 実験条件 音響分析条件・HMM サンプリング周波数 特徴パラメータ フレーム長 フレーム周期 窓タイプ タイプ H 混合数 M 母音(V) M 子音+母音(CV) 音 響 分 析 条 件 16KHz MFCC(25次元) 20ms 10ms ハミング窓 244音節 32混合 5状態3ループ 7状態5ループ 実験条件 音響モデル: CSJベースに話者適応 言語モデル: 書き起こしから学習 – 未知語なし 音声データ – ラジオ実況中継音声 – 発話時間:1時間半 – 異なり単語数:約3000 潜在トピック数:70 トピックHMM状態数:30 実験結果 単語Acc. Key F値 構造化 通常音声認識 65.0% 74.4% - 状況音声認識 65.1% 74.9% 70.3% 話題遷移 65.7% 75.2% - 統合手法 65.7% 75.5% 72.8% 考察 改善例 – 話題依存言語モデルの効果? 従来:浅井 に 六 の その が 出 まし た 提案:浅井 に 六 号 ソロ が 出 まし た – 話題遷移確率の効果? 前発話:バッター 多村 に 一 球 目 を 投げ まし た 従来:多村 厘 提案:空振り まとめ 野球中継の構造化 – 構造化正解率:72.8% 従来の2手法を統合 – 状況と単語を同時推定する音声認識 – 話題遷移を考慮した言語モデル – 統合により構造化正解率が改善
© Copyright 2024 ExpyDoc