中間発表 2006年 7月

トピックモデルとタスクの知識を用いた
言語モデルによる野球実況中継の構造化
神戸大学大学院 自然科学研究科
佐古淳,滝口哲也,有木康雄
背景・目的

背景
– マルチメディアコンテンツの増大
– 検索や要約のための情報が必要
– スポーツが扱いやすくニーズも存在
野球実況中継の構造化
– 音声認識を利用
– ラジオ中継音声を利用

TV中継よりも情報が多い
システム概要
ラジオ音声
音声認識
投げました。ボール。ファールボール。
……。投げた、空振り三振。……
構造化
1st top
0S
0B
1S 2S
1B
1 out
0S
0B
1S
1B
構造情報
0 out
問題点
ラジオ音声
音声認識
投げました。ボール。ファールボール。
……。投げた、空振り三振。……
– 音声認識性能
 音響・言語モデル適応済み
 単語正解精度65.0%
フォアボール
誤認識
音声認識性能の向上
誤認識への対応(タスクの知識を利用)
が必要
提案手法

従来の提案
– 状況と単語を同時推定する音声認識



タスク知識を利用
状況の推定により構造化可能
単語誤りの改善はキーワードのみに限定
– 話題遷移を考慮した言語モデル


全体的な単語誤りの改善
構造化のための仕組みなし
従来の2手法の統合
従来手法
状況と単語を同時推定する音声認識
話題遷移を考慮した言語モデル
状況と単語を同時推定する音声認識

単語系列Wと状況系列Sを同時推定
※観測音声O
P(O | W , S ) P(W , S )
ˆ
ˆ
( S ,W )  arg max P(W , S | O)  arg max
P(O)
( S ,W )
( S ,W )

i 1 i 1
i 1 i 
ˆ
ˆ
(S ,W )  arg maxP(O | W , S )   P(si | s1 w1 ) P(wi | w1 s1 )
( S ,W ) 
i

近似


ˆ
ˆ
(S ,W )  arg maxP(O | W , S )   P(si | si 1wi 1wi  N ) P(wi | wi 1si )
( S ,W ) 
i

状況依存
音響モデル
状況遷移
モデル
状況依存
言語モデル
状況と単語を同時推定する音声認識

単語系列Wと状況系列Sを同時推定


ˆ
ˆ
(S ,W )  arg maxP(O | W , S )   P(si | si 1wi 1wi  N ) P(wi | wi 1si )
( S ,W ) 
i

状況依存言語モデル
wi 1
wi
wi 1
si 1
si
si 1
状況遷移の制約
(ルール等)
状況と単語を同時推定する音声認識
ファールボール
をフォアボール
と誤認識
三振!
– 「三振」と認識
遷移確率0
– 「阪神」と認識
言語尤度低下
wi 1
wi
wi 1
si 1
si
si 1
次のバッター
状況と単語を同時推定する音声認識

利点
– タスク知識を利用して誤認識を回復
– 状況を推定する機構(構造化可能)

欠点
– 改善はキーワードに限定
(フォアボール・ファールボール・三振など)
– 人手によるラベルの付与が必要
従来手法
状況と単語を同時推定する音声認識
話題遷移を考慮した言語モデル
話題遷移を考慮した言語モデル

目的
– 話題毎の特徴を表現した言語モデル
– 話題間の遷移確率
言語
モデル
野球中継
発話内容がある程度固定
発話順序に偏り
話題のクラスタリング
クラスター間の遷移確率
Ergodic HMM
話題遷移を考慮した言語モデル

従来手法
– Stochastic Switching N-gram [長野ら,02]
言語
モデル
– EMアルゴリズムを用いて学習
– 複数言語モデル
– 言語モデル間の遷移確率
– 出現単語ベースで学習
潜在的な話題を考慮した
モデルを提案
Ergodic HMM
話題遷移を考慮した言語モデル

PLSA [hoffman,1999]
– 文書を構成する潜在トピックを学習
– 潜在トピック毎の単語unigram確率を学習
例:W杯、経済効果、Webサイトについての記事
P(w | d )   P(w | z) P( z | d )
情報
zZ
サッカー
経済
d: 文書
w: 単語
z: 潜在トピック
P( w | z )
:潜在トピックにおけるunigram確率
P( z | d )
:文書に含まれる潜在トピックの割合
話題遷移を考慮した言語モデル

話題モデルの学習
学習コーパス
P( z1 | d1 ) P( z2 | d1 )

P( zT | d1 )
P( z1 | d 2 ) P( z2 | d 2 )

P( zT | d 2 )


P( z1 | di ) P( z2 | di )

文書
(発話)



P( zT | di )

文書iにおける
特徴ベクトル
 P( z1 | d i ) 


xi  


 P( z | d ) 
T
i 

話題遷移を考慮した言語モデル

Topic HMM
 P( z1 | d i ) 


xi  


 P( z | d ) 
T
i 

特徴ベクトル:
pLSAにより分析した
各文書の潜在トピック
HMM:
P( x1  xN )   P( x1  xN s1  sN )
S
N
  P( s1 ) P( x1 | s1 ) P( si | si 1 ) P( xi | si )
S
1イニングの表裏を
1サンプルとして学習
i 2
潜在トピック
話題遷移確率
出力確率
話題遷移を考慮した言語モデル

潜在トピック出力確率
各話題における出力確率は
平均の出力確率で代表
zT 話題1
P( z | di )
z2
話題2
P( xi | s2 )
話題K
z1
 1 , xi   ( si ) (平均)
P( xi | si ) 
 0 , otherwise
 (si )は
T
 P ( z1 | si ) 


xi  


 P( z | s ) 
T
i 

 P( z
t 1
t
| si )  1
となるよう正規化
話題遷移を考慮した言語モデル

言語モデル適応
P(W )   P( w1  wt , s1  st )
S
t
  P( s1 ) P( w1 | s1 ) P ( si | s1i 1w1i 1 ) P ( wi | w1i 1s1i )
i 2
S
t
 max P( si | si 1 ) P( wi | wi 1wi  2 si )
S
i 1
unigram rescaling [gildea,99]
P( wi | si )
P( wi | wi 1wi 2 , si ) 
P( wi | wi 1wi 2 )
P( wi )
pLSA
P(w | d )   P(w | z) P( z | d )
zZ
P(w | si )   P(w | z) P( z | si )
zZ
pLSA Topic HMM
話題遷移を考慮した言語モデル
unigram rescaling
P( wi | si )
P( wi | wi 1 , si ) 
P( wi | wi 1 )
P( wi )
wi 1
wi
P( wi | si ) 
T
 P( w | z ) P( z
t 1
si 1
i
t
t
| si )
si
話題遷移確率
潜在トピック
 P ( z1 | si ) 


xi  


 P( z | s ) 
T
i 

話題遷移を考慮した言語モデル

利点
– 多くの単語について認識誤りが改善
– ラベルの付与が必要ない

欠点
– 知識を用いないため構造化不可能
提案手法

従来の2手法を統合
– 定式化
P(W , S )   P( w1  wt , s1  st , k1  kt )
K
  P( s1 ) P (k1 | s1 ) P( w1 | s1k1 )
K
t
  P( si | s1i 1w1i 1k1i 1 ) P(ki | w1i 1s1i k1i 1 ) P( wi | w1i 1s1i k1i )
i 2
t
 max P( si | si 1wii1M 1 ) P(ki | ki 1si ) P( wi | wii12 si ki )
K
i 1
提案手法

従来の2手法の統合
wi 1
wi
ki 1
ki
si 1
si
– 状況毎に話題遷移
モデルを作成
–  近似
w:単語
k:話題
s:状況
提案手法

認識の手順
通常の音声認識
N-Best出力
話題毎にunigram rescaling
状況毎にリスコアリング
実験

4手法での比較
– 通常の音声認識
– 状況と単語を同時推定する音声認識
– 話題遷移を考慮した言語モデル
– 2手法を統合した音声認識

評価
– 単語正解精度
– キーワード検出のF値
– 構造化正解率(投球毎に判定)
実験条件

音響分析条件・HMM
サンプリング周波数
特徴パラメータ
フレーム長
フレーム周期
窓タイプ
タイプ
H 混合数
M
母音(V)
M
子音+母音(CV)
音
響
分
析
条
件
16KHz
MFCC(25次元)
20ms
10ms
ハミング窓
244音節
32混合
5状態3ループ
7状態5ループ
実験条件


音響モデル: CSJベースに話者適応
言語モデル: 書き起こしから学習
– 未知語なし

音声データ
– ラジオ実況中継音声
– 発話時間:1時間半
– 異なり単語数:約3000


潜在トピック数:70
トピックHMM状態数:30
実験結果
単語Acc. Key F値
構造化
通常音声認識
65.0%
74.4%
-
状況音声認識
65.1%
74.9%
70.3%
話題遷移
65.7%
75.2%
-
統合手法
65.7%
75.5% 72.8%
考察

改善例
– 話題依存言語モデルの効果?


従来:浅井 に 六 の その が 出 まし た
提案:浅井 に 六 号 ソロ が 出 まし た
– 話題遷移確率の効果?



前発話:バッター 多村 に 一 球 目 を 投げ まし た
従来:多村 厘
提案:空振り
まとめ

野球中継の構造化
– 構造化正解率:72.8%

従来の2手法を統合
– 状況と単語を同時推定する音声認識
– 話題遷移を考慮した言語モデル
– 統合により構造化正解率が改善