中間発表 2006年 7月 - CS17 Ariki Laboratory, Kobe

ブースティングを用いた
野球実況中継に対するメタデータの作成
神戸大学大学院 自然科学研究科
佐古淳,滝口哲也,有木康雄
背景・目的

背景
– マルチメディアコンテンツの増大
– 検索や要約のための情報が必要
– スポーツが扱いやすくニーズも存在
野球実況中継のメタデータ生成
– 音声認識を利用
– ラジオ中継音声を利用

TV中継よりも情報が多い
目的

詳細なメタデータを生成
– 例)実況 or 解説者との会話
実況の中身(イベントの種類)など
– ラベルを付与し教師あり学習
認識結果からメタタグの種別を推定
– テキスト分類問題
– 認識誤りを含むテキスト
テキスト分類問題

分類手法
– Naïve Bayes
– Support Vector Machines など
– AdaBoostを用いたシステム要求識別


タスク:雑談を行いながら時々システムへ要求
適合率・再現率:ともに0.9以上
ブースティングを用いてメタデータ作成
ブースティング

ブースティングの概要
– 複数の識別器を組み合わせる手法
– 重み付き投票により識別
弱識別器
A > 0.5
Bがある
Bがない
…
true
0.5
false
C<5
…
クラス +1
クラス -1
用いる弱識別器と重みを学習
ブースティング

ブースティングによるテキスト分類
– Decision Stumps [Schapire 98]
単純・高速な手法
単語Aがある
true
単語Aがない
false
クラス +1
クラス -1
注目する単語と投票重みを学習
ブースティング

識別器の学習
+ AB
- CD
重み付き
分類誤り
最小化
+ ACE
+ AB
- CD
+ ACE
+ BC
Aがある
+
+ BC
- CE
を選択
- CE
コーパス
繰り返し
ブースティング

基本的には2値分類手法
 マルチクラスに拡張 (one-vs-rest)
識別器A
識別器B
識別器C
クラスA以外
クラスB以外
クラスC以外
クラスA
クラスB
クラスC
得票が最大のクラスを選択
比較手法

Support Vector Machines (SVM)
– 文章ベースによる判別
(入力とSVの特徴ベクトル全体の内積ベース)
x2
マージン最大化
+
x1
コーパス

仕様
– ラジオ実況中継音声
– 約2200発話(句点で分割)
– 発話時間:1時間半
– 異なり単語数:約3000
– メタタグ情報の種類:21種類

主なタグ:実況一般,会話,投球,イベント
コーパス具体例

実況一般
– ヤクルト二十三回戦、この甲子園球場…
– 先頭バッターを打ち取りました

会話
– 速いですか
– 文句なしの立ち上がりですね

投球
– 第一球を投げた

イベント
– 打ちました
– 一、二塁間破った
実験
クリーン(書き起こし)テキストの識別
音声認識結果に対する識別
クリーンテキストの判別

AdaBoost
– 弱識別器:unigram、bi-gramを素性

AdaBoostにより選択された素性例
タグ種別
実況一般
素性例 (unigram)
の
ます
!ね
まし
会話
ええ
!た
はい
!球
投球
第
目
投げ
!ね
打ち
た
!まし
ごろ
イベント
約450/3000語が識別に関与  キーワード
クリーンテキストの判別

SVM
– カーネル:2次の多項式カーネル
– 特徴量:単語の頻度ベクトル
例)「第一球、投げました」
… 第一球 … 投げ … ました …
0
1
0
1
0
1
0
クリーンテキストの識別

10Foldの交差検定により評価
1
0.9
0.8
0.7
F
値
0.6
Ada(uni)
0.5
Ada(bi)
0.4
SVM
0.3
0.2
0.1
0
全体正解率
会話
実況一般
イベント
投球
実験
クリーン(書き起こし)テキストの判別
音声認識結果に対する判別
音声認識結果の識別

音響分析条件・HMM
サンプリング周波数
特徴パラメータ
フレーム長
フレーム周期
窓タイプ
タイプ
H 混合数
M
母音(V)
M
子音+母音(CV)
音
響
分
析
条
件
16KHz
MFCC(25次元)
20ms
10ms
ハミング窓
244音節
32混合
5状態3ループ
7状態5ループ
音声認識結果の識別

実験条件
– 音響モデル: CSJベースに話者適応
– 言語モデル: 書き起こしから学習

未知語なし
言語モデル
音
響
モ
デ
ル
Open
Closed
Open
0.65/0.80 73.4/0.85
Closed
70.4/0.84
78.3/0.88
単語正解精度 / キーワードF値
音声認識結果の識別

10Foldの交差検定により評価
1
0.9
0.8
0.7
F
値
0.6
Ada(uni)
0.5
Ada(bi)
0.4
SVM
0.3
0.2
0.1
0
全体正解率
会話
実況一般
イベント
投球
考察

メタタグ識別率
– 音声認識結果でも高い性能
– ただし、実況イベントでは大きく性能低下
 音声認識性能が著しく低下するため
– ブースティング・SVMは同程度の性能

学習はブースティングが高速
音声認識結果の識別

頑健性に対する評価実験
– 認識性能の低下に対する頑健性

音響・言語モデルのOpen/Closedを利用
– 未知語に対する頑健性

音声認識辞書からランダムに単語を削除
ただし、識別に関連しない単語に限定

識別には「未知語なし」のモデルを使用

音声認識結果の識別

単語正解精度とメタタグ正解率
0.9
0.8
0.7
0.6
0.5
認識結果で学習
0.4
クリーンテキストで学習
0.3
0.2
0.1
0
78.3%
0.88
73.4%
0.85
70.4%
0.84
65.0%
0.80
単語正解精度
キーワードF値
音声認識結果の識別
未知語率とメタタグ正解率・未知語適合率
0.90
0.80
適合率 / 正解率

0.70
0.60
0.50
未知語適合率
メタタグ正解率
0.40
0.30
0.20
0.10
0.00
10%
20%
30%
未知語率
40%
50%
考察

頑健性
– 単語正解精度の低下に頑健
 キーワードのF値は高い
– 未知語に対しても頑健
 識別に関与しない単語がガベージの役割
キーワードに誤認識されても重みが低い
まとめ


ブースティングを用いてメタデータを作成
音声認識結果を利用
– 単語認識精度:65.0%において
– メタタグ識別率0.84、個別タグのF値0.8~0.9
– 認識性能低下・未知語に対して頑健

今後の課題
– 実況イベント識別性能の改善
– 音声認識精度改善への適用
ネットワーク文法との比較

受理できないケース
– ふふふ、こっちに来て
– こっちに来てちょうだい
– こっちに来てよ
– こっちに来て……あれ?
– こっちに、えーと、来て
素性ベースでは判別可能
ブースティングとSVMの比較

識別関数
– AdaBoost
ください がある
 1 とか
がない
T
f ( x)    t ht ( x)
t 1
素性の有無で投票
– SVM
N
f ( x)   i yi xiT x
i 1
ht (x)
 1 とか
がある
ください がない
i :重み
yi :ラベル
xi :SVの特徴ベクトル
文章全体との類似度(内積)で投票
ブースティングとSVMの比較

SVM
– 未知:「写真を撮ってとか」を識別したい
…
こっち
0
0
に 来て …
0
0
0
写真 を 撮って … とか …
1
1
1
0
1
0
– 学習:「こっちに来てとか」 雑談
…
こっち
0
1
に 来て …
1
1
0
写真 を 撮って … とか …
0
0
0
0
1
0
類似度
1
– 学習:「写真を撮って」 システム要求
…
こっち
0
0
に 来て …
0
0
0
写真 を 撮って … とか …
1
1
1
0
システム要求と誤識別
0
0
類似度
3
ブースティングとSVMの比較

素性ベースの場合
– 学習:「こっちに来てとか」
素性
来て
投票先
システム要求
重み
中
とか
雑談
大
– 未知:「写真を撮ってとか」
素性
写真
とか
投票先
システム要求
雑談
重み
中
大
ブースティングによる素性の学習

弱識別器
– Decision Stumps [Schapire’98]
– 素性(単語・bi-gramなど)の有無で識別


例)「ください」がある  システム要求
「とか」がない  システム要求
「とか」がある  雑談
AdaBoostによる学習方法
– 最も精度のよい弱識別器を選択
– 識別誤りデータの重みを増やす
繰り返す
学習例

初期状態
ラベル
-1
-1
+1
-1
+1
-1
+1
発話内容
こっち 、 こっち で よかっ た っけ
こっち に 来 て 、 とか 言う と
こっち に 来 て ください
ふふふ 来 た
こっち おいでー
あと 写真 を 撮っ て が ある なあ
写真 を 撮っ て
重み
0.14
0.14
0.14
0.14
0.14
0.14
0.14
学習例

「ください」がある  +1
ラベル
-1
-1
+1
-1
+1
-1
+1
h1 ( x)
1  0.46
発話内容
重み
こっち 、 こっち で よかっ た っけ 0.1
こっち に 来 て 、 とか 言う と
0.1
こっち に 来 て ください
0.1
ふふふ 来 た
0.1
こっち おいでー
0.25
あと 写真 を 撮っ て が ある なあ
0.1
写真 を 撮っ て
0.25
学習例

「た」がない  +1
ラベル
-1
-1
+1
-1
+1
-1
+1
h2 ( x)  2  0.69
発話内容
こっち 、 こっち で よかっ た っけ
こっち に 来 て 、 とか 言う と
こっち に 来 て ください
ふふふ 来 た
こっち おいでー
あと 写真 を 撮っ て が ある なあ
写真 を 撮っ て
重み
0.06
0.25
0.06
0.06
0.16
0.25
0.16
学習例

「おいでー」がある  +1
ラベル
-1
-1
+1
-1
+1
-1
+1
h3 ( x) 3  0.64
発話内容
こっち 、 こっち で よかっ た っけ
こっち に 来 て 、 とか 言う と
こっち に 来 て ください
ふふふ 来 た
こっち おいでー
あと 写真 を 撮っ て が ある なあ
写真 を 撮っ て
重み
0.04
0.16
0.14
0.04
0.1
0.16
0.36
学習例

「とか」がない  +1
ラベル
-1
-1
+1
-1
+1
-1
+1
h4 ( x)  4  0.58
発話内容
こっち 、 こっち で よかっ た っけ
こっち に 来 て 、 とか 言う と
こっち に 来 て ください
ふふふ 来 た
こっち おいでー
あと 写真 を 撮っ て が ある なあ
写真 を 撮っ て
重み
0.08
0.11
0.09
0.08
0.07
0.33
0.23