中間発表 2006年 7月

ブースティングとキーワードフィルタリング
によるシステム要求検出
神戸大学大学院 自然科学研究科
佐古淳,滝口哲也,有木康雄
背景・目的

音声による機器の操作
– ロボット・カーナビなど

雑談に反応してシステムが誤動作
– スイッチを用いた音声入力制御
– 使いにくい・音声を使うメリットが減少
スイッチレスで
自動的にシステム要求と雑談を判別
目的

システム要求と雑談の判別
「どうやって
「こっちに、
動かすの?」
えーと、来て」
「こっちに来て」
って言うと動くよ
……
了解
従来手法

キーワード・スポッティング
ネットワーク文法
ガベージ・モデル

問題点
– 柔軟な表現の受理が困難
 単語ベース
– ネットワークの構築コスト
 自動的に学習
– ガベージ・モデルの構築方法
単語ベースでの要求検出

単語ベースで受理(検出)
– 「えー こっちに 来て ちょうだい」
– 「こっちに えーと 来て」

問題点
– 「こっちに 来て って言うと」
– わき出しに弱い
提案手法

単語ベースで受理+拒否
– えー こっちに 来て ちょうだい
– こっちに えーと 来て
– こっちに 来て って言うと
投票
システム要求
雑談
単語による要求・雑談への重み付き投票で判別
– どの単語を用いるか - 投票の重みは?
ブースティングにより学習
ブースティング

ブースティングによるテキスト分類
– Decision Stumps [Schapire,98]
単語ベースの単純・高速な手法
単語Aがある
true
単語Aがない
false
システム要求
雑談
注目する単語と投票重みをコーパスから学習
コーパス

収録環境
– 2人とロボットが存在
– 人同士で会話しながら任意にシステム要求
– マイクは発話者2人の胸元に設置
– コマンドは8種
– 異なり単語数:約700語

規模
– 1時間程度(実質発話時間は20分程度)
– 切り出し後にラベル付与
– 330発話(うち49発話がシステム要求)
コーパス

具体例
ラベル
-1
-1
+1
-1
+1
-1
+1
+1:システム要求
-1:雑談
発話内容
こっち 、 こっち で よかっ た っけ
こっち に 来 て 、 とか 言う と
こっち に 来 て ください
ふふふ 来 た
こっち おいでー
あと 写真 を 撮っ て が ある なあ
写真 を 撮っ て
実験
音声認識結果に対する要求検出
音声認識結果の判別

音響分析条件・HMM
サンプリング周波数
特徴パラメータ
フレーム長
フレーム周期
窓タイプ
タイプ
H 混合数
M
母音(V)
M
子音+母音(CV)
音
響
分
析
条
件
16KHz
MFCC(25次元)
20ms
10ms
ハミング窓
244音節
32混合
5状態3ループ
7状態5ループ
音声認識結果の判別

実験条件
– 音響モデル: CSJベースにMLLR+MAP適応
– 言語モデル: 書き起こしから学習


未知語なし(語彙数700語)
話者Aの認識に、話者Bのモデルを利用
– 認識結果


単語正解精度:42.1%
キーワードF値:0.76
音声認識結果の判別

AdaBoostにより選択された素性語例
素性語例(キーワード)
システム
要
求
ください 写真 来て
おいで 場所 止まっ
雑
で たら
とか の
談
ん って
あー よ
素性語数:約40語
/700語
向こう
が ない
ちょっと
音声認識結果の判別

実験結果
– Leave-one-out 法により実験
– 結果はF値が最大のケース
適合率
再現率
F値
unigram
0.92
0.92
0.92
bi-gram
0.94
0.92
0.93
高精度に判別可能
従来手法

キーワード・スポッティング
ネットワーク文法
ガベージ・モデル


問題点
問題点
–
– 柔軟な表現の受理が困難
柔軟な表現の受理が困難
– ネットワーク文法の構築コスト
– ネットワーク文法の構築コスト
– ガベージ・モデルの構築方法
– ガベージ・モデルの構築方法
キーワード・フィルタリング

ブースティングによる学習の結果……
システム要求素性
雑談素性
約20語
約20語
ガベージ・モデル
語彙全体
約660語
– 未知語発話時……



ガベージ単語と認識
:判別に影響無し
雑談素性と認識
:問題低
システム要求素性と認識:問題あり
未知語を含む要求検出
– 辞書から単語を削除(キーワード以外)
要求検出F値
1
0.9
0.8
0.7
F 0.6
値 0.5
0.4
0.3
0.2
未知語がある場合でも頑健に動作
0.1
0
10% 20%
30%
40%
50%
辞書未知語率
まとめ


システム要求と雑談の判別
音声認識結果(言語情報)を利用
– 単語認識精度:42.1%において
– 適合率:0.94 再現率:0.92 F値:0.93
– 未知語に対しても頑健に動作

今後の課題
– タスクの規模・難易度の向上
– 言語のみで判別不能なケースへの対応