中間発表 2006年 7月

ブースティングとキーワードフィルタリング
によるシステム要求検出
神戸大学大学院自然科学研究科
佐古淳，滝口哲也，有木康雄
背景・目的

音声による機器の操作
– ロボット・カーナビなど

雑談に反応してシステムが誤動作
– スイッチを用いた音声入力制御
– 使いにくい・音声を使うメリットが減少
スイッチレスで
自動的にシステム要求と雑談を判別
目的

システム要求と雑談の判別
「どうやって
「こっちに、
動かすの？」
えーと、来て」
「こっちに来て」
って言うと動くよ
……
了解
従来手法

キーワード・スポッティング
ネットワーク文法
ガベージ・モデル

問題点
– 柔軟な表現の受理が困難
 単語ベース
– ネットワークの構築コスト
 自動的に学習
– ガベージ・モデルの構築方法
単語ベースでの要求検出

単語ベースで受理（検出）
– 「えーこっちに来てちょうだい」
– 「こっちにえーと来て」

問題点
– 「こっちに来てって言うと」
– わき出しに弱い
提案手法

単語ベースで受理＋拒否
– えーこっちに来てちょうだい
– こっちにえーと来て
– こっちに来てって言うと
投票
システム要求
雑談
単語による要求・雑談への重み付き投票で判別
– どの単語を用いるか－投票の重みは？
ブースティングにより学習
ブースティング

ブースティングによるテキスト分類
– Decision Stumps [Schapire,98]
単語ベースの単純・高速な手法
単語Ａがある
true
単語Ａがない
false
システム要求
雑談
注目する単語と投票重みをコーパスから学習
コーパス

収録環境
– ２人とロボットが存在
– 人同士で会話しながら任意にシステム要求
– マイクは発話者２人の胸元に設置
– コマンドは８種
– 異なり単語数：約700語

規模
– １時間程度（実質発話時間は20分程度）
– 切り出し後にラベル付与
– 330発話（うち49発話がシステム要求）
コーパス

具体例
ラベル
-1
-1
+1
-1
+1
-1
+1
+1：システム要求
-1：雑談
発話内容
こっち、こっちでよかったっけ
こっちに来て、とか言うと
こっちに来てください
ふふふ来た
こっちおいでー
あと写真を撮ってがあるなあ
写真を撮って
実験
音声認識結果に対する要求検出
音声認識結果の判別

音響分析条件・HMM
サンプリング周波数
特徴パラメータ
フレーム長
フレーム周期
窓タイプ
タイプ
H 混合数
M
母音(V)
M
子音＋母音(CV)
音
響
分
析
条
件
16KHz
MFCC(25次元)
20ms
10ms
ハミング窓
244音節
32混合
5状態3ループ
7状態5ループ
音声認識結果の判別

実験条件
– 音響モデル: CSJベースにMLLR+MAP適応
– 言語モデル: 書き起こしから学習


未知語なし（語彙数700語）
話者Aの認識に、話者Bのモデルを利用
– 認識結果


単語正解精度：42.1%
キーワードF値：0.76
音声認識結果の判別

AdaBoostにより選択された素性語例
素性語例（キーワード）
システム
要
求
ください写真来て
おいで場所止まっ
雑
でたら
とかの
談
んって
あーよ
素性語数：約40語
／700語
向こう
がない
ちょっと
音声認識結果の判別

実験結果
– Leave-one-out 法により実験
– 結果はF値が最大のケース
適合率
再現率
F値
unigram
0.92
0.92
0.92
bi-gram
0.94
0.92
0.93
高精度に判別可能
従来手法

キーワード・スポッティング
ネットワーク文法
ガベージ・モデル


問題点
問題点
–
– 柔軟な表現の受理が困難
柔軟な表現の受理が困難
– ネットワーク文法の構築コスト
– ネットワーク文法の構築コスト
– ガベージ・モデルの構築方法
– ガベージ・モデルの構築方法
キーワード・フィルタリング

ブースティングによる学習の結果……
システム要求素性
雑談素性
約20語
約20語
ガベージ・モデル
語彙全体
約660語
– 未知語発話時……



ガベージ単語と認識
：判別に影響無し
雑談素性と認識
：問題低
システム要求素性と認識：問題あり
未知語を含む要求検出
– 辞書から単語を削除（キーワード以外）
要求検出Ｆ値
1
0.9
0.8
0.7
F 0.6
値 0.5
0.4
0.3
0.2
未知語がある場合でも頑健に動作
0.1
0
10% 20%
30%
40%
50%
辞書未知語率
まとめ


システム要求と雑談の判別
音声認識結果（言語情報）を利用
– 単語認識精度：42.1%において
– 適合率：0.94 再現率：0.92 F値：0.93
– 未知語に対しても頑健に動作

今後の課題
– タスクの規模・難易度の向上
– 言語のみで判別不能なケースへの対応

Download Report