音声対話システムへの応用のための

音声対話システムのための
間投詞的応答の認識
小林研究室
修士2年三宅梨帆
研究背景
人同士の対話
例 A：回鍋肉なら、
B：
肉がいっぱい食べられるよ
はい
Bが近いかを尋ねる
A：コズミックスポーツセンターの隣、のところにある。
B：
あ、近いですね
A：探せばいっぱいあると思うんですけど。探せばありそうですけど
B：
ん
これらの短い発話（間投詞的応答）によって、自分の状態を
相手に伝えている
円滑な対話の進行に寄与
研究目的

目的


ユーザの「はい」「うん」「ええと」「え」「あ」などの
間投詞的応答からユーザの態度を識別すること
により円滑に対話を進行するシステムの構築
行ったこと



実際の対話を観察し、対話システムの振舞い決
定に役立ちそうな識別する態度を決定
韻律情報、音韻情報用いて識別
2つの識別器を統合
識別する対象

対話システムの振舞い決定に有効と思われる以下
の3つの観点について態度の識別を行う

次にシステム/ユーザのどちらが話すか



発話内容を理解しているかどうか



システムの話し始めるタイミングの決定、ユーザの割込み受付に
利用
識別クラス：「システムが発話」
「ユーザが発話」
理解できていれば話を続け、出来ていなければ詳細説明
識別クラス：「理解している」「理解していない」
システムの発話により理解状態が変化したか


理解できるようになったら説明を終了させる、変化がなければそ
のまま続ける
識別クラス：「わからなかったことがわかった」
「変化なし」
「解らないことが生じた」
識別手法

韻律情報：18次元の特徴量とし、混合正規分布（GMM）を
学習
•基本周波数（F0）傾き
•F0標準偏差
•F0平均
•F0最大値
•F0最小値
•F0中央値
•F0レンジ
•F0尖度
•F0歪度


•発話継続長
•パワー標準偏差
•パワー平均
•パワー最大値
•パワー最小値
•パワー中央値
•パワーレンジ
•パワー尖度
•パワー歪度
音韻情報：26次元のMFCCを特徴量としGMMを学習
統合：上記の識別器から出力された尤度を特徴量とし、
SVMで学習
実験結果
各態度の発話を被験者（11人）に演技させる形で1100発話収集
11分割の交差検定を行った
100
韻律
音韻
韻律+音韻
90
80
識別率[%]
70
60
50
40
30
20
10
0
どちらが話すか
理解しているか
理解状態の変化

Download Report