音声対話システムのための 間投詞的応答の認識 小林研究室 修士2年 三宅 梨帆 研究背景 人同士の対話 例 A:回鍋肉なら、 B: 肉がいっぱい食べられるよ はい Bが近いかを尋ねる A:コズミックスポーツセンターの隣、のところにある。 B: あ、近いですね A:探せばいっぱいあると思うんですけど。 探せばありそうですけど B: ん これらの短い発話(間投詞的応答)によって、自分の状態を 相手に伝えている 円滑な対話の進行に寄与 研究目的 目的 ユーザの「はい」「うん」「ええと」「え」「あ」などの 間投詞的応答からユーザの態度を識別すること により円滑に対話を進行するシステムの構築 行ったこと 実際の対話を観察し、対話システムの振舞い決 定に役立ちそうな識別する態度を決定 韻律情報、音韻情報用いて識別 2つの識別器を統合 識別する対象 対話システムの振舞い決定に有効と思われる以下 の3つの観点について態度の識別を行う 次にシステム/ユーザのどちらが話すか 発話内容を理解しているかどうか システムの話し始めるタイミングの決定、ユーザの割込み受付に 利用 識別クラス:「システムが発話」 「ユーザが発話」 理解できていれば話を続け、出来ていなければ詳細説明 識別クラス:「理解している」 「理解していない」 システムの発話により理解状態が変化したか 理解できるようになったら説明を終了させる、変化がなければそ のまま続ける 識別クラス: 「わからなかったことがわかった」 「変化なし」 「解らないことが生じた」 識別手法 韻律情報:18次元の特徴量とし、混合正規分布(GMM)を 学習 •基本周波数(F0)傾き •F0標準偏差 •F0平均 •F0最大値 •F0最小値 •F0中央値 •F0レンジ •F0尖度 •F0歪度 •発話継続長 •パワー標準偏差 •パワー平均 •パワー最大値 •パワー最小値 •パワー中央値 •パワーレンジ •パワー尖度 •パワー歪度 音韻情報:26次元のMFCCを特徴量としGMMを学習 統合:上記の識別器から出力された尤度を特徴量とし、 SVMで学習 実験結果 各態度の発話を被験者(11人)に演技させる形で1100発話収集 11分割の交差検定を行った 100 韻律 音韻 韻律+音韻 90 80 識別率[%] 70 60 50 40 30 20 10 0 どちらが話すか 理解しているか 理解状態の変化
© Copyright 2025 ExpyDoc