話者交替を考慮したシステムへの問い合わせと雑談の判別 3-Q-28 山形知行 佐古淳 滝口哲也 有木康雄 (神戸大) 目的 • 音声入力システムの用途 雑談 カーナビ等の手を使うことが困難な機器での利用が顕著. • 問題点 システム要求 入力される音声がシステムに向かっての発話か,他の人との雑談かを区別できない. コマンドを入力する際にはボタンを押す必要がある (カーナビ). システム (カーナビ,ロボット等) 物理的なスイッチを使うことなく,システム要求と雑談を判別したい. • 関連研究 • 全体構成 ユーザーの(音響的な)発話の特徴は,話す対象に応じて無意 識に変わる. 音声 音響特徴量生成 S [Shinya Yamada, “Linguistic and Acoustic Features Depending on Different Situations”, Interspeech 2005] システム要求 V 人同士の会話ではラッチングに見られるようなスムーズなター ンテイキングが行われる. 話者交替 or 雑談 M 特徴量生成 [Tomoko Ohsuga, "Investigation of the Relationship between Turn-taking and Prosodic Features in Spontaneous Dialogue“, Interspeech 2005] コーパス • データ数 • 収録条件 • 人間2人 + ロボット の対話 全発話 1025 人同士で雑談をしながら任意に ロボットにシステム要求発話をす る. • システム要求発話の例 「 こっち に 来 て ください 。 」 「向こう へ 行っ て」 「 こっち 来 て ー 」 「 写真 を 撮っ て 」 「 止まっ て ください 。 」 胸元にマイクを設置し収録 • システム要求発話 108 対話型移動ロボット 音声コマンドにより室内を移動 音響特徴量 Amplitude 自然発話とシステム要求発話の音響的な違いは主に発話の前 や後ろに現れる. 自然な発話ではフィラーや言い淀み等が多い. Margin Detected Utterance Section Margin Time a) 自然発話 検出された発話区間からだけではなく,前後のマージンからも下 記の音響特徴量を求める. Amplitude • 音響特徴量 Margin Detected Utterance Section Margin Time b) システム要求発話 ※ VADはJulius Adintoolを使用 Power 平均 偏差 最大 最大 – 最小 Pitch 平均 偏差 最大 最大 – 最小 話者交替特徴量 人同士の会話では,ある人が話し終わるまでに次の人が話し始めるラッチ ングがよく起こる. このため,2人が同時に発声している場合はシステム要 求発話でないと考えられる. マイク入力のパワー等を用いる方法では,隣の人の声が入ってしまうため にどちらの人が発話しているか判別しにくい. 例えば,マイク間距離が近い, もしくは声が大きい場合はa)の 場合も話者数が2人と誤検出さ れる. Recorder Recorder b) 話者数: 2 a) 話者数: 1 * 2 X 1[n] X [n] CSP[k ] IDFT( ) X 1[n] X 2 [n] CSP係数を用いることに より話者数をより正確に 検出できる. pi max(CSP[k ]) k in i N 1 1 : 0 k 2 N 2 : kN 2 k N 1 speaker 2 speakers N/2 1 speaker 0 time p2: high high low p1: low high high CSP Peak Trace 実験結果 適合率 音響 8 dim. (1区間) 0.584 音響 24 dim. (3区間) 0.756 音響 24 dim. + 交替 6 dim. 0.832 再現率 0.806 0.889 0.870 F値 0.677 0.817 0.851 10 foldsでF値最大の結果. ただしSVMのKernelにはGaussian Kernel を用いた. 結果はF値が最大となった場合. まとめ • 考察 • 音響特徴によりシステム要求判別 をする場合,明確な発話区間の前 後の情報を利用することが有益で ある. • 発話区間前後での話者の交替を 考慮することで,判別精度が上がる. • 今後の課題 • ノイズ環境下での評価 • カーナビ等のコマンドの複雑な環 境での評価
© Copyright 2024 ExpyDoc