音声情報とベイジアンネットを 用いた感性情報処理システム 室蘭工業大学 大学院工学研究科 博士前期課程 情報工学専攻 久保研究室 原 正一 発表目次 1. 2. 3. 4. 研究背景・目的 構築するシステムの概要 実施した予備実験の説明 今後の計画 2 人 対 機械のコミュニケーションの 円滑化を目指して コンピュータシステムの急速な普及 よりフレンドリで親しみやすいユーザインタ フェースが求められてきている (カウンセリング,ペットロボットなど) ユーザの状態に応じて,システムの応答を 変化させる コンピュータによる人間の心身状態の認識 3 従来研究のアプローチ 状態認識のための情報源 表情や動作 音声の韻律や発話内容 などから感情をモデル化 ↓ 感情は曖昧で,厳密にモデル化するほど 識別可能ではない 4 感性情報処理の実現 目的 音声を入力とし,感情・疲労度などの心身状態 を推定して出力するシステムの構築 方法 音声・感情間の関連をベイジアン ネットによってモデル化 そのモデルにより推論を行う 5 ベイジアンネット 複数の確率変数の 間の依存関係を非 循環性有向グラフに よって表す その間の定量的な関 係を条件付き確率で 表現したモデル A B C 6 システム概要 音声 音声特徴量 抽出 クライアント 感情・疲労度 ベイジアン ネット 7 音声特徴量の抽出① (システムの入力) 500 ピッチ 声帯振動の基本周波数 高低の印象を与える 0 0 0.715011 Time (s) 振幅 音声波形における振動 する波の変動量 声の大きさを表す 1 0 -0.8466 0 0.715011 Time (s) 8 音声特徴量の抽出② (システムの入力) ホルマント周波数 音声生成における声道 の共振によって生じる 母音の特定に利用される 5000 4000 3000 2000 1000 0 0 0.715011 Time (s) スペクトル 信号を構成している 周波数成分の分布 60 40 20 0 11025 Frequency (Hz) 9 感情・疲労度(システムの出力) プルチックの基本感情 疲労度 以下の5組を出力とする 喜び - 平静 - 悲しみ 受容 - 平静 - 嫌悪 恐れ - 平静 - 怒り 予期 - 平静 - 驚き 疲労 - 普通 - 快調 喜び 受容 予期 恐れ 怒り 驚き 嫌悪 悲しみ 10 推定システムのベイジアンネット i4 音声特徴量と感情・疲労度の データをもとにして,構造決定 したベイジアンネットを用意する o1 i1 i5 o2 入力 (音声) 特徴量 抽出 (量子化) 出力 (感情,疲労度) i2 o3 i6 以下の式にて推論を行う o4 i3 in o5 データから構造学習されたBN (心身状態認識モデル) 11 音声資料の収集 知り合い同士の2名のユーザの会話を録音 し,サンプルデータを収集する 手順 録音時間の目安について通知し,なるべく普段ど おりに会話してもらう その会話をそれぞれ別々に記録する 記録後,会話中の感情・疲労度などを,話者本人 へのアンケートによって調べる 会話の音声データを感情・疲労度ごとに分類し, サンプルデータとする 12 予備実験 (音声特徴量間の関連性のモデル化) 目的 システムに利用するアプリケーションの特 性の把握 実験環境の検証(本実験での使用に耐えう るか) 特徴量,及びその量子化法に関する妥当 性の検証 録音からモデル構築までの一連の流れの 習熟 13 予備実験 環境 ソフトウェア 会話: MSN messenger service の音声チャット 録音: Rockoon 音声特徴量抽出: Praat ベイジアンネットモデル構築: BayoNet ハードウェア ヘッドセットマイク オンボードのサウンドカード 14 得られた音声資料 被験者 男6 女2) 録音設定 8人(20代 サンプリングレート 22.05 kHz 16 bit モノラルチャネル データ 会話データを10秒毎に切断したもの 113サンプル 15 利用した音声特徴量 第1ホルマント(F1) 第2ホルマント(F2) ピッチの最高値/平均値(Pi_Ma/Av) ピッチの最高値ー最低値(Pi_Ra) 振幅の最大値/平均値(Po_Ma/Av) 音圧レベル最大の周波数(Spe) 全6ノード 16 ベイジアンネットモデル構築 6ノードはそれぞれ3つの状態を持つと設定 (平均値をもとに高い,普通,低い) 113サンプルのデータをもとに BayoNet により モデル構築 ネットワークの構造選択は MDL 基準により決 定 17 予備実験 結果 パターン1 0 ← if v < Ave – σ 1 ← if Ave – σ ≦ v < Ave + σ 2 ← if Ave + σ ≦ v v :特徴量 Ave:平均値 σ :標準偏差 パターン2 0 ← if v < Ave – (σ/2) 1 ← if Ave – (σ/2) ≦ v < Ave + (σ/2) 2 ← if Ave + (σ/2) ≦ v 18 予備実験 考察 ノイズが入るため,ノイズの影響を調べる必要 がある 確率変数の割り当て方でネットワークが簡単 に変化 → 割り当て方は色々なパターンを試すべき ホルマント周波数は標準偏差が小さい → 喋り方による影響が少なく, 感情の推定に向かない可能性 19 今後の計画 音声資料の収集 システムの構築 構築したシステムの有効性の検証 システムの性能向上 Webサービス化 入力データの多様化 20
© Copyright 2024 ExpyDoc