サイレント音声コミュニケーション サイレント音声コミ ニケ シ ンのための 非可聴つぶやきマイクロフォンを用いた 体内伝導音声情報処理 体 導 声情報 戸田 智基 奈良先端科学技術大学院大学 情報科学研究科 2014年8月8日 音声コミュニケーションは十分に便利? • 携帯電話が広まり便利になった(全く異なる環境下にいる人 とも会話 きる う な た)が とも会話できるようになった)が・・・ 騒音環境下では音声が 周囲に人がいると秘匿性の 静かな環境下で声を出すと 高い内容は話しづらい・・・ 他人に迷惑をかける・・・ 伝わりづらい・・・ 音声 ミ 音声コミュニケーションには様々な障壁が存在する! ケ シ ンには様々な障壁が存在する 1 サイレント音声コミュニケーション • 声を周囲に漏らさずに発声できるようにしたい! • テレパシーのように,話し手と聞き手の間のみで意思 伝達が可能な ミ 伝達が可能なコミュニケーション形態を実現したい! ケ ション形態を実現したい 話し手側 聞き手側 周囲に聞こえないように ぼそぼそ話しても・・・ ・・・ 自然な声が聞こえる! 口座の暗証 番号は・・・ 音声入力が行える! ○○の場所を 検索・・・ 検索 2 アプローチ 話し手側 聞き手側 周囲に聞こえないぐらい 小さな声を収録したい・・・ 小さな声を収録したい 通話したい・・・ ○○○・・・ ・・・ 体内伝導音声強調 体内伝導音声強調により 自然な音声へと変換! 音声入力を行いたい・・・ 非可聴つぶやき(NAM) 非可聴つぶやき(NAM ) マイクロフォンを用いて マイクロフォン 体内伝導音声を収録! ○○○・・・ 体内伝導音声認識 体内伝導音声認識により テキスト情報へと変換! 3 アプローチ 話し手側 聞き手側 周囲に聞こえないぐらい 小さな声を収録したい・・・ 小さな声を収録したい 通話したい・・・ ○○○・・・ ・・・ 体内伝導音声強調 体内伝導音声強調により 自然な音声へと変換! 音声入力を行いたい・・・ 非可聴つぶやき(NAM) 非可聴つぶやき(NAM ) マイクロフォンを用いて マイクロフォン 体内伝導音声を収録! ○○○・・・ 体内伝導音声認識 体内伝導音声認識により テキスト情報へと変換! Outline NAM(N Non‐A Audible M Murmur)マイクロフォン [中島 他, 2004] 他 2004] • NAMを収録するために開発されたマイクロフォン • NAM:まわりに聞こえないほどの小さなささやき声 • 軟組織を伝わる音(体内伝導音)を体表から直接収録 筋肉 声道内の 空気振 空気振動 腔 口腔 血管 骨 皮膚 軟シリコン 電極 振動 センサー 遮音カバ 遮音カバー 4 収録可能な体内伝導音声 無声音声 NAM ささやき声 有声音声 小声 通常音声 サイレント音声 秘匿性の高い 騒音化での発声 コミュニケーションに効果的! 発声に効果的! に効果的! 体内伝導通常音声 体内伝導 通常音声 10k ‐10k 300 200 100 4 ‐10k 300 200 100 4 Freeq. [Hz] 10k F006A08Spnrm s480e880.lspg 4000 Freq. [kHz] Frequency [Hz] 3500 3000 2500 2 2000 1500 1000 500 0 0 F006 08 A TOS B rm n s 480e880.lspg 4000 3500 0 0 0.2 0.4 0.6 0.8 1 Time [s] 1 Time [s] 1.2 1.4 1.6 1.8 Freq. [kHz] Frequency [Hz] Freeq. [Hz] 空気伝導通常音声 空気伝導 通常音声 3000 2500 2 2000 1500 高周波数成分 0 2 0 が大きく減衰 2 1000 500 0 0 0.2 0.4 0.6 0.8 1 Time [s] 1 Time [s] 1.2 1.4 1.6 1.8 2 2 5 アプローチ 話し手側 聞き手側 周囲に聞こえないぐらい 小さな声を収録したい・・・ 小さな声を収録したい 通話したい・・・ ○○○・・・ ・・・ 体内伝導音声強調 体内伝導音声強調により 自然な音声へと変換! 音声入力を行いたい・・・ 非可聴つぶやき(NAM) 非可聴つぶやき(NAM ) マイクロフォンを用いて マイクロフォン 体内伝導音声を収録! ○○○・・・ 体内伝導音声認識 体内伝導音声認識により テキスト情報へと変換! Outline 統計的手法に基づく体内伝導音声強調 [T d t al., 2005] [Toda et l 2005] • ある話者の体内伝導音声から同一話者による空気伝導音声への 変換処 を統計的 変換処理を統計的にモデル化 デ まずは同じ内容の 文を収録する. まずは同じ内容 の文を収録する の文を収録する. 体内伝導 音声 1.体内伝導音声と空気 1 体内伝導音声と空気 伝導音声の同一発話 データを用いて学習 デ タを用いて学習 空気伝導音声 どんな文も 変換できる. どんな文も変換 できる. 体内伝導音声から空気伝導音声への変換モデル 2.体内伝導音声を空気伝導音声へと変換可能 6 学習処理と変換処理 • 学習処理 • 入力特徴量系列と出力特徴量系列の同時確率密度関数のモデル化 モデルパラメータセット デ ラ タ ッ の最尤推定値 λˆ arg max λ (n) (n) P ( x , y | λ) n 1 n発話目の 入力特徴量系列 • 変換処理 • N モデルパラメータ セット n発話目の 出力特徴量系列 条件付き確率密度関数に基づく出力特徴量系列の生成 推定された 出力特徴量系列 yˆ arg max P ( y | x , λˆ ) y 例.NAMから通常音声への変換 例.NAMから通常音声 の変換 NAMのスペクトル セグメント特徴量 変換する入力特徴量系列 通常音声の スペクトル特徴量 通常音声の 音源特徴量 7 各種体内伝導音声強調処理 • 個々の体内伝導音声を適切な種類の空気伝導音声へと変換 体内伝導音声 空気伝導音声 [3] 通常音声 スペクトルセグメント 音源特徴量 小声 スペクトルセグメント 音源特徴量 ささやき声 スペクトルセグメント 通常音声 スペクトルセグメント 音源特徴量 [4] 小声 [4] [1] [2] [2] スペクトルセグメント 音源特徴量 ささやき声 スペクトルセグメント [2] NAM スペクトルセグメント 変換音声 [1] Toda et al., 2005 [2] Nakagiri et al., 2006 永 他, 2006 [3] 岩永 [4] 関本 他, 2006 8 リアルタイム強調処理 [M i hi ett al., 2013] [Moriguchi l 2013] • 音声コミュニケーションではリアルタイム処理が必要不可欠 • 出力特徴量系列の生成処理(非線形最適化)をカルマンフィルタと ポストフィルタを用いて近似 • 50~70 ms 程度のアルゴリズム遅延での処理を実現 • PC上(例えば,Intel Core 2 Duo P8400, 2.26 GHz 搭載のノートPC)で リアルタイム動作可能 • DSP上への実装も実現 • 近似処理による計算量削減 • 浮動小数点版DSP(TI社, TMS320C6748,375 MHz)上で実装可能 9 環境変化への自動適応 [Mi [Miyamoto et t t al., 2009] l 2009] [Deguchi [D hi ett al., 2010] l 2010] • 体内伝導音声の音響特性は収録環境に大きく依存 • • NAMマイクロフォンの圧着位置 NAMマイクロフォンの種類やアンプの設定 • 事前に構築した変換モデルを新たな収録環境に自動適応 • • 新たな環境下で収録される体内伝導音声のみを使用 任意かつ極少量の発話文のみを用いて教師無し適応 変換モデル Wˆ arg max W 適応 ラ 適応パラメータ タ の最尤推定値 適応後の変換モデル ˆ | W )) dy P ( x , y | f ( λ 新たな環境下に おける入力特徴量 適応後の デル 適応後のモデル パラメータセット 10 アプローチ 話し手側 聞き手側 周囲に聞こえないぐらい 小さな声を収録したい・・・ 小さな声を収録したい 通話したい・・・ ○○○・・・ ・・・ 体内伝導音声強調 体内伝導音声強調により 自然な音声へと変換! 音声入力を行いたい・・・ 非可聴つぶやき(NAM) 非可聴つぶやき(NAM ) マイクロフォンを用いて マイクロフォン 体内伝導音声を収録! ○○○・・・ 体内伝導音声認識 体内伝導音声認識により テキスト情報へと変換! Outline 体内伝導音声認識 [H [Heracleous l ett al., 2004] l 2004] • 通常音声とは異なる体内伝導音声の音響的特徴への対応 事後確率が最大となる単語列を検索 wˆ arg max P ( x | w , λ) P ( w | θ ) w 体内伝導音声 x 単語列に対応した 音声の音響的 特徴量をモデル化 こんにちは デコーダ wˆ 音響モデル P ( x | w , λ) 言語モデル 単語列の生起 確率をモデル化 P(w | θ ) 体内伝導音声用の音響モデルを構築すれば 従来システムを用いて体内伝導音声認識が可能 11 様々な発話様式への対応 [貝野 他, 2005] 他 2005] • 様々な体内伝導音声に対応した特定話者用認識システムの構築 発話様式依存モデル による並列デコーディング 発話様式混合モデル NAM 混合モデル NAM NAM用モデル ささやき声 ささやき声 ささやき声用モデル 通常音声 通常音声 通常音声用モデル 並列 デコーディング + 音響尤度による 結果選択 大語彙連続音声認識タスクにおける単語認識精度[%] 通常音声 声 小声 声 ささやき声 声 NAM 発話様式依存モデル 89.41 84.18 86.67 77.90 混合モデル 87.40 84.74 81.04 75.80 並列デコーディング 89.41 84.18 86.67 77.90 12 様々な話者に対するモデル構築 [長井 他, 2009] 他 2009] • モデル適応に基づくNAM用特定話者モデルの構築 • 他話者のNAMを活用することで精度改善 通常音声用 不特定話者モデル モデル適応① デ ① NAM用目標話者 依存モデル ② 最尤学習 NAM用不特定 話者モデル 話者適応学習 複数話者による NAMデータ NAM適応用 標準話者モデル ③ 目標話者の NAMデータ 単語認識精度 ① 64.43 14.81% ② 67.61 12.09% ③ 72.58 11.24% 13 通常音声を用いたNAMモデル学習 [B b i ett al., 2011] [Babani l 2011] • 大規模な通常音声データも活用(通常音声をNAMに変換して 使 使用)することで精度改善 す 精度改善 (S ) (S ) W 通常音声における話者適応学習 ((S ) 1 W ((SS ) o 6 1 o6 (S ) ok k番目話者の通常音声データ W2( S ) ((S ) ((SS ) Wk((S ) k番目話者に対する適応 ( S ) o o5 W 2 パラメータ 5 発話様式適応学習 W ( S 2 N ) NAM用標準モデルを o (S ) (S 4 通常音声用 変換 通常音声用に変換 する適応パラメータ W W (N ) j j番目話者のNAMデータ j番目話者に対する適応 パラメータ o3((S ) W (S 2N ) 標準モデル NAMにおける話者適応学習 o (j N ) W3(S ) (S ) (S 4 o3( N ) W ( N ) 3 λ W1( N ) W2( N ) o1( N ) o2( N ) 14 ステレオNAMを用いた動作雑音抑圧 [I hii t al., 2011] [Ishii et l 2011] • 発話者の動作に伴い生じる雑音を抑圧 • 2つのNAMマイクロフォンを用いることで ステレオ信号処理を適用 仮定する混合過程 各チャンネルの 時不変な伝達関数 体内伝達前の NAM信号 s0 ( f , ) f : 周波数 : フレーム番号 a1 ( f ) a2 ( f ) チャネル1の雑音信号 n1 ( f , ) 混合信号 x1 ( f , ) NAM マイクロフォン x2 ( f , ) n2 ( f , ) チャネル2の雑音信号 ブラインド音源分離 による雑音推定 非線形雑音 抑圧処理 チャネル選択 15 アプローチ 話し手側 聞き手側 周囲に聞こえないぐらい 小さな声を収録したい・・・ 小さな声を収録したい 通話したい・・・ ○○○・・・ ・・・ 体内伝導音声強調 体内伝導音声強調により 自然な音声へと変換! 音声入力を行いたい・・・ 非可聴つぶやき(NAM) 非可聴つぶやき(NAM ) マイクロフォンを用いて マイクロフォン 体内伝導音声を収録! ○○○・・・ 体内伝導音声認識 体内伝導音声認識により テキスト情報へと変換! Outline まとめと今後の課題 • サイレント音声コミュニケーションの実現に向けて • 人対人のコミュニケーション 人対人 NAMマイクロフォン+体内伝導音声強調=サイレント音声通話 • 人対機械 人対機械のコミュニケーション NAMマイクロフォン+体内伝導音声認識=サイレント音声入力 • 解決すべき課題 • NAMマイクロフォンの改良 • 実環境下への適用 Q.受聴者が雑音環境下にいる場合にどうするか? 「サイレント音声コミュニケーションのための非可聴つぶやき強調に サイレント音声コミュニケーションのための非可聴つぶやき強調に おける雑音環境下受聴を想定した目標音声の評価」 鶴田さくら 他 おける雑音環境下受聴を想定した目標音声の評価 • Q.発話者が雑音環境下にいる場合にどうするか? 「雑音環境下におけるサイレント音声コミ 「雑音環境下におけるサイレント音声コミュニケーションのための 雑音環境下におけるサイレント音声コミ 雑音環境下におけるサイレント音声コミュニケーションのための ニケ ションのための 2チャネル非可聴つぶやき強調法の検討」 田尻祐介 他 2チャネル非可聴つぶやき強調法の検討 • 16
© Copyright 2024 ExpyDoc