第 15 回 電子航法研究所研究発表会 平成 27 年 6 月 4 日 電子航法研究所の発話音声分析技術 塩見格一 [email protected] 我々が音声信号を分析する目的は・・・ 我々が音声信号を分析する目的は・・・ 1)1998年の発見:発話者の心身状態に依存して,音声信号から再構 成されるストレンジ・アトラクタ(S.A.)が変化する。 ← S.A. から計算されるリアプノフ指数が変化する。 ↓ ↓ ↓ ↓ ↓ changes to 健常状態のストレンジ・アトラクタ 消耗状態のストレンジ・アトラクタ 2)発話音声から発話者の心身状態を評価する。 ↓ 公共インフラの維持運用に係る要員の過労状態を防止する。 3)「居眠り防止装置」等の予防安全装置を実現する。 音声信号を分析する手法は幾つもあって・・・ 音声信号を分析する手法は幾つもあって・・・ 周 波 数 1)周波数分析 → フーリエ解析 ソノグラム上に特徴量が定義される。 色彩を強度として3次元的な特徴量が定義される。 時 間 2)カオス論的な分析 → リアプノフ・スペクトル アトラクタ上に特徴量を定義する。 周波数分析に比較して自由度が高く,特徴量には様々な可能性が期待される。 tu gi 音声波形に見られる ゆらぎ wa ko e n ji 音声波形に見られる ゆらぎ 波形の拡大 "o" 音の波形(継続時間:37.5ms) 1.0%% 0.8%% 0.6%% 0.4%% 0.2%% 0.0%% !0.2%% !0.4%% !0.6%% !0.8%% !1.0%% 0%% 100%% 200%% 300%% 400%% 500%% 600%% 16.0%kHz 1.0%% 0.8%% 0.6%% 0.4%% 0.2%% 0.0%% !0.2%% !0.4%% !0.6%% !0.8%% !1.0%% 200%% 210%% 220%% 230%% 240%% 250%% 260%% 270%% 280%% 290%% 300%% 310%% 320%% 16.0%kHz 330%% 340%% 350%% 360%% 370%% 380%% "o" 音の波形(継続時間:12.5ms)の重ね合わせ。 声のゆらぎ の定量化は・・・ 390%% 400%% 声のゆらぎ の定量化は・・・ ↓ 「ターケンスの埋め込み」 y 25 20 50 0 15 5 10 45 20 y x 30 y x 1.0%% 0.5%% x 0 y x 10 x 5 !0.5%% y 0% 25 x ターケンスの埋め込み定理 x 20% 50 y τd τd τd y 15 τd !1.0%% 35 x y x x 40 y x 0.0%% 30 40 τd y x y y 35 x 45 40% 60% y z 80% u v 100% 120% ターケンスの埋め込み定理 1)数理モデルと時系列データとを橋渡しする。 2)時間遅れ座標系への埋め込みは,力学系(数理モデル)の幾何学的 構造を保存する。 3)ストレンジ・アトラクタが再構成されれば,時系列信号を生成させ た原始機能に係る情報を取り出す事ができる。 y 25 20 50 45 0 5 15 30 10 x 40 35 小型トラックでテストコースを走行した疲労・眠気評価実験 P(n2)P(n3) P(nP(n 0) 1 = n0+1) 小型トラックでテストコースを走行した疲労・眠気評価実験 観測室 チェック・ポイント テストコース(土木研究所 苫小牧 寒地試験道路) タイムテーブル 小型トラックでテストコースを走行した疲労・眠気評価実験 小型トラックでテストコースを走行した疲労・眠気評価実験 単調な運転業務による疲労・覚醒度評価実験の典型的な結果 単調な運転業務による疲労・覚醒度評価実験の典型的な結果 喚呼音声から算出された CEM 値の十分間平均値 Change of CEM values calculated from call-out voice Experimental Result in Hokkaido, Japan 700 Lunch Time CEM 600 Coffee Break 500 400 300 6:00 8:00 10:00 12:00 Date & Time: July 2, '06 14:00 16:00 18:00 The driver must have been very sleepy. 急激に覚醒度が低下している可能性が高い。 音声資源コンソーシアム提供のデータによる覚醒度の評価 音声資源コンソーシアム提供のデータによる覚醒度の評価 毎週1回,1日3回(10時,13時,18時)ある人が50の文章を音読したデータ (AWA-LTRコーパス)を処理した結果,以下の様な分布が観測されました。 埋込み次元(D)を4∼6,埋込み遅延時間(τ)を0.3∼0.6ms程度にすれば, 平均的に 人間の覚醒度に相関すると考えられるCEM値 が算出されます。 同じ音声を同時に複数のレコーダで録音した場合,周波数分析であれば,どの収録音 声であっても殆ど変わらない結果が得られますが,カオス論的な手法で分析すれば,同 じ型式のマイクロフォンと同じ型式のレコーダを使用した場合であっても・・・・ 複数のマイクロフォンで収録した音声の比較 複数のマイクロフォンで収録した音声の比較 音声を再生するスピーカを決めて,特性を比較するマイクロフォンを正面に設置し, 10秒程度の朗読音声を繰返し再生し,個々の再収録音声から算出されるCEM値の平均 値と標準偏差を比較する。(分布を比較する。) 予想外の実験結果 予想外の実験結果 100"" Earthworks*M30.02* 90"" 1250## 1200## 1150## 1100## 1050## 1000## 80"" M30-02" M30-06" 70"" 0# 50# 100# 150# 200# 250# 300# 60"" 50"" 40"" Earthworks*M30.06* 1250## 1200## 1150## 1100## 1050## 1000## 30"" 20"" 10"" 0# 50# 100# 150# 200# 250# 300# 0"" 1000"" 1050"" 1100"" 1150"" 1200"" 1250"" 実験結果からは,10本のマイクロフォンを設置すれば,48.0kHz のサンプリング・ レートとした場合,8本が赤い分布を示し,2本が青い分布を示す。 当所で収録した日本昔話朗読音声の処理結果 当所で収録した日本昔話朗読音声の処理結果 970$$ 968$$ 966$$ 964$$ 962$$ 960$$ 958$$ 1$ 0$$ 10$$ 20$$ 30$$ 40$$ 50$$ 60$$ 70$$ 80$$ 90$$ 100$$ 110$$ 120$$ CEM$ CEM$ 80∼8.0kHzの帯域情報を確保しながら,768.0kHzのサンプリング周波数で収録し た音声データから12.0kHzにアンダー・サンプリングして128種類の音声データを生成 し,これらを再度48.0kHzにオーバー・サンプリングして処理すると,以下の様な結果 を得る事ができます。 970$ 968$ 966$ 964$ 962$ 960$ 958$ 1$ 0$$ 130$$ 10$$ 20$$ 30$$ 40$$ 50$$ 60$$ 990$$ 980$$ 970$$ 960$$ 950$$ 940$$ 930$$ 30$ 0$$ 10$$ 20$$ 30$$ 40$$ 50$$ 60$$ 70$$ 80$$ 90$$ 100$$ 110$$ 120$$ 130$$ CEM$ CEM$ $ 昔々 兎と亀の競争では 兎は麓に着く前に休んだので 亀に負けてしまいました 990$ 980$ 970$ 960$ 950$ 940$ 930$ 30$ 0$ 10$ 20$ 30$ 40$ 50$ 60$ 70$ 80$ 90$ 天女は川で水浴びをしていた時に 鋤と鍬を洗いに来た百姓に羽衣を隠されてしまいました おわりに おわりに 1)カオス論的な手法で音声を分析すれば,主観を排除した発話者の覚醒度 と高い相関を示す指数値を算出することが可能である。 2)算出される指数値の分布は,カオス論的な信号処理アルゴリズムに依存 し,一定の確率で双峰分布等の異常分布となる。 3)音声から算出された指数値が正常に収束した値か? あるいは異常収束し た値か? を区別することは,音声データをリサンプリング処理することに より可能だが,処理時間を実用的なものとするためには工夫が必要である。 4)カオス論的な信号処理手法を利用すれば,従来の周波数分析に比較して遥 かに自由度が高い特徴量が定義可能であり,処理パラメータを調整すること により,様々な心身状態と相関する指数値が算出される可能性がある。 音声・・・
© Copyright 2024 ExpyDoc