バイク走行状態における音声認識 ∗ ◎田中寛, 宮島千代美, 西野隆典, 伊藤克亘, 武田一哉 (名大・情報科学) 1 はじめに バイクの運転時においても, 自動車同様に, アイズ フリー, ハンズフリーのインターフェースが必要であ り, 音声を介してナビゲーションなどの情報機器を利 用したいという要求がある.そこで, 本研究では, バ イク運転時における音声認識システムの構築を目指 す.バイク走行状態における音声認識では, 風きり音 やエンジン音, 走行雑音などの高レベルの騒音や, ヘ ルメット内での音響特性についての知見が不足してい る. 前回の報告 [1] ではバイク走行時における雑音源 は, 主に風がヘルメットにぶつかることによって起こ る乱流であり, この加法性雑音と, ヘルメット内の音 響特性という乗法性の雑音がバイク走行時の音声認識 図 1: SNR 毎の発話数のヒストグラム に影響を与えることを示した. 本報告では, 音響モデルを作成するためのデータ ᲠᲴᲺ᳁᳇ᲷᲸᱳᲮᲷᲕᲰ ベースの充実化を図った.更に, 加法性の雑音が認識 に与える影響を軽減するために, ヒストグラムフロア リング法を提案する. 2 データベース 2.1 バイクデータベース ヘルメット内の音響特性の測定の結果で良い特性 ᲠᲴᲺ᳁᳇ᲷᲸᱳᲮᲷᲕᲰ となった鼻, 口元の位置にマイクを取り付けて収録を 行った.収録人数は全 50 名 (内女性 1 名), 発話テキ ストは, 学習用として ATR 音素バランス文 (50 文 2 セットを文節で区切り発声する), 評価用として 22 個 の単語と 5 つの文 (それぞれ 2 セット) である. 2.2 風洞データベース ᲃ ᲀᲅᲃ ᲀᲇᲃ ᲀᲃ ᲃ ᲀᲅᲃ ᲀᲇᲃ ᲀᲃ ᭻᭚ᯘᏒ ؍ ᯙ ᭻᭚ᯘဎ ऍ ᯙ ᲅ Კᲃᲃᲃ᳅ Ჸ ᳄ ᲇ Ჸ ᲃᲃᲃ᳁ Ჶ ᱳ Ხ Მ ᲃᲃᲃ Ჰ ᲃᲃᲃ ᲃ ᲅ ᲃᲃᲃᲙ ᳅ Ჸ ᳄ ᲇ Ჸ ᲃᲃᲃ᳁ Ჶ ᱳ Ხ Მ ᲃᲃᲃ Ჰ ᲃᲃᲃ ౝᯘ ᯙ ༁ᵢ CIAIR ᲅ Კᲃᲃᲃ᳅ Ჸ ᳄ ᲇ Ჸ ᲃᲃᲃ᳁ Ჶ ᱳ Ხ Მ ᲃᲃᲃ Ჰ ᲃᲃᲃ ᲃ ᲅ ᲃᲃᲃᲙ ᳅ Ჸ ᳄ ᲇ Ჸ ᲃᲃᲃ᳁ Ჶ ᱳ Ხ Მ ᲃᲃᲃ Ჰ ᲃᲃᲃ 図 2: データベース毎の雑音区間の平均スペクトラム 公道上でのデータ収録はコストが高い. そこで, 低 で収録した音声の平均 SNR は, 市街地で 21.8dB, 高 コストでデータを増やすために, 風洞において音声収 速道路で 15.0dB, 風洞で 10.1dB となり, 分散は市街 録を行った.収録人数は男性 106 名, 発話テキストは, 地で 44.5, 高速道路で 25.4, 風洞で 12.0 となった.図 学習用として ATR 音素バランス文 (50 文 2 セット), 1 に SNR 毎の発話数のヒストグラムを示す. 風洞における平均 SNR は, 10.0dB となり, 高速道 路の SNR に比べ, 約 5dB 低くなった.また, 風洞に おける分散は高速道路に比べ小さくなった.分散が小 さくなった原因としては, 風速が常に 30m/s であるた め, 雑音レベルがほぼ一定であることが影響している と考えられる.収録条件別の雑音区間の平均スペクト ラムを図 2 に示す.スペクトラムから, バイク (市街 地, 高速道路) と風洞では, 200∼300Hz 辺りに雑音が 多く, 車内の雑音と比べると非定常な雑音であること がわかる.また, 風洞のスペクトラムは, バイクのも のに比べ 4∼6kHz で少し高いが, 概形はほぼ同じであ り, バイク走行時の雑音が模擬されたといえる. 評価用として単語 (27 語 3 セット) である.風洞内の 風速は 30m/s であり, 高速道路を走っていることを想 定した.被験者はヘルメットを被って発声した. バイ クデータベース (2 チャンネル分) と風洞データベー ス (1 チャンネル分) の内容を表 1 に示す. 2.3 SNR の調査 バイクデータベース (市街地, 高速道路) と風洞デー タベースの SNR を算出し, 比較を行った.鼻マイク 表 1: データベースの内容 市街地 高速道路 風洞 学習用 35274 (20.4h) 22878 (12.9h) 40552 (30.1h) 評価用 6152 (2.8h) 5942 (2.6h) 8493 (5.7h) 計 41426 (23.2h) 28820 (15.5h) 49045 (35.8h) ∗ Speech Recognition for Motorbike Riders , by H. Tanaka, C. Miyajima, T. Nishino, K. Ito, and K. Takeda (Nagoya Univ.) 3 ヒストグラムフロアリング法 バイク走行時の音声認識では, ヘルメット内の音響 特性と風きり音が認識性能に影響を与えると考えられ ᎊ᎔᎕ ᎔ᎏ ᎍ ፧ ᎕ᎊ᎔᎕ ᎏ ᎍ ፧ ᎊ᎔᎕፧ ፲ ፧ ༁ ᵢ ፸፵፸ ፵፼ ፼ ፵፵ ፵፵፹፼ ᎀ ፸፵፵ න₸߲ݪݶ፧ᰋ፬ᰍ 図 3: 正規化手法別の MFCC のヒストグラム ፷፼ ፼፷ ፷ Ꮢ؍ ဎऍ 図 4: 認識結果 割し, 各クラスに属したデータを用いて既存の音響モ デルを適応する [3]. 評価データに学習時と同様の正 る.この環境下における分析対象音声の振幅スペクト 規化を行い, バイクデータベースの市街地走行, 高速 ルは 道路走行の単語を用いて評価を行う.このときに HF log |S(ejω )| = log |G(ejω ) · H(ejω ) · T (ejω ) + N (ejω )| S(ejω ) : 音声, G(ejω ) : 音源信号, H(ejω ) : 調音フィルタ の伝達特性, T (ejω ) : 音響系の特性, N (ejω ) : 雑音 と表すことができる.雑音の大きい環境下では, 式 中の N (ejω ) より, 音響系の特性 T (ejω ) の除去効果が 低減すると考えられる.そこで, 対数振幅スペクトル 法と CMN で正規化したものを条件 4 とする.結果 を図 4 に示す. 条件 3 では, 既存の手法 MVN に比べ, 市街地で約 2.8%低下し, 高速道路で約 1.6%向上した.本手法で あるヒストグラムフロアリング法は, 高速道路のよう な風きり音の大きいところで既存の手法である MVN より有効であった, しかし, 市街地走行のような SNR の低い環境では, MVN より低い結果となった.誤認 領域で無音区間の雑音を均一化し, 加法性雑音を除去 識された単語のヒストグラムを観察した結果, 雑音の する方法 (ヒストグラムフロアリング法 : HF) を提案 区間と音声の区間をほぼ同一のガウス分布としている する.この処理によって CMN の効果も向上すること が期待される.アルゴリズムを以下で示し, 図 3 に正 規化手法別の MFCC のヒストグラムを示す.本手法 を用いた時の MFCC のヒストグラムは, CMN 処理の ヒストグラムの分散を小さくしたような形となる. 1. メルフィルタバンク (24 チャネル) の出力の対数 をとり (log MFB), チャネル毎の出力を用意する 2. チャネル毎に出力結果を音声と雑音の 2 つの分 布と仮定し, EM アルゴリズムで推定する. 3. 低い方の分布を雑音の分布とみなし, そこに対応 するガウス分布の平均を格納する. 4. log MFB の値が, 低い方の平均以下になる場合 に, 低い方の平均値で均一化する. 4 認識実験 データは, バイクデータベースと風洞データベース の鼻マイクを用いて収録した音声を用いる.ヒスト 例が見られたことから, 音声の部分もフロアリングさ れていると考えられる.また, 条件 4 では, 市街地走 行で 2.1%向上し, 高速道路走行で 2.0%向上した.バ イクデータベースに加え, 風洞データベースを構築す ることで, 更なる認識率の向上が望めると考えられる. 5 まとめと今後の課題 本研究では, 以前のバイクデータベース [1] に加え, 風洞において収録を行い, データベースの充実化を図 り, 更にヒストグラムフロアリング法を提案した.認 識実験の結果より, 風洞データベースを学習に加える ことにより, 低 SNR のモデルの推定精度が向上した. また, ヒストグラムフロアリング法を用いることに よって低 SNR の認識性能が向上した. 今後の検討課題としては、ヒストグラムフロアリン グ法における閾値の検討や、SNR などを基準とした 最適な正規化手法の選択があげられる。 グラムフロアリング法との比較をするために, バイク 参考文献 データベースを用いて, 既存の手法である CMN(条件 [1] 田中他, “バイク走行時収録音声データベースの構築及び評価”, 音講論集, 2-Q-24, pp.145–146, Mar. 2005. [2] O. Viikki and K. Laurila, “Cepstral domain segmental feature vector normalization for noise robust speech recognition,” Speech Communication, vol.25, pp.133-147, 1998. [3] H. Fujimura, et. al. “Analysis of a Large In-Car Speech Corpus and its Application to the Multimodel ASR,” Proc. ICASSP’05, pp.I-445-448, 2005. 1) と MVN(ケプストラム平均分散正規化)[2](条件 2) を用いる.HF 法を用いた後、CMN を行ったものを 条件 3 とする. また, 風洞データベースの効果を確認するために, SNR を基準にデータを分割し, 風洞データベースとバ イクデータベースを用いて, SNR を基準にデータを分
© Copyright 2025 ExpyDoc