バイク走行状態における音声認識 ∗ 1 はじめに 2 - 武田研究室

バイク走行状態における音声認識
∗
◎田中寛, 宮島千代美, 西野隆典, 伊藤克亘, 武田一哉 (名大・情報科学)
1
はじめに
バイクの運転時においても, 自動車同様に, アイズ
フリー, ハンズフリーのインターフェースが必要であ
り, 音声を介してナビゲーションなどの情報機器を利
用したいという要求がある.そこで, 本研究では, バ
イク運転時における音声認識システムの構築を目指
す.バイク走行状態における音声認識では, 風きり音
やエンジン音, 走行雑音などの高レベルの騒音や, ヘ
ルメット内での音響特性についての知見が不足してい
る. 前回の報告 [1] ではバイク走行時における雑音源
は, 主に風がヘルメットにぶつかることによって起こ
る乱流であり, この加法性雑音と, ヘルメット内の音
響特性という乗法性の雑音がバイク走行時の音声認識
図 1: SNR 毎の発話数のヒストグラム
に影響を与えることを示した.
本報告では, 音響モデルを作成するためのデータ
ᲠᲴᲺ᳁᲼᳇᳈ᲷᲸᱳᲮᲷᲕᲰ
ベースの充実化を図った.更に, 加法性の雑音が認識
に与える影響を軽減するために, ヒストグラムフロア
リング法を提案する.
2
データベース
2.1
バイクデータベース
ヘルメット内の音響特性の測定の結果で良い特性
ᲠᲴᲺ᳁᲼᳇᳈ᲷᲸᱳᲮᲷᲕᲰ
となった鼻, 口元の位置にマイクを取り付けて収録を
行った.収録人数は全 50 名 (内女性 1 名), 発話テキ
ストは, 学習用として ATR 音素バランス文 (50 文 2
セットを文節で区切り発声する), 評価用として 22 個
の単語と 5 つの文 (それぞれ 2 セット) である.
2.2
風洞データベース
ᲃ
ᲀᲅᲃ
ᲀᲇᲃ
ᲀᲉᲃ
ᲃ
ᲀᲅᲃ
ᲀᲇᲃ
ᲀᲉᲃ
᭻᭏᭚ᯘᏒ ‫ ؍‬࿾ ᯙ
᭻᭏᭚ᯘဎ ੖ ੿ ऍ ᯙ
ᲅ Კᲃᲃᲃ᳅ Ჸ ᳄ ᳈ ᲇ Ჸ ᲃᲃᲃ᳁ Ჶ ᳌ ᱳ Ხ Ᲊ Მ ᲃᲃᲃ᳍ Ჰ ᲋ᲃᲃᲃ ᲃ ᲅ ᲃᲃᲃᲙ ᳅ Ჸ ᳄ ᳈ ᲇ Ჸ ᲃᲃᲃ᳁ Ჶ ᳌ ᱳ Ხ ᲛᲉ ᲃᲃᲃ᳍ Ჰ ᲋ᲃᲃᲃ
঎ౝᯘ ᯙ
༁ᵢ
CIAIR
ᲅ Კᲃᲃᲃ᳅ Ჸ ᳄ ᳈ ᲇ Ჸ ᲃᲃᲃ᳁ Ჶ ᳌ ᱳ Ხ Ᲊ Მ ᲃᲃᲃ᳍ Ჰ ᲋ᲃᲃᲃ ᲃ ᲅ ᲃᲃᲃᲙ ᳅ Ჸ ᳄ ᳈ ᲇ Ჸ ᲃᲃᲃ᳁ Ჶ ᳌ ᱳ Ხ ᲛᲉ ᲃᲃᲃ᳍ Ჰ ᲋ᲃᲃᲃ
図 2: データベース毎の雑音区間の平均スペクトラム
公道上でのデータ収録はコストが高い. そこで, 低
で収録した音声の平均 SNR は, 市街地で 21.8dB, 高
コストでデータを増やすために, 風洞において音声収
速道路で 15.0dB, 風洞で 10.1dB となり, 分散は市街
録を行った.収録人数は男性 106 名, 発話テキストは,
地で 44.5, 高速道路で 25.4, 風洞で 12.0 となった.図
学習用として ATR 音素バランス文 (50 文 2 セット),
1 に SNR 毎の発話数のヒストグラムを示す.
風洞における平均 SNR は, 10.0dB となり, 高速道
路の SNR に比べ, 約 5dB 低くなった.また, 風洞に
おける分散は高速道路に比べ小さくなった.分散が小
さくなった原因としては, 風速が常に 30m/s であるた
め, 雑音レベルがほぼ一定であることが影響している
と考えられる.収録条件別の雑音区間の平均スペクト
ラムを図 2 に示す.スペクトラムから, バイク (市街
地, 高速道路) と風洞では, 200∼300Hz 辺りに雑音が
多く, 車内の雑音と比べると非定常な雑音であること
がわかる.また, 風洞のスペクトラムは, バイクのも
のに比べ 4∼6kHz で少し高いが, 概形はほぼ同じであ
り, バイク走行時の雑音が模擬されたといえる.
評価用として単語 (27 語 3 セット) である.風洞内の
風速は 30m/s であり, 高速道路を走っていることを想
定した.被験者はヘルメットを被って発声した. バイ
クデータベース (2 チャンネル分) と風洞データベー
ス (1 チャンネル分) の内容を表 1 に示す.
2.3
SNR の調査
バイクデータベース (市街地, 高速道路) と風洞デー
タベースの SNR を算出し, 比較を行った.鼻マイク
表 1: データベースの内容
市街地
高速道路
風洞
学習用 35274 (20.4h) 22878 (12.9h) 40552 (30.1h)
評価用 6152 (2.8h) 5942 (2.6h) 8493 (5.7h)
計
41426 (23.2h) 28820 (15.5h) 49045 (35.8h)
∗ Speech
Recognition for Motorbike Riders , by H. Tanaka,
C. Miyajima, T. Nishino, K. Ito, and K. Takeda (Nagoya
Univ.)
3
ヒストグラムフロアリング法
バイク走行時の音声認識では, ヘルメット内の音響
特性と風きり音が認識性能に影響を与えると考えられ
ᎊ᎔᎕
᎔᎝ᎏ ᎍ ፧ ᎕ᎊ᎔᎕
ᎏ ᎍ ፧ ᎊ᎔᎕፧ ፲ ፧ ༁ ᵢ
፾፸፵፸ ፾፿ ፵፼
፾፼ ፾፾፵፵፾ ፿
፽፽ ፿፿ ፵፵፹፼
፽ ᎀ ፾፸፵፵፿ ፿
න‫₸߲ݪݶ‬፧ᰋ፬ᰍ
図 3: 正規化手法別の MFCC のヒストグラム
፿፾ ፷፼
፾፽፼፷
፽፷
Ꮢ‫؍‬࿾
ဎ੖੿ऍ
図 4: 認識結果
割し, 各クラスに属したデータを用いて既存の音響モ
デルを適応する [3]. 評価データに学習時と同様の正
る.この環境下における分析対象音声の振幅スペクト
規化を行い, バイクデータベースの市街地走行, 高速
ルは
道路走行の単語を用いて評価を行う.このときに HF
log |S(ejω )| = log |G(ejω ) · H(ejω ) · T (ejω ) + N (ejω )|
S(ejω ) : 音声, G(ejω ) : 音源信号, H(ejω ) : 調音フィルタ
の伝達特性, T (ejω ) : 音響系の特性, N (ejω ) : 雑音
と表すことができる.雑音の大きい環境下では, 式
中の N (ejω ) より, 音響系の特性 T (ejω ) の除去効果が
低減すると考えられる.そこで, 対数振幅スペクトル
法と CMN で正規化したものを条件 4 とする.結果
を図 4 に示す.
条件 3 では, 既存の手法 MVN に比べ, 市街地で約
2.8%低下し, 高速道路で約 1.6%向上した.本手法で
あるヒストグラムフロアリング法は, 高速道路のよう
な風きり音の大きいところで既存の手法である MVN
より有効であった, しかし, 市街地走行のような SNR
の低い環境では, MVN より低い結果となった.誤認
領域で無音区間の雑音を均一化し, 加法性雑音を除去
識された単語のヒストグラムを観察した結果, 雑音の
する方法 (ヒストグラムフロアリング法 : HF) を提案
区間と音声の区間をほぼ同一のガウス分布としている
する.この処理によって CMN の効果も向上すること
が期待される.アルゴリズムを以下で示し, 図 3 に正
規化手法別の MFCC のヒストグラムを示す.本手法
を用いた時の MFCC のヒストグラムは, CMN 処理の
ヒストグラムの分散を小さくしたような形となる.
1. メルフィルタバンク (24 チャネル) の出力の対数
をとり (log MFB), チャネル毎の出力を用意する
2. チャネル毎に出力結果を音声と雑音の 2 つの分
布と仮定し, EM アルゴリズムで推定する.
3. 低い方の分布を雑音の分布とみなし, そこに対応
するガウス分布の平均を格納する.
4. log MFB の値が, 低い方の平均以下になる場合
に, 低い方の平均値で均一化する.
4
認識実験
データは, バイクデータベースと風洞データベース
の鼻マイクを用いて収録した音声を用いる.ヒスト
例が見られたことから, 音声の部分もフロアリングさ
れていると考えられる.また, 条件 4 では, 市街地走
行で 2.1%向上し, 高速道路走行で 2.0%向上した.バ
イクデータベースに加え, 風洞データベースを構築す
ることで, 更なる認識率の向上が望めると考えられる.
5
まとめと今後の課題
本研究では, 以前のバイクデータベース [1] に加え,
風洞において収録を行い, データベースの充実化を図
り, 更にヒストグラムフロアリング法を提案した.認
識実験の結果より, 風洞データベースを学習に加える
ことにより, 低 SNR のモデルの推定精度が向上した.
また, ヒストグラムフロアリング法を用いることに
よって低 SNR の認識性能が向上した.
今後の検討課題としては、ヒストグラムフロアリン
グ法における閾値の検討や、SNR などを基準とした
最適な正規化手法の選択があげられる。
グラムフロアリング法との比較をするために, バイク
参考文献
データベースを用いて, 既存の手法である CMN(条件
[1] 田中他, “バイク走行時収録音声データベースの構築及び評価”,
音講論集, 2-Q-24, pp.145–146, Mar. 2005.
[2] O. Viikki and K. Laurila, “Cepstral domain segmental feature vector normalization for noise robust speech
recognition,” Speech Communication, vol.25, pp.133-147,
1998.
[3] H. Fujimura, et. al. “Analysis of a Large In-Car Speech
Corpus and its Application to the Multimodel ASR,”
Proc. ICASSP’05, pp.I-445-448, 2005.
1) と MVN(ケプストラム平均分散正規化)[2](条件 2)
を用いる.HF 法を用いた後、CMN を行ったものを
条件 3 とする.
また, 風洞データベースの効果を確認するために,
SNR を基準にデータを分割し, 風洞データベースとバ
イクデータベースを用いて, SNR を基準にデータを分