MTF-based sub-band power envelope restoration in reverberant

深層学習を用いた音声認識システム
電気電子工学科
T213069 林 健吉
白井研究室
2.1 節で述べた音声データを 8.5:1.5 の割合で学習
1. はじめに
音声認識とは、人間が声で話す言葉を文字に変換 データと評価データを分け、バッチサイズ 300、
し、コンピュータに認識させる技術である[1]。ま 10epoch で学習させた。
た深層学習は、多くの層で構成されるネットワーク
を用いてクラス分類や回帰を行う機械学習の一つで
あり、物体認識などの応用において性能の高さから
近年注目が集まっている。
本研究では、深層学習を用いた音声認識システム
を作成した。音声データからメル周波数ケプストラ
ム特徴量を抽出し、それを深層学習モデルへの入力
図 2. 畳み込みニューラルネットワーク(CNN)
として単語の音声認識を行う。このシステムの設計
と性能評価について報告する。
表 1. 学習モデルの層の構成
畳み込み層
プーリング層
全結合層
2. 研究内容
1
1
2
音声認識システム作成に用いた学習データの作成 ①
2
2
2
と、深層学習モデル、そしてその性能評価について ②
2
2
3
③
述べる。
2.1 音声データ
音声データとして「東北大‐松下単語音声データ
ベース」[4]の、男女 60 人による各 30 種類の 単語計 3.結果
作成したそれぞれの CNN の性能を表 2 に示す。
1800 個の発話データを使用した。
深層学習ネットワーク(以下、ネットワークと呼 精度は 10epoch 後の評価データの値である。
ぶ)の入力にはこの音声データのメル周波数ケプス
表 2. 学習結果
トラム(以下 MFCC と呼ぶ)の特徴量を抽出して使
精度(%)
用する。図1に単語「nihon」の MFCC を視覚化し
57.77
①
た図を示す。
56.30
②
58.88
③
4.評価と考察
MFCC 特徴量を抽出した単語の音声データを入力
図 1. 単語「nihon」の MFCC の視覚化データ
とした音声認識システムは 56~58%の精度となった。
一般的に使用されている音声認識は、精度が約 80%
単語により発話時間の長短があるが、ネットワー
であることから、認識率が 25%低いという結果にな
クに対する入力は一定のサイズでなければならない。
った。
そこで、データの時間軸の大きさをそろえるなどの
本研究では単語の認識だけを対象としたが、前後
前処理を施した。
の単語も考慮した連続音声認識システムに改変する
ことにより、精度が上がる可能性もある。また、学
2.2 学習モデル
深層学習モデルの作成には、プログラミング言語 習済みの CNN を用いて音声認識システムを fine
Python で動作する Chainer[3]という深層学習フレー tuning することで精度の向上が期待できる。
ムワークを使用した。作成したネットワークは、畳
み込みニューラルネットワーク(以下 CNN と呼ぶ)と
呼ばれる構造をしている。標準的な CNN は、入力
層、畳み込み層、プーリング層、全結合層、出力層
から構成される。図2にその概略図を示す。本研究
ではネットワークの構造を変えた 3 つのネットワー
クを試作した(表 1)。なお、作成した 3 つのモデルす
べてには、汎化能力を向上させるためドロップアウ
トを使用している。
参考文献
[1] 荒木雅弘 (2015)「イラストで学ぶ音声認識」講談
社
[2] 山下隆義 (2016)「イラストで学ぶディープラーニ
ング 」講談社
[3] Chainer (2016) http://chainer.org/)(2016 年 12 月参
照)
[4] 牧野正三 (1989-1991)「東北大‐松下単語音声デ
ータベース」東北大学応用情報学研究センター