深層学習を用いた音声認識システム 電気電子工学科 T213069 林 健吉 白井研究室 2.1 節で述べた音声データを 8.5:1.5 の割合で学習 1. はじめに 音声認識とは、人間が声で話す言葉を文字に変換 データと評価データを分け、バッチサイズ 300、 し、コンピュータに認識させる技術である[1]。ま 10epoch で学習させた。 た深層学習は、多くの層で構成されるネットワーク を用いてクラス分類や回帰を行う機械学習の一つで あり、物体認識などの応用において性能の高さから 近年注目が集まっている。 本研究では、深層学習を用いた音声認識システム を作成した。音声データからメル周波数ケプストラ ム特徴量を抽出し、それを深層学習モデルへの入力 図 2. 畳み込みニューラルネットワーク(CNN) として単語の音声認識を行う。このシステムの設計 と性能評価について報告する。 表 1. 学習モデルの層の構成 畳み込み層 プーリング層 全結合層 2. 研究内容 1 1 2 音声認識システム作成に用いた学習データの作成 ① 2 2 2 と、深層学習モデル、そしてその性能評価について ② 2 2 3 ③ 述べる。 2.1 音声データ 音声データとして「東北大‐松下単語音声データ ベース」[4]の、男女 60 人による各 30 種類の 単語計 3.結果 作成したそれぞれの CNN の性能を表 2 に示す。 1800 個の発話データを使用した。 深層学習ネットワーク(以下、ネットワークと呼 精度は 10epoch 後の評価データの値である。 ぶ)の入力にはこの音声データのメル周波数ケプス 表 2. 学習結果 トラム(以下 MFCC と呼ぶ)の特徴量を抽出して使 精度(%) 用する。図1に単語「nihon」の MFCC を視覚化し 57.77 ① た図を示す。 56.30 ② 58.88 ③ 4.評価と考察 MFCC 特徴量を抽出した単語の音声データを入力 図 1. 単語「nihon」の MFCC の視覚化データ とした音声認識システムは 56~58%の精度となった。 一般的に使用されている音声認識は、精度が約 80% 単語により発話時間の長短があるが、ネットワー であることから、認識率が 25%低いという結果にな クに対する入力は一定のサイズでなければならない。 った。 そこで、データの時間軸の大きさをそろえるなどの 本研究では単語の認識だけを対象としたが、前後 前処理を施した。 の単語も考慮した連続音声認識システムに改変する ことにより、精度が上がる可能性もある。また、学 2.2 学習モデル 深層学習モデルの作成には、プログラミング言語 習済みの CNN を用いて音声認識システムを fine Python で動作する Chainer[3]という深層学習フレー tuning することで精度の向上が期待できる。 ムワークを使用した。作成したネットワークは、畳 み込みニューラルネットワーク(以下 CNN と呼ぶ)と 呼ばれる構造をしている。標準的な CNN は、入力 層、畳み込み層、プーリング層、全結合層、出力層 から構成される。図2にその概略図を示す。本研究 ではネットワークの構造を変えた 3 つのネットワー クを試作した(表 1)。なお、作成した 3 つのモデルす べてには、汎化能力を向上させるためドロップアウ トを使用している。 参考文献 [1] 荒木雅弘 (2015)「イラストで学ぶ音声認識」講談 社 [2] 山下隆義 (2016)「イラストで学ぶディープラーニ ング 」講談社 [3] Chainer (2016) http://chainer.org/)(2016 年 12 月参 照) [4] 牧野正三 (1989-1991)「東北大‐松下単語音声デ ータベース」東北大学応用情報学研究センター
© Copyright 2025 ExpyDoc