大学院輪講発表 音声認識による苗字の漢字表記の認識

大学院輪講発表
音声認識による苗字の漢字表
記の認識
徳島大学 知能情報工学専攻
A1講座
M1-13 梶原遼
背景と問題点




近年、電話による音声セルフサービスが実用化
されてきた。
テレフォンショッピングなど、電話を介しての商取
引を自動化しようとすると同音異姓の判別が問
題となる。
例えば、「マスコ」なら増子か、益子か、従来の音
声認識システムでは分からないので正しく認識
できない
そこで、音声認識によって、人間の氏名の漢字
表記を正しく認識する技術の需要が出てきた
研究の目的

音声認識によって、人間の氏名の漢字表
記を正しく認識できるシステムを構築する
こと
提案システム

「益子」を説明する場合
利益の益に子供の子で益子です。

「増子」を説明する場合
増えるに子孫の子で増子です。
このような文章を受理できる音声認識システム
を構築する。
苗字がどんな漢字で構成されているか、
口頭で説明することで漢字表記の正解率を高める。
音声認識システムの仕組み
人間の声など
会話の流れを元に
の音波
どんな言葉が使われ易いか
一番可能性が
推測する
高い解を出力
音声データ
音響モデル
人間の声の
性質の見本
入力音声の周波数の帯域の
分布を元に音声の特徴を抽出
音響分析
言語モデル
トライグラム等
探索
音響・言語モデルを元に
入力音声を推定する
認識結果
音響モデルと言語モデル
単語同士の連接を元に文全体の尤度を求める(言語モデル)
私
は
犬
の
散歩
に
出かけた
単語ごとに尤度を求める(音響モデル)
音響モデルと言語モデル

音響モデル:

音声の特徴量(周波数の分布)を用いてシス
テムがデータとして持っている各単語の発音
にどの位の尤度があるのか調べる
タロー
タロー
タローに高い尤度
ジロー サブロー
音響モデルと言語モデル

言語モデル:


単語同士の連接関係に基づいて文章全体の
尤度を算出する。
言語モデル:


タスク文法
Nグラムモデル
タスク文法とNグラムモデル

タスク文法



あらかじめ定められた文法に従って与えられ
た文章を受理する言語モデル
決定性有限オートマトン
タスクとは特定の役割である
山田
<s>
佐藤
鈴木
作った
カレーライス
は
ラーメン
焼きそば
を
食べた
残した
<\S>
タスク文法とNグラムモデル

利点



文章全体を捉えるので文章として成り立たない出力
結果が出ることはない
特定の役割を処理するのに向いている
欠点



文法は人手で記述しなければならない
想定外の文章に対応できない
従って、大規模な言語モデルを作るのには向いてい
ない
タスク文法とNグラムモデル

Nグラムモデル



文章のある時点に出現する単語は、その直前
の数個の単語に依存している
直前のN-1個の単語を手がかりに出現する単
語を統計的に推定するモデル
通常、大規模なコーパスを元に構築
タスク文法とNグラムモデル
切った
トライグラム
私
は
ケーキ
を
直前の2単語で次の単語の出現確率を求める
バイグラム
私
は
食べた
買った
切った
ケーキ
を
直前の1単語で次の単語を出現確率を求める
食べた
買った
タスク文法とNグラムモデル

利点



大規模な言語モデルを作成するのに向く
対応分野ならどんな発話にも対応できる
欠点


文章を部分的に捉えるので、全体として意味
のない文章になることがある
統計的な確率モデルなので大量のコーパスを
必要とする
タスク文法とNグラムモデル
Nグラム
タスク文法
言語モデル作
成
大量のコーパス 人手で作成
を必要とする
出力結果
意味の通じない
文章が出力され
る
想定外の発話
にも対応
柔軟性
意味の通じない
文章は主力され
ない
想定された発話
のみに対応
タスク文法とNグラムモデル

タスク適応における両者の比較




Nグラムは大量のコーパスを必要とする
Nグラムは意味のない文章を出力する可能性
がある
Nグラムは規模が大きい為、タスク文法に比
べて認識率が低くなる
以上のことから、Nグラムモデルはタスク文法
に比べてタスク処理に向かないといえる
Nグラムモデルのタスク適応




Nグラムモデルでタスク適応する手法の1
つとしてNグラムモデルの融合がある
異なる特徴を持つ複数のNグラムモデルを
組み合わせてNグラムの特徴を制御する
単純な方法としてコーパス同士を結合して
再学習させる方法がある
他にNグラムの確率を重みつきで併せる、
等の方法がある
システムの概要

音声認識エンジンはJuliusを使用する





言語モデルとして単語Nグラム、音響モデルと
してHMMを使用
入力を2回に分けて処理する2パス探索を行
う。
第1パス:バイグラムで解の候補を絞る
第2パス:逆方向トライグラムで候補ごとの尤
度を算出
Juliusで使用するNグラムモデルを改良
Nグラムモデルの改良




苗字の漢字表記の説明文を集めてコーパ
スとする(約3700文)
上記のコーパスを元にNグラムを構築
既存の新聞記事を元に構築されたNグラ
ムと融合
融合の手法については「相補的バックオフ
を用いた言語モデル融合ツールの構築」
[長友2002]に基づいて行った
実験用テストセット

テストセットの内容

日本人に多い苗字の上位100位に対して




話者数は10名
苗字だけを読み上げた音声


苗字だけを読み上げた音声
苗字の漢字表記を説明した文章を読み上げた音声
1つの苗字に付き、2名の話者に1回ずつ読み上げ(100×
2=200発声)
苗字の漢字表記を説明した文章を読み上げた音声


1つの苗字に付き、2つの説明文を用意
1つの説明文に付き、2名の話者に1回ずつ読み上げ(100
×2×2=400発声)
実験




トライグラムの融合に失敗したのでバイグラムの
み使用
実験1:従来のバイグラムを使用して苗字のみを
読み上げた音声を100苗字、計200発声認識さ
せた。
実験2:改良したバイグラムを使用して苗字のみ
を読み上げた音声を100苗字、計200発声認
識させた。
実験3:改良したバイグラムを使用して苗字の漢
字表記を説明する音声を100苗字、計400発声
認識させた。
実験結果
実験
実験1:
漢字表記の
正解率
69.5%
読みの
正解率
76.5%
実験2:
63.5%
71.0%
実験3:
67.3%
72.0%
考察


実験2と実験3を比較すると、実験3の方
が受理しなければならない文の長さが増
えているにも関わらず漢字表記の正解率
が増加、読みの正解率との差も減少して
いることが分かる
しかし、実験1の正解率には及ばない。傾
向としては良くなっているが正解率は低い
ままである
今後の研究課題

この状況を改善するため、現在以下の方
法を検討している


後処理を工夫する
コーパスの自動生成を行う
後処理


Julianは第2パスで幾つかの解の候補の中
から最適解を求める
そこで、第2パスで尤度の高さ上位N個の
候補に対して、後処理をする
白黒
Φ
白
の
富士山
に
山
の
白山
で
白黒の城⇒白黒の白
富士山の三⇒富士山の山
白黒の白に富士山の山で城山です
⇒白黒の白に富士山の山で白山です
です
コーパスの自動生成


コーパスの量を増やして実験を行うことを
現在考えている
苗字の説明はある程度パターンが決まっ
ている⇒コーパスは自動生成可能であると
思われる。
まとめ


Nグラムモデルの融合という方法で苗字の
説明に対応する言語モデルの構築を試み
た
しかし、性能が低いので、現在様々な方法
を検討している