大学院輪講発表 音声認識による苗字の漢字表 記の認識 徳島大学 知能情報工学専攻 A1講座 M1-13 梶原遼 背景と問題点 近年、電話による音声セルフサービスが実用化 されてきた。 テレフォンショッピングなど、電話を介しての商取 引を自動化しようとすると同音異姓の判別が問 題となる。 例えば、「マスコ」なら増子か、益子か、従来の音 声認識システムでは分からないので正しく認識 できない そこで、音声認識によって、人間の氏名の漢字 表記を正しく認識する技術の需要が出てきた 研究の目的 音声認識によって、人間の氏名の漢字表 記を正しく認識できるシステムを構築する こと 提案システム 「益子」を説明する場合 利益の益に子供の子で益子です。 「増子」を説明する場合 増えるに子孫の子で増子です。 このような文章を受理できる音声認識システム を構築する。 苗字がどんな漢字で構成されているか、 口頭で説明することで漢字表記の正解率を高める。 音声認識システムの仕組み 人間の声など 会話の流れを元に の音波 どんな言葉が使われ易いか 一番可能性が 推測する 高い解を出力 音声データ 音響モデル 人間の声の 性質の見本 入力音声の周波数の帯域の 分布を元に音声の特徴を抽出 音響分析 言語モデル トライグラム等 探索 音響・言語モデルを元に 入力音声を推定する 認識結果 音響モデルと言語モデル 単語同士の連接を元に文全体の尤度を求める(言語モデル) 私 は 犬 の 散歩 に 出かけた 単語ごとに尤度を求める(音響モデル) 音響モデルと言語モデル 音響モデル: 音声の特徴量(周波数の分布)を用いてシス テムがデータとして持っている各単語の発音 にどの位の尤度があるのか調べる タロー タロー タローに高い尤度 ジロー サブロー 音響モデルと言語モデル 言語モデル: 単語同士の連接関係に基づいて文章全体の 尤度を算出する。 言語モデル: タスク文法 Nグラムモデル タスク文法とNグラムモデル タスク文法 あらかじめ定められた文法に従って与えられ た文章を受理する言語モデル 決定性有限オートマトン タスクとは特定の役割である 山田 <s> 佐藤 鈴木 作った カレーライス は ラーメン 焼きそば を 食べた 残した <\S> タスク文法とNグラムモデル 利点 文章全体を捉えるので文章として成り立たない出力 結果が出ることはない 特定の役割を処理するのに向いている 欠点 文法は人手で記述しなければならない 想定外の文章に対応できない 従って、大規模な言語モデルを作るのには向いてい ない タスク文法とNグラムモデル Nグラムモデル 文章のある時点に出現する単語は、その直前 の数個の単語に依存している 直前のN-1個の単語を手がかりに出現する単 語を統計的に推定するモデル 通常、大規模なコーパスを元に構築 タスク文法とNグラムモデル 切った トライグラム 私 は ケーキ を 直前の2単語で次の単語の出現確率を求める バイグラム 私 は 食べた 買った 切った ケーキ を 直前の1単語で次の単語を出現確率を求める 食べた 買った タスク文法とNグラムモデル 利点 大規模な言語モデルを作成するのに向く 対応分野ならどんな発話にも対応できる 欠点 文章を部分的に捉えるので、全体として意味 のない文章になることがある 統計的な確率モデルなので大量のコーパスを 必要とする タスク文法とNグラムモデル Nグラム タスク文法 言語モデル作 成 大量のコーパス 人手で作成 を必要とする 出力結果 意味の通じない 文章が出力され る 想定外の発話 にも対応 柔軟性 意味の通じない 文章は主力され ない 想定された発話 のみに対応 タスク文法とNグラムモデル タスク適応における両者の比較 Nグラムは大量のコーパスを必要とする Nグラムは意味のない文章を出力する可能性 がある Nグラムは規模が大きい為、タスク文法に比 べて認識率が低くなる 以上のことから、Nグラムモデルはタスク文法 に比べてタスク処理に向かないといえる Nグラムモデルのタスク適応 Nグラムモデルでタスク適応する手法の1 つとしてNグラムモデルの融合がある 異なる特徴を持つ複数のNグラムモデルを 組み合わせてNグラムの特徴を制御する 単純な方法としてコーパス同士を結合して 再学習させる方法がある 他にNグラムの確率を重みつきで併せる、 等の方法がある システムの概要 音声認識エンジンはJuliusを使用する 言語モデルとして単語Nグラム、音響モデルと してHMMを使用 入力を2回に分けて処理する2パス探索を行 う。 第1パス:バイグラムで解の候補を絞る 第2パス:逆方向トライグラムで候補ごとの尤 度を算出 Juliusで使用するNグラムモデルを改良 Nグラムモデルの改良 苗字の漢字表記の説明文を集めてコーパ スとする(約3700文) 上記のコーパスを元にNグラムを構築 既存の新聞記事を元に構築されたNグラ ムと融合 融合の手法については「相補的バックオフ を用いた言語モデル融合ツールの構築」 [長友2002]に基づいて行った 実験用テストセット テストセットの内容 日本人に多い苗字の上位100位に対して 話者数は10名 苗字だけを読み上げた音声 苗字だけを読み上げた音声 苗字の漢字表記を説明した文章を読み上げた音声 1つの苗字に付き、2名の話者に1回ずつ読み上げ(100× 2=200発声) 苗字の漢字表記を説明した文章を読み上げた音声 1つの苗字に付き、2つの説明文を用意 1つの説明文に付き、2名の話者に1回ずつ読み上げ(100 ×2×2=400発声) 実験 トライグラムの融合に失敗したのでバイグラムの み使用 実験1:従来のバイグラムを使用して苗字のみを 読み上げた音声を100苗字、計200発声認識さ せた。 実験2:改良したバイグラムを使用して苗字のみ を読み上げた音声を100苗字、計200発声認 識させた。 実験3:改良したバイグラムを使用して苗字の漢 字表記を説明する音声を100苗字、計400発声 認識させた。 実験結果 実験 実験1: 漢字表記の 正解率 69.5% 読みの 正解率 76.5% 実験2: 63.5% 71.0% 実験3: 67.3% 72.0% 考察 実験2と実験3を比較すると、実験3の方 が受理しなければならない文の長さが増 えているにも関わらず漢字表記の正解率 が増加、読みの正解率との差も減少して いることが分かる しかし、実験1の正解率には及ばない。傾 向としては良くなっているが正解率は低い ままである 今後の研究課題 この状況を改善するため、現在以下の方 法を検討している 後処理を工夫する コーパスの自動生成を行う 後処理 Julianは第2パスで幾つかの解の候補の中 から最適解を求める そこで、第2パスで尤度の高さ上位N個の 候補に対して、後処理をする 白黒 Φ 白 の 富士山 に 山 の 白山 で 白黒の城⇒白黒の白 富士山の三⇒富士山の山 白黒の白に富士山の山で城山です ⇒白黒の白に富士山の山で白山です です コーパスの自動生成 コーパスの量を増やして実験を行うことを 現在考えている 苗字の説明はある程度パターンが決まっ ている⇒コーパスは自動生成可能であると 思われる。 まとめ Nグラムモデルの融合という方法で苗字の 説明に対応する言語モデルの構築を試み た しかし、性能が低いので、現在様々な方法 を検討している
© Copyright 2025 ExpyDoc