複数仮説を用いた講義音声認識結果の自動整形と 可読性の評価∗ ◎藤井 康寿, 山本 一公, 中川 聖一 (豊橋技術科学大学) 1 はじめに 本稿では,講義音声を対象とした,音声認識結果の 自動整形手法と,その評価について述べる.本研究で 対象とする講義音声は,自然発話特有の非流暢現象 を数多く含むことや,生の認識結果は句読点などの 構造情報を欠いていることから,たとえ全ての単語 を誤りなく認識できたとしても,認識結果は非常に 読み辛いものとなってしまう.そのため,認識結果を ユーザに提示する前に,可読性の向上を目的として, 言い淀み箇所を削除したり,句読点の挿入を行う必要 がある.講義音声は,非流暢現象を多く含むことや, 専門用語の問題などから,一般に認識が非常に難し く,WER が高い場合でも頑健に動作する整形手法が 望まれる.本稿では,認識結果の複数仮説を利用した 音声認識結果の自動整形手法を提案する.自動評価と 主観評価の結果より,複数仮説を利用する方が 1best 仮説のみを使用するよりも良い結果を与えることが わかった. 2 講義音声認識結果の自動整形 講義音声を自動認識し,字幕のように音声と同時 に書き起こしを提示することができれば,利用者の 理解を助けることが可能である.講義音声の認識率 は徐々に向上してきているが [1, 2],講義音声などの 自然発話は,たとえ認識精度が 100%であったとして も,“えーと” や “あのー” といったフィラー,言い直 し,言い止めなどの話し言葉特有の言い淀みが頻繁 に発生するため,忠実な書き起こしは読み辛く,読ん で理解することは,音声を聞く場合と比べて非常に 困難である.また,通常音声認識の出力結果には句 読点や段落の情報は付与されないため,当然これら の情報も付与した方が読み易い.そのため,音声認 識結果をユーザに提示する前に,言い淀みの除去や 話し言葉特有の言い回しの変換,句読点の挿入を行っ た方が良い. これまでにも,音声ドキュメント書き起こしの整形 に関する研究は,講演や会議録を対象として既にいく つか行われている [3, 4, 5].しかし,これまでの研究 は,主として人手による書き起こしテキストに対す る有効性について検討されているため,講義音声の ような非常に誤りが多いテキストに対しては,頑健 に動作しないことが予想される.講義音声は,最先端 の認識システムを用いても,30 ∼ 50 %程度の WER (単語誤り率)しか達成できないため,認識誤りに頑 健な手法が求められる. ∗ 1best 仮説から整形文を推定するのではなく,音声 認識の複数仮説を考慮することで,認識誤りに対する 頑健性が増すと考えられる.堀ら [6] は,WFST ベー スの認識デコーダの後段に,話し言葉から書き言葉 へのスタイル変換のためのモデルを追加することに より,音声波形から直接整形文を推定する手法を提案 しており,音声認識結果の複数仮説を考慮することが 可能となっている.Neubig ら [7] も同様に WFST を 用いた手法を用いている. 本稿では,複数の認識仮説を考慮するために,Confusion Network [8] を用いた音声認識結果の自動整形 手法について述べる.複数の認識仮説を考慮するこ とで,認識誤りが多い場合でも頑健に動作すること が期待できる. 3 3.1 提案法 定式化 提案法では,音声の特徴量の系列 O から,整形さ れた単語の系列(書き言葉の系列)W を得る確率を 以下の様に定式化する. ∑ P (W |O) = P (W, S|O) S = ∑ P (W |S, O)P (S|O) S ≈ ∑ P (W |S)P (S|O), (1) S ここで,S は発声された音声をそのまま書き起こした 系列(話し言葉の系列)を示す.P (S|O) は音声特徴 量 O が与えられたときに発声内容が S である事後確 率である.P (W |S) は話し言葉の系列 S から,書き 言葉の系列 W に変換される確率である.P (W |S) に は任意のモデルを使用することができるが,本研究 では以下の様に近似する. P (W |S) P (W )δ(W, S), (2) ここで,P (W ) は書き言葉の言語モデル,δ(W, S) は S から W に変換し得れば 1,そうでなければ 0 となる ような関数である.計算の容易さのために,δ(W, S) (W = (w1 , w2 , . . . , wN ), S = (s1 , s2 , . . . , sN )) を以 下の様に近似する. δ(W, S) = N ∏ δ(wi , si ), (3) i ここで,δ(w, s) = 1 は話し言葉の単語 s が書き言葉の 単語 w に変換され得れば 1,そうでなければ 0 となる Automatic editing of ASR results using multiple hypotheses and its evaluation. by FUJII, Yasuhisa, YAMAMOTO, Kazumasa and NAKAGAWA, Seiichi (Toyohashi University of Technology) 関数である.式 (2) と (3) および,P (W ) と P (Si |O) のバランスを取るための重み α および β を導入する ことで,式 (1) は以下の様になる. P (W |O) ≈ P (W )α N ∑∏ S δ(wi , si )P (Si |O)β . (4) i 提案法では,仮説 S の集合を Confusion Network で 表現し,挿入や脱落操作が可能な δ(wi , si ) による変 ˆ を探索す 換を考慮しながら,式 (4) を最大化する W ることで,音声から整形文を推定する(Proposed). 3.2 Confusion Network の変換 式 (4) の δ(wi , si ) によって,書き言葉から話し言 葉への変換規則を表現する.δ(wi , si ) を適切に設定 することで,任意の変換を考慮することが可能であ る.本研究では,対処する必要性が高いと思われる フィラーの除去,句読点の挿入,助詞の挿入について 考慮する. 3.2.1 フィラーの除去 フィラーは,自然発話において最も頻出する現象な ので [9],可読性の観点から対処が必須であると思わ れる.フィラー除去のために,以下の変換規則を使用 する. δ(del , Filler ) = 1, (5) ここで,Filler はその品詞が “フィラー” または “感 動詞” である単語を示す.1,2 フィラーを正確に認識 することは一般に難しく,他の単語として認識され てしまう可能性があるため,1best 結果だけを使用す る場合には,正しくフィラー箇所を特定できず,結果 として多くのフィラーを除去できない可能性が高い. しかし,提案法は,同一の書き言葉単語 w に変換さ れる話し言葉認識単語の集合 {s|δ(w, s) = 1} の各単 語スコアの総和を計算するので,より多くのフィラー を検出・除去できる可能性がある. 3.2.2 3.2.3 “は” や “が” といった必須格の助詞は話し言葉では 省略されることがあるため,可読性の向上ためには これらを復元した方が良い.省略された助詞は話し 言葉のどの単語にも一致しないため,話し言葉の del から助詞を変換できるように,助詞の挿入のための 変換規則を以下のように定義する. δ(Particle, del ) = 1, δ(Punctuation, Pause) = 1, (6) (8) ここで,Particle は “は”, “が”, “を”,“と” のいずれ かであり,日本語の対話において最も省略されやすい 上位 4 つである [11]. 3.3 スタックデコーディングよるサーチ 3.2 節の変換を考慮することで,話し言葉の複数仮 説を表現する Confusion Network は書き言葉の複数 仮説を表現する Confusion Network に変換される.こ の変換された Confusion Network 上を,書き言葉の 言語モデル P (W ) の制約を加えて探索することで,式 ˆ を求める.式 (2) の近似に (4) を最大化する仮説 W よって,探索はビン同期のスタックデコーディングで 簡単に行うことができる.手順は以下の通りである. まず,第一のビンに含まれる単語を全てスタックに積 む.スタックはスコア順にソートする.次のビンに進 む.一旦スタックから全ての仮説を取り除き,取り除 いた仮説と,新しいビンに含まれる全ての単語を接 続して新たな仮説を作る.N-gram の範囲内(N-1 単 語)で同一の仮説が存在する場合は,最尤のものだけ を残し,これらの仮説をスタックに積む.スタックを スコア順にソートし,ビーム幅を超える仮説を棄却 する.これを,最後のビンまで繰り返す.最後のビン に到達したとき,スタックの一番上にある仮説を探索 結果(整形結果)とする. 4 句読点の挿入 生の音声認識結果には句読点の情報が欠落してい るため,可読性の向上のためには句読点を挿入した 方が良い.ポーズの出現位置と句読点の位置には必 ずしも関係はないが,何らかの関係はあると思われ るため [10],ポーズの出現位置に対する句読点の挿入 を考慮するために,以下の変換規則を使用する. 助詞の挿入 4.1 ベースライン 1best-フィラー除去 フィラーは最も出現頻度が高く,可読性にも高い影 響を与えると考えられる.そのため,認識結果の最尤 仮説(1best)からその品詞が “フィラー” または “感 動詞” である単語を除去し,整形結果とするものを 1 つ目のベースラインとする(filler-rm). 4.2 1best-整形 提案法は,音声認識の結果得られる複数仮説を利 ここで,Punctuation は読点もしくは句点を示し, 用して,1best 結果のみを使用するよりも精度良く Pause はサイレンスやショートポーズなどのポーズ 整形することを目指している.そこで比較のために, として認識された単語を示す.これに加え,ポーズが 1best 結果のみを含む Confusion Network を作成し 出現した箇所以外への挿入を考慮するために,以下 (Fig. 1),提案法を適用した場合を 2 つ目のベースラ の変換規則も使用する. インとする(single-edit).式 (4) における P (Si |O) δ(Punctuation, del ) = 1. (7) は,1best 結果の単語には c,対応するビンの del に 1 本研究では,形態素解析器のために IPA 辞書と ChaSen(verは 1 − c を割り当てる.ビン間に挿入した特殊単語 del sion 2.4.4)の組み合わせを使用した. の事後確率は 1 とした. 2 単語には発音辞書を作成する段階で品詞情報が付与されてい るので,認識後に形態素解析をする必要はない. Fig. 1 1best 仮説からの Confusion Network の作成(例:えーと講義を始めます) Table 1 Duration (min.) 67.6 5 テストデータの詳細 #Words Manual Paraph. 11813 10192 APP. Manual Paraph. 182.6 159.7 実験 5.1 本実験で対象とするのは,大学院における講義を 多数収録した CJLC コーパス [12] における講義 8 コ マ分である.これらの講義に対して,人手で整形文を 作成し,整形結果の正解とした.テストデータの詳細 を Table 1 に示す. 音 声 認 識 シ ス テ ム に は ,本 研 究 室 で 開 発 し た SPOJUS[13] を使用した.SPOJUS は,Confusion Network を出力する機能を有するため,これを利用 した.3 テストデータ 8 講演分を認識した結果,WER は平均で 42.5%であった. 音響モデルには日本語話し言葉コーパス(CSJ)[14] から学習した文脈依存のモデル(928 音節)を使用し た.特徴量は MFCC,∆MFCC,∆∆MFCC,パワー の ∆ および ∆∆ で計 38 次元である.各音節は leftto-right の 5 状態からなり,最終状態以外の 4 状態が 出力分布を持つ.各分布は GMM で,混合数は 4,共 分散行列はブロック型である. 言語モデルには,話し言葉および書き言葉ともに トライグラムを使用し,話し言葉用の言語モデルは, CSJ の学会講演と模擬講演(2702 講演分),書き言 葉のための言語モデルは,毎日新聞の記事のうち 91 年 1 月から 99 年 12 月までの 9 年分のデータから学 習した(バックオフはウィッテンベル法を用いた). 語彙は,CSJ の学会講演と模擬講演に出現した上位 20000 万語に句読点を加えたものを使用した. 式 (4) における α および β は 1.0 および 6.0 とし た.スタックデコーディングのビーム幅は 100,4.2 節の c は 0.95 とした. 5.2 5.2.1 Table 2 実験条件 自動評価 Confusion Network の評価 SPOJUS が出力する Confusion Network の単語カ バレージと単語密度を Table 2 に示す.表より,人手 による整形結果に対しても,80%近い単語カバレージ があり,ある程度の仮説空間が表現できているとい える. 3 Confusion Network を作成する際に残すアークの数は,トレ リスから作成されるラティス全体の 0.15%とした. OOV all / kind [%] Manual Paraph. 3.5 / 36.5 3.9 / 37.1 Confusion Network の単語カバレージと単 語密度(括弧内は 1best の結果) Target Manual Paraphrased Word coverage [%] 82.5 (60.5) 77.2 (53.5) Table 3 Method 1-best-raw Filler-rm Single-edit Single-edit Proposed Proposed 5.2.2 Word density 3.54 (1.00) 人手整形文との比較結果 Particle ⃝ × ⃝ × Del. 7.6 10.0 8.2 10.7 16.2 18.9 Ins. 15.7 9.7 12.6 9.1 7.0 5.2 Subs. 39.3 36.5 38.7 36.3 31.6 29.6 WER 62.6 56.2 59.5 56.2 54.8 53.7 WER による比較 提案法およびベースラインの人手整形文に対する WER を計算した結果を Table 3 に示す.句読点の影響 を取り除くため,句読点は全て除去している.1-bestraw は,1best の認識結果をそのまま使用した場合の 結果である.表の Particle は助詞の挿入を考慮するか どうかを示す.表より,1-best-raw よりも Filler-rm の 方が WER が低く,Filler-rm と助詞の挿入を考慮し ない場合の Single-edit を比べると,ほぼ同じ値となっ ていることがわかる.複数仮説を考慮した Proposed は,Filler-rm および Single-edit よりも WER が低く, 複数仮説を考慮することが有効であった.助詞の挿入 を考慮した場合,必要のない箇所にまで助詞を挿入 し過ぎることによって挿入誤りが増加し,最終的な WER は助詞の挿入を考慮しない場合よりも高くなっ てしまった. 5.2.3 句点挿入の評価 読点は評価が難しいため,句点のみ評価する.人が 挿入した句点に対する各手法の句点の評価を Table 4 に示す.句読点を推定しない場合,認識に用いた単 位の終端に句点が挿入されるものと仮定して評価し た(Pause).表より,認識単位(200m 秒のショート ポーズ)をそのまま用いるよりも句点を推定した方 が性能が良く,さらに,複数仮説を考慮することで, 1best のみを用いるよりも性能が良くなっていること がわかる. Table 5 Evaluation Readability Understandability 被験者実験結果 Method A B 1-best-raw Filler-rm Filler-rm Proposed(utterance unit) Proposed(utterance unit) Proposed(estimated unit) 1-best-raw Filler-rm Filler-rm Proposed(utterance unit) Proposed(utterance unit) Proposed(estimated unit) Table 4 句点挿入の評価結果 Method Pause Single-edit Proposed 5.3 Recall 0.562 0.660 0.525 Precision 0.253 0.278 0.376 F 0.335 0.384 0.422 主観評価 提案法による可読性の向上を主観的に評価するた めに,被験者実験を行った.評価は 10 人の被験者に 対して行い,以下の手順で行った. 1. A と B の書き起こしを読む(それぞれ約 30 行, 850 字,書き起こしは 4 つの小区間に分けられて おり(約 7 行)おおよそトピックに相当する). 2. それぞれの区間毎に,読み易さについて評価する. 3. 正解書き起こしを読み,再び A と B を読む. 4. 同様に,理解し易さについて評価する. 被験者は,両者の間に差を付けられない場合には “?” を使っても良い.フィラー除去の効果を見るために 1best-raw と Filler-rm,句点挿入機能を除く提案法に よる効果を見るために共に認識単位で改行した Fillerrm と Proposed,句点挿入の効果を見るために認識単 位で改行した Proposed と推定された句点箇所で改行 した Proposed を比較した.句読点の存在によるバイ アスを避けるため,句読点は全て取り除いて評価した. 実験結果を Table 5 に示す.表の “Count” は,“A” または “B” を良いと選択した回数(“?” は判断でき なかった回数)を示し,“*” は,有意水準 α のもと で “A” と “B” の選択に有意差があることを示す(ztest).表より,可読性の向上に関しては全てのペア で有意に改善が得られたことがわかる.しかし,理 解し易さに関しては,フィラー除去以外では改善が得 られなかった.これは,たとえ言い淀みが削除されて 読み易くなったとしても,必要な単語が削除されてし まった場合には,むしろ理解し易さを低下させるから であると考えられる. 6 おわりに 本稿では,複数仮説を考慮した講義音声認識結果 の自動整形と可読性の評価について述べた.認識結 果を Confusion Network による複数仮説として表現 し,整形することで,1best 結果のみから整形するよ A 8 23 21 8 38 24 Count B 70 51 56 57 28 38 ? 2 6 3 15 14 18 Significance α=0.05 α=0.01 * * * * * * * * - りも精度良く整形することができた.今後の課題と しては,単語の変換ルールにスコアを設けることや, 句読点の挿入に識別モデルを利用することなどがあ げられる. 謝辞 本研究は文部科学省グローバル COE プログラ ム「インテリジェントセンシングのフロンティア」の 支援を受けた。 参考文献 [1] J. Glass, S. Cyphers T. J. Hazen, I. Malioutov, D. Huynh, and R. Barzilay. Recent progress in the MIT spoken lecture processing project. In Proc. Interspeech, pp. 2553–2356, Aug. 2007. [2] S. Kogure, H. Nishizaki, M. Tsuchiya, K. Yamamoto, S. Togashi, and S. Nakagawa. Speech recognition performance of CJLC: Corpus of Japanese lecture contents. In Proc. Interspeech, pp. 1554–1557, Sep. 2008. [3] 下岡, 南條, 河原. 講演の書き起こしに対する統計的手法を用 いた文体の整形. 自然言語処理, Vol. 11, No. 3, pp. 67–83, 2004. [4] 秋田, 河原. 会議録作成のための話し言葉音声認識結果の 自動整形. Proc. 日本音響学会講演論文集, pp. 103–104, September 2008. [5] 尾嶋, 河原, 秋田, 内元. 話し言葉の整形作業における削除箇 所の自動同定. Proc. 情報処理学会研究報告, 2008-SLP-71, pp. 85–91, May 2008. [6] T. Hori, D. Willet, and Y. Minami. Paraphrasing spontaneous speech using weighted finite-state transducers. SSPR, pp. 210–222, 4 2003. [7] G. Neubig, S. Mori, and T. Kawahara. A WFST-based Log-linear Framework for Speaking-style Transformation. In Proc. Interspeech, pp. 1495–1498, 2009. [8] L. Mangu, E. Brill, and A. Stolcke. Finding consensus in speech recognition: word error minimization and other applications of confusion networkds. Computer Speech and Language, Vol. 14, No. 4, pp. 373–400, 2000. [9] M. Tsuchiya, S. Kogure, H. Nishizaki, K. Ohta, and S. Nakagawa. Developing corpus of Japanese classroom lecture speech contents. In Proc. LREC, 2008. [10] K. Shitaoka, H. Nanjo, and T. Kawahara. Automatic transformation of lecture transcription into document style using statistical framework. In Proc. Interspeech, pp. 2881–2884, 2004. [11] 山本, 小林, 中川. 音声対話文における助詞落ち・倒置の分 析と解析手法. 情報処理学会論文誌, Vol. 33, No. 11, pp. 1322–1330, 11 1992. [12] 土屋, 小暮, 西崎, 太田, 山本, 中川. 日本語講義音声コンテ ンツコーパスの作成と分析. 情報処理学会論文誌, Vol. 50, No. 2, pp. 448–450, Feb. 2009. [13] 藤井, 山本, 中川. 大語彙連続音声認識システムの改善: SPOJUS++. Proc. 第 4 回音声ドキュメント処理ワークショッ プ, Feb. 2010. [14] S. Furui, K. Maekawa, and H Isahara. A japanese national project on spontaneous speech corpus and processing technology. Proc. ASR2000, pp. 244–248, 2000.
© Copyright 2025 ExpyDoc