誤植修正版pdf - Spoken Language Processing Laboratory - 豊橋

複数仮説を用いた講義音声認識結果の自動整形と
可読性の評価∗
◎藤井 康寿, 山本 一公, 中川 聖一 (豊橋技術科学大学)
1
はじめに
本稿では,講義音声を対象とした,音声認識結果の
自動整形手法と,その評価について述べる.本研究で
対象とする講義音声は,自然発話特有の非流暢現象
を数多く含むことや,生の認識結果は句読点などの
構造情報を欠いていることから,たとえ全ての単語
を誤りなく認識できたとしても,認識結果は非常に
読み辛いものとなってしまう.そのため,認識結果を
ユーザに提示する前に,可読性の向上を目的として,
言い淀み箇所を削除したり,句読点の挿入を行う必要
がある.講義音声は,非流暢現象を多く含むことや,
専門用語の問題などから,一般に認識が非常に難し
く,WER が高い場合でも頑健に動作する整形手法が
望まれる.本稿では,認識結果の複数仮説を利用した
音声認識結果の自動整形手法を提案する.自動評価と
主観評価の結果より,複数仮説を利用する方が 1best
仮説のみを使用するよりも良い結果を与えることが
わかった.
2
講義音声認識結果の自動整形
講義音声を自動認識し,字幕のように音声と同時
に書き起こしを提示することができれば,利用者の
理解を助けることが可能である.講義音声の認識率
は徐々に向上してきているが [1, 2],講義音声などの
自然発話は,たとえ認識精度が 100%であったとして
も,“えーと” や “あのー” といったフィラー,言い直
し,言い止めなどの話し言葉特有の言い淀みが頻繁
に発生するため,忠実な書き起こしは読み辛く,読ん
で理解することは,音声を聞く場合と比べて非常に
困難である.また,通常音声認識の出力結果には句
読点や段落の情報は付与されないため,当然これら
の情報も付与した方が読み易い.そのため,音声認
識結果をユーザに提示する前に,言い淀みの除去や
話し言葉特有の言い回しの変換,句読点の挿入を行っ
た方が良い.
これまでにも,音声ドキュメント書き起こしの整形
に関する研究は,講演や会議録を対象として既にいく
つか行われている [3, 4, 5].しかし,これまでの研究
は,主として人手による書き起こしテキストに対す
る有効性について検討されているため,講義音声の
ような非常に誤りが多いテキストに対しては,頑健
に動作しないことが予想される.講義音声は,最先端
の認識システムを用いても,30 ∼ 50 %程度の WER
(単語誤り率)しか達成できないため,認識誤りに頑
健な手法が求められる.
∗
1best 仮説から整形文を推定するのではなく,音声
認識の複数仮説を考慮することで,認識誤りに対する
頑健性が増すと考えられる.堀ら [6] は,WFST ベー
スの認識デコーダの後段に,話し言葉から書き言葉
へのスタイル変換のためのモデルを追加することに
より,音声波形から直接整形文を推定する手法を提案
しており,音声認識結果の複数仮説を考慮することが
可能となっている.Neubig ら [7] も同様に WFST を
用いた手法を用いている.
本稿では,複数の認識仮説を考慮するために,Confusion Network [8] を用いた音声認識結果の自動整形
手法について述べる.複数の認識仮説を考慮するこ
とで,認識誤りが多い場合でも頑健に動作すること
が期待できる.
3
3.1
提案法
定式化
提案法では,音声の特徴量の系列 O から,整形さ
れた単語の系列(書き言葉の系列)W を得る確率を
以下の様に定式化する.
∑
P (W |O) =
P (W, S|O)
S
=
∑
P (W |S, O)P (S|O)
S
≈
∑
P (W |S)P (S|O),
(1)
S
ここで,S は発声された音声をそのまま書き起こした
系列(話し言葉の系列)を示す.P (S|O) は音声特徴
量 O が与えられたときに発声内容が S である事後確
率である.P (W |S) は話し言葉の系列 S から,書き
言葉の系列 W に変換される確率である.P (W |S) に
は任意のモデルを使用することができるが,本研究
では以下の様に近似する.
P (W |S)
P (W )δ(W, S),
(2)
ここで,P (W ) は書き言葉の言語モデル,δ(W, S) は
S から W に変換し得れば 1,そうでなければ 0 となる
ような関数である.計算の容易さのために,δ(W, S)
(W = (w1 , w2 , . . . , wN ), S = (s1 , s2 , . . . , sN )) を以
下の様に近似する.
δ(W, S) =
N
∏
δ(wi , si ),
(3)
i
ここで,δ(w, s) = 1 は話し言葉の単語 s が書き言葉の
単語 w に変換され得れば 1,そうでなければ 0 となる
Automatic editing of ASR results using multiple hypotheses and its evaluation. by FUJII, Yasuhisa,
YAMAMOTO, Kazumasa and NAKAGAWA, Seiichi (Toyohashi University of Technology)
関数である.式 (2) と (3) および,P (W ) と P (Si |O)
のバランスを取るための重み α および β を導入する
ことで,式 (1) は以下の様になる.
P (W |O) ≈ P (W )α
N
∑∏
S
δ(wi , si )P (Si |O)β . (4)
i
提案法では,仮説 S の集合を Confusion Network で
表現し,挿入や脱落操作が可能な δ(wi , si ) による変
ˆ を探索す
換を考慮しながら,式 (4) を最大化する W
ることで,音声から整形文を推定する(Proposed).
3.2
Confusion Network の変換
式 (4) の δ(wi , si ) によって,書き言葉から話し言
葉への変換規則を表現する.δ(wi , si ) を適切に設定
することで,任意の変換を考慮することが可能であ
る.本研究では,対処する必要性が高いと思われる
フィラーの除去,句読点の挿入,助詞の挿入について
考慮する.
3.2.1
フィラーの除去
フィラーは,自然発話において最も頻出する現象な
ので [9],可読性の観点から対処が必須であると思わ
れる.フィラー除去のために,以下の変換規則を使用
する.
δ(del , Filler ) = 1,
(5)
ここで,Filler はその品詞が “フィラー” または “感
動詞” である単語を示す.1,2 フィラーを正確に認識
することは一般に難しく,他の単語として認識され
てしまう可能性があるため,1best 結果だけを使用す
る場合には,正しくフィラー箇所を特定できず,結果
として多くのフィラーを除去できない可能性が高い.
しかし,提案法は,同一の書き言葉単語 w に変換さ
れる話し言葉認識単語の集合 {s|δ(w, s) = 1} の各単
語スコアの総和を計算するので,より多くのフィラー
を検出・除去できる可能性がある.
3.2.2
3.2.3
“は” や “が” といった必須格の助詞は話し言葉では
省略されることがあるため,可読性の向上ためには
これらを復元した方が良い.省略された助詞は話し
言葉のどの単語にも一致しないため,話し言葉の del
から助詞を変換できるように,助詞の挿入のための
変換規則を以下のように定義する.
δ(Particle, del ) = 1,
δ(Punctuation, Pause) = 1,
(6)
(8)
ここで,Particle は “は”, “が”, “を”,“と” のいずれ
かであり,日本語の対話において最も省略されやすい
上位 4 つである [11].
3.3
スタックデコーディングよるサーチ
3.2 節の変換を考慮することで,話し言葉の複数仮
説を表現する Confusion Network は書き言葉の複数
仮説を表現する Confusion Network に変換される.こ
の変換された Confusion Network 上を,書き言葉の
言語モデル P (W ) の制約を加えて探索することで,式
ˆ を求める.式 (2) の近似に
(4) を最大化する仮説 W
よって,探索はビン同期のスタックデコーディングで
簡単に行うことができる.手順は以下の通りである.
まず,第一のビンに含まれる単語を全てスタックに積
む.スタックはスコア順にソートする.次のビンに進
む.一旦スタックから全ての仮説を取り除き,取り除
いた仮説と,新しいビンに含まれる全ての単語を接
続して新たな仮説を作る.N-gram の範囲内(N-1 単
語)で同一の仮説が存在する場合は,最尤のものだけ
を残し,これらの仮説をスタックに積む.スタックを
スコア順にソートし,ビーム幅を超える仮説を棄却
する.これを,最後のビンまで繰り返す.最後のビン
に到達したとき,スタックの一番上にある仮説を探索
結果(整形結果)とする.
4
句読点の挿入
生の音声認識結果には句読点の情報が欠落してい
るため,可読性の向上のためには句読点を挿入した
方が良い.ポーズの出現位置と句読点の位置には必
ずしも関係はないが,何らかの関係はあると思われ
るため [10],ポーズの出現位置に対する句読点の挿入
を考慮するために,以下の変換規則を使用する.
助詞の挿入
4.1
ベースライン
1best-フィラー除去
フィラーは最も出現頻度が高く,可読性にも高い影
響を与えると考えられる.そのため,認識結果の最尤
仮説(1best)からその品詞が “フィラー” または “感
動詞” である単語を除去し,整形結果とするものを 1
つ目のベースラインとする(filler-rm).
4.2
1best-整形
提案法は,音声認識の結果得られる複数仮説を利
ここで,Punctuation は読点もしくは句点を示し,
用して,1best 結果のみを使用するよりも精度良く
Pause はサイレンスやショートポーズなどのポーズ
整形することを目指している.そこで比較のために,
として認識された単語を示す.これに加え,ポーズが
1best 結果のみを含む Confusion Network を作成し
出現した箇所以外への挿入を考慮するために,以下
(Fig. 1),提案法を適用した場合を 2 つ目のベースラ
の変換規則も使用する.
インとする(single-edit).式 (4) における P (Si |O)
δ(Punctuation, del ) = 1.
(7)
は,1best 結果の単語には c,対応するビンの del に
1 本研究では,形態素解析器のために IPA 辞書と ChaSen(verは 1 − c を割り当てる.ビン間に挿入した特殊単語 del
sion 2.4.4)の組み合わせを使用した.
の事後確率は 1 とした.
2 単語には発音辞書を作成する段階で品詞情報が付与されてい
るので,認識後に形態素解析をする必要はない.
Fig. 1
1best 仮説からの Confusion Network の作成(例:えーと講義を始めます)
Table 1
Duration (min.)
67.6
5
テストデータの詳細
#Words
Manual
Paraph.
11813
10192
APP.
Manual
Paraph.
182.6
159.7
実験
5.1
本実験で対象とするのは,大学院における講義を
多数収録した CJLC コーパス [12] における講義 8 コ
マ分である.これらの講義に対して,人手で整形文を
作成し,整形結果の正解とした.テストデータの詳細
を Table 1 に示す.
音 声 認 識 シ ス テ ム に は ,本 研 究 室 で 開 発 し た
SPOJUS[13] を使用した.SPOJUS は,Confusion
Network を出力する機能を有するため,これを利用
した.3 テストデータ 8 講演分を認識した結果,WER
は平均で 42.5%であった.
音響モデルには日本語話し言葉コーパス(CSJ)[14]
から学習した文脈依存のモデル(928 音節)を使用し
た.特徴量は MFCC,∆MFCC,∆∆MFCC,パワー
の ∆ および ∆∆ で計 38 次元である.各音節は leftto-right の 5 状態からなり,最終状態以外の 4 状態が
出力分布を持つ.各分布は GMM で,混合数は 4,共
分散行列はブロック型である.
言語モデルには,話し言葉および書き言葉ともに
トライグラムを使用し,話し言葉用の言語モデルは,
CSJ の学会講演と模擬講演(2702 講演分),書き言
葉のための言語モデルは,毎日新聞の記事のうち 91
年 1 月から 99 年 12 月までの 9 年分のデータから学
習した(バックオフはウィッテンベル法を用いた).
語彙は,CSJ の学会講演と模擬講演に出現した上位
20000 万語に句読点を加えたものを使用した.
式 (4) における α および β は 1.0 および 6.0 とし
た.スタックデコーディングのビーム幅は 100,4.2
節の c は 0.95 とした.
5.2
5.2.1
Table 2
実験条件
自動評価
Confusion Network の評価
SPOJUS が出力する Confusion Network の単語カ
バレージと単語密度を Table 2 に示す.表より,人手
による整形結果に対しても,80%近い単語カバレージ
があり,ある程度の仮説空間が表現できているとい
える.
3 Confusion Network を作成する際に残すアークの数は,トレ
リスから作成されるラティス全体の 0.15%とした.
OOV all / kind [%]
Manual
Paraph.
3.5 / 36.5
3.9 / 37.1
Confusion Network の単語カバレージと単
語密度(括弧内は 1best の結果)
Target
Manual
Paraphrased
Word coverage [%]
82.5 (60.5)
77.2 (53.5)
Table 3
Method
1-best-raw
Filler-rm
Single-edit
Single-edit
Proposed
Proposed
5.2.2
Word density
3.54 (1.00)
人手整形文との比較結果
Particle
⃝
×
⃝
×
Del.
7.6
10.0
8.2
10.7
16.2
18.9
Ins.
15.7
9.7
12.6
9.1
7.0
5.2
Subs.
39.3
36.5
38.7
36.3
31.6
29.6
WER
62.6
56.2
59.5
56.2
54.8
53.7
WER による比較
提案法およびベースラインの人手整形文に対する
WER を計算した結果を Table 3 に示す.句読点の影響
を取り除くため,句読点は全て除去している.1-bestraw は,1best の認識結果をそのまま使用した場合の
結果である.表の Particle は助詞の挿入を考慮するか
どうかを示す.表より,1-best-raw よりも Filler-rm の
方が WER が低く,Filler-rm と助詞の挿入を考慮し
ない場合の Single-edit を比べると,ほぼ同じ値となっ
ていることがわかる.複数仮説を考慮した Proposed
は,Filler-rm および Single-edit よりも WER が低く,
複数仮説を考慮することが有効であった.助詞の挿入
を考慮した場合,必要のない箇所にまで助詞を挿入
し過ぎることによって挿入誤りが増加し,最終的な
WER は助詞の挿入を考慮しない場合よりも高くなっ
てしまった.
5.2.3
句点挿入の評価
読点は評価が難しいため,句点のみ評価する.人が
挿入した句点に対する各手法の句点の評価を Table 4
に示す.句読点を推定しない場合,認識に用いた単
位の終端に句点が挿入されるものと仮定して評価し
た(Pause).表より,認識単位(200m 秒のショート
ポーズ)をそのまま用いるよりも句点を推定した方
が性能が良く,さらに,複数仮説を考慮することで,
1best のみを用いるよりも性能が良くなっていること
がわかる.
Table 5
Evaluation
Readability
Understandability
被験者実験結果
Method
A
B
1-best-raw
Filler-rm
Filler-rm
Proposed(utterance unit)
Proposed(utterance unit) Proposed(estimated unit)
1-best-raw
Filler-rm
Filler-rm
Proposed(utterance unit)
Proposed(utterance unit) Proposed(estimated unit)
Table 4 句点挿入の評価結果
Method
Pause
Single-edit
Proposed
5.3
Recall
0.562
0.660
0.525
Precision
0.253
0.278
0.376
F
0.335
0.384
0.422
主観評価
提案法による可読性の向上を主観的に評価するた
めに,被験者実験を行った.評価は 10 人の被験者に
対して行い,以下の手順で行った.
1. A と B の書き起こしを読む(それぞれ約 30 行,
850 字,書き起こしは 4 つの小区間に分けられて
おり(約 7 行)おおよそトピックに相当する).
2. それぞれの区間毎に,読み易さについて評価する.
3. 正解書き起こしを読み,再び A と B を読む.
4. 同様に,理解し易さについて評価する.
被験者は,両者の間に差を付けられない場合には “?”
を使っても良い.フィラー除去の効果を見るために 1best-raw と Filler-rm,句点挿入機能を除く提案法に
よる効果を見るために共に認識単位で改行した Fillerrm と Proposed,句点挿入の効果を見るために認識単
位で改行した Proposed と推定された句点箇所で改行
した Proposed を比較した.句読点の存在によるバイ
アスを避けるため,句読点は全て取り除いて評価した.
実験結果を Table 5 に示す.表の “Count” は,“A”
または “B” を良いと選択した回数(“?” は判断でき
なかった回数)を示し,“*” は,有意水準 α のもと
で “A” と “B” の選択に有意差があることを示す(ztest).表より,可読性の向上に関しては全てのペア
で有意に改善が得られたことがわかる.しかし,理
解し易さに関しては,フィラー除去以外では改善が得
られなかった.これは,たとえ言い淀みが削除されて
読み易くなったとしても,必要な単語が削除されてし
まった場合には,むしろ理解し易さを低下させるから
であると考えられる.
6
おわりに
本稿では,複数仮説を考慮した講義音声認識結果
の自動整形と可読性の評価について述べた.認識結
果を Confusion Network による複数仮説として表現
し,整形することで,1best 結果のみから整形するよ
A
8
23
21
8
38
24
Count
B
70
51
56
57
28
38
?
2
6
3
15
14
18
Significance
α=0.05
α=0.01
*
*
*
*
*
*
*
*
-
りも精度良く整形することができた.今後の課題と
しては,単語の変換ルールにスコアを設けることや,
句読点の挿入に識別モデルを利用することなどがあ
げられる.
謝辞 本研究は文部科学省グローバル COE プログラ
ム「インテリジェントセンシングのフロンティア」の
支援を受けた。
参考文献
[1] J. Glass, S. Cyphers T. J. Hazen, I. Malioutov,
D. Huynh, and R. Barzilay. Recent progress in the MIT
spoken lecture processing project. In Proc. Interspeech,
pp. 2553–2356, Aug. 2007.
[2] S. Kogure, H. Nishizaki, M. Tsuchiya, K. Yamamoto,
S. Togashi, and S. Nakagawa. Speech recognition performance of CJLC: Corpus of Japanese lecture contents.
In Proc. Interspeech, pp. 1554–1557, Sep. 2008.
[3] 下岡, 南條, 河原. 講演の書き起こしに対する統計的手法を用
いた文体の整形. 自然言語処理, Vol. 11, No. 3, pp. 67–83,
2004.
[4] 秋田, 河原. 会議録作成のための話し言葉音声認識結果の
自動整形. Proc. 日本音響学会講演論文集, pp. 103–104,
September 2008.
[5] 尾嶋, 河原, 秋田, 内元. 話し言葉の整形作業における削除箇
所の自動同定. Proc. 情報処理学会研究報告, 2008-SLP-71,
pp. 85–91, May 2008.
[6] T. Hori, D. Willet, and Y. Minami. Paraphrasing spontaneous speech using weighted finite-state transducers.
SSPR, pp. 210–222, 4 2003.
[7] G. Neubig, S. Mori, and T. Kawahara. A WFST-based
Log-linear Framework for Speaking-style Transformation. In Proc. Interspeech, pp. 1495–1498, 2009.
[8] L. Mangu, E. Brill, and A. Stolcke. Finding consensus in
speech recognition: word error minimization and other
applications of confusion networkds. Computer Speech
and Language, Vol. 14, No. 4, pp. 373–400, 2000.
[9] M. Tsuchiya, S. Kogure, H. Nishizaki, K. Ohta, and
S. Nakagawa. Developing corpus of Japanese classroom
lecture speech contents. In Proc. LREC, 2008.
[10] K. Shitaoka, H. Nanjo, and T. Kawahara. Automatic
transformation of lecture transcription into document
style using statistical framework. In Proc. Interspeech,
pp. 2881–2884, 2004.
[11] 山本, 小林, 中川. 音声対話文における助詞落ち・倒置の分
析と解析手法. 情報処理学会論文誌, Vol. 33, No. 11, pp.
1322–1330, 11 1992.
[12] 土屋, 小暮, 西崎, 太田, 山本, 中川. 日本語講義音声コンテ
ンツコーパスの作成と分析. 情報処理学会論文誌, Vol. 50,
No. 2, pp. 448–450, Feb. 2009.
[13] 藤井, 山本, 中川. 大語彙連続音声認識システムの改善: SPOJUS++. Proc. 第 4 回音声ドキュメント処理ワークショッ
プ, Feb. 2010.
[14] S. Furui, K. Maekawa, and H Isahara. A japanese national project on spontaneous speech corpus and processing technology. Proc. ASR2000, pp. 244–248, 2000.