PDF - 岩手県立大学ソフトウェア情報学部菅原研究室

ドキュメント間の類似性を利用した検索精度向上方式
A re-ranking Method utilizing the similarity between Documents in Spoken Term Detection
感性情報学講座
指導教員:伊藤慶明
1
はじめに
近年,記憶媒体の大容量化や授業のビデオデー
タがインターネット上で公開されており,長時間
の音声・動画データ等から特定の部分を検索する
機能へのニーズが高まっている.このニーズに応
えるために,音声中の検索語検出(Spoken Term
Detection:STD)に関する研究が盛んに行われて
いる.
STD システムでは,検索語が与えられ,それ
が音声認識システム内の辞書に登録されている
言葉ならば単語認識結果を用い,辞書に登録され
ていない単語(Out-Of-Vocabulary:OOV)ならば
サブワード認識結 果を用いて連続動的計画法
(Continuous Dynamic Programming:CDP)を
行う検索が一般的である.検索語は新語や人名等,
OOV であることが多い.このため STD ではサブ
ワード認識を用いた OOV の検索が重要となって
いる.
サブワード認識を用いた場合でも,認識誤り等
により,結果的に検索精度が低下してしまう.一
方,CDP の結果から得られた高順位候補は正解
区間である可能性が高く,その正解区間を含むド
キュメントには正解が含まれる可能性が高い.そ
こで,高順位候補を含むドキュメント内の全候補
区間の CDP 距離を有利になるよう調整すること
で他のドキュメント中の候補区間よりも順位を
引き上げるリスコアリング方式が提案され検索
精度向上が実現された[1].
本論文では,高順位候補を含むドキュメントの
他に,高順位候補を含むドキュメントと類似した
ドキュメントにも正解が含まれていると仮定し,
類似したドキュメント内の全候補に対してもス
コアの調整を行う新たなリスコアリング方法を
提案する.さらにいくつかの高順位候補それぞれ
が含まれる各ドキュメントに共通の類似ドキュ
メントがあった場合,そのドキュメント中の候補
をさらに候補の上位にすることで,精度向上を図
る.
2
提案手法
2.1
講演の類似度を用いたリスコアリング
先行研究[1]の概要を説明する.音声ドキュメン
ト A,B,C があり,音声ドキュメント A の高順
位候補には検索語が含まれており,B と C には
0312011001 阿久貴裕
小嶋和徳
石亀昌明
含まれていないとする.音声ドキュメント A 内
の高順位候補の CDP 距離は小さくなり,ドキュ
メント A 内の他候補にも検索語が含まれている
可能性が高いと考えられるため,高順位候補の
CDP 距離を用いて下位の CDP 距離に対して以
下の式(1)により調整(リスコアリング)を行う.
𝑛𝑒𝑤𝐷(𝛺𝑗, 𝑘) = 𝛼 × 𝐷(𝛺𝑗, 𝑘)
1
𝑇
(1)
+ (1 − 𝛼) ∑ 𝐷(𝛺𝑗 , 𝑡)
𝑇
𝑡=1
α (0≦α ≦1)は重み係数である.リランキング後
の距離 newD(𝛺𝑗, 𝑘)は,ドキュメント Ω 内のリス
コアリング前の𝑘位の CDP 距離𝐷(𝛺𝑗, 𝑘)(右辺第
1 項)と 1~T 位までの CDP 距離の平均(右辺第 2
項)を線形結合することで求める.
これにより検索語が含まれている候補区間が
認識誤りにより下がった順位を引き上げ,検索精
度の向上が図られた.
次に提案方式である「類似講演リスコアリング」
を説明する.CDP 距離の調整対象となるドキュ
メントを高順位の候補が属するドキュメント Ω
のみならず,そのドキュメントに類似したドキュ
メント Ω’ も調整対象に含めてリスコアリングを
適用する.
提案方式では以下の式(2)を用いてリスコアリ
ングを行う.
𝑛𝑒𝑤𝐷(𝛺′𝑗 , 𝑘) = 𝛼 × 𝐷(𝛺′𝑗 , 𝑘)
(2)
+ (1 − 𝛼)𝐷(𝛺𝑖, 𝑡)
newD(𝛺′𝑗, 𝑘)はドキュメント𝛺に類似しているド
キュメント𝛺′の𝑗番目の発話の新しい CDP 距離を
示す.類似元のドキュメント𝛺内で𝑡位の発話の
CDP 距離(高順位候補のため CDP 距離が小さいと
想定)と元々の距離の線形結合で求める.
次に類似ドキュメント𝛺′の特定方法を説明す
る.CDP 結果の高順位候補が含まれるドキュメン
ト Ω と他のドキュメントとの類似度からリスコ
アリング対象となる類似ドキュメント𝛺′を決定
する.CDP 結果上位から N 件が含まれるドキュ
メント N’件(N’≦N)のみ利用する.N’件の各ドキ
ュメントに対して抽出する類似ドキュメント数
表 1
得点配分表
90
80
70
75.4
68.01
82.65
80.48 81.72
76.23
77.68
74.08
74.15
71.2
68.98
70.5
68.34 68.99
59.28
60
69.57
62.62
70.5 72.32
64.59
59.62
53.23
60.73
56.45
61.95
50
40
30
20
10
0
NTCIR9
Dry run
を L 件とする.2 つのパラメータ N, L は実験によ
り決定する.
類似ドキュメントの評価指標には,tf-idf 値か
ら求めたコサイン類似度を用いる.tf-idf 値の単
語群は,大語彙連続音声認識システムで使用され
た辞書内の単語群を使用する.
2.2
リスコアリング対象として抽出された回数を
考慮したリスコアリング
本節では 2 つ目の提案手法である「ポイントリ
スコアリング」を説明する.
2.1 で提案したリスコアリング方法では,リス
コアリング対象となるドキュメントが重複して
抽出される.何度も抽出されるドキュメントは
CDP 結果の高順位候補それぞれが含まれる各ド
キュメントと共通した類似性があり,検索語が含
まれている可能性がより高いと考えた.また
CDP 順位の高い候補が含まれるドキュメントと
類似したドキュメントの方が優遇されるべきで
あり,類似ドキュメントに重要度のポイントを与
えることとする.重要度ポイントは,CDP 結果
の順位順に類似ドキュメントを抽出し,抽出され
た順に大きな得点を与え,その合計点を求める.
得点の配分は表 1 の配分表に示すように CDP
順位が高いものほど抽出する類似ドキュメント
数を多くした.表 1 をもとに得点を配分し,合計
点が多い上位 P 件のドキュメントをリスコアリ
ング対象とする.リスコアリング時の式には 2.1
と同じ式(2)を用いる.
3
評価実験
国立情報学研究所が主催する情報検索のワー
クショップ(NTCIR Workshop)で使用された 5
つの評価用データを使用して評価を行った.詳細
表 2 実験条件
NTCIR9
Formal run
Core
図 1
NTCIR9
Formal run
All
NTCIR10
Dry run
NTCIR10
Formal run
各手法適用結果
は表 2 の通りである.評価用データは評価指標に
は MAP(Mean Average Precision)を用いた.
3.1
実験結果
実験結果を図 1 に示す. 5 種の方法の検索精
度(MAP)を 5 つ評価データ毎に示した.左端から
リスコアリング適用前,類似講演リスコアリング
適用,ポイントリスコアリング適用,従来手法適
用,全手法適用した場合を示す.
類似講演リスコアリングを適用した場合に平
均 7.26 ポイント,ポイントリスコアリングを適
用した場合は平均 4.05 ポイントの上昇が確認で
きた.
また,先行研究の方式を適用した後に類似講演
リスコアリング,ポイントリスコアリングの順で
適用した結果,平均 9.29 ポイント上昇し,先行
研究と比べて平均 1.53 ポイントの上昇を確認で
き,提案方法の有効性を実証できた.
4
まとめ
本論文では,CDP によって得られた結果の高
順位候補が含まれるドキュメント内の他候補に
も検索語が含まれるという先行研究の考えを発
展させ,高順位候補を含むドキュメントに類似し
たドキュメント内にも検索語が含まれていると
仮定し,リスコアリングの対象となりうるドキュ
メントを抽出し,そのドキュメント内の候補を優
遇することで,さらなる精度の向上を目指した.
提案方式でリスコアリングを適用した結果約 5
ポイント以上の精度向上を確認した.先行研究の
方式と組み合わせることで,約 2 ポイントの精度
向上を確認,その有効性を示した.
5
参考文献
[1]. 紺野和磨, 音声中の検索語検出における
高順位ドキュメント優先方式の提案,
岩手県立大学ソフトウェア情報学科研究
科, 2013 年度 音響学会春季研究発表会,
4pp, 2013 年 9 月