回答候補間の共起を利用した リスト型質問応答向けスコアリング手法の提案 研究背景 近年の、インターネット等の情報網の普及や個人での情報発信が容易になったことによる情報量の急激な増加に伴い、必要な情 報だけを素早く提示する、より高度な情報検索技術が求められている。 そのような次世代の情報検索技術のひとつとして、自然言語で記述された文書(書籍、新聞記事、Webサイト、ブログ、twitterな ど)を知識源にして、自然言語での問いかけに対して自然言語で回答する質問応答システムが注目を集めている。 その中でも、本研究では回答が複数存在するタイプの質問を取り扱うリスト型質問応答システムに焦点を当てる。 リスト型質問応答の例 国内線で新千歳空港 を利用している航空 会社はどこですか? 日本航空 全日本空輸 北海道国際航空 スカイマーク フジドリームエアラインズ Peach エアアジア・ジャパン ジェットスター・ジャパン です。 しかし、完璧なリスト型質問応答システムを構築するにはいまだ課題が多く、本研究では特に回答群抽出の問題を改善するため のスコアリングの改善手法を提案する。 従来の手法 初期回答候補リスト 回答候補 スコア 日本航空 98 出力される回答 回答 日本航空 回答群抽出 全日本空輸 87 天草エアライン 81 天草エアライン × スカイマーク 74 スカイマーク ・・・ 全日本空輸 初期回答候補において誤答 (天草エアライン)に高いスコ アが付いてしまっていると、そ れが正答のひとつとして出力 されてしまう ・・・ 回答群抽出 回答の可能性がある単語(回答候補)全てに対してスコアリングを行った後、そのスコアに基づき正答となる回答群の抽出 が行われる。 回答群抽出のためのアルゴリズムとしては、集合拡張を行うもの、階層的クラスタリングを用いるもの、スコア分布に対して EMアルゴリズムを適用するものなどが提案されているが、いずれも初期回答候補リスト及び初期スコアへの依存性の高さが 問題になっている。 提案手法 実験・考察 初期回答候補リストから回答群抽出を行う前に、回答候補間の 共起ネットワークを用いたスコア修正を行う手法を提案する。 日本航空 天草エアライン 全日本空輸 スカイマーク 共起ネットワーク 共起ネットワークは複数の単語の共起強度(同時に出現するこ とがどれくらいあるか)をグラフに表したもので、上の図では2つ の回答候補間のエッジが太いほど強く共起している、即ち同時 に出現することが多い、ということを表している。 これにより、強く共起する一群は同じグループに属している可 能性が高いと仮定してスコアの修正を行う。 従来の手法 Q2.シドニーオリンピックの日本人金メ ダリストは誰ですか? スコア 野村忠宏 1.00 ◎ 谷亮子 0.66 田村亮子 0.65 ◎ 瀧本誠 0.52 ◎ 楢崎教子 0.51 細川伸二 0.48 古賀稔彦 0.47 上野雅恵 0.40 田辺陽子 0.40 ~~~ 13位 井上康生 0.34 ◎ 38位 高橋尚子 0.20 ◎ 提案手法 Q2.シドニーオリンピックの日本人金メ ダリストは誰ですか? スコア 瀧本誠 1.00 ◎ 野村忠宏 0.98 ◎ 田村亮子 0.87 ◎ 井上康生 0.78 ◎ 篠原信一 0.75 古賀稔彦 0.40 吉田秀彦 0.33 高橋尚子 0.27 ◎ 上村春樹 0.18 小川直也 0.12 正答となる回答群が同一文書中に出現する割合が高い場 合、このように正答であるにも関わらず低いスコアが付いて いた回答候補を、高いスコアに修正することができた。 しかし依然として存在する初期スコアへの依存性の問題が 今後の課題となる。
© Copyright 2024 ExpyDoc