RDF を利用した推論に基づく リスト型質問応答システム

RDF を利用した推論に基づく
リスト型質問応答システム
研究概要
• 近年、情報関連技術の発達に伴って増加し続けるWeb上の豊富なデータを利用する例として、質問応答システムがある。
本研究では、中でも回答が複数に亘る「リスト型質問応答システム」に焦点を当てる。更に、システムの精度向上のため、
Web 2.0における代表的なユーザベースコンテンツであるWikipediaに着目して情報抽出を行い、RDF(Resource
Description Framework)と呼ばれる形式にデータ化することで、これを背景知識として利用する。
国内線で新千歳空
港を利用している
航空会社はどこで
すか?
文
書
検
索
質
問
解
析
回
答
候
補
評
価
回
答
候
補
抽
出
回
答
群
抽
出
日本航空
全日本空輸
北海道国際航空
スカイマーク
フジドリームエアラインズ
Peach
エアアジア・ジャパン
ジェットスター・ジャパン
典型的なリスト型質問応答システムの処理の流れ
先行研究
• RDFを利用した質問応答システムとして、質問文を解析し、RDF化するものなどが提案されているが、プロパティの推定が
困難である。
• 回答の精度は、回答候補評価の具合に大きく依存することが報告されている。
• Wikipediaの構造性を生かした情報抽出の研究としては、インフォボックスと呼ばれるテンプレート情報や、記事のカテゴリ
階層、箇条書き情報などの構造的部分を活かし、効率的なRDFデータ生成が可能である。
Q.国内線で新千歳空港を利用している
航空会社はどこですか?
RDFトリプルに変換
提案手法
• 回答候補群とスコアの組み合わせに対して、RDFを利用すること
で回答候補を選定する。
• 予め、WikipediaよりRDFデータを抽出・生成しRDFストアを構
築する。あるいは、公開されているRDFストアにバインドする。
• RDFデータ中から、回答候補を要素に持つRDFパターンを全て
抽出し、下表のようなRelation Matrixを構築する。
`
<?, 就航,
羽田空港>
<?, 就航,
函館空港>
<?, type,
日本の航空会社>
日本航空
1
1
1
全日本空輸
1
1
1
スカイマーク
1
0
1
…
<?,利用,新千歳空港>
・利用
・use
・targetAirport
・就航
・haveFlightTo
同じ意味を指す語で
もRDFデータによって
表記が異なるため推
定が困難
• Relation Matrixを元に、正答群に共通するRDF
パターンを推定する。
• 全RDFパターンに対して、そのRDFパターンが正答
に共通するRDFパターンとなる尤もらしさを用い、推
定を行う。
• 結果、最も評価値の高いRDFパターンを持つ回答
候補を正答として出力する。