スライド 1

リスト型質問応答システムにおける
RDFデータの利用
研究背景
近年、新しい情報検索技術のひとつとして、自然言語で記述された文書(書籍、新聞記事、Webサイト、ブログ、twitterなど)を知識
源にして、自然言語での問いかけに対して自然言語で回答する質問応答システムが注目を集めている。
その中でも、本研究では回答が複数存在するタイプの質問を取り扱うリスト型質問応答システムに焦点を当てる。
リスト型質問応答の例
日本航空
全日本空輸
北海道国際航空
スカイマーク
フジドリームエアラインズ
Peach
エアアジア・ジャパン
ジェットスター・ジャパン
です。
国内線で新千歳空港
を利用している航空
会社はどこですか?
しかし、完璧なリスト型質問応答システムを構築するにはいまだ課題が多く、本研究ではより精度の高い回答群抽出を行うため、
RDF(Resource Description Framework)データを知識源として併用する手法を提案する。
従来の手法
Q.国内線で新千歳空港を利用している
航空会社はどこですか?
<?,利用,新千歳空港>
RDFトリプルに変換
RDFデータを知識源とする質問応答システムは既にいくつか提案されて
いる。その多くは、入力された自然言語の質問文をRDFのトリプルの形式
に変換して検索を行う。
ところが、RDFのトリプルにおけるプロパティの記述はRDFデータごとに
異なっており、記述方法に関する取り決めも無いため一般的な動詞で表
現されているという保証すらない。
そのため、この既存手法では質問文から機械的にプロパティを推定するこ
とが非常に困難だという問題がある。
・利用
・use
・targetAirport
・就航
・haveFlightTo
提案手法
同じ意味を指す語で
もRDFデータによって
表記が異なるため推
定が困難
実験
まず一般的な質問応答と同様に自然言語で記述された知識源
から回答候補とスコアを得る。提案手法ではこの回答候補から正
答となる回答のリスト、すなわち正答群を得ることを目的としている。
次にRDFデータ中から回答候補を主語に持つ述語と目的語の組
(relation)を全て抽出しRelation Matrixを構築する。
Relation Matrixの例
<就航,
羽田空港>
<就航,
函館空港>
<type,
日本の航空会社>
日本航空
1
1
1
全日本空輸
1
1
1
チャイナエア
ライン
1
スカイマーク
1
1
0
…
0
1
…
このRelation Matrixを元に、正答群に共通するrelationを推定
する。そしてそのrelationを持つ回答候補全てを正答群として出力
することで、過不足無く全ての正答を回答することができる。
そのために提案手法ではベイズ推定を用いている。全ての
relationに対して、そのrelationが正答群に共通するrelationであ
るベイズ確率を求めることで、最も相応しいrelationを推定する。
Q.都心5区とはどの地域のことですか?
上の質問文に関して、次のような回答候補とスコアが得ら
れている。
この質問の正答は「千代田区、
回答候補
スコア
港区、新宿区、中央区、渋谷区」
東京
1.0
の5つであるが、従来のリスト型質
千代田区
0.582
問応答の手法ではこのスコアから
港区
0.511
5つの正答を過不足無く抽出する
ことは難しい。
新宿区
0.475
中央区
0.464
渋谷区
0.262
文京区
0.255
台東区
0.191
…
…
そこで、この回答候補とスコアに
対して提案手法を適用する。今回
はベイズ推定における事前分布と
して一様分布とキーワード頻度の
2通りを用いたところ、以下のよう
な結果が得られた。
実験結果-上位3件のrelation
一様分布
キーワード頻度
<type,都心3区>
<type,都心5区>
<首都 of,日本>
<type,都心3区>
<type,都心5区>
<首都 of,日本>
キーワード頻度
を事前分布とし
て設定した場合、
正答relationであ
る<type,都心5
区>を正しく抽出
できている。