RDF を利用した推論に基づく リスト型質問応答システム 研究概要 • 近年、情報関連技術の発達に伴って増加し続けるWeb上の豊富なデータを利用する例として、質問応答システムがある。 本研究では、中でも回答が複数に亘る「リスト型質問応答システム」に焦点を当てる。更に、システムの精度向上のため、 Web 2.0における代表的なユーザベースコンテンツであるWikipediaに着目して情報抽出を行い、RDF(Resource Description Framework)と呼ばれる形式にデータ化することで、これを背景知識として利用する。 国内線で新千歳空 港を利用している 航空会社はどこで すか? 文 書 検 索 質 問 解 析 回 答 候 補 評 価 回 答 候 補 抽 出 回 答 群 抽 出 日本航空 全日本空輸 北海道国際航空 スカイマーク フジドリームエアラインズ Peach エアアジア・ジャパン ジェットスター・ジャパン 典型的なリスト型質問応答システムの処理の流れ 先行研究 • RDFを利用した質問応答システムとして、質問文を解析し、RDF化するものなどが提案されているが、プロパティの推定が 困難である。 • 回答の精度は、回答候補評価の具合に大きく依存することが報告されている。 • Wikipediaの構造性を生かした情報抽出の研究としては、インフォボックスと呼ばれるテンプレート情報や、記事のカテゴリ 階層、箇条書き情報などの構造的部分を活かし、効率的なRDFデータ生成が可能である。 Q.国内線で新千歳空港を利用している 航空会社はどこですか? RDFトリプルに変換 提案手法 • 回答候補群とスコアの組み合わせに対して、RDFを利用すること で回答候補を選定する。 • 予め、WikipediaよりRDFデータを抽出・生成しRDFストアを構 築する。あるいは、公開されているRDFストアにバインドする。 • RDFデータ中から、回答候補を要素に持つRDFパターンを全て 抽出し、下表のようなRelation Matrixを構築する。 ` <?, 就航, 羽田空港> <?, 就航, 函館空港> <?, type, 日本の航空会社> 日本航空 1 1 1 全日本空輸 1 1 1 スカイマーク 1 0 1 … <?,利用,新千歳空港> ・利用 ・use ・targetAirport ・就航 ・haveFlightTo 同じ意味を指す語で もRDFデータによって 表記が異なるため推 定が困難 • Relation Matrixを元に、正答群に共通するRDF パターンを推定する。 • 全RDFパターンに対して、そのRDFパターンが正答 に共通するRDFパターンとなる尤もらしさを用い、推 定を行う。 • 結果、最も評価値の高いRDFパターンを持つ回答 候補を正答として出力する。
© Copyright 2024 ExpyDoc