質問応答システム Typhoonの開発 情報理工部・情報知能学科 4年 H206041 田畑雅史 2010.2.2 質問応答システム(1) 質問応答システム ファクトイド型質問応答システム 誰、何時、どこといった質問に答える Yes/No型質問応答システム Wh型質問応答システム ノンファクトイド型質問応答システム 何故、どうやってといった質問に答える 質問応答システム(2) 質問応答システムには分野や領域が限定され ていないオープンなものとクローズなものがある オープンなものはWebをデータベースとして利用す ることでさまざまな分野の質問に答えることが可能 クローズなものは内部のデータベースを対象とする ため分野や領域が限定される 研究動機 Wh型の質問応答システムは数多く研究されて いる(伊藤・辻, 2005; 嶋, 2006; 平野, 2008)が、 Yes/No型の質問応答システムは聞いたことが なかったため Typhoonの処理の流れ 質問文入力 ①質問文の解析 ②クエリの作成 ③Web検索&スニペットの抽出 ④判定材料となる文の抽出 ⑤点数付け ⑥判定 回答 ①質問文の解析 質問例) 日本人初のノーベル賞受賞者は湯川秀樹か? 形態素解析 日本人|初|の|ノーベル|賞|受賞|者|は|湯川|秀樹|か|? 連続する名詞や動詞の結合 日本人初|の|ノーベル賞受賞者|は|湯川秀樹|か|? ②クエリ作成 質問文の解析で得られたキーワードをもとに検 索で使用するクエリを作成 検索に不要となる品詞を取り除き、クエリとする 日本人初|の|ノーベル賞受賞者|は|湯川秀樹|か|? × × ×× 日本人初 ノーベル賞受賞者 湯川秀樹 ③web検索&スニペットの抽出 ④判定材料となる文の抽出 スニペット中の質問文の解析で得られたキーワード(日本人初 ノーベル賞受賞者 湯川秀樹)が含まれている文を抜き出す ⑤点数付け(1) 抽出したスニペット内の文のキーワード含有率 を元に点数付けを行う キーワードが多く含まれているほど高い点数をつける 10割含まれている場合 8割 6割 5割 4割以下の場合 → 10点 → 7点 → 3点 → 1点 → -10点 ⑤点数付け(2) 全てのスニペットを点数付けし、その合計点を 「判定」に用いる スニペット1 スニペット2 スニペット3 → 12点 → -10点 → 9点 ・ ・ ・ スニペット19 → スニペット20 → 11点 7点 合 計 す る 判定 点数付けで出した合計点が250点以上ある場合 Yesを、200点以下の場合Noを返す 201以上250未満の場合、答えはわからないと 返す 250≦合計点 Yes 200<合計点<250 わからない 合計点≦200 No また、質問文が否定文の場合は不等号が逆になる 質問文に含まれる否定語(ない、ぬ等)の数が奇数の 場合を否定文とする チューニング用質問文 点数付けでの点数と、判定の数値は以下の質問文を使 い、調整した 東京ディズニーランドは千葉県舞浜市にある 2000円札の裏には紫式部が描かれている 豊臣秀吉は天下統一することができなかった ニュートンは万有引力を発見していない 中京大学名古屋学舎は八事本町にある ゴッホの代表作はチューリップである 崖の上のポニョの主題歌を歌ったのは大橋のぞみである 2011年は寅年である コーヒー豆は日本でも栽培されている ポアンカレ予想はペレルマンによって解かれた 合計点が 200以下なのでno 評価実験 キーワード数が2個~6個の質問文を計40問用 意し、それらの正答率を調べる 質問文はチューニング用の問題とは別のものを使用 キーワード数 2個 3個 4個 5個 6個 → → → → → 問題数 5問 8問 15問 3問 8問 質問文の例 キーワード数2個 (5問) キーワード数3個 (8問) 中京大学豊田キャンパスは貝津町にある 鳩山由紀夫は総理大臣だ ミッキーの生みの親はウォルト・ディズニーですか 原付とは50cc以下のバイクのことだ キーワード数4個 (15問) 2008年時点のアメリカの大統領はブッシュですか 現在の中国の首相は温家宝ではない 結果(1) 正答数が20、誤答数が16、わからないが4つあり、全体 の正答率は50%となった 100 90 80 正答率(%) 70 60 50 40 30 20 10 0 正答 誤答 わからない 結果(2) 正答率(%) キーワード数別に見るとキーワード数が2個のとき0%、 3個のとき33.3%、4個のとき66.6%、5個以上のとき 63.6%という結果となった 100 90 80 70 60 50 40 30 20 10 0 2個 3個 4個 キーワード数 5個以上 考察 正答率(%) グラフからも見て分かるように、キーワード数3個以下 のときの正答率が低い 100 90 80 70 60 50 40 30 20 10 0 Web検索で求めたい情報が 引っかかっていないため クエリの作成方法を改良する 2個 3個 4個 キーワード数 5個以上 改良案 文の「前提」を利用する 文の「前提」は文全体の真偽に無関係に成立する部 分。それをクエリとして用いる 貝津町の中京大学豊田キャンパスには浅田真央がいる 貝津町の中京大学豊田キャンパスには浅田真央がいない どちらの文の場合でも中京大学豊田キャンパ スが貝津町にあるということは変わらない 前提の利用 中京大学豊田キャンパスは貝津町にある 中京大学豊田キャンパス 貝津町 貝津町の中京大学豊田キャンパス 質問文から、質問内容を「前提」とする表現を作り出す 前提の利用 正答率が芳しくなかったキーワード数2~3個の 場合に「前提」を利用したクエリを用いて、正答 率の底上げを狙った ただし「前提」を利用する上で点数付けの方式等 は変えていない 改良版の結果 キーワード2個の場合 60%、キーワード3個の 場合66.6%まで精度が 向上した。4個以上の場 合は同じ結果である 全体での正答率は65% となり、改良前と比べて 15%向上した 70 60 50 40 改良前 改良後 30 20 10 0 2個 3個 4個 5個以上 考察 精度を上げるために考えられる方法 Web検索のHIT数の利用 質問文をWh型にした検索方法の利用 Web検索のHIT数の利用(1) 前提を利用して検索した結果のHIT数が極端に 少ない場合、その質問文は間違っている可能性 が高い しかし、Webの中には間違った情報で記載され ていることもあり、その場合にはHIT数を利用し た手法は使うことができない Web検索のHIT数の利用(2) 阪神大震災が起こったのは1996年である 間違った情報で載って いることがある そこで質問文をWh型に変換して検索する方法を 使うことでこの手法の欠点を補えるのではないか と考えた 質問文をWh型にした検索方法の利用 質問文をWh型に直し、その検索結果が質問文 の内容と一致しているかを調べる 質問文の焦点となる部分をWh型で求めたい回答とす る。Wh型の検索結果が焦点部分と一致していれば、そ の質問が正しいと言える可能性が高まるのではないか 参考文献 奥村学・磯崎秀樹・東中竜一郎・永田昌明 ・加 藤恒昭(2009)『質問応答システム』 (自然言語 処理シリーズ 2). コロナ社
© Copyright 2024 ExpyDoc