自然言語処理技術を用いた 中学理科教授システムの 辞書の作成 知能情報工学科 A1グループ 学部4年 岩佐香織 自然言語処理技術を用いた 中学理科教授システム 学習者主体の学習環境を考えたシステム 学習者側からの自由文入力が可能 学習者の主体的な発話の抑制を防ぐ 問題文の解析手順 1.前処理 入力された文章に対して次の処理を行う 全角半角修正 句読点の除去 語尾の修正 文章中の一番最後の名詞より後方の文を除く 例:水素の原子を記号で表すとどなるか? 水素の原子を記号 問題文の解析手順 2.前処理を行った文に対して形態素解析を 行い、SF、名詞、未知語に分ける Super Function(SF) 名詞と未知語を除いたその他の文構造 水素の原子を記号 問題文の解析手順 3.ノードテーブルが一致するSFを検索する 4.エッジテーブルから中心語の名詞を取り出す 5.辞書から必要な情報を取り出し、解答する 辞書の構成 ノードテーブル エッジテーブル 問題の解答 問題文の種類 理科の公式 本研究ではこの部分を作成する 理科問題文の収集 扱う範囲中学理科1分野 教科書3冊 問題集5冊 教科書を基準とした章ごとに問題文をまとめる 問題文の中にはシステムに組み込めない形式がある (収集の対象から除く) 理科問題文の収集 収集の対象から除く問題 図を用いている 複数の文に渡っている 例:1%の塩酸5cm3をある濃度の水酸化ナトリウム水溶液 で中和するのに10cm3必要だった。 2%の塩酸5cm3を中和するのには、同じ濃度の 水酸化ナトリウム水溶液が何cm3必要になるか? 解答部分が( )抜きになっている 例:化学変化が起きたときに、熱の出入りがあったり ( )エネルギーが出たりする。 理科問題文の収集 手を加えれば扱える問題パターン 複数の文に渡っている 音を出してから1秒たって山びこが聞こえてきた。 音を反射した山と声を出した人との間の距離を 求めなさい。 音を出してから1秒たって山彦が聞こえてきたとき、 音を反射した山と声を出した人との間の距離は いくらか? 理科問題文の収集 手を加えれば扱える問題パターン 解答部分が( )抜きになっている アンモニアを集めるときには、( )法を用いる。 アンモニアを集めるときには どのような方法を用いればよいか? 理科問題文の収集 収集するには一問一答式の問題集が適し ている 市販の問題集にはシステムで扱える形の 問題文を掲載しているものが少ない 問題集のみでの辞書作成は困難 問題文のグループ化 問題集から収集した問題文だけでは学習 者からの自由な入力文には対応できない 収集した問題文から新たな問題文を作成 すでに存在する文章を重複して作成してしまう 同じような問題を章ごとにグループ化する 問題文のグループ化 問題文をグループ化する基準 答えが同じ 同一文もしくは類似した文である可能性が高い 答えの部分だけで判断可能なので、時間が掛からない 答えが似ている 章内で1つしかない答えをもつ文章に対応 問題形式が似ている 膨大な問題数の中から選び抜くのは困難 問題数の増加方法 文章の言い換え 原文 アンモニアを集めるときにはどのような方法を 用いればよいか? 作成文 アンモニアを集めるにはどのような方法を 用いればよいか?(ときを除いた) アンモニアを集めるにはどんな方法を 用いればよいか?(どのようなを言い換えた) 問題数の増加方法 前処理を意識して無駄な問題文の作成を省く 原文 アンモニアを集めるときにはどのような方法を 用いればよいか? 作成文1 アンモニアを集めるときにはどのような方法が あるか? 作成文2 アンモニアを集めるときにはどのような方法を 使えばよいか? 使用すればよいか? 問題数の増加方法 名詞の置き換え 原文 水素の原子を記号で表すとどうなるか? 作成文1 酸素の原子を記号で表すとどうなるか? 作成文2 炭素の原子を記号で表すとどうなるか? 問題数の増加方法 名詞の入れ替え 原文 水素と酸素から水が生成する反応を 化学反応式で表すとどうなるか? 作成文 酸素と水素から水が生成する反応を 化学反応式で表すとどうなるか? 辞書の作成 収集・作成した問題文に対して形態素解析を行う 例文 水素原子の記号は何か? 辞書の作成 ノードテーブル の エッジテーブル 水素 原子 記号 辞書の作成 問題文の種類 計算問題(call) 水100gに砂糖25gを溶かした 水溶液の濃度は何%か? 知識を問う問題(know) 固体が熱せられて、液体に変わることを 何というか? 定義の問題(dic) :この文はSFがない 密度とは何か? 辞書の作成 同じノードテーブルの問題文の例 参考文 水素原子の記号は何か? 例文1 酸素原子の記号は何か? 例文2 銅の化学式は何か? 辞書の作成 例文1、2を辞書 に加える 問題文は#####で 区切っている 今後の予定 問題数を増やす 茶筅にかけて形態素解析を行う 辞書の作成
© Copyright 2024 ExpyDoc