新聞記事データを用いたリス クシナリオ発見支援システム の構築 静岡大学工学部システム工学科4年 前田研究室 50713082 森本 翔悟 研究背景 技術 ◦ 多種多様な技術の存在、新規技術の開発 ◦ 新たな要因が健康・環境影響を引き起こす可能性 →新規リスク 被害が実際に発生すると、社会的に大問題 ◦ 事前にリスクの存在に気づけば、対策可能 新聞記事データに基づくリスクシナリオ発見支援シス テムを構築 食品安全リスクに焦点を当てる リスクへの気づきの支援の考え方 予防原則 : 科学的データが蓄積されるまで問題を放置せず、費 用対効果を考慮して、回避行動をとる ◦ 環境情報科学センター:環境政策における予防的方策・予防原則のあり方に関 する研究会報告書,http://www.env.go.jp/policy/report/h16-03/index.html,2003 リスクの予兆の早期発見が必要 リスク事象の経路を発見が重要 ◦ 予防原則の適用が議論になるリスク事象→リスクの因果関 係を述べた文書が少ない リスク事象の連鎖 B 経路AB A 原因 経路BC C 経路CD D 結果 俯瞰的に文書の関係を眺め ることが出来れば、経路 ABCDへの気づきを支援す ることが出来る 先行研究 豊田(2006年度) ◦ 新聞記事データに基づくリスクシナリオ 発見支援システム ◦ ある文書に類似した文書を探すことが出 来る ◦ ある単語に関連した単語を視覚的に認識 出来る 豊田純一:新聞記事データに基づくリスクシナリオ発見支援システム,静岡大学工学部 卒業論文,2007 リスクシナリオ発見支援システム リスクシナリオ発見の為の主な機能 ◦ 単語連想検索:単語を入力し、その単語を含む記事のリストと関連す る単語群を表示する ◦ 文書連想検索:記事を選択し、記事内の重要な語と関連する記事のリ ストを表示する 記事選択 入力単語 選択記事に を含む記事 関連する記 事 単語入力 選択記事内 の重要な語 入力単語 に関連する 単語 GETA、TouchGraph GETA ◦ 文書中の単語頻度から文書間および単 語間の類似度を高速計算するツール TouchGraph ◦ ノード間の関係を視覚的に表示するオ ープンソースのツール ◦ 単語の関係を表示 高野明彦,丹羽芳樹:汎用連想検索エンジンGETA,http://geta.ex.niiac.jp/,2009 Alexander Shapiro :TouchGraph ,http://sourceforge.net/projects/touchgraph/,2001 文書 – 単語連想時 Singhalの方法 対象文書集合 D の中の選択された文書集合 S における各語 t の重要度 w(t|S) w(t | S ) log[ 1 N 1 ]* v(t | d ) df (t ) # S dS N : Dの文書総数 df (t ) : Dにおける単語 tを含む文書数 # S : Sに含まれる文書数 1 log[ tf (t | d )] v(t | d ) 1 log[ tf (. | d )] Singhalの方法では、基本的 には、注目文書間に、同じ単 語がどれだけ出現したかと いう事で文書間の関係を計 算している tf (t | d ) : 文書dにおける単語 tの頻度 基本的には: tf (. | d ) : 文書dのすべての単語に関す る上記値の平均値 文書の関係を、単純に同じ 単語 – 文書連想時 単語の出現回数で計算する 単語の数を n 個とし、 それらを t1 ,…, tn としたとき、 文書 b の重要度 s(b|{ti}) と、文書長が長い文書が有 1 1 s (b | {ti }) * w利になる→文書長による補 (ti | s ) * v(ti | b) L 0.2 * [dlen (b) L] n 1in 正 dlen (b) : 文書bの中の異なり単語の種 類の数 L : 文書集合Dにおける文書の異なり 単語種類数の平均値 , Singhal, A., C. Buckley, and M. Mitra. 1996. Pivoted Document Length Normalization. In Proceedings of ACM SIGIR’96, 21–29. 形態素解析システム茶筌 文を単語単位に分解するツール 連想計算の際に単語出現回数が重要 ◦ 文書中の単語の認識に利用 複合語を、別の意味の単語群に分解してしまう 黄色ブドウ球菌→黄色 ブドウ 球菌 ユーザ辞書登録機能 ◦ 1つの単語として扱いたい文字列を定義できる 食品の安全性に関する用語集(第4版)(食品安全委員 会)の用語を定義 松本裕治, 北内啓, 山下達雄, 平野善隆, 今一修, 今村友明. “日本語形態素解析システム『茶 筅』version1.0 使用説明書”, NAIST Technical Report, NAIST-IS-TR97007, February 1997. 検証 利用データベース ◦ 毎日新聞記事データ集2008,2009 1面・2面・3面・国際・経済・特集・総合・家庭・科 学・社会面 を利用 記事件数は127,560件 トランス脂肪酸 ◦ 多量摂取→心臓疾患や動脈硬化などのリスク ◦ 日本では特段の規制はなし ◦ 辞書に登録しなければ「トランス 脂肪酸」と分解さ れる 検証:用語登録をした場合 リスト1番目の文書内容は「ト ランス脂肪酸の心臓疾患リス ク」 「動脈」という単語が出現、動 脈硬化に繋がることが伺われる 十分にトランス脂肪酸と心臓疾 患・動脈硬化への関連性が見て 取れる結果 動脈 検証:用語登録をしない場合 記事一覧の1位には、先ほど と同じ文書が現れる グラフには、動脈硬化に繋が ることを示唆する語は現れな い。 記事一覧の1位以外の記事は “トランス脂肪酸”に関する記 事ではない 動脈硬化や心臓疾患のリスク になることが観察されにくく なった。 考察、課題 考察 ◦ 本システムで、食品安全リスクに関する早期警告を促すこ とが出来ると考えられる。 ◦ その支援効果は、対象の専門用語を登録しておいたほうが 向上すると考えられる。 課題 ◦ 本研究で登録した用語以外で、支援効果向上が見込める用 語の存在 ◦ 茶筌のユーザ辞書を適宜更新できるような仕組みの構築 御静聴ありがとうございました 共起関連度の計算式 共起関連度 X Fxy Fy X:単語 x から見た単語 y の共起関連度 Fxy:単語 x および単語 y が共に現れる記事の数 Fy:単語 y が現れる記事の数 ◦ という計算式で各単語間の共起関連度を計算 し、一番大きな値をとった単語に対して連結 を行う 単語相互間の関係性を示せば、より単語の関係性の 認識 関連性の高い一群の単語は検索された文書の何かあ るまとまった話題に結びついていると考えられる 日立製作所:情報アクセス支援における「特徴単語群の抽出」の利用, http://geta.ex.nii.ac.jp/getaN2002/doc/acc_twg1.pdf,2002
© Copyright 2025 ExpyDoc