卒論発表

新聞記事データを用いたリス
クシナリオ発見支援システム
の構築
静岡大学工学部システム工学科4年 前田研究室
50713082
森本 翔悟
研究背景

技術
◦ 多種多様な技術の存在、新規技術の開発
◦ 新たな要因が健康・環境影響を引き起こす可能性
→新規リスク
 被害が実際に発生すると、社会的に大問題
◦ 事前にリスクの存在に気づけば、対策可能
 新聞記事データに基づくリスクシナリオ発見支援シス
テムを構築
 食品安全リスクに焦点を当てる
リスクへの気づきの支援の考え方

予防原則 : 科学的データが蓄積されるまで問題を放置せず、費
用対効果を考慮して、回避行動をとる
◦ 環境情報科学センター:環境政策における予防的方策・予防原則のあり方に関
する研究会報告書,http://www.env.go.jp/policy/report/h16-03/index.html,2003

リスクの予兆の早期発見が必要

リスク事象の経路を発見が重要
◦ 予防原則の適用が議論になるリスク事象→リスクの因果関
係を述べた文書が少ない
リスク事象の連鎖
B
経路AB
A
原因
経路BC
C
経路CD
D
結果
俯瞰的に文書の関係を眺め
ることが出来れば、経路
ABCDへの気づきを支援す
ることが出来る
先行研究

豊田(2006年度)
◦ 新聞記事データに基づくリスクシナリオ
発見支援システム
◦ ある文書に類似した文書を探すことが出
来る
◦ ある単語に関連した単語を視覚的に認識
出来る
豊田純一:新聞記事データに基づくリスクシナリオ発見支援システム,静岡大学工学部
卒業論文,2007
リスクシナリオ発見支援システム

リスクシナリオ発見の為の主な機能
◦ 単語連想検索:単語を入力し、その単語を含む記事のリストと関連す
る単語群を表示する
◦ 文書連想検索:記事を選択し、記事内の重要な語と関連する記事のリ
ストを表示する
記事選択
入力単語
選択記事に
を含む記事
関連する記
事
単語入力
選択記事内
の重要な語
入力単語
に関連する
単語
GETA、TouchGraph

GETA
◦ 文書中の単語頻度から文書間および単
語間の類似度を高速計算するツール

TouchGraph
◦ ノード間の関係を視覚的に表示するオ
ープンソースのツール
◦ 単語の関係を表示
高野明彦,丹羽芳樹:汎用連想検索エンジンGETA,http://geta.ex.niiac.jp/,2009
Alexander Shapiro :TouchGraph ,http://sourceforge.net/projects/touchgraph/,2001
文書 – 単語連想時
Singhalの方法
対象文書集合 D の中の選択された文書集合 S における各語 t の重要度 w(t|S)
w(t | S )  log[ 1 
N
1
]*
 v(t | d )
df (t ) # S dS
N : Dの文書総数
df (t ) : Dにおける単語 tを含む文書数
# S : Sに含まれる文書数
1  log[ tf (t | d )]
v(t | d ) 
1  log[ tf (. | d )]
Singhalの方法では、基本的
には、注目文書間に、同じ単
語がどれだけ出現したかと
いう事で文書間の関係を計
算している
tf (t | d ) : 文書dにおける単語 tの頻度
基本的には:
tf (. | d ) : 文書dのすべての単語に関す る上記値の平均値
文書の関係を、単純に同じ
単語 – 文書連想時
単語の出現回数で計算する
単語の数を n 個とし、
それらを t1 ,…, tn としたとき、
文書 b の重要度 s(b|{ti})
と、文書長が長い文書が有
1
1
s (b | {ti }) 
*  w利になる→文書長による補
(ti | s ) * v(ti | b)
L  0.2 * [dlen (b)  L] n 1in
正
dlen (b) : 文書bの中の異なり単語の種 類の数
L : 文書集合Dにおける文書の異なり 単語種類数の平均値 , Singhal, A., C. Buckley, and M. Mitra. 1996. Pivoted Document Length Normalization.
In Proceedings of ACM SIGIR’96, 21–29.
形態素解析システム茶筌
文を単語単位に分解するツール
 連想計算の際に単語出現回数が重要

◦ 文書中の単語の認識に利用

複合語を、別の意味の単語群に分解してしまう
 黄色ブドウ球菌→黄色

ブドウ
球菌
ユーザ辞書登録機能
◦ 1つの単語として扱いたい文字列を定義できる

食品の安全性に関する用語集(第4版)(食品安全委員
会)の用語を定義
松本裕治, 北内啓, 山下達雄, 平野善隆, 今一修, 今村友明. “日本語形態素解析システム『茶
筅』version1.0 使用説明書”, NAIST Technical Report, NAIST-IS-TR97007, February
1997.

検証

利用データベース
◦ 毎日新聞記事データ集2008,2009
 1面・2面・3面・国際・経済・特集・総合・家庭・科
学・社会面 を利用
 記事件数は127,560件
トランス脂肪酸
◦ 多量摂取→心臓疾患や動脈硬化などのリスク
◦ 日本では特段の規制はなし
◦ 辞書に登録しなければ「トランス 脂肪酸」と分解さ
れる
検証:用語登録をした場合

リスト1番目の文書内容は「ト
ランス脂肪酸の心臓疾患リス
ク」

「動脈」という単語が出現、動
脈硬化に繋がることが伺われる

十分にトランス脂肪酸と心臓疾
患・動脈硬化への関連性が見て
取れる結果
動脈
検証:用語登録をしない場合

記事一覧の1位には、先ほど
と同じ文書が現れる
グラフには、動脈硬化に繋が
ることを示唆する語は現れな
い。
 記事一覧の1位以外の記事は
“トランス脂肪酸”に関する記
事ではない


動脈硬化や心臓疾患のリスク
になることが観察されにくく
なった。
考察、課題

考察
◦ 本システムで、食品安全リスクに関する早期警告を促すこ
とが出来ると考えられる。
◦ その支援効果は、対象の専門用語を登録しておいたほうが
向上すると考えられる。

課題
◦ 本研究で登録した用語以外で、支援効果向上が見込める用
語の存在
◦ 茶筌のユーザ辞書を適宜更新できるような仕組みの構築
御静聴ありがとうございました
共起関連度の計算式

共起関連度
X
Fxy
Fy
X:単語 x から見た単語 y の共起関連度
Fxy:単語 x および単語 y が共に現れる記事の数
Fy:単語 y が現れる記事の数
◦ という計算式で各単語間の共起関連度を計算
し、一番大きな値をとった単語に対して連結
を行う
 単語相互間の関係性を示せば、より単語の関係性の
認識
 関連性の高い一群の単語は検索された文書の何かあ
るまとまった話題に結びついていると考えられる
日立製作所:情報アクセス支援における「特徴単語群の抽出」の利用,
http://geta.ex.nii.ac.jp/getaN2002/doc/acc_twg1.pdf,2002