PowerPoint プレゼンテーション

ウェブからの疾病情報の
大規模かつ即時的な抽出手法
荒牧英治 * ** 森田瑞樹 ***
篠原(山田)恵美子 **** 岡瑞起 *
* 東京大学 知の構造化センター
** 科学技術振興機構 さきがけ
*** 独立行政法人 医薬基盤研究所
**** 東京大学 医学部附属病院
2015/10/1
NLP2011 豊橋
1
2015/10/1
NLP2011 豊橋
2
2015/10/1
NLP2011 豊橋
3
背景
• 大規模
– これまで: 全国5,000の医療機関の定点観測
– 本研究: 毎日数万を超えるインフルエンザに関す
るTweet
• 即時性
– これまで: 1週間間隔の更新であり,非常事態に
おいてその察知が遅れる可能性がある
– 本研究: 超早期での警告が可能
2015/10/1
NLP2011 豊橋
4
OUTLINE
• 背景
• 目的と問題
目的
• 提案手法
• 実験
• まとめ
2015/10/1
NLP2011 豊橋
5
タスク
タスク
検索クエリ
TASK1
風邪
TASK2
喉の痛み
TASK3
寒気
TASK4
鼻水/鼻づまり
TASK5
咳/たん
TASK6
熱
TASK7
頭痛
TASK8
インフルエンザ
2015/10/1
風邪
喉の痛み,のどの痛み
寒気,悪寒,さむけ
鼻水,鼻づまり,鼻風邪
咳,痰
高熱,微熱,発熱
頭痛
インフル,インフルエンザ
NLP2011 豊橋
6
20081118
20081128
20081208
20081218
20081228
20090107
20090117
20090127
20090206
20090216
20090226
20090308
20090318
20090328
20090407
20090417
20090427
20090507
20090517
20090527
20090606
20090616
20090626
20090706
20090716
20090726
20090805
20090815
20090825
20090904
20090914
単語の頻度
「風邪」「熱」「インフルエンザ」
0.10000%
2009年5月
新型インフル騒動
0.01000%
0.00100%
influenza
2015/10/1
NLP2011 豊橋
cold
fevor
0.00010%
7
2009年5月 新型インフル騒動
2015/10/1
NLP2011 豊橋
8
「ひきそう」
• 今日は暑いなぁ・・・・昨日は涼しかったのに。
風邪ひきそうだよ・・・
• あう、変な場所で寝てしまった。風邪ひきそう
• 冷房ききすぎてて寒い…。本格的な風邪ひく
かも。
• おはやう、昨日は寒くて風邪引くかとおもた
• 風邪一歩手前。身体が冷えきってるので湯た
んぽなう。昨日は遊びすぎた
2015/10/1
NLP2011 豊橋
9
「願望」「予防」
• 今年の年末は風邪なんて引いちゃいられな
い!
• 雨で靴が濡れて足が冷えた。ヘッドホンの延
長コードが断線した……帰りに新しいのを買い
に行く。風邪ひきたくないな。
• 風邪予防マスクがあったかい朝。
• 風邪予防に夜は濡れマスクをして寝てるんだ
けど、思わぬ副効果有り!唇が荒れない!
2015/10/1
NLP2011 豊橋
10
動物の症状/誤字
• そんなことより今はまじめに家事やりたい。今
日は子犬さんが風邪気味なので早めに帰っ
てあったかいものを作ってあげたいと思いま
す。...
• おっはよぅ。晴れてるけ
ど風邪が強いなぁ。
• 台風並みに風邪が強いな
2015/10/1
NLP2011 豊橋
11
アニメの人物の症/状空想上や夢の
中での症状
• オリジナル展開のせい
でりっちゃんと唯ちゃん
で風邪が被ったな
• 唯が最終話でひいた
風邪が律より重たかっ
たのは、唯は風邪引い
たことが無かったので
免疫が無かったからかな。
2015/10/1
NLP2011 豊橋
12
OUTLINE
• 背景
• 目的
• 提案手法
提案手法
• 実験
• まとめ
2015/10/1
NLP2011 豊橋
13
学習器による判定(ベースライン)
≒スパム判定
• 判定のための2つの条件
入力文
「投稿者(またはその周辺の人間)が
風邪をひく」といった内容であるか?
内容(命題)の妥当性
その内容は,現在(または近い過去)
であり,肯定文であるか?
モダリティの妥当性
非事実
2015/10/1
事実
NLP2011 豊橋
14
提案手法
• 条件ごとにコーパスを作成
入力文
命題
識別器
命題識別
コーパス
モダリティ
識別器
片方でも非事実の場合
両方がともに事実の場合
非事実
2015/10/1
モダリティ
識別
コーパス
事実
NLP2011 豊橋
15
ベースラインのコーパス
提案手法のコーパス
(B)
タスク
風邪
熱
2015/10/1
(A)
検索
クエリ
事
実
性
モ
ダ
リ
テ
ィ
命
題
-1
-1
+1
風邪
たとえ風邪でも休めない
+1
+1 +1
風邪
風邪で頭痛い
-1
+1
-1
かぜ
かぜで病院が激混み
-1
-1
-1
微熱
微熱だったとしても行く!
-1
-1
-1
発熱
発熱でしょうか?
発言
NLP2011 豊橋
16
学習の素性
周辺語のBOW (window size=6)
たぶん 風邪
L1
2015/10/1
がちょっと流行ってるんかなぁ
R1
R2
NLP2011 豊橋
R3
R4 R5 R6
17
OUTLINE
• 背景
• 目的
• 提案手法
• 実験
• まとめ
2015/10/1
NLP2011 豊橋
18
事実性判定の精度
事実性判定の精度は?
ベースライン
提案手法
風邪
0.825
(p=0.781,r= 0.781)
0.828
(p= 0.811,r= 0.838)
喉の痛み
0.962
(p=0.933,r=0.962)
0.962
(p= 0.934,r=0.993)
寒気
0.661
(p=0.675,r=0.648)
0.670
(p=0.681,r=0.659)
鼻水/鼻づまり
0.834
(p=0.839,r=0.829)
0.847
(p=0.836,r=0.859)
咳/たん
0.869
(p=0.829,r=0.914)
0.879
(p=0.816,r=0.953)
熱
0.689
(p=0.698,r=0.679)
0.705
(p=0.665,r=0.750)
頭痛
0.906
(p=0.877,R=0.936)
0.912
(p=0.866,r=0.964)
2015/10/1
NLP2011 豊橋
19
他のコーパスを追加すると精度は上
がるか? (タスクの個別性)
追加
なし
+ TASK1
ALL
+ TASK1
モダリティ
+ TASK1
命題
TASK2
0.962
0.954
0.954
0.947
TASK3
0.670
0.678
0.713
0.647
TASK4
0.847
0.871
0.892
0.830
TASK5
0.879
0.861
0.880
0.880
TASK6
0.705
0.759
0.711
0.739
TASK7
0.912
0.910
0.907
0.914
2015/10/1
NLP2011 豊橋
20
SVM以外の学習手法では?
インフルエンザタスクでの評価
Classifier
AdaBoost
Bagging
Decision Tree
Logistic Regression
Naive Bayes
Nearest Neighbor
Random Forest
SVM
2015/10/1
F-Measure
0.592
0.739
0.698
0.729
0.741
0.695
0.729
0.738
NLP2011 豊橋
Time
40.192
530.310
239.446
696.704
7.383
22.441
38.683
92.723
21
どの程度,現実を予測できるのか?
インフルエンザタスクでの比較
• 比較手法
– Tweet-SVM: 提案手法
– Tweet-Raw: ベースライン
• 単なるインフルエンザを含んだツィート数
– Google:
• Google Flu Trend 日本版 [Ginsberg et.al., Nature2009]
– Drug:
• 感冒薬(風邪薬) の家計支出 [総務省家計調査]
• 評価
– 国立感染症情報センターの報告との相関係数
2015/10/1
NLP2011 豊橋
22
2008年冬
2015/10/1
NLP2011 豊橋
23
2009年夏
2009年5月
新型インフル騒動
2015/10/1
NLP2011 豊橋
24
インフルエンザ流行との相関(1/2)
期間Ⅰ
期間Ⅱ
2009年5月
新型インフル騒動
Tweet-RAW
Ⅰ
0.683
Ⅱ
-0.009
Ⅲ
0.382
Ⅳ
0.391
全期間
0.095
Tweet-SVM
0.816
-0.018
0.474
0.957
0.181
Drug
-0.208
0.406
0.684
0.130
0.469
Google
2015/10/1
0.817
0.232NLP2011 豊橋0.881
0.976
0.869
25
R=0.816
R=0.817
R=-0.208
R=0.683
2015/10/1
NLP2011 豊橋
26
ピーク前とピーク後で分けて評価
R=0.955
R=0.959
R=0.974
R=0.962
2015/10/1
NLP2011 豊橋
27
OUTLINE
• 背景
• 目的
• 提案手法
• 実験
• まとめ
まとめ
2015/10/1
NLP2011 豊橋
28
まとめ
• Tweetを材料に疾患の流行を予測
– (1) 不自然な文を扱う
– (2) インフルエンザ報告数=非言語データを扱う
• 事実性判定器の導入
– 命題部/モダリティ部とコーパス分割
• 予測精度の向上を確認
– メディアによるノイズをうけやすいものの
– 流行のピーク前の予測精度は世界最高精度(r=0.97)
2015/10/1
NLP2011 豊橋
29
公開しているリソース
• コーパス(風邪+6症状)
• ガイドライン
http://mednlp.jp/
• カゼミル: 「カゼミル」で検索
[2011年1月5日] 読売新聞
2015/10/1
荒牧英治 Ph.D.
University of Tokyo
[email protected]
NLP2011 豊橋
30