ウェブからの疾病情報の 大規模かつ即時的な抽出手法 荒牧英治 * ** 森田瑞樹 *** 篠原(山田)恵美子 **** 岡瑞起 * * 東京大学 知の構造化センター ** 科学技術振興機構 さきがけ *** 独立行政法人 医薬基盤研究所 **** 東京大学 医学部附属病院 2015/10/1 NLP2011 豊橋 1 2015/10/1 NLP2011 豊橋 2 2015/10/1 NLP2011 豊橋 3 背景 • 大規模 – これまで: 全国5,000の医療機関の定点観測 – 本研究: 毎日数万を超えるインフルエンザに関す るTweet • 即時性 – これまで: 1週間間隔の更新であり,非常事態に おいてその察知が遅れる可能性がある – 本研究: 超早期での警告が可能 2015/10/1 NLP2011 豊橋 4 OUTLINE • 背景 • 目的と問題 目的 • 提案手法 • 実験 • まとめ 2015/10/1 NLP2011 豊橋 5 タスク タスク 検索クエリ TASK1 風邪 TASK2 喉の痛み TASK3 寒気 TASK4 鼻水/鼻づまり TASK5 咳/たん TASK6 熱 TASK7 頭痛 TASK8 インフルエンザ 2015/10/1 風邪 喉の痛み,のどの痛み 寒気,悪寒,さむけ 鼻水,鼻づまり,鼻風邪 咳,痰 高熱,微熱,発熱 頭痛 インフル,インフルエンザ NLP2011 豊橋 6 20081118 20081128 20081208 20081218 20081228 20090107 20090117 20090127 20090206 20090216 20090226 20090308 20090318 20090328 20090407 20090417 20090427 20090507 20090517 20090527 20090606 20090616 20090626 20090706 20090716 20090726 20090805 20090815 20090825 20090904 20090914 単語の頻度 「風邪」「熱」「インフルエンザ」 0.10000% 2009年5月 新型インフル騒動 0.01000% 0.00100% influenza 2015/10/1 NLP2011 豊橋 cold fevor 0.00010% 7 2009年5月 新型インフル騒動 2015/10/1 NLP2011 豊橋 8 「ひきそう」 • 今日は暑いなぁ・・・・昨日は涼しかったのに。 風邪ひきそうだよ・・・ • あう、変な場所で寝てしまった。風邪ひきそう • 冷房ききすぎてて寒い…。本格的な風邪ひく かも。 • おはやう、昨日は寒くて風邪引くかとおもた • 風邪一歩手前。身体が冷えきってるので湯た んぽなう。昨日は遊びすぎた 2015/10/1 NLP2011 豊橋 9 「願望」「予防」 • 今年の年末は風邪なんて引いちゃいられな い! • 雨で靴が濡れて足が冷えた。ヘッドホンの延 長コードが断線した……帰りに新しいのを買い に行く。風邪ひきたくないな。 • 風邪予防マスクがあったかい朝。 • 風邪予防に夜は濡れマスクをして寝てるんだ けど、思わぬ副効果有り!唇が荒れない! 2015/10/1 NLP2011 豊橋 10 動物の症状/誤字 • そんなことより今はまじめに家事やりたい。今 日は子犬さんが風邪気味なので早めに帰っ てあったかいものを作ってあげたいと思いま す。... • おっはよぅ。晴れてるけ ど風邪が強いなぁ。 • 台風並みに風邪が強いな 2015/10/1 NLP2011 豊橋 11 アニメの人物の症/状空想上や夢の 中での症状 • オリジナル展開のせい でりっちゃんと唯ちゃん で風邪が被ったな • 唯が最終話でひいた 風邪が律より重たかっ たのは、唯は風邪引い たことが無かったので 免疫が無かったからかな。 2015/10/1 NLP2011 豊橋 12 OUTLINE • 背景 • 目的 • 提案手法 提案手法 • 実験 • まとめ 2015/10/1 NLP2011 豊橋 13 学習器による判定(ベースライン) ≒スパム判定 • 判定のための2つの条件 入力文 「投稿者(またはその周辺の人間)が 風邪をひく」といった内容であるか? 内容(命題)の妥当性 その内容は,現在(または近い過去) であり,肯定文であるか? モダリティの妥当性 非事実 2015/10/1 事実 NLP2011 豊橋 14 提案手法 • 条件ごとにコーパスを作成 入力文 命題 識別器 命題識別 コーパス モダリティ 識別器 片方でも非事実の場合 両方がともに事実の場合 非事実 2015/10/1 モダリティ 識別 コーパス 事実 NLP2011 豊橋 15 ベースラインのコーパス 提案手法のコーパス (B) タスク 風邪 熱 2015/10/1 (A) 検索 クエリ 事 実 性 モ ダ リ テ ィ 命 題 -1 -1 +1 風邪 たとえ風邪でも休めない +1 +1 +1 風邪 風邪で頭痛い -1 +1 -1 かぜ かぜで病院が激混み -1 -1 -1 微熱 微熱だったとしても行く! -1 -1 -1 発熱 発熱でしょうか? 発言 NLP2011 豊橋 16 学習の素性 周辺語のBOW (window size=6) たぶん 風邪 L1 2015/10/1 がちょっと流行ってるんかなぁ R1 R2 NLP2011 豊橋 R3 R4 R5 R6 17 OUTLINE • 背景 • 目的 • 提案手法 • 実験 • まとめ 2015/10/1 NLP2011 豊橋 18 事実性判定の精度 事実性判定の精度は? ベースライン 提案手法 風邪 0.825 (p=0.781,r= 0.781) 0.828 (p= 0.811,r= 0.838) 喉の痛み 0.962 (p=0.933,r=0.962) 0.962 (p= 0.934,r=0.993) 寒気 0.661 (p=0.675,r=0.648) 0.670 (p=0.681,r=0.659) 鼻水/鼻づまり 0.834 (p=0.839,r=0.829) 0.847 (p=0.836,r=0.859) 咳/たん 0.869 (p=0.829,r=0.914) 0.879 (p=0.816,r=0.953) 熱 0.689 (p=0.698,r=0.679) 0.705 (p=0.665,r=0.750) 頭痛 0.906 (p=0.877,R=0.936) 0.912 (p=0.866,r=0.964) 2015/10/1 NLP2011 豊橋 19 他のコーパスを追加すると精度は上 がるか? (タスクの個別性) 追加 なし + TASK1 ALL + TASK1 モダリティ + TASK1 命題 TASK2 0.962 0.954 0.954 0.947 TASK3 0.670 0.678 0.713 0.647 TASK4 0.847 0.871 0.892 0.830 TASK5 0.879 0.861 0.880 0.880 TASK6 0.705 0.759 0.711 0.739 TASK7 0.912 0.910 0.907 0.914 2015/10/1 NLP2011 豊橋 20 SVM以外の学習手法では? インフルエンザタスクでの評価 Classifier AdaBoost Bagging Decision Tree Logistic Regression Naive Bayes Nearest Neighbor Random Forest SVM 2015/10/1 F-Measure 0.592 0.739 0.698 0.729 0.741 0.695 0.729 0.738 NLP2011 豊橋 Time 40.192 530.310 239.446 696.704 7.383 22.441 38.683 92.723 21 どの程度,現実を予測できるのか? インフルエンザタスクでの比較 • 比較手法 – Tweet-SVM: 提案手法 – Tweet-Raw: ベースライン • 単なるインフルエンザを含んだツィート数 – Google: • Google Flu Trend 日本版 [Ginsberg et.al., Nature2009] – Drug: • 感冒薬(風邪薬) の家計支出 [総務省家計調査] • 評価 – 国立感染症情報センターの報告との相関係数 2015/10/1 NLP2011 豊橋 22 2008年冬 2015/10/1 NLP2011 豊橋 23 2009年夏 2009年5月 新型インフル騒動 2015/10/1 NLP2011 豊橋 24 インフルエンザ流行との相関(1/2) 期間Ⅰ 期間Ⅱ 2009年5月 新型インフル騒動 Tweet-RAW Ⅰ 0.683 Ⅱ -0.009 Ⅲ 0.382 Ⅳ 0.391 全期間 0.095 Tweet-SVM 0.816 -0.018 0.474 0.957 0.181 Drug -0.208 0.406 0.684 0.130 0.469 Google 2015/10/1 0.817 0.232NLP2011 豊橋0.881 0.976 0.869 25 R=0.816 R=0.817 R=-0.208 R=0.683 2015/10/1 NLP2011 豊橋 26 ピーク前とピーク後で分けて評価 R=0.955 R=0.959 R=0.974 R=0.962 2015/10/1 NLP2011 豊橋 27 OUTLINE • 背景 • 目的 • 提案手法 • 実験 • まとめ まとめ 2015/10/1 NLP2011 豊橋 28 まとめ • Tweetを材料に疾患の流行を予測 – (1) 不自然な文を扱う – (2) インフルエンザ報告数=非言語データを扱う • 事実性判定器の導入 – 命題部/モダリティ部とコーパス分割 • 予測精度の向上を確認 – メディアによるノイズをうけやすいものの – 流行のピーク前の予測精度は世界最高精度(r=0.97) 2015/10/1 NLP2011 豊橋 29 公開しているリソース • コーパス(風邪+6症状) • ガイドライン http://mednlp.jp/ • カゼミル: 「カゼミル」で検索 [2011年1月5日] 読売新聞 2015/10/1 荒牧英治 Ph.D. University of Tokyo [email protected] NLP2011 豊橋 30
© Copyright 2024 ExpyDoc