ニュースリリースPDF

Press
Release
(解禁日)
本成果の論文(Proceedings)の公開(解禁日)は 6 月 7 日(火)午前 9 時です。
平成28年5月23日
文部科学記者会加盟各社 御中
国立大学法人静岡大学長
伊 東 幸 宏
静岡大学情報学部狩野研究室のチームが電子カルテから診断名を推測する
国際コンテスト型ワークショップ NTCIR-12 MedNLPDoc で首位の成績を達成
人工知能分野の発展が期待される中、文章の自動解析を行う自然言語処理は最も重要な
分野の一つと言えます。また、医療費の増大が国家的な課題となっていることから、医療
分野への応用は大きな需要と社会的意義があります。
国際コンテスト型ワークショップ NTCIR-12 MedNLPDoc では、日本語の模擬電子カ
ルテに対して診断名を国際標準コード ICD-10 準拠で付与したデータを用意し、この診断
名を電子カルテの文章のみから自動的に判断する公開タスクを設定し、各国の研究チーム
がその性能を競い合いました。こうした競争を通じて、よりよいシステムの開発を行うこ
とを目的としています。
静岡大学情報学部行動情報学科の狩野芳伸研究室のチームは、その中で最も厳しい評価
基準(SURE 基準)において首位の成績を達成しました。タスク自体の難しさから、絶対
的な性能はまだ高くありませんが、今後自動的な医療診断支援システムの構築を進めてい
くための第一歩になると考えられます。成果は平成 28 年 6 月 7 日から開催の NTCIR-12
カンファレンスの中の 10 日午前のセッションで発表されます。
研究内容に関するお問い合わせ先
部局名
情報学部
担当者 狩野 芳伸(かの よしのぶ)准教授
携帯電話番号 090-4380-0633
メール
国立大学法人 静岡大学
FAX
[email protected] HP
ウェブサイト
053-478-1550
http://kanolab.net/kano/
http://www.shizuoka.ac.jp/
○広報室 〒422-8529 静岡県静岡市駿河区大谷836 TEL:054-238-5179
FAX:054-237-0089
人工知能分野の発展が期待される中、文章の自動解析を行う自然言語処理は最も重要な分野の一つと言え
ます。また、医療費の増大が国家的な課題となっていることから、医療分野への応用は大きな需要と社会的
意義があります。たとえば医師の診断を助けることのできる医療診断支援システムは、その実現が期待され
ています。
国際コンテスト型ワークショップ NTCIR は、一
年半ごとに開催され、さまざまな情報抽出タスク
電子カルテ
が設定されています。そのタスクの一つとして、
(テキストデータ)
日本語の医療言語情報処理を競い合う MedNLP
タスクシリーズを数年にわたり開催してきました。
診断名自動付与システム
当初は病名や薬品名の抽出といった基本的な技術
…喫煙1箱/日×1
の開発からはじまり、三回目になる今回の
0日…胸部X線上で
NTCIR-12 MedNLPDoc では、電子カルテに対す
る診断名の自動付与を行うシステムを構築し性能
診療情報管理士
を競い合いました。こうした競争を通じて、より
による診断名コ
よいシステムの開発を行うことを目的としていま
ード付与
す。具体的なタスクの設定は以下の通りです。
自然気胸を認め…手
術目的で入院した。
自然言語処理による
分析と診断名コード推測
自動診断システム構築にあたっての参考データ
となる訓練データには,診療情報管理士(HIM)
のためのテキストである「ICD コーディングトレ
J931, Z720
J931
ーニング第 2 版」の診療データを 200 レコード提
診療情報管理士の「正解」とシステムの推測結果と
供しました。ICD とは診断名や病名について分類
を比較し、何%当たったかで評価
したうえで番号をつけた、国際標準コード体系で
※診断名コード J931 は「その他の自然気胸」
す。システム構築にあたっては、各チームがこの
※診断名コード Z720 は「タバコ使用<喫煙>」
訓練データを参照して、未知の電子カルテデータ
に対しても診断コードが付与できるようにします。
図. 自動診断名付与システムとタスク評価の流れ
システムの性能をはかる評価データには、模擬カルテデータを 78 レコード用意し、それぞれに診断コー
ド付与の専門家である診療情報管理士が診断名を付与しました。模擬カルテなのは、我が国では電子カルテ
データの二次利用が非常に困難であるためです。本文書末尾に電子カルテデータの例を付記しましたのでご
覧ください。これが一つのレコードに相当します。各チームのシステムは、このレコードの情報から診断名
を推測します。データ最後の <icd code="J931"></icd>という部分が診断名のコードになり、各チームのシステ
ムにはこの部分は隠して当てられるかを競うことになります。例のように、診断名は複数つくこともありま
す。
ICD コードは階層的に定義されており、たとえば「すい臓がん」の上位カテゴリに「がん」があるといっ
た具合です。この階層の、どのレベルまであっていたかにより、3 段階の評価基準が用意されました。その
うちもっとも厳しい完全一致を「SURE」と呼んでいます。評価値は、自然言語処理における標準的な尺度
である、Precision(精度)、Recall(再現率)とこの二つを総合した F-measure が算出されています。
MedNLPDoc は自由に参加のできるオープンタスクで、世界各国からの参加があり、最終的に 8 チームが
結果を提出しました。静岡大学情報学部行動情報学科の狩野研究室のチームは、その中で最も厳しい評価基
準(SURE 基準)において首位の成績となる F-measure 0.348 を達成しました。訓練データの量が少ない
こと、判断が難しいタスクであることから、機械学習手法の適用は向いていないと考えられます。そのため
我々は、データの観察に基づくリソースとルールの整備を行い、高精度なシステム構築を狙いました。この
手法は同時に、どのような要素が診断に必要であったかが明確になる利点があります。
評価データには、3 人の診療情報管理士がそれぞれ別個に診断コードを付与しました。この 3 人の間でも
判断の違いが大きいことが観察されており、この診断コード付与が本質的にとても難しいタスクであること
を示唆しています。そのため絶対的な性能はまだ高くありませんが、今後自動的な医療診断支援システムの
構築を進めていくための第一歩になると考えられます。
本成果は、平成 28 年 6 月 7 日から開催の NTCIR-12 カンファレンスで発表されます。
※NTCIR-12 カンファレンス(成果発表会)は 2016 年 6 月 7 日から 6 月 10 日まで、東京の学術総合セン
ターで開催されます。本成果の発表を行うセッションは 6 月 10 日午前で、論文(Proceedings)の公開(解
禁日)は 6 月 7 日午前 9 時です。
NTCIR-12
http://research.nii.ac.jp/ntcir/ntcir-12/index-ja.html
MedNLPDoc
https://sites.google.com/site/mednlpdoc/
狩野准教授のウェブサイト
http://kanolab.net/kano/index.ja.html
付録
電子カルテデータの例(MedNLPDoc ウェブサイトより引用)
<data id="168" sex="MALE" age="26">
<text>
身長180cm、体重60kg、喫煙1箱/日×10日。
</text>
<text type="現病歴">
入院当日、階段昇降時突然の胸痛が出現。
1時間経過しても症状回復しなかったため、救急外来を受診し胸部X線上で自然気胸を認め、chest
tubeを挿入し、手術目的で入院した。
</text>
<text type="手術">
thoracoscopic
bullectomyを施行。
3hole(第2、5、7肋間)肺尖部にbullaeが2ヶ所、その他1ヶ所に疑わしい部位があった
ため、3ヶ所looping。
water
seal
第5肋間よりchest
testの結果leak(-)。
tube挿入。
</text>
<text type="入院後経過">
2005年4月1日、手術施行。
術後経過良好で、術後3日目にchest
tube抜去。
術後6日目に退院となった。
</text>
<icd code="J931"></icd>
<icd code="Z720"></icd>
</data>
国立大学法人 静岡大学 ウェブサイト http://www.shizuoka.ac.jp/
国立大学法人 静岡大学 ウェブサイト http://www.shizuoka.ac.jp/
国立大学法人 静岡大学 ウェブサイト http://www.shizuoka.ac.jp
○広報室 〒422-8529 静岡県静岡市駿河区大谷836 TEL:054-238-5179
FAX:054-237-0089