発表資料はこちら

Copyright © 2015, SAS Institute Inc. All rights reserved.
B-02
塩野義製薬×SAS Japan 共同研究プロジェクト
SASによるHadoop上でのビッグデータとオープンデータの活用
∼データ駆動型へ向けたチームの作り方と機械学習がもたらす解析業務イノベーション∼
塩野義製薬株式会社
グローバル医薬開発本部
解析センター
北西 由武,藤原 正和,惟高 裕一,
豊泉 樹一郎,木口 亮,都地 昭夫
Copyright © 2015, SAS Institute Inc. All rights reserved.
Contents
BigDataと組織
地図情報の活用(空間統計)
医療ビッグデータ(Real World Data)
RANDOMWOODSステートメント
医薬品副作用データベース (JADER, FAERS)
ネットワーク・メタアナリシス
添付文書データベースの統計解析
データ×データによる新たな可能性
まとめ
3
はじめに
本発表は,仮説立案のプロセスを示すことに主眼を
置いています.
また,発表内の解析結果は,シミュレーションデータ,
オープンデータの一部を用いたものも含まれ,結果と
解釈について科学的な主張をする意図はないことを
ご理解ください.
4
BIGDATAとチーム/システム
最初にして最大の難関
5
Big Dataの定義
Volume
3つのVから,4つのV,そして6つ,7つのVへ
データ量
Big Data
Variety
Velocity
多様なデータ
データ生成頻度
・Veracity:正確さ
・Value:価値
・Venality:金次第で動くこと
・Visualization:可視化
でも,やはり大事なのは3つのV
Vの重みは業種,データの種類により,異なる
ライフログ,電子カルテ,臨床試験
6
Big DataのPositioning(生物統計領域)
観察 ⇒ Real World Data≒Big Data
Data Mining ⇒ 仮説
実験 ⇒ Confirmatory Study
Planed Analysis ⇒ 考察
Big Dataは万能ではない.
(宝が埋もれているかもしれないし,ゴミの山かもしれない)
Scienceの思考で,Big Dataを評価,利用する.
Big Dataはデータの取得目的と解析目的が
合致しない場合が多いので注意が必要.
7
Any Dataの活用:データ駆動型医薬品開発
検証
因果の追求
ミクロ的解析
Real World Data
≒Big Data?
(Un-controlled Data)
サンプリング
Clinical Trial Data
(Controlled Data)
Simulation Data
データ更新
予測
(Prediction Data)
将来予測
仮想臨床試験
Inferential Statistics
Biostatistics
Multiple Comparison
Adaptive Design
Enrichment Design等
一般化可能性
e.g. 疾患モデル
Bigになればなるほど,
populationに近くなる
データ更新
予測
疫学
Data Science
各学問領域の融合は加速的に進む
(Bayesian)
仮説を立てる
トレンドの把握
マクロ的解析
Machine Learning
Informatics
SVM(1990年代)
Random Forest (2000年代)
Deep Learning (2010年代)
8
製薬企業バリューチェーンとデータサイエンス
Bio-informatician
研究
Chem-informatician
配列検索・アライメント
SNP解析
構造活性相関分析
発現プロファイリング
Analyst
ドッキングシミュレーション
Structure-based drug design
機能解析・予測 分子動力学・量子化学計算
パスウェイ解析
営業・マー
ケティング
開発
薬物動態解析(シミュレーション)
医学・臨床統計・疫学(DB研究含む)
データサイエンス
Epidemiologist
Safety-statistician
市販後
Biostatistician
Pharmacokineticist
Quality-engineer
副作用DBマイニング(シグナル検出等)
ROI分析
マーケット分析
アンケート分析
品質管理工学
生産・流通
基幹データ
リソース配分 / タスク予測
9
製薬R&D関連オープンデータ 一例
承認取得,承認却下,開発中止の化合物,健康食品,
生活用品系化合物を含む約7000化合物の
データ,ターゲットタンパク/遺伝子を含むデータ
45万件超の有害事象自発報告データ
FAERS,Label情報含む
690万件の生物活性データ,
110万個の化合物データ,8千個の
ターゲットデータが収録されている
上市されている医療用医薬品の全添付文書データ
数百万の化合物構造および記述の
データセット
185か国16万件超の臨床試験データ
10
ビッグデータのもう一つの側面=マッチング
• データ×データ
(e.g. 創薬データ×臨床試験データ)
• システム×システム
(e.g. Hadoop × IMSTAT × Visual Analytics × SAS Drug Development)
• 人×人
(e.g. 同じ感性の人,それぞれの分野のスペシャリスト)
• 組織×組織
(統計解析,データサイエンスは多くの部署で必要とされている)
• 企業×企業
(同業種,異業種マッチング)
11
データサイエンスサイクルと人材
収集・統合・整形
DBスペシャリスト
再検討
再試行
ITスペシャリスト
データサイエンティスト
解析
(Biostat, Chemoinfo, Bioinfo, Analyst)
ビジネススペシャリスト
解釈・提言
12
IMSTAT導入前のHadoop環境
スレーブ
スレーブ
スレーブ
可視化・統計処理用
JMP
Clinical
マスター+
統計処理用
分散処理
スレーブ
スレーブ
スレーブ
スレーブ
13
IMSTAT/DataLoader/VA導入経緯とシステム連携図
初期のHadoopユーザ:2∼3名
IMSTAT:
In-Memory Statistics for Hadoop
Hadoopユーザ育成に時間を要する.
ソフトウェア・プログラム言語の
選択と集中が必要
IMSTAT / Data Loader / VAの導入により
Hadoopを有効活用し,ビッグデータ解
析環境の利便性を飛躍的に向上
Hadoopクラスター上で、
In-memory分散並列処理
Hadoop
Hadoopクラスター上の
データを分散並列処理
(データ収集,変換)
Visual Analytics
LASR
Slave
Master
Data Loader for Hadoop
Hadoop環境に対しては順次拡張可能
Head
LASR
メモリに保持して
データを可視化
14
BIGDATAとチーム/システムのまとめ
• 組織横断的なプロジェクトを企画運営することのハードルは高
いが,幅広い知識を結集することでイノベーションが生まれる
可能性がある.
• 手持ちのシステムを高い視点(組織横断,数年単位)で見直し,
最適化を図ることで,業務効率化促進だけでなく,知識発見
(仮説が生み出される)可能性が高まる.
• ヒトもシステムも組み合わせが重要
15
地図情報の活用
発想のブレークスルーへ
16
文献データとSNS(テキストマイニング&空間統計)
SNS
(Twitter / Facebook等)
文献
(PubMed等)
そのような知見があるかどうか?
17
GPS×Twitter
18
疾患マップ
19
20
地図情報活用のまとめ
• 空間情報という異なる次元を用いてグラフ表現する
ことで,新しい発想,モノの見方が促される.(従来か
ら存在する技術ではあるが.)
• 地域性の考察,ヒトの移動,ローカル戦略
• GPSをはじめとした位置情報データ収集が進み,空
間統計の分野の益々の発展が期待される.
21
医療ビッグデータ(Real World Data)
処方実態と患者数推定
医療ビッグデータ (REAL WORLD
DATA)
22
Essential Point(本パートでお伝えしたいこと)
医療ビッグデータとは
医療ビッグデータの利用
分析の事例紹介
23
医療ビッグデータとは?
• 医師の診療行為から生まれるデータであり,カルテ,レセプ
ト(診療報酬明細)などをソースとして得られるもの
• 患者さん一人ひとりの薬剤処方歴,手術歴,診断歴,入院歴
といった情報が蓄積されたデータ
• 2014年に閣議決定された健康・医療戦略の中にも利用促進の
旨が盛り込まれている
• Real World Data(RWD) と呼ばれることも多い
24
Any Dataの活用:データ駆動型医薬品開発(再掲)
検証
因果の追求
ミクロ的解析
Real World Data
≒Big Data?
(Un-controlled Data)
サンプリング
Clinical Trial Data
(Controlled Data)
Simulation Data
データ更新
予測
(Prediction Data)
将来予測
仮想臨床試験
Inferential Statistics
Biostatistics
Multiple Comparison
Adaptive Design
Enrichment Design等
一般化可能性
e.g. 疾患モデル
Bigになればなるほど,
populationに近くなる
データ更新
予測
疫学
Data Science
各学問領域の融合は加速的に進む
(Bayesian)
仮説を立てる
トレンドの把握
マクロ的解析
Machine Learning
Informatics
SVM(1990年代)
Random Forest (2000年代)
Deep Learning (2010年代)
25
RWDの特徴
機微データであり,扱いには注意が必要
メリット
デメリット
• 大規模である
• 民間で利用できる国が限られる
• 継時的である
• 1次目的で集積されたデータでない
開発時点で得られるデータとは比べ物に
ならないくらい多くのデータが得られる
患者さん一人ひとりについて,継時的に
データが蓄積される
• 経済的である
同じ量のデータを臨床試験で得よう
とすると莫大な資金が必要
日本,米国,英国 etc…
利用したい項目のデータがとられていない
可能性がある
収集目的と調査目的が異なるため,データ
の解釈が難しくなる
26
RWDの活用
R&Dの
効率UP
処方実
態調査
副作用
の監視
薬剤の
差別化
患者数
の調査
創薬・育薬への寄与
薬剤の
適正使
用確認
27
RWD解析のFeasibility
•
•
目的とする解析のアウトカムのデータがあるか?
•
病気,転帰,曝露の情報
•
クリティカルな交絡因子の情報
集団は適切か?
•
十分に多くのデータがあること
•
偏りのない代表的なデータであること
28
医療ビッグデータの解析事例
• OMOP*が公開している,MarketScan® Research
Databasesなどの商用の医療データベースをもとにシ
ミュレーションから作成されたデータ
• オープンデータとして公開されている
• 100万人分の処方,診断,患者背景のデータが含まれる
• 処方データ: 118,541,933件
• 診断データ: 175,029,957件
* © 2009-2012 Observational Medical Outcomes Partnership
29
おことわり
• 実際のRWD解析ではデータの特徴,解析目的に対する
Feasibilityの確認が必須ですが,本発表では割愛してい
る部分もございます
•
RWDで出来ること に焦点をあててご紹介いたします
• 説明時の解釈はあくまで一例です
30
データの説明∼診断情報∼
Variables in Creation Order
診断
#
Variable
Type
Len
Format
Informat
1
CONDITION_ERA_ID
Num
8
BEST12.
BEST32.
2
CONDITION_ERA_START_DATE
Num
8
DATE11.
DATE11.
3
PERSON_ID
Num
8
BEST12.
BEST32.
4
CONFIDENCE
Char
1
$1.
$1.
5
CONDITION_ERA_END_DATE
Num
8
DATE11.
DATE11.
6
CONDITION_CONCEPT_ID
Num
8
BEST12.
BEST32.
7
CONDITION_OCCURRENCE_TYPE
Num
8
BEST12.
BEST32.
8
_CONDITION_OCCURRENCE_COUNT__ Char
8
$8.
$8.
31
データの説明∼処方情報∼
Variables in Creation Order
#
Variable
Type
Len
Format
Informat
1
DRUG_ERA_ID
Num
8
BEST12.
BEST32.
2
DRUG_ERA_START_DATE
Num
8
DATE11.
DATE11.
3
DRUG_ERA_END_DATE
Num
8
DATE11.
DATE11.
4
PERSON_ID
Num
8
BEST12.
BEST32.
5
DRUG_EXPOSURE_TYPE
Num
8
BEST12.
BEST32.
6
DRUG_CONCEPT_ID
Num
8
BEST12.
BEST32.
7
_DRUG_EXPOSURE_COUNT__
Char
8
$8.
$8.
処方
32
データの説明∼背景 & 辞書∼
背景
辞書
33
データの説明∼結合∼
key:CONCEPT_ID
診断
key:PERSON_ID
背景
key:PERSON_ID
辞書
key:CONCEPT_ID
処方
key:PERSON_ID
解析対象データ
34
処方分布と推移
同じ疾患に対して色んな種類の薬剤が発売されている時
1. どの薬剤が最も使われているか?
• 薬剤ごとに使っている人の差異があるかもしれない
2. 服用薬をある薬剤から他の薬剤へ変更した人はどれく
らいいるか?
• 変更しているのはどういう人か?
SAS VAのサンキーダイアグラムを利用
35
【RWD事例①】 処方分布と推移
時間軸
Drug Y→Drug X
※あくまで1つの視点(仮説)であることに注意
36
【RWD事例①】 処方分布と推移
時間軸
Drug X→Drug Y
※あくまで1つの視点(仮説)であることに注意
37
患者数推定
注目している疾患の患者数がどれくらいいるか
1. 市場性の予測
• より細かい患者像に絞って検討することができる
2. アンメットニーズの把握
•
人口予測モデルとの組み合わせ
38
患者数推定∼考え方∼
男性( i =1)
年齢( j )
∼5歳
1
6∼9歳
2
10∼14歳
3
:
:
基準集団
観察集団
(国勢調査など) (人) (OSIMのデータ) (人)
N ij
p ij
N 11
p 11
N 12
p 12
N 13
p 13
:
:
:
患者数
X ij
X 11
X 12
X 13
• 年齢と性のズレを調整する
• 推定患者数=
∗
39
【RWD事例②】患者数推定(若年性認知症)
• 傾向として,疾患の特徴が反映されていることが確認できる
 若年性認知症は男性の方が多いと言われている
 50代が発症のピークである
患
者
数
■:女性
■:男性
年齢 15~19
20~24
25~29
30~34
35~39 40~44 45~49 50~54 55~59 60~64
※あくまで1つの視点(仮説)であることに注意
40
【RWD事例②】患者数推定(若年性認知症)
• 人口ピラミッドの予測×RWDの罹患率
 将来患者数の予測からアンメットニーズを把握できる
出典:http://populationpyramid.net/united-states-of-america/
41
医療ビッグデータ∼まとめ∼
• さまざまな観点からの利用が考えられる
• 実際の調査時にはFeasibilityの確認は必須となる
42
RANDOMWOODSステートメント
ロバストで使い勝手が良い手法
43
Random Forest

Random Forestの手順
44
RANDOMWOODSステートメントによる解析事例
IMSTATプロシジャのRANDOMWOODSステートメントで,プロ
野球データにRandom Forestを適用した
 データ概要




2010年~2014年のプロ野球データ(http://baseball‐data.com/)
目的変数:クラス(Aクラス・Bクラス)
説明変数:34変数
打率・得点・安打・本塁打・盗塁・犠打・四球・死球・三振・併殺打・
出塁率・長打率・OPS・NOI・IsoD・IsoP・得点平均・安打平均・防御率・
セーブ・ホールド・完投・完封勝・被安打・被本塁打・与四球・与死球・
奪三振・失点・自責点・WHIP・DIPS・失点平均・被安平均
45
RANDOMWOODSステートメントによる解析事例
プログラムコード
解析結果:重要度(一部)
セーブ
盗塁
ホールド
IsoD
犠打
四球
打率
防御率
死球
完投
与四球
完封勝
46
まとめ

本発表では,野球データを,IMSTATの
RANDOMWOODSステートメントを用いて,Random forestで解析し,説明変数の重要度を測定した


AクラスかBクラスかを判別する際の重要な変数は,抑えの
投手力や四死球による出塁率,犠打であった
今後は,遺伝子データなどの説明変数が
非常に多いデータに対して本手法を適用
していきたい
47
医薬品副作用データベース (JADER, FAERS)
アソシエーション分析による副作用情報の関連性評価
48
応用:レコメンドシステム
被験者ID
AE_ID
AE_COUNT
AE_ID
AE_NAME
000001
0043
1
0043
肝炎
000001
0044
2
0044
傾眠
000001
0002
1
0045
嘔吐
000002
0043
1
0046
腎障害
:
:
:
:
:
rating
レコメンドシステム
の開発
demo
被験者ID
性別
年齢
薬剤Aの使用
000001
M
25
有
000002
F
34
有
:
:
:
:
ae
アソシエーショ
ン分析の考え
方を利用
49
応用:レコメンドシステム (proc recommend)
proc recommend recom = LASRLIB.movielens;
add LASRLIB.movielens/
item = PT_CODE user = isr rating = count;
3つのデータセットを指
addtable LASRLIB.rating /type = rating
定する
vars=(isr PT_CODE PT_KANJI count);
セッション本編は各社様のテンプレートでご準備ください。
addtable LASRLIB.ae
/type = item;
addtable LASRLIB.demo
/type = user;
run;
類似している被験者を
method knn / label = "knn" k = 20 positive
探すアルゴリズム指定
similarity = pc seed = 1234;
run;
被験者ID=000001で次
predict / method = knn label="knn" Num = 5
に起こる可能性が高
users = ("000001");
い有害事象を5つピッ
run;
クアップする
50
まとめと今後の展望
• まとめ
• JADERとFAERSにおいて,副作用が同様の関連ルールで報告されていること
が確認できた
• IMSTAT,アソシエーション分析を用いて,これらのデータベースから副作
用情報の関連性評価は可能であると考えられた
– ただし,データベースの性質を把握しておく必要がある
• また,アソシエーション分析の考え方は,レコメンドシステムへ応用することが可
能であると考えられた
• 今後の展望
• 背景情報,併用薬情報等を組み入れて,データを工夫して利用することで,
様々な関連ルールを把握することが可能となり,アソシエーション分析のさらな
る応用が可能である
• 例:Yを性別とした場合,性別による副作用関連ルールの違いを評価することが可
能となる
51
ネットワーク・メタアナリシス
最強ってどうやって決める?
52
最強の決め方
• 「統計学が最強の学問である」って言われても
• 心理学,経済学,化学,文学・・・
• どうやって決める?
• トーナメント戦(勝ち抜き戦)? リーグ戦(総当たり戦)?
統計学
53
医療統計の世界では
• メタアナリシス
• 複数の無作為化臨床試験の結果を統合化
• 出版バイアス,選択バイアスなどが入りやすい
• 良くない結果は公表されにくい
• 有利な結果のみを用いてしまいがち
• システマティックレビュー
• 関連しそうな試験を網羅的に確認する必要がある
• 異質性がないことを確かめてから統合
• あまりに試験間でバラバラだと統合できない
• エビデンスとしては強力
54
ClinicalTrials.gov
• 米国国立衛生研究所 (NIH) が運営し、米国
医学図書館 (NLM) が支援する最も権威のあ
る臨床試験の登録システム
• 世界最大の臨床試験登録数
• 米国で実施する臨床試験では登録の義務
55
ClinicalTrials.gov:データ構造
• 1年に1回,登録されている試験のデータが50個のSASデータ
セットに変換.誰でもダウンロードが可能
arm_groups
1.1 GB
authorities
81 MB
clinical_study_c
lobs1~6
2.5 GB
facilities
1.2 GB
interventions0.7
MB
references
4.8 GB
clinical_study_n
oclob
2.2 GB
等々・・・
56
ClinicalTrials.govへの登録状況(2014年3月時点)
・年々臨床試験の登録数は増加
57
ClinicalTrials.govへの登録状況(2014年3月時点)
しかし結果まで報告しているものは少ない.
58
米国における臨床試験成績の公開の動き
• 米国研究製薬工業協会
(PhRMA)が臨床試験成績の
公開について強化
• 透明性の確保
• 2015年6月から実施
59
米国における臨床試験成績の公開の動き
60
ネットワークメタアナリシス
薬剤A
薬剤F
薬剤B
薬剤E
薬剤C
薬剤D
61
ネットワークメタアナリシス
薬剤B
薬剤A
安
全
性
順
位
高
薬剤F
薬剤D
薬剤E
薬剤C
有効性順位高
62
まとめ
• 類薬のおおよその位置づけを社内で把握するために
ネットワークメタアナリシスをClinicalTrials.govのデー
タで適用することを検討した
• 現状のClinicalTrials.govではデータ数が乏しいが今
後,データ数が増えることが期待される
• ClinicalTrials.govのデータを扱う際に,様々なデータ
セットを併合すると容量はかなり大きくなる.IMSTAT
を用いることで処理時間が短くでき,効率的な作業
が可能になる
63
添付文書データベースの統計解析
64
テキストマイニング
• テキストマイニング
• 定型化されていない文章の集まりを自然言語解析の手法
を使って単語やフレーズに分割し、それらの出現頻度や相
関関係を分析して有用な情報を抽出する手法
65
テキストマイニングにおける辞書構築
• 辞書の登録
• 新たな単語,品詞などをユーザーが新たに登録できる
Ex) 鉄欠乏性貧血
疾患名として一つの単語として扱いたいが・・・
普通の辞書で
形態素分析を行うと・・・
新たに,「疾患名」という品詞&「鉄欠乏性貧血(疾
患名)」という単語を加えると
鉄欠乏性貧血
鉄欠乏性貧血
名詞 名詞 名詞 名詞
疾患名
66
事例 テキストマイニングによるアプローチ
添付文書データベース×医薬品副作用データベース
• 添付文書データベースから後発品を極力取り除いた4,542の医薬品を対象に「重大な副作
用」のカラムを抽出
⇒テキストマイニングの対象
• 医薬品副作用データベースを集計
⇒バリデーション目的(テキストマイニングの妥当性)
⇒添付文書(既知情報)と医薬品副作用DB(既知情報+未知情報)
の差分(未知情報)により,シグナル検出を行う.
•
開発品目への適用
•
•
類薬の副作用情報との比較
臨床成績からの間接比較
67
事例 テキストマイニングによるアプローチ
テキストマイニングで良く用いられる指標
• TF(Term Frequency)値;局所的重み
文書(Record)1
文書(Record)2
文書(Record)3
文書(Record)4
• 各文書内での,各単語の重み
• 通常は文書内での各単語の頻度
• IDF(Inverse Document Frequency)値:大域的重み
文書1の「象」のTF値=1
全文書の「象」 のIDF値=log(4/3)+1=1.415
文書1の「象」のTF*IDF値=1.415
• 文書全体を考慮した,各単語の重み
IDF  log
2
N
 1 N : 全文書数
ni
「象」 「ミツバチ」 「豚」
「チーター」
「象」 「馬」
「象」 「チーター」

, n i : 単語が含まれる文書数
• 少数の文書に現れる単語に大きい重みがつく
この二つを掛け合わせた,TF*IDF値が,文書内・全体を含めた,各単語の重要度となる.
• 正規化
• TF*IDF値はテキスト量の多い文書で,重みが大きくつくので,さらにTF*IDF値を正規化することで,各
文書でのテキストの長さによる影響が調整される TF * IDF
文書 i での形態素
j の正規化
TF * IDF 値 ij

m
i 1
TF
i
ij
* IDF

2
i
68
テキストマイニングによるアプローチ
• 非構造化⇒構造化
• テキストデータも数値化すれば,構造化データとなる.
• 構造化すれば,後は通常の多変量解析,データマイニング手法が適用
できる.
ID
単語1
単語2
単語3
単語4
単語5
・・・
単語X
文書1
文書2
文書3
文書4
文書5
TF*IDF値
・・・
文書x
69
まとめ
• テキストデータ(非構造化データ)も数値化すれば,構造化デー
タとなる.
• 構造化すれば,後は通常の多変量解析,データマイニング手
法が適用できる.
• 添付文書(既知情報)と医薬品副作用DB(既知情報+未知情
報)の差分(未知情報)は,新たなシグナルの検出につながる.
70
データ×データによる新たな可能性
71
他部署との対話を通じて
臨床
データ
非臨床
データ
化合物
データ
市販データ
公共データ
リソース
データ
基幹
データ
市販後データ
HDFS
社内DB×市販DB×公共DB
今までになかったデータの組み合わせ
統合/間接比較
新たな知見
72
とはいうものの,DBの掛け算は難しい
• Keyデータがあれば簡単にシングルソース化
購買履歴
+
市場調査
• データ融合(Data fusion)
購買履歴
欠測
欠測
市場調査
共変量
・マッチング(傾向スコアも利用)
・潜在変数モデリング
・回帰モデルの利用
・セミパラメトリックモデル など
モデルや欠測補完法など統計学
の活用がデータ融合の鍵
『調査観察データの統計科学』 星野 崇宏より
73
これからのイノベーション
• 21世紀の産業競争力(東大MOT・元橋一之教授)
• サイエンス経済
• IT革命やヒトゲノムの解読と遺伝子機能に基づく医薬品開発など、科学的知見を
ベースにした画期的な技術が経済社会に大きな影響を及ぼすようになった
• オープンイノベーション
• モノ中心モデル(自前主義)の限界=オペレーションの効率化ではもう新興国と勝
負にならない
• サイエンスベースイノベーション
• 企業のイノベーションプロセスにおいて科学的知見を取り込む=産学連携
• 自然現象や社会現象のより根源的なメカニズムに遡り、非連続的なイノベーション
を起こしていくことが求められる
• 産業界だけでも
• 企業×企業によるコラボレーション
元橋 一之『日はまた高く,産業競争力の再生』(日本経済新聞社)
74
製薬企業の枠に囚われない
• データプラットフォーマーの必要性(経産省提唱)
• 企業が壁を越えてデータを共有・活用し、新たな付加価値
を生むデータ駆動型のイノベーションへ
• 自社内,同業他社,異業種間でデータ保有者,利用者を
つなぐ
• しかし,データプラットフォーマーの活躍は未だこれから
• データ保有者,利用者が自ら協力しあう必要性がある
• データ×データによる生まれる価値は人×人から
• そして企業×企業へ
75
まとめ
76
まとめ
• 事例を通してお伝えしたかったこと
• 多様なデータの活用
• 空間情報,テキストなど
• オープンデータ,Twitterなど
• 各種手法による知見獲得の可能性
• データ×データによるBig data化
• そのためにはBig dataを扱えるIMSTATは有益
• 基盤整備の重要性
• さらにその先には
• データ×データ,人×人によるアイデアの創出・・・企業×企業へ
• マッチングによる新たな可能性が拡がる
• 企業間,さらに異業種間データの相互利用
77
Copyright © 2015, SAS Institute Inc. All rights reserved.