アブストラクト


講演者名:中村 春木(大阪大学蛋白質研究所・所長)

要旨:「ビッグデータから知識へ、そして智恵へ」
シミュレーションとビッグデータ解析が、従来の実験・理論による取り組み(第1、2の科学)に対
比して、第3、第4の科学とそれぞれ称されトレンドとなっている。
ビッグデータ解析、すなわちデータ駆動型科学がなぜ第4の科学のパラダイムかと言うと、観測機器
の発展により、ゲノム科学や天文学等において、ゲノム情報や画像イメージなどの詳細で巨大なデータ
を以前に比べて極めて容易に観測し蓄積することが可能になったことを前提とし、それら膨大なデータ
の解析から新規の知識体系を構築するという、これまでにない学問の取り組み方が始まった、とする考
えに由来する。たいへん有名な「DIKW ピラミッド」は、このデータ駆動型科学における取組み方の基
本的な概念を表しており、最も下位にある生のビッグデータ( Data )が散在している状態から、データ
の検証を行って集積した情報( Information )とし、その解析によって新たな知識( Knowledge )の蓄積を
進め、最終的に科学的智恵( Wisdom )に結実させようとするものである。
このデータ駆動型科学の手法は、特に生命科学に有効と考えられているが、そのアプローチ法は従来
の第1、2の科学のアプローチ法とは本質的に異なっている。そのことの理解が不足したまま、特に、
科学の目的が自然界の原則・法則を理解する「智恵」を産み出すこととのみ限定して考える科学者にと
っては、データ駆動型科学を推進する情報科学者との間に理解されない壁ができてしまっていると危惧
される。
本講演では、まず、データ駆動型科学で言う「智恵」は、自然界の原則・法則の発見・理解を含む「問
題解決能力」のことであると広く定義し、たとえ自然法則が従来の科学の手法のように直ちに見出され
なくとも様々な事象の合理的な解析が行われ将来の予測ができることと考える。実際、生命科学におい
ては、多くの事象がまず枚挙的に観測され、純粋な物理学のように全体を統一して理解される原則・法
則が構築される例は多くない。
次に、
「智恵」が「問題解決能力」とした場合のデータ駆動型科学の課題を考えると、当然のことでは
あるが「データが無ければ問題解決はできない」ことが本質である。より正しくは「正確なデータが無
ければ正しい問題解決はできない」ということであり、データ駆動型科学で使われるデータは正しいの
か?最新のデータなのか?複数のデータ間で矛盾はないのか?という当たり前だが深刻な問題に行き当
たる。この問題は一般的であり、ビッグデータ中のデータを個々に精査することを「問題解決」と同時
に実施することは非能率的と考えられる。また、科学データにおいては、誤ったデータは正しいデータ
の周りの「ゆらぎ」ではなく、正しいデータとは明確に区別されるべきである。すなわち、
「科学的智恵」
を産み出すダイナミックで刻一刻と進化する「知識」が、最新の正しいものに常に保たれる仕組みがあ
ることによって、初めてその「知識」を基に正しく「問題解決」が図られるのである。
講演では、この仕組みを構築するための科学者に対する提言と情報科学者に対する提言をそれぞれ行
い、ビッグデータに基づく「知識」の質と新規性を保つ仕組みの構築について、演者が関わる蛋白質立
体構造データバンク(Protein Data Bank)1)とバイオサイエンスデータベースセンター(NBDC)の具
体的な活動を紹介し、皆様と議論を行いたい。
参考文献 1) 中村春木, ビッグデータ時代に向けた Protein Data Bank(PDB)の取り組み. 生物物理
53(1), 044-046, 2013.