データからの科学(Data-Oriented Science)は、これまで科学研究


講演者名:辻井潤一 (センター長, 産業技術研究所・人工知能研究センター)

要旨:テキストから知識へ
データからの科学(Data-Oriented Science)は、これまで科学研究におけるデータの重要性を
強調してきた。その結果として、データからの科学は、科学研究における経験主義的な方
法論をとる。大規模な観察データから、科学者は、データ解析プログラムを使うことによ
って、モデルや理論を構築していく。
これに対して、近年、もう一つの流れが顕在化してきている。テキストの形であらわさ
れる「知識」の爆発的な増大である。科学論文誌に発表される膨大な数の論文だけではな
い。論文に比べると形式性は落ちるが、科学研究にとって重要な役割を果たすテキスト、
例えば、医者によってかかれた診断書、各種の実験レポートなどが、大量に計算機処理可
能な形式で蓄積されてきている。その量も、科学論文と同様に爆発的に増大している。
このような論文やレポートは、いわゆる実験から得られる生データや観察データとは異
なる性質を持っている。テキストは、これらのデータを人間が解釈した結果、その認識の
結果を表現したものである。ただ、一方、テキストは、数式やオントロジー、論理式とい
ったような、計算機によって操作可能な形で形式化された知識ではない。テキストをこの
ような形式化された知識に結び付けることは大きな挑戦であるが、科学者間で知識を共有
し、観察データを科学的な知識で解釈するためには不可欠のステップであろう。
科学研究の対象は、一般に、多くの部分とコンポーネントからなる複雑な系を構成して
いる。しかも、この部分やコンポーネントの働きの多くが、データとして観察できず、ま
た、その科学的な理解も部分的である。各部分やコンポーネントを取り出して研究が行わ
れている場合もあるが、それらはバラバラでその全体像は把握されていない。このような
分断された観察データ、対象の科学的理解をまとめ上げて全体を理解することがその科学
を進める重要な一歩となる。
この講演では、生命科学でのパスウェイ研究を例題として、分断された観察データや科
学的研究をまとめ上げていくプロセスについて議論する。