セマンティックウェブ技術を活用した 生命科学データ利用環境の

セマンティックウェブ技術を活用した
生命科学データ利用環境の紹介
川島秀一
初めての All-in-one 合同講習会∼生命科学DB・ツールの使い方∼
@大阪大学中之島センター 2015/7/18
講義の流れ
•
セマンティックウェブについて
•
生命科学データベースのRDF化
•
TogoGenomeの紹介
•
TogoStanzaの紹介
DBCLSのミッション
セマンティックウェブ技術で
生命科学データベースを統合する技術開発
セマンティックウェブとは
普通のウェブ
HTMLで記述されている
人間が読むことが前提
セマンティックウェブとは
https://commons.wikimedia.org/wiki/File:Semantic_Net.svg
セマンティックウェブ
http://orig14.deviantart.net/e857/f/2012/283/3/a/desktop_computer_icon_by_ivprogrammer-d5hefue.png
計算機が利用することが前提
Computer readable
セマンティックウェブとは
セマンティックウェブを構成する3技術要素
RDF
データを記述
OWL
概念をオントロジーとして明示的に定義
SPARQL
RDFデータベースへの問い合わせ言語
RDF
RDF: Resouce Description Framework
Resouce: ウェブ上にある(=URIを持つ)情報資源
情報をURIの関係によって記述するための構造
RDF 1.1 から正確にはIRI
S
P
O
述語
目的語
Subject
Predicate
Object
<URI>
<URI>
<URI>/Literal
主語
<URI>にアクセスすると、SPOの内容が閲覧できることが望ましい
(技術的にはできなくても問題ない)
RDF
<URI>
Literal
複数のRDFがつながってグラフ構造を形成
実際のRDF例
<http://purl.uniprot.org/uniprot/P02649>
rdf:type
core:Protein ;
core:organism
<http://purl.uniprot.org/taxonomy/9606> ;
rdfs:seeAlso
<http://en.wikipedia.org/wiki/Apolipoprotein_E> ;
core:sequence
<http://purl.uniprot.org/isoforms/P02649-1> .
<http://purl.uniprot.org/isoforms/P02649-1>
rdf:type
core:Simple_Sequence ;
rdf:value
"MKVLWAALLVTFLAG ..... TSAAPVPSDNH" .
:core は http://purl.uniprot.org/core/ :rdf は http://www.w3.org/1999/02/22-rdf-syntax-ns#
:rdfs は、http://www.w3.org/2000/01/rdf-schema# のそれぞれ省略形
RDFの長所
•
URIは、グローバルなIDなので、データの構築を分散して行うことがで
き、また曖昧性を減らすことができる。
•
共通のオントロジーを利用することで、異なるデータの意味的な統合
がやりやすい。
•
RDFはグラフ構造であり、テーブル型のデータに比べて、新しい要素
を追加することがやりやすい。
RDBとの比較
RDB
RDF DB(Triple store)
データ構造
テーブル
グラフ
問い合わせ言語
SQL
SPARQL
標準
有
有
スキーマの変更
難しい
簡単
複雑なデータ構造
苦手
簡単
生命科学データベースRDF化の歴史
2001
セマンティックウェブの提唱
2006
タンパク質配列
2011
タンパク質構造
2013
ゲノム配列
薬物活性・遺伝子発現・パスウェイetc
2014
PubChem, Mesh
EBI RDF Platform
•
EBIで構築されているデータベースの
RDFバージョンを配布するサイト。
•
現在、BioModels、BioSamples、
ChEMBL、ExpressionAtlas、
REACTOMEおよびUniProt が掲載さ
れている。
•
それぞれのデータベースがSPARQLエ
ンドポイントを公開しており、サンプ
ルクエリも掲載されている。
TogoGenome
•
DBCLSで構築している、ゲノムに関するデータベース
•
ゲノム、遺伝子、タンパク質、生物種、表現型、生育環境等の情報をRDF化し、それ
らを統合して検索することができる
•
検索結果を標示は、スタンザと呼んでいる、小さいウェブアプリケーションの組み
合わせによって、実現している。
•
完全にRDFデータとRDFストア(Virtuoso)で開発されている
TogoGenome ファセット検索
生育環境
生物種
GO: Biological process
GO: Molecular function
GO: Cellular component
微生物表現型
http://togostanza.org/
TogoGenome ファセット検索
それぞれのオントロジー
に対して、一つのクラ
スを選択でき、その条
件を全て満たす項目が
検索される
TogoGenome
検索結果のリスト
遺伝子、生物種、環境
などの結果レポートペー
ジへのリンクが表示さ
れている
TogoGenome
結果レポートページの例(生物種)
TogoStanza
•
SPARQL検索を行うウェブアプリケーションを作成するためのフレームワーク
•
作成されたスタンザを利用するのは、HTMLに、数行のおまじないと、スタンザを
指定する一行を書き込むだけ
<script src="http://ajax.googleapis.com/ajax/libs/jquery/
1.11.0/jquery.min.js" type="text/javascript"></script>
<script src="http://togostanza.org/stanza/assets/stanza.js"
type="text/javascript"></script>
<div data-stanza-tax-id='278197'
data-stanza=‘http://togostanza.org/stanza/organism_names'>
</div>
TogoStanza ポータルサイト
http://togostanza.org/