セマンティックウェブ技術を活用した 生命科学データ利用環境の紹介 川島秀一 初めての All-in-one 合同講習会∼生命科学DB・ツールの使い方∼ @大阪大学中之島センター 2015/7/18 講義の流れ • セマンティックウェブについて • 生命科学データベースのRDF化 • TogoGenomeの紹介 • TogoStanzaの紹介 DBCLSのミッション セマンティックウェブ技術で 生命科学データベースを統合する技術開発 セマンティックウェブとは 普通のウェブ HTMLで記述されている 人間が読むことが前提 セマンティックウェブとは https://commons.wikimedia.org/wiki/File:Semantic_Net.svg セマンティックウェブ http://orig14.deviantart.net/e857/f/2012/283/3/a/desktop_computer_icon_by_ivprogrammer-d5hefue.png 計算機が利用することが前提 Computer readable セマンティックウェブとは セマンティックウェブを構成する3技術要素 RDF データを記述 OWL 概念をオントロジーとして明示的に定義 SPARQL RDFデータベースへの問い合わせ言語 RDF RDF: Resouce Description Framework Resouce: ウェブ上にある(=URIを持つ)情報資源 情報をURIの関係によって記述するための構造 RDF 1.1 から正確にはIRI S P O 述語 目的語 Subject Predicate Object <URI> <URI> <URI>/Literal 主語 <URI>にアクセスすると、SPOの内容が閲覧できることが望ましい (技術的にはできなくても問題ない) RDF <URI> Literal 複数のRDFがつながってグラフ構造を形成 実際のRDF例 <http://purl.uniprot.org/uniprot/P02649> rdf:type core:Protein ; core:organism <http://purl.uniprot.org/taxonomy/9606> ; rdfs:seeAlso <http://en.wikipedia.org/wiki/Apolipoprotein_E> ; core:sequence <http://purl.uniprot.org/isoforms/P02649-1> . <http://purl.uniprot.org/isoforms/P02649-1> rdf:type core:Simple_Sequence ; rdf:value "MKVLWAALLVTFLAG ..... TSAAPVPSDNH" . :core は http://purl.uniprot.org/core/ :rdf は http://www.w3.org/1999/02/22-rdf-syntax-ns# :rdfs は、http://www.w3.org/2000/01/rdf-schema# のそれぞれ省略形 RDFの長所 • URIは、グローバルなIDなので、データの構築を分散して行うことがで き、また曖昧性を減らすことができる。 • 共通のオントロジーを利用することで、異なるデータの意味的な統合 がやりやすい。 • RDFはグラフ構造であり、テーブル型のデータに比べて、新しい要素 を追加することがやりやすい。 RDBとの比較 RDB RDF DB(Triple store) データ構造 テーブル グラフ 問い合わせ言語 SQL SPARQL 標準 有 有 スキーマの変更 難しい 簡単 複雑なデータ構造 苦手 簡単 生命科学データベースRDF化の歴史 2001 セマンティックウェブの提唱 2006 タンパク質配列 2011 タンパク質構造 2013 ゲノム配列 薬物活性・遺伝子発現・パスウェイetc 2014 PubChem, Mesh EBI RDF Platform • EBIで構築されているデータベースの RDFバージョンを配布するサイト。 • 現在、BioModels、BioSamples、 ChEMBL、ExpressionAtlas、 REACTOMEおよびUniProt が掲載さ れている。 • それぞれのデータベースがSPARQLエ ンドポイントを公開しており、サンプ ルクエリも掲載されている。 TogoGenome • DBCLSで構築している、ゲノムに関するデータベース • ゲノム、遺伝子、タンパク質、生物種、表現型、生育環境等の情報をRDF化し、それ らを統合して検索することができる • 検索結果を標示は、スタンザと呼んでいる、小さいウェブアプリケーションの組み 合わせによって、実現している。 • 完全にRDFデータとRDFストア(Virtuoso)で開発されている TogoGenome ファセット検索 生育環境 生物種 GO: Biological process GO: Molecular function GO: Cellular component 微生物表現型 http://togostanza.org/ TogoGenome ファセット検索 それぞれのオントロジー に対して、一つのクラ スを選択でき、その条 件を全て満たす項目が 検索される TogoGenome 検索結果のリスト 遺伝子、生物種、環境 などの結果レポートペー ジへのリンクが表示さ れている TogoGenome 結果レポートページの例(生物種) TogoStanza • SPARQL検索を行うウェブアプリケーションを作成するためのフレームワーク • 作成されたスタンザを利用するのは、HTMLに、数行のおまじないと、スタンザを 指定する一行を書き込むだけ <script src="http://ajax.googleapis.com/ajax/libs/jquery/ 1.11.0/jquery.min.js" type="text/javascript"></script> <script src="http://togostanza.org/stanza/assets/stanza.js" type="text/javascript"></script> <div data-stanza-tax-id='278197' data-stanza=‘http://togostanza.org/stanza/organism_names'> </div> TogoStanza ポータルサイト http://togostanza.org/
© Copyright 2024 ExpyDoc