あらゆる研究者がいつ、どこからでもゲノム解析が行える

東京大学医科学研究所
「あらゆる研究者がいつ、どこからでもゲノム解析が行える」世
界を実現すべく、クラウド上でのゲノム解析を検証。Microsoft
Azure の採用により、現実的な速度、コストでの解析を実現
ソリューション概要
ヒトゲノム解析に関する世界的なレベルでの先端研究を実践する、東京大学医科学研究所 ヒ
○プロファイル
トゲノム解 析センター。医学、生物学研究にとって欠くべからざるプロジェクトを推進する同
東京大学医科学研究所 ヒトゲノム解析センターは、疾
病の診断、予防、治療法の開発などを通じて人間社会
に貢献することを目的に、生物学の発展に貢献してい
る研究室です。1991 年度に医学、生物学研究の将来
を見据えたプロジェクトとして設置され、ゲノム デー
タベース分野を皮切りに、多くの整備が行われてきま
した。先端研究と並行し、ゲノム研究を目指す研究者
の受け入れや指導を行うとともに、日本のデータベー
スおよび知識ベースの構築、マッピング・シークエン
ス作業の国際的対応グループとしても機能しています。
センターでは、情報科学とスーパーコンピューターを利用した高度な解 析が日々行われていま
○導入製品とサービス
・ Microsoft Azure
ウンロードして個別に解 析を行う従 来の 研究モデルに限界が生じつつあります。そのために、
○導入メリット
・充実したテンプレートを備え、利便性にも優れ
る Azure を検証基盤としたことにより、わずか
2 か月で、ゲノムシークエンス解析プラットフォー
ムの構築が完了できた
・Azure が有する高い性能により、センター内に
あるスパコンと比べても遜色ない速度でゲノム
解析を行うことができた
○ユーザー コメント
「国内にもバイオサイエンスデータベースセンター
(NBDC) という施設が存在します。しかし、デー
タベースに対してどこからでもアクセスでき、同時
に解析が行えなければ、それは大きな意味を持ち
ません。データを収集するだけでは意味がないの
です。今回の Azure 上での検証で得られた有効性
と海外での実績をもって国内の理解を求めること
で、クラウドを利用したデータ解析システムをよ
り現実のものとしたいと考えています」
東京大学医科学研究所
ヒトゲノム解析センター
センター長
教授
宮野 悟 氏
す。とりわけ、近年スーパーコンピューターによるゲノム解析によって飛躍的に加速している研
究分野が、がん研究です。
この研究分野の発展をさらに加速するためには、さまざまな研究現場で大規模シークエンス
によるゲノム解析研究が盛んに実施される必要があります。しかし、ゲノム解析には、大容量
のメモリを搭載し、高速ディスクによってアレイ化されたスパコン環境が不可欠であり、多く
の研究現場にとってはこういった環境の調達自体が困難です。また、世界規模でのシークエン
ス データの膨大化に伴い、各研究機関のスーパーコンピューターにシークエンス データをダ
米国においては、シークエンス データを備えたクラウドの整備が進むなど、ゲノム解析におい
てクラウドの利活用が必須のものになりつつあります。
同センターは、 Microsoft Azure 上でゲノム解 析環境の構築に成功、さらにその有効性と実
現性を検証し、良好な結果を得ることができました。同取り組みの発展により、
「あらゆる研
究者がいつ、どこからでもクラウド上でゲノム解 析を行える」という世界の実現、ひいてはそ
れによる、がん研究のさらなる加速が期待されます。
導入の背景とねらい
日本のヒトゲノム研究のさらなる発展を目指し、クラウド上でのゲノム解析に関す
る検証を実施
DNA が含む遺伝情報であるゲノム情報。このゲノム情報を解析する「ゲノム解析」は、昨今、疾
患関連遺伝子解析研究において重要度を増しており、臨床現場における難治性疾患の治療へ向け
た貢献が期待されています。数万種類もの遺伝子について一度にその発現情報を得ることができ
るマイクロアレイシステム、ゲノム DNA そのものを読み取ることができるシークエンサーなどを
利用し、そこから得られる膨大な情報をスーパーコンピューター ( スパコン ) により解析すること
で難治性疾患の先端研究を推し進めるのが、東京大学医科学研究所 ヒトゲノム解析センター ( 以
下、ヒトゲノム解析センター ) です。
世界的なレベルでの先端研究と並行し、同センターではゲノム情報と解析プラットフォームの一
般提供も展開。ゲノム研究者へ向けた支援を推し進めています。2016 年
5 月には、がんゲノム解析のためのプラットフォーム「Genomon2」の一
般公開を開始しました。
東京大学医科学研究所 ヒトゲノム解析センター センター長 教授 宮野 悟 氏は、
これまでのがんゲノム解析の研究変遷と Genomon の概要について、次のよう
に説明します。
「 2010 年に、システム的統 合 理 解に基づいてがん の 先 進 的な診 断 や
治療、予防法 の開発に活かすという『システム がん』が 新たな学 術 領
が ん ゲノム 解 析 プ ラ ット
フ ォ ー ム「Genomon」 の
イメージ キャラクター ( 辻
田 幸広 氏によるデザイン )
東京大学医科学研究所
域 研 究として 文 部 科 学 省 に 採 択さ れ ました。
Genomon2 とともに Shirokane の環境も提供することでこれを支援
こ れ は『 ス パ コ ンと 数 学 を 融 合 し、 そ れ を
する同センターですが、宮野 氏は近年、クラウドを活用した解析環境
がん 研 究 に 活 か す』 と い うコン セ プト の も
の提供にも注目していると語ります。
と スタートしたも のです。 2011 年には 大 規
模シ ークエ ンスによるがん ゲノム 解 析へ のア
「ゲノム解析の実行が大規模なスパコンを持つ研究所に限定される場
プ ロ ー チ に より、 こ れ ま で 不 明 だ った 骨 髄
合、スピード感をもった研究の発展は見込めません。当センターでは
異 形 成 症 候 群 ( MDS ) の 原 因 を 解 明 す るこ
Shirokane の環境を提供していますが、どうしても物理的な場所を制
とに 成 功し、 同 年 の 科 学 雑 誌『 N a t u r e 』 に
限するため、研究 スピードを最 大化するまでには至りません。また、
も 掲 載 さ れ ました。 こ の ように ス パ コン を
駆 使した がん の 研 究 は 大 き な 成 果 を 生 み 出
して い ま す が、 研 究 を 高 ス ピード で 推 し 進
め、 か つ そ の 成 果 を 臨 床 現 場 に 還 元して い
東京大学医科学研究所
ヒトゲノム解析センター
センター長
教授
宮野 悟 氏
解析に必要な検体データも、研究機関がその都度調達し取り扱わねば
ならず、これもスピード感を損なう原因となっています。この状況を打
破する鍵は『クラウド』にあるといえるでしょう。あらゆる研究者がい
つ、どこからでもクラウド上で検体データの入手とその解析が行える
くた め に は、 さ ま ざ ま な 研 究 現 場 で 大 規 模
ならば、我が国の研究の大きな発展が期待できます。それを目指すべく、
シ ー ク エ ンスによる解 析 が 行 わ れる 必 要 が ありま す。 そこへ 向 け
2016 年 6 月より、クラウドにおける Genomon2 の稼働について検証
て当 セン ターで 提 供 する の が、 がん ゲノム の シ ー ク エ ンス 解 析 プ
を開始しました」( 宮野 氏 )。
ラットフォーム『 G e n o m o n 』 です。 G e n o m o n は 2 012 年 に一
般 公 開 を 開 始 し ました が、 一 部 機 能 に 制 限 が あ る こと、 利 用 前
の 設 定 ファイル の 準 備 が 大 変 で 迅 速 な 利 用 が 困 難 で あ ること な
どの 問 題 点 が ありました 。 そこで 2 016 年か らは 、次 期 バージョ
ンで あ る『 G e n o m o n 2 』 を 提 供 す る こと で、 多 くの 研 究 者 に が
システム概要と導入の経緯、構築
一般公開を目指す場合、性能、信頼性などの観点で Azure が
適していた
ん ゲノム シ ー ク エ ンス 解 析 を 実 施 頂 ける 取り 組 み を 進 めて い ま
海外では既に、クラウド上でのゲノム解析や検体データの共有がプロジェク
す」 ( 宮 野 氏 ) 。
トとして動いている例もあります。同取り組みは、日本の医療、生物学研究
をこれまで以上に発展させる起爆剤となり得るのです。
ヒト の ゲノム情 報は、約 30 億 文 字 の 情 報 から 構 成さ れています。
ヒト ゲノム 解 析 センターでは、患者の 検 体データをもとにこのヒト
しかし現在、日本では倫理的な背景から、個人情報である患者の臨床シー
ゲノムの 解 析を行っています が、システムのジョブ 実 行 数は 東 京 大
クエンス データ ( ゲノム情報 ) をクラウド上で解析することが難しい状況です。
学 の 情 報 基 盤 センターが 実 行する数の およそ 10 0 倍にも の ぼり、
そこで、宮野 氏が語った検証においては「細胞株」と呼ばれるサンプルを利
加 えて 1 つ の ジョブでは 50,0 0 0 ものファイルが生 成、アク セ ス
用。クラウド上で Shirokane と同水準の処理を実行することを目標に、その
されます。当然その 解 析には、大容量のメモリを搭載し、高速ディ
実現性と有効性について検証が進められました。これは倫理的側面の課題
スクによってアレイ化さ れ た ス パ コン 環 境 が 不 可欠となります が、
がいずれ解消された際、即座にユーザーへ向けてクラウド環境を提供すべく、
多くの 研究 現 場にとっては、こういった環 境の調 達自体が 難しいこ
そのための環境整備を目指したものでした。
とです。
東京大学医科学研究所 ヒトゲノム解析センター DNA 情報解析分野 助
教 博士 ( 統計科学 ) 白石 友一 氏は、検証の概要について次のように説
明します。
「がんにおいては DNA とともに、その転写物である RNA の全体像も大きく
変化しています。今回の検証では、749 検体分の RNA-seq データを、どのく
らいの時間で処理できるか、そしてそこでの所要コストはどのくらいか、と
いう観点で進めることを考えました。749 検体という数字ではピンとこない
かもしれませんが、これは TCGA など一部の巨大プロジェクトを除くと、世
界水準でも最大規模のプロジェクトから算出されるデータ量となります。こ
の処理を行うクラウド基盤については、当時案内を受けていた Azure の利
用を構想しました」( 白石 氏 )。
続けて東京大学医科学研究所 ヒトゲノム解析センター シークエンスデー
Genomon2 での解析結果はビジュアル化した形式で出力することも可能。多くの研究者が同
環境を利用できるよう、ヒトゲノム解析センターでは同研究室内にあるスパコン Shirokane の
環境も外部へ提供している
タ情報処理分野 准教授 渋谷 哲朗 氏は、癖のない操作性を備える Azure
を採用することで、検証開始までのリード タイムが短縮化できる点に期待
東京大学医科学研究所
また、本旨である有効性の検証においても、期待したとおりの結果を得
ることができたと白石 氏は続けます。
「先のとおり 749 検体分の RNA-seq データは非常に規模の大きなもの
となり、この規模の解析が無事に完了できれば、高い有効性を持つと
いえるのです。結果として、Azure 上での計算はわずか 1 日半で完了し
ました。これは Shirokane と比較しても遜色ない速度です。また 1 検
体あたりの解析コストは 230 円ほどであり、現実的なコストに近づいて
東京大学医科学研究所
ヒトゲノム解析センター
DNA 情報解析分野
助教
博士 ( 統計科学 )
白石 友一 氏
東京大学医科学研究所
ヒトゲノム解析センター
シークエンスデータ情報処理
分野
准教授
渋谷 哲朗 氏
したと語ります。
きています。プログラムの最適化を進めることで、このコストはさらに
削減できる可能性もあります」( 白石 氏 )。
今回の Azure をもった検証により、
「あらゆる研究者がいつ、どこか
らでもクラウド上で解析と検体データの入手が行える」という世界の実
現において、少なくともプラットフォーム側は既にその有効性を持つこ
とが明確となりました。宮野 氏はこの検証結果を受けて、ヒトゲノム
「ゲノム解析は、単に高度な処理が行える環境を用意すればよいというわけ
ではありません。Genomon2 では、解析精度を高めるべく並列処理を前提
解析センターが提供するシステムのクラウドへの移行を真剣に検討す
ると語ります。
とした特殊なプログラムを組んでおり、その動作には高い移植性が求めら
れます。クラウド上の環境についてはプログラムの動作へ向けたチューニ
「かつて、クラスタマシンが世の中に出始めたころにも同様の検証を行
ングが不可欠であり、その作業を行ううえで、クラウドの操作性は重要な
いましたが、1 回の解析が完了するまでに一部の機器が故障するといっ
要素だったのです。Azure は癖のない操作性を備えているため、このチュー
たトラブルが多発し、有効性の側面で疑問を抱いたことを覚えています。
ニングを滞らせるボトルネックがなかったことも、選定のポイントだといえ
今回の検証ではそういった不安要素がなく、クラウド上でゲノム解析を
るでしょう」( 渋谷 氏 )。
行う世界の到来はもはや目前なのだと実感しました」( 宮野 氏 )。
導入の効果
今後の展望
センター内にあるスパコンと比較しても遜色のない性能によ
り、高速での解析を実現
今回の検証結果や先の海外実績をもって、クラウドを利用
したデータ解析システムの実現を目指す
ヒトゲノム 解 析 センターは、Genomon2 を一般 公開した翌 月となる
A zure をもったゲノム 解 析 の 有 効 性につ いては 明 確 化さ れ たも の
2016 年 6 月、検証基盤に Azure を採用することを決定。その後約 2
の、国内では先に触 れ た倫 理 的側面を背景に、依 然としてヒトゲノ
か月という短期間で、Azure 上での Genomon2 の構築とチューニング
ムのクラウド上での解 析に関する理 解は得られていません。実現性
作業を完了しました。
という意 味ではまだまだ課 題 が 残っているといえるでしょう。その
点において、 A zure は厚生労働省の「医療 情報システムの安全管理
渋谷 氏は、2 か月という短期間で検証の実行まで到達できた理由につ
に関するガイドライン」を含む「 3 省 4 ガイドライン」へ対応した信
いて、次のように説明します。
頼性を備え、かつ日本の裁判所の管轄とされるなど、患者情報の安
全管理にかかわる面でさまざまな 取り組みが進められています。先
「Shirokane にはさまざまなライブラリ、パッケージがインストールされ
の理 解の獲得には、セキュリティをはじめとしたプラットフォーム側
ているため、各種ソフトウェアの設定は、ライブラリ、パッケージの依
に向けられる懸念の解消が必要ですが、そのための土壌は整備され
存関係に注意する必要があります。Azure の場合、仮想マシン (VM) を
つつあります。
まっさらな状態から立ち上げることができ、Shirokane のように他のパッ
ケージなどを気にする必要がありません。チューニング作業やコンポー
また、米 国 Broad Institute of MIT and Har vard の調 査 発 表で
ネントの導入などはむしろ Shirokane よりも容易だと感じました。また、
は、 2014 年のシークエンス データ量が 300 ペタバイトにまで到達
システムの構築と検証は複数人で進めましたが、
Azure では他のユーザー
したことを伝 えており、もは や ゲノム 解 析をローカル 環 境 だけで行
とプログラムの共有が可能です。テンプレートも充実しているため、共
うことには限 界があるといえます。実際、す でに 米 国ではこのよう
通化できる箇所をテンプレート化し、構成を他のユーザーと共有しなが
な状 況を見 据え、大 規 模 なゲノム データに対してアクセ ス、普及、
ら進めた結果、2 か月という短期間で構築を完了することができました」
共 有、および マイニングを行う適切なリソースと方法を研究者に対
( 渋谷 氏 )。
して提供するための取り組みである「 NCI Cancer Genomic Cloud
Pilots 」が開始されています。
東京大学医科学研究所
宮野 氏は 今後、今 回の 検 証 結 果や 先 の 海 外 実 績をもって、国内の
ベースなど他 の システムの 最 適 化にもつな がることでしょう。同セ
理 解を高めていきたいと意気込みます。
ンターの活動が今後も期待されます。
「国内にもバイオサイエンスデータベースセンター (NBDC) という施
設 が 存 在します。 しかし、 データベースに 対してどこ からでもアク
セスでき、同時に解 析が行えなければ、それは大きな意味を持ちま
せん。データを収集するだけでは意味がないのです。今回の A zure
上での 検 証で得られた有効性と海 外での実績をもって国内の理 解を
求 めることで、クラウドを利 用したデータ 解 析 システムをより現 実
のものとしたいと考えています」 ( 宮野 氏 ) 。
限られた研究者だけでなく、医療機関や製薬、ヘルスケア系の 研究
者など、幅広いユーザーがゲノム解 析を行える環境づくりを進めるヒ
トゲノム解 析センター。この活動は学 術研究を主としたものですが、
データベースと解 析に対する根本的な考え方の変革は、医療 データ
導入についてのお問い合わせ
本ケース スタディは、インターネット上でも参照できます。http://www.microsoft.com/ja-jp/casestudies/
本ケース スタディに記載された情報は制作当時 (2017 年 2 月 ) のものであり、閲覧される時点では、変更されている可能性があることをご了承ください。
本ケース スタディは情報提供のみを目的としています。Microsoft は、明示的または暗示的を問わず、本書にいかなる保証も与えるものではありません。
製品に関するお問い合わせは次のインフォメーションをご利用ください。
■インターネット ホームページ http://www.microsoft.com/ja-jp/
■マイクロソフト カスタマー インフォメーションセンター 0120-41-6755
(9:00 ~ 17:30 土日祝日、弊社指定休業日を除く )
※電話番号のおかけ間違いにご注意ください。
*その他記載されている、会社名、製品名、ロゴ等は、各社の登録商標または商標です。
*製品の仕様は、予告なく変更することがあります。予めご了承ください。
〒 108-0075 東京都港区港南 2-16-3 品川グランドセントラルタワー
6105-WI1