こちら - ToMMo Supercomputer

KU
O
H
TO
M
IC
ED
AL
M
AN
AB
EG
K
AN
RG
O
M
O
RC
PE
SU
a
KU
O
H
TO
IC
ED
M
AL
IC
ED
M
AL
M
K
K
AN
RG
O
AN
AB
EG
AN
AB
EG
CE
AN
RG
O
N
IO
AT
R
TE
PU
R
TE
PU
KU
O
H
TO
EM
ST
SY
EM
ST
SY
M
O
RC
PE
SU
M
O
RC
PE
SU
IZ
N
IO
AT
IZ
M
I
ED
L
CA
e.
ur
ut
rf
01
fo
n
2.
tio
.0
da
12
un
fo
20
M
M
K
AN
AB
EG
N
IO
AT
IZ
AN
RG
O
R
TE
PU
M
O
RC
PE
SU
EM
ST
SY
GENOME WIDE ASSOCIATION STUDY
DATABANK
PREVENTIVE MEDICINE
HIGH QUALITY JAPANESE REFERENCE PANEL
PERSONALIZED MEDICINE
INTEGRATIVE GENOME ANALYSIS
LARGE SCALE HETEROGENEOUS DATA ANALYSIS
WHOLE GENOME SEQUENCING
EM
ST
SY
KU
O
H
TO
N
SI
R
TE
PU
ild
Bu
N
IO
AT
IZ
未来への礎を、ここに 。
東北メディカル・メガバンク機構
スーパーコンピュータ
東北メディカル・メガバンク機構 スーパーコンピュータの役割
1. 品質の高い「個別化医療・予防」の基盤となる日本人のゲノム情報の構築
2. 環境情報と遺伝情報との関係を解析し日本人の疾病などのリスク予測を
より正確に行える統合データベースと大規模解析環境の構築
3. 全国および機構内の研究者がセキュリティを担保しつつ解析を行える
「個別化医療・予防」
を加速するデータバンクの構築
複合データバンク
(データ解析バンク)
全国の研究者への情報分譲による加速
共同研究によるさらなる高品質化
データバンク
生命情報解析(ゲノム情報解析)
統合・知識データベース
遺伝情報
高品質の日本人の ゲノム情報
環境情報
大規模統合解析
(集団の違い、1000人ゲノム など)
匿名化後コホート情報
アンケート情報、生化学情報、
MRI、医療情報(MMWIN) など
地域住民コホート
80,000人
大規模定型解析
(個人毎、変異コールなど)
三世代コホート
70,000人
シークエンサ などによる ゲノム情報
東北メディカル・メガバンク機構(ToMMo)
今後、ToMMoでは、1000人ゲノムまた
による審査を経て、国内のさまざまな領域の
のコホート事業で収集される15万人規模の
数千人のゲノム情報をさらに高い品質の情報
研究機関、企業に情報の分譲を行います。
アンケート情報、生化学情報、診療情報など
とするため、国内の最先端のさまざまな研究
スーパーコンピュータは、
この生命情報解析
の環境情報は、提供者が分からない形(匿名
者と共同研究を行い検証・改良を進めていき
(ゲノム情報解析)
、
データバンクの両方の機能
化)への処理を行い、
スーパーコンピュータ内の
ます。これらの品質の高いゲノム情報を、
アン
統合・知識データベースに格納されます。
ケート情報、
生化学情報、
診療情報などさまざま
ToMMoでは
「未来型の医療」
を作るための
な情報と組み合わせることで、
確度の高い
「環境
基盤情報となるよう、情報の品質管理を行い
と遺伝子との関係」
(例えば各個人によって異なる
是非、
ToMMoのスーパーコンピュータをご覧
つつゲノム情報解析研究を日々進めています。
病気のリスクなど)
の理解を深め、
日本人に適し
いただき、
今後の複合データバンクとしての拠点
形成へ向けたご意見ご指導を賜りたく存じます。
2013年度は、
この目標に向け、血液サン
た
「個別化医療」
や
「個別化予防」
の実現を目指し
プルから約1000人分の全ゲノム情報の情報
ていきます。
このようなゲノム情報を中心とする
解 析を行いました。2 0 14 年 8 月 末 に は 、
統合解析をスーパーコンピュータで行うことで
この成 果をもとに約 1 0 0 0 人 分の全ゲノム
ドラフト版の1塩基多型頻度の情報分譲を
開 始しました。この 情 報 によって、日 本 人
が 持 つ 、各 人 の 遺 伝 子 の 違 いが 明らかに
され 、病 気のリスクなどの計 算を行えるよ
果たし、東北の未来の健康を創っていきます。
生命情報解析の基盤としての役割を果たして
いきます。
またスーパーコンピュータはデータバンク
としての役割も併せ持ち、蓄積された品 質 の
高い解析情報はスーパーコンピュータ内の
うになると考 えています。その結 果 、体 質
統合・知識データベースに匿 名 化し安 全に
(ゲノムの違い)に合わせた予 防・医 療への
格納された後、機構が目指す「個別化医療」
道が開けます。
を併せ持つ新しい形態の複合データバンク
の基盤としての役割を
(データ解析バンク)
「 個 別 化 予 防 」を達 成 するために、有識者
-1-
長
正朗
東北メディカル・メガバンク機構
インシリコ解析室 室長
2013 Nov.
東北メディカル・メガバンク機構 成果一覧
平成25年11月29日(金)
1000人全ゲノムシークエンス完了
東 北 メディカ ル・メガ バ ン ク 計 画 の
ToMMoリファレンスパネルのニュースリリース 平成25年11月29日(金)
・1000人規模の日本人全ゲノムシークエンス完了は日本初
コホート調 査 事 業 に 参 加した 健 常 人
・単独の施設、単一の方式、遺伝的に均質性の高い国民集団を
高精度に解析した事例は世界初
1 0 0 0 人 分の全ゲノムを解読しました。
約2,500万個(うち新規1,500万個)
のSNV候補の検出
本事業における全ゲノム解読は、
均質な精度
(単独の施設・設備を用いて、
単一の方式に
SNV:1塩基変異
集団内での同じ箇所の1塩基配列の違い
よって実施)、
高品質(一人あたりシークエン
シング30回分の解読量。
平均900億塩基)で
平成25年11月29日 ニュースリリース
解読しており、
この様な品質での1000人分
の全ゲノム配列解読完了は世界初の取組み
のひとつです。
2014 Aug.
日本経済新聞 平成25年12月1日(日)
平成26年8月29日(金)
全ゲノムリファレンスパネル公開
東北大学 東北メディカル・メガバンク機構
(ToMMo)は情報解析の進捗に伴い、
1000人分の全ゲノム配列の情報のうち
ToMMoリファレンスパネルの一般公開ニュースリリース 平成26年8月29日(金)
1070人分の全ゲノム配列解析情報の一部公開
-約430万個のSNVの頻度情報
アレル頻度5%以上のSNP頻度情報に
ついて、
ウェブサイトから国際SNP番号や
遺伝子名で検索することや国際ゲノム参照
配列上での位置情報の把握などができる
ような形で、ToMMoのポータルサイト
Integrative Japanese Genome Varia-
2014 Nov.
tion Databaseとして一般に公開しました。
平成26年11月14日(金)
ジャポニカアレイ®
東北大学 東北メディカル・メガバンク機構
(ToMMo)
が構築している
「全ゲノムリファ
ジャポニカアレイ®のプレスリリース 平成26年11月14日(金)
・ToMMo-1KJPNにより初めて作成可能になった
日本人初のアレイ
レンスパネル情報」
をもとに、
日本人ゲノム
配列解析ツール
「ジャポニカアレイ®」
を開発
しました。
この解析ツール開発は、
日本人に
最 適 化された解 析ツールとして多くの
コホ ート研 究 に活 用され 、高齢化する
病院新聞 平成26年11月27日(木)
日本において個別化医療・個別化予防の
普及による社会の活力向上に資するのみ
ならず、
被災地の創造的な復興に貢献する
取組みのひとつです。
握手を交わす里見総長と田中東芝社長
-2-
1000人全ゲノムシーケンス完了・全ゲノムリファレンスパネル公開
ToMMo全ゲノムリファレンスパネル (1KJPN)
検体とバリアントの統計
全ゲノムリファレンスパネルの部分的公開
ToMMo-1KJPNの遺伝的背景
第2主成分
東北大学 東北メディカル・
メガバンク機構
(ToMMo)
は、
大規模コホート調査を進める
とともに、
平成25年11月末の
1000人分の全ゲノム配列の
解読完了以降、
全ゲノムリファ
レンスパネルの完成版の作成
を進めています。
この度、
情報
解析の進捗に伴い、
1000人分
の全ゲノム配列の情報のうち
アレル頻度5%以上のSNP
頻度情報についてウェブサイト
から国際SNP番号や遺伝子
名で検索することや国際ゲノム
参照配列上での位置情報の
把握などができるような形で、
To M M o のポータルサイト
Integrative Japanese
Genome Variation Databaseとして一般に公開しました。
また、
アレル頻度1%未満の
低頻度の変異情報を含め、
全
ゲノムリファレンスパネルの
完成版に向けた更なる精度の
検証及び向上を目的とした
国 内の 共 同 研 究 の 公 募を
開始しました。
http://ijgvd.megabank.tohoku.ac.jp/
第1主成分
ジャポニカアレイ®
ジャポニカアレイ® v1.0の構成
SNPアレイ間のインピュテーション性能の比較
ToMMoの成果である、
日本人全ゲノムリファレンスパネル(1KJPN)の
頻度情報に基づき設計
->ToMMo 1KJPNがあって初めて作成することができた日本人初のアレイ
・ Affymetrix Axiomプラットフォームを使用
・ tag SNP(約64万個)
・ imputationで補足できない/しづらいSNP(約2万個)
周囲のSNPと連鎖が弱いが機能上重要(非同義、loss of function)なSNP
NHGRI GWAS catalogに記載されているSNP
Y染色体、
ミトコンドリアのSNP
HLA領域
ADME
など
ジャポニカアレイ®
既存SNPアレイとの比較
インピュテーションで得られたSNPの型(遺伝子型)
の推定精度
To M M o が 構 築している
「全ゲノムリファレンスパネル情報」
をもとに、
日本人ゲノム解析
ツ ー ル「ジャポニカアレイ®」
を開発しました。
この解析ツール
開発は、
日本人に最適化され
た解 析ツールとして多くの
コホート研 究に活用され、
高齢化する日本において個別
化医療・個別化予防の普及に
よる社会の活力向上に資する
のみならず、被災地の創造的
な復興に貢献する取組みの
ひとつです。
日本人ゲノム解析ツール
「ジャポニカアレイ®」
は、
日本
人に特徴的な遺伝情報を1枚
のチップに搭載してワンステップ
で解 読 可 能にしたもので、
日本人ゲノム情報を高精度
かつ低コストで解析可能と
する遺伝子解析ツールです。
ToMMoが平成25年11月に
高精度解読の完了を発表した
日本人1000人の全ゲノム配列
解読で新たに同定した日本人
に特徴的なゲノム配列情報を
解読しました。
インピュテーションを行ったSNPのリファレンスパネルでの頻度
インピュテーション可能な SNP(MAF>1%)のカバー率
UK Biobankアレイとの比較
-3-
-4-
-5-
スーパーコンピュータ概要図
研究者
次世代シークエンサ
ToMMo 内ネットワーク
HP ProLiant SL230s Gen8 672ノード
・Intel Xeon E5-2680v2 (2ソケット, 計20コア)
・128GBメモリ
HP ProLiant SL250s Gen8 64ノード
Login
・Intel Xeon E5-2680v2 (2ソケット, 計20コア)
・128GBメモリ
HP ProLiant SL250s Gen8 64ノード
・Intel Xeon E5-2680v2 (2ソケット, 計20コア)
・256GBメモリ
8Gbps Fibre-Channel
ラック数:16
総ノード数 :
800 ノード
総コア数
:16,000 コア
総メモリ容量:
108 TB
ゲートウェイノード
計算ノード
HP ProLiant DL380p Gen8
・Intel Xeon E5-2680v2
(2 ソケット , 計 20 コア )
・128GB メモリ
二アラインストレージ
Hitachi Unified Storage 110
56Gbps
計 550TB
(2.8PB まで拡張可能 )
HP ProLiant
DL580s Gen8 8 ノード (60 コア , 2TB メモリ )
・Intel Xeon E7-4870v2 (4 ソケット , 計 60 コア )
・2TB メモリ
総ノード数 : 8 ノード
総コア数
: 480 コア
総メモリ容量: 16 TB
高速ネットワーク
InfiniBand
4 FDR
(56Gbps)
共有メモリ型計算機
IBM TS3500 Tape Library
バックアップ容量 3PB
( 最大 30PB まで拡張可能 )
バックアップシステム
高速ストレージ
DDN SFA12K-40 8set
ラック数:32
合計 12PB ( 最大 50PB まで拡張可能 )
※このシステムを用途やセキュリティレベルに応じて、
4ユニットに分割して運用しています。
-6-
「iJGVD」
を使用したデモンストレーション
1000 人分の全ゲノム解読から得られたバリアントのうち、アレル頻度 5%以上の一塩基多型頻度情報につい
て公開しています。
ウェブサイトからrsSNP IDや遺伝子シンボルで検索することや国際ゲノム参照配列 上での
位置情報の把握などができるような形で、ToMMo のポータルサイト Integrative Japanese Genome
Variation Database (iJGVD) として、2014 年 8 月 29 日に一般公開いたしました。
このデータセットについ
ては、
NBDC ヒトデータベースからも公開し、
一括ダウンロードが可能になりました ( データ ID: hum0015)。
ポータルサイト: http://ijgvd.megabank.tohoku.ac.jp/
検索画面でもあります。
説明を読みたいときは、
ABOUT のタブをクリックしてください。
-7-
SNVの検索
遺伝子シンボル、
dbSNP ID, ゲノムの位置より、
SNV を検索できます。
例) 遺伝子シンボルのところに、 ALDH2 (aldehyde dehydrogenase 2 family) と入力して検索します。
アセトアルデヒド ( 体に有害 ) を酢酸に変化させる酵素をコードする遺伝子です。
18 件の SNV がヒットしました ( すべての表示には、
スクロールが必要 )。
rs671 という ID の一塩基多型 (G/A) は、ALDH2 遺伝子がコードするアセトアルデヒド分解酵素2と
いうたんぱく質のアミノ酸を変化させます(Glu504Lys)
。
この多型はコドンでは、GAA <-> AAA に対
応しており、
アミノ酸がグルタミン酸からリジンへと変化します。
この違いは、アルコール代謝能力と関係あることが分かっています。
遺伝子型とアルコール代謝活性の
対応はこのようになります。
GG: 活性型
GA: 低活性型
AA: アルコールに弱い
このSNP で、
A アリルをホモで持つ人は、
お酒に弱いことが予測されます。
-8-
ゲノムブラウザ
選択したSNVの位置を確認できます。
緑のボックスで表示されているのが、
ToMMo が公開しているSNVです。
右クリックすると、
頻度情報などが示されます。
豆知識―ToMMoで行っている1000人の全ゲノムリファレンスパネルにまつわる数字
ヒト1人あたりの染色体の長さ :
約 30 億塩基 (3Gbase)
約1,000 億 (100Gbase)
ToMMoで1000 人のリファレンスパネル構築のために読んだ塩基数 : 約100 兆塩基
ToMMoで断片化した染色体をシーケンサで読んでいる1 本あたりの長さ : 324塩基
ToMMoで読んでいる1人あたりのリードの本数 : 約3 億本
1人当たりの読む塩基の染色体全体での平均深度
(回数): 約33 回
1人あたりの解析に必要なストレージの量 : 1テラバイト (Tbyte)
スパコンで行っている1人あたりの全ゲノム解析のジョブの数 : 約3,000 ジョブ
スパコンで行っている1人あたりの全ゲノム解析に必要な日数 : 約 2 日
ToMMoでヒト1人当たりのシーケンサから取得している塩基数 :
-9-
検体とバリアントの統計
今回、
ゲノム解読の対象となった方々は地域住民コホート研究の参加者です。
- 10 -
インシリコ解析室にて開発したソフトウェアツール
iJGVD
iJGVDは、
日本人のゲノム多型の頻度情報を提供するデータベースです。
現在のリリースでは、
宮城県の1070人の全ゲノム解読より得られたSNVについて、
常染色体上にある既知のもので、頻度が5%を超えるもの約430万件を公開して
います。
HLA-VBSeq
HLA-VBSeq
NGSデータからHLA型を高精度にタイピングするソフトウェアです。IMGT/HLA
データベースに登録されている全てのHLAアリル参照配列に対して、
リードの
アライメントを最適化します。
PedigreeCaller
PedigreeCallerは家系情報が与えられた複数サンプルからのNGSデータに対して、
家系情報を考慮して変異コールを行うJavaプログラムです。
Hapmonster
HapMonsterはNGSデータから変異コールとハプロタイプフェージングを同時に
行うJavaプログラムです。
複数のヘテロ接合サイトにまたぐリードデータを用いて
フェージングを行います。
iSVP
iSVPは、NGSデータから構造変異を検出する複数のツールを並列に適用し、
結果を統合するパイプラインです。現在は欠失変異に対応しており、変異の
大きさによって異なる各ツールの予測精度を考慮して統合します。
alloc
Copy Number Variant Allocator
④HTS Data
CNValloc
CNVallocは、集団のNGS データを用いて、CNV箇所に存在するアレルの配列と、
サンプルの持つアレルのコピー数を同時推定するプログラムです。推定の
各ステップの計算量はサンプル数、仮定するアレル数に線形依存します。
Sugar
NGSの大量DNA シークエンシングデータのクオリティ評価とデータクリーニング
を行うJava GUIソフトウェアです。Illumina HiSeq, MiSeq, GAシリーズのデータ
処理に対応しています。
TIGAR
TIGARはRNA-Seqデータから各転写産物アイソフォームの遺伝子発現レベルを
正確に推定するソフトウェアです。特徴としてはリードのアライメントにBowtie2
もしくはBWA-MEMを使用するため、
シークエンスエラーに強く、
かつロバストな
推定を行えることが特徴です。
http://nagasakilab.csml.org/ja/software
- 11 -
C
H
E
C
K
01
ー
【役割】
セキュリティのレベルおよび目的に応じてU1からU4の4つの区画に分けています。
U1
(情報分譲区画)、U2(統合・知識データベース区画)はデータバンクとしての役割、U3(統合
解析・開発区画)
とU4
(ゲノム定型解析区画)
は生命情報解析
(ゲノム情報解析)
としての役割を担って
います。
各区画は、
4,120コア、
31TBのメモリから構成しており、
全区画で16,480コア
(401TF*)
、
124TB
のメモリを保有します。
U3、
U4では現在、
数千人のゲノム情報の解析が進められており、
バッチジョブシステムで数百万
以上のプログラムを年間処理しています。
物理配置図
計算ノード
SERVER
U1 情報分譲区画
U4 ゲノム定型解析区画
U3 統合解析・開発区画
U2 統合・知識データベース区画
計算ノード
SERVER
複合データバンク
(データ解析バンク)
データバンク
生命情報解析
(ゲノム情報解析)
U1 情報分譲区画
U3 統合解析・開発区画
U2 統合・知識データベース区画
U4 ゲノム定型解析区画
省エネルギーへの取り組み①
省エネルギーへの取り組み②
計算ノードは、ジョブ管理システムによってリソース
計算ノードは、
4Uに 8ノードの高密度搭載が可能
なラックマウントタイプの PC サーバで、高効率
管理されていますが、アイドル時間を検出した場合、
共有化により省エネルギーが図られた製品を採用
抑制しています。
自動的にその計算ノードを停止して電力消費量を
電源 (80 PLUS PLATINUM)の採用やファンの
一方、新たなジョブが投入され、計算リソースが
しています。
不足した場合には、必要な計算ノードを自動的に
起動してジョブを受入れ、素早くジョブを処理
しています。
80 PLUSとは電力
変換効率に関する
規格。PLATINUM
は入力電圧AC
230V、
負荷率50%
時の変換効率が
94%を満たすもの。
計算ノードの内訳
種 別
ノード数
CPU(コア/ノード)
672
20
SL250s Gen8
64
SL250s Gen8
SL230s Gen8
DL580s Gen8 (共有メモリ型 )
合 計
総コア数
メモリ(GB/ノード) 総メモリ容量(TB)
13,440
128
20
1,280
128
8TB
64
20
1,280
256
16TB
8
60
480
2,048
808
16,480
84TB
16TB
124TB
* TF(TFLOPS)
:
「FLOPS (フロップス)
」
とは、
コンピュータの処理性能を表す単位の一つで、
TF
(テラフロップス)
は、
浮動小数点演算を1秒間に1兆回行うこと
を表す単位のことである。
- 12 -
C
H
E
C
02
K
ス
【役割】
スーパーコンピュータは多くの熱を排出します。これをいかに効率的に必要最小限のエネル
ギーで冷却するかはシステム設計上重要な課題です。
また、
計算ノードは高密度に設計をしており、
局所的な熱だまりによるシステムダウンを避ける
必要があります。
そのため、
導入前に空調シミュレーション
(図1)
を行うことで、
空調機器の最適な
配置を行っています。また、
電算室に設けられた温度センサ24個(電算室1: 12個、電算室3 :12
個)、湿度センサ6個(電算室1: 2個、電算室3 : 4個)の監視システムによって常時安全な運用を
行っています。
空調
物理配置図
計算ノード
空調
SERVER
電算室3
計算ノード
ラック型空調機
SERVER
空調
空調
空調機
高速ストレージ S T O R A G E
空
調
機
Air‐conditioning unit
高速ストレージ S T O R A G E
テープライブラリ
高速ストレージ S T O R A G E
テープライブラリ
電算室1
Tape Library
Tape Library
直吹き型冷却方式 空調シミュレーション結果例(電算室3)
:最高入気温度箇所(約21℃)
35℃
27℃
20℃
床上 1m
床下冷却方式 空調シミュレーション結果例(電算室1)
:最高入気温度箇所(約23℃)
35℃
27℃
20℃
図1:空調シミュレーション
- 13 -
床上 1m
C
H
E
C
K
03
ー
【役割】
ライフサイエンスの情報はビッグデータ化しており、
特にゲノム情報の出力量はCPUの年間の速度の
上昇を上回る速度で増大しています。
そのため、計算ノードとストレージの間を高速に通信することが
重要となっています。
現在一般的な通信速度としては、
1Gbpsや10Gbpsなどがありますが、
本システムでは、
InfiniBand
4 FDRによる56Gbpsの高速ネットワークを採用し、
日々のゲノム情報解析を円滑に処理しています。
物理配置図
InfiniBand スイッチ
計算ノード
SERVER
計算ノード
SERVER
ネットワーク
前面
背面
Login
ゲートウェイノード
(56Gbps)
共有メモリ型計算機
計算ノード
高速ネットワーク
InfiniBand
4 FDR
(56Gbps)
高速ストレージ
バックアップシステム
InfiniBand スイッチ 背面拡大画像
︻
基
本
性
能
︼
・計算ノード、共有メモリ型計算機、高速ストレージ、テープライブラリ間は、すべて
InfiniBand 4 FDR (56Gbps)により接続
・Mellanox SX6518スイッチを採用。
1台あたり、
288ポート(最大324ポート)構成
・1ポートあたり、
最大56Gbpsフルバイセクションバンド幅
・170ns∼510nsの超低レイテンシ・スイッチング (Ethernetスイッチのレイテンシ
は、
2,000∼3,000ns)
- 14 -
C
H
E
C
K
04
ン
【役割】
スーパーコンピュータは、生命情報解析(ゲノム情報解析)、データバンクの両方の機能を併せ
持つ新しい形態の複合データバンク(データ解析バンク)の基盤として以下の役割を果たし、東北
の未来の健康を創っていきます。
①品質の高い
「個別化医療・予防」
の基盤となる日本人のゲノム情報の構築
②環境情報と遺伝情報との関係を解析し日本人の疾病などのリスク予測をより正確に行える統合
データベースと大規模解析環境の構築
③全国および機構内の研究者がセキュリティを担保しつつ解析を行える「個別化医療・予防」を
加速するデータバンクの構築
スーパーコンピュータの来訪記念にサインを頂くとともに、今後の複合データバンクとしての
拠点形成へ向けたご意見ご指導を賜りたく存じます。
キ
サ
ガ
高速ストレージ S T O R A G E
ナ
空
調
機
ー
物理配置図
サイン& 記 念 撮 影
Autog r aph & Phot o Ar e a
Air‐conditioning unit
高速ストレージ S T O R A G E
テープライブラリ
高速ストレージ S T O R A G E
テープライブラリ
Tape Li brary
Tape Li brary
サインの他に写真撮影もさせていただきます。写真をスーパーコンピュータのWebページやその他
広報のために使わせていただくこともありますので、
その際には承諾書にサインをお願いいたします。
- 15 -
C
H
E
C
K
05
ー
【役割】
統合データベースに格納された情報およびゲノム解析情報などは、
失ってはならない貴重な情報
です。
これらの情報を災害から守る砦となるのが、
このテープライブラリです。
バックアップしたメディアは、
遠隔地にセキュリティを担保した形で保存することで万一の災害
に備えています。
現在は、3PB(ペタバイト)のバックアップを取得できるように設計されており、将来のデータ
バンクとしての情報の蓄積に備え、
最大30PBまで拡張可能です。
テープライブラリは1列あたり5ラックの2列で構成されており、
シャトルによるカートリッジ
移動が可能です。
物理配置図
空
調
機
Air‐conditioning unit
︻
基
本
性
能
︼
高速ストレージ S T O R A G E
高速ストレージ S T O R A G E
テープライブラリ
高速ストレージ S T O R A G E
テープライブラリ
Tape Li brary
Tape Li brary
テープドライブ
:8 台
: 2,000MB/sec ( テープドライブ 8 台での性能 )
データ転送性能
テープカートリッジ搭載数 : 最大 7,500本
テープカートリッジ種別 : 3592 テープカートリッジ (4TB/ カートリッジ )
- 16 -
C
H
E
C
K
ス
06
ー
【役割】
ライフサイエンスの情報はビッグデータ化しており、特にゲノム情報の出力量は、CPUの性能向上
の速度を上回る速度で増大しています。ToMMoのプロジェクトでは数千人の全ゲノム情報解析を
進めており、単純に情報を保存するだけで、1人1TB(テラバイト)
として1000人で1PB(ペタバイト)、
3000人で3PBが必要です。
また、生命情報解析(ゲノム情報解析)
のために、高速に大規模な計算ノードと通信するため、
超並列分散共有ファイルシステム(Lustre)を導入しています。読み込み/書き込み性能の合算で
62GB/secの性能を有しています(64ノードを用いた評価値)。
ストレージの容量は現在12PBの容量のデータが保存可能です。なお、今後のゲノムの情報爆発、
統合解析に備え本システムは最大50PBまで拡張可能です。
物理配置図
空
調
機
Air‐conditioning unit
︻
基
本
性
能
︼
高速ストレージ S T O R A G E
高速ストレージ S T O R A G E
テープライブラリ
Tape Li brary
高速ストレージ S T O R A G E
総容量 :12PB ( ペタバイト ) 1PB=1,000TB
S S D :80 本 (400GB/ 本 )
H D D :4,160 本 (SATA 4TB/ 本 )
H D D :144 本 (SAS 600GB/ 本 )
I/Oサーバ :128 台
メタデータサーバ :32 台
- 17 -
テープライブラリ
Tape Li brary
PHOTO GALLERY
Photo by Toshiya Hatanaka
Edit
長
正朗
一關京子
遠藤 睦
舘野 穣
齊藤 智
平野幸子
大塚 健一
山下 智也
Design & Photo
畑中俊哉
インシリコ解析室
TEL 022-273-6051
E-MAIL [email protected]
WEB SITE http: //sc.megabank.tohoku.ac.jp
電算室 案内図
S u p e r c o m p u t e r
C
H
E
C
01
K
C
H
計算ノード
E
C
K
02
R o o m
C
H
E
G u i d e
C
03
K
空 調
高速ネットワーク
M a p
C
H
E
C
K
04
サイン & 記念撮影
デ ー タバンクの 役 割 を 果 たす
精密な空調シミュレーションを
ビッグデータ化したゲノム情報
ご来場の記録と記念に、
スーパー
ため 大 規 模 化した ゲノム 情 報
経て、
高密度設計した計算ノード
を円滑に処理するため、
56Gbps
コンピュータへのサインと記念
の解析を、
16,480コア、
124TB
を安定動作できるように設計運
の高速ネットワークを実現してい
撮影を。
メモリからなるサーバで日々実行
用しています。
ます。
お帰りの際にお持ちいただけます。
しています。
02
電算管理室
空調
入口
01
計算ノード
03
計算ノード
全
体
説
明
MRI室
空調
H
E
C
K
05
テープライブラリ
災害によって、
貴重な統合データ
ベースに格納された情報および
ガ
サ
キ
ー
高速ストレージ S T O R A G E
サイン& 記 念 撮 影
04
Autog r aph & Photo Ar e a
高速ストレージ S T O R A G E
テープライブラリ
Tape Li brary
05
高速ストレージ S T O R A G E
06
アトリウムへ
C
空調
C
H
E
C
K
06
テープライブラリ説明
テープライブラリ
Tape Li brary
ストレージ説明
高速ストレージ
CPUの処理速度の増加を上回る
速度で増大しているヒトゲノム
ゲノム解析情報が失われないよ
情報を保持し、かつ高速で解析
う、
バックアップを行い、遠隔地
できるような12PBのシステムを
での二重化を行っています。
導入しています。
電算室1
バ イオバ ンク室
(液体窒素凍結保存室)
Air‐conditioning unit
出 入口
SERVER
同意書
空
調
機
靴履き替え
ネ
ッ
ト
ワ
ー
ク
説
明
ナ
OFFICE ROOM
SERVER
ネットワーク
空調
空
調
説
明
電算室3
出口
計
算
説ノ
明ー
ド
空調