GlusterFS解説書

GlusterFS on SolidPOWER
分散ファイルシステム GlusterFS
は
高速ストレージSolidPOWER7000 の下で最適な分散ファイル処理を行います。
今日、スーパーコンピュータやクラスタやデータセンターで利用される主要なストレージソリューションは分散ファイルシステム(DFS)です。
GlusterFSはglusterコアチームによって開発されたオープンソース(GPL)分散ファイルシステムでSolidPOWER7000 でサポートしています。
GlusterFSはオープンソースとして開発されているため、FedraやCentOS用のrpmも公開されており、世界規模で導入実績をもつ並列ファイルシステムになっています。
●GlusterFS は gluster コアチームによって開発されたオープンソース(GPL)
分散ファイルシステムです。
●GlusterFS はオープンソースの分散ファイルシステムでペタバイトのスケー
リングや数千ものクライアントを処理することができます。
●SolidPOWER7000 ではブロックレベル管理についてはSCE(Storage
Control Engine) の下で稼働し、GlusterFS でファイルレベル管理を行います。
●GlusterFS では InfiniBand RDMA による単一大規模並列ネットワークファイル
システムの構築が可能になります。
●GlusterFS は複数のストレージノードのローカルファイルシステムを論理的に
統合した「ボリューム」を作成して、クライアントからマウント可能にします。
ブリック (Brick)
ボリューム (Volume)
•ブリックはノード上に用意されたGlusterFS⽤のディレクトリ
•ファイルシステムと1 対1 になるように設定
•ブリックは1つのノード上に複数個定義可能
•他のボリュームが利用しているブリックはボリュームを
定義する際に利用することはできない。
• 1つのブリックは1つのボリュームにのみ所属
• ノード間で非同期のレプリケーションを実行
•ボリュームは複数のブリックを束ねて構成
•大容量データ保存領域として管理
•GlusterFS Native プロトコルやNFSv3などのマウントポイントおよび
CIFSの共有フォルダーとして認識
高速ストレージSolidPOWER7000モデルで最適構成を実現します。
[クラスタ接続] •最小2セットのストレージノードによるクラスタ接続をおこないます。
•複数サーバーで単一の仮想ボリュームを構築しクライアントにマウントします。
•ストレージノードからファイルシステム領域をブリックで抽出し、ボリュームに適合します。
•管理者はすべてのサーバーの空き容量、ネットワーク構成情報から最適なブリックの組み合わせを決定します。
【特長】
1.拡張性
1ボリュームあたり16ExsaByte クラスタリングによりリニアなスケーラ
ビリティを実現、2^128個 のファイル数をサポート
GlusterFS ヘッド
270TB(HDD)
270TB(HDD)
270TB(HDD)
GlusterFS ヘッド
270TB(HDD)
270TB(HDD)
270TB(HDD)
2.機能単位のモジュール化
各機能をモジュールに隠ぺいして操作性を向上、ローカルファイルと同様
の操作性を実現
3.単一障害ポイント(SPOF)の排除
メタデータサーバの排除により単一障害ポイントを排除
4.レプリケーションによる高可用性
同期レプリケーションの設定が可能、分散配置により冗長性を向上
5. InfiniBand対応
クライアント・ストレージ間でInfiniBand RDMAに対応、低レーテンシー
を実現
GlusterFSによるスケールアウト
分散ファイルシステム GlusterFS
は
性能劣化のないスケールアウトを実現します。
分散ファイルシステム(DPS)の課題はスケールアウトする場合の性能劣化です。これはクライアントの数が増えネットワーク上で渋滞するためでIncast問題とも呼ばれ
ています。GlusterFSはIncast問題にユーザ要求のプロセス改善やスループットの最大化(ストライピング)の他にレプリケーション効率とクラスタI/O性能の向上によっ
て対応します。GlusterFSは様々な容量のデータ保存向きで、特に小容量ファイルの書き込みにおいて高性能を発揮します。
1.マッピング
ハッシュ計算をおこなってファイルの物理的なロケーションをマッピング
します。メタデータサーバーを不要にするので障害時のメタデータの
復帰にともなう時間を大幅に削減することができます。
その結果、スケールアウトを線形に向上させ性能ボトルネックや
単一障害ポイントを排除することができます。
4.I/O性能
2.レプリケーション
異なるサーバー上にデータのコピーを瞬時に複数個作成します。
更新データ要求はすべてのコピーが更新されるまで禁止されます。
レプリカがディスクに保存されるまでファイルに対するクエリーを
ブロックしデータの一貫性問題を回避します。その結果、データの
一貫性が保証され常に最新バージョンにアクセスが可能です。
(データは同期中利用することができません。)
GlusterFS
他のDPS(Lustre等)
I/O(入出力)
I
O
I
O
1 x 20GB
341s
403s
374s
415s
1000 x 1MB
59s
18s
66s
5s
GlusterFSが様々な容量のデータ保存に向いているのに対して集中型の分散
ファイルシステム(Lustre)は小容量ファイルの保存に適しています。ネットワー
クトラフィック等の異なる要素に関わらず、GlusterFSのアーキテクチャは小容量
ファイルの書き込みにおいて高性能を発揮します。
3.負荷分散
ハートビートによりシステムのサーバー障害や過剰負荷を検出します。
GlusterFSでは障害時にシステムから障害サーバーが取り除くか隔離
します。損失データの回復後、データは他のサーバーにも保存されます。
(Sysfera社 Analysis of six Distributed systemsより引用)
【EpochPOWERクラスタの導入による相乗効果】
EpochPOWERの導入により、クラスタI/O性能をさらに向上させることができます。EpochPOWERクラスタはノード間をOminiBus(PCIex-Gen3)で接続しノード間の
レプリケーションを瞬時に実行します。この結果、ノードの追加にともない、システム性能が線形に向上するのでスケールアウトの性能劣化が生じません。
EpochPOWERはOmiBusスイッチを介してツリー型に配置されたノード間でレプリケーションを行いGlusterFSをサポートします。分散ファイルシステムの
特質上、レプリケーションの性能が高ければ高いほどシステム全体の性能も向上します。
• EpochPOWERクラスタではOmniBus(PCIex-Gen3)上でIPのカプセル化を実行します。
• クライアントはGlusterネイティブ、NFS、CIFSによりOmniBus上のTCP/IP でファイルシステムにアクセスします。
• GlusterFS自身ではレプリケーションをおこなわないため性能劣化が生じません。
ストレージ I/O 通信
ノード(1)
クラスタ ノード通信
SP7K
ホストサーバー(1)
ノード(2)
PCIe
OmniBus
Switch
スイッチ
ホストサーバー(2)
SP7K
ノード(3)
SP7K
ホストサーバー(3)
TCP/IP通信
ノード(4)
SP7K
OmniBusネットワークをベースにノード間接続、ストレージI/O接続、IP接続の相関を表示します。
EpochPOWERはツリー型に接続されたノード間でレプリケーションを行いGlusterFSをサポートします。
GlusterFSの冗長性能
分散ファイルシステム GlusterFS
は
クラスタ構成で優れた冗長機能を提供します。
【分散型アーキテクチャ】
集中型アーキテクチャの限界はメタデータ・サーバーやキャッシュの利用でデータ転送数の減少させていることです。GlusterFSは分散型アーキテクチャを適用しており
サーバー数を増大させるとともに性能を向上させます。
GlusterFSはブリックと呼ばれる複数のデータ領域を1個の
ボリュームにする場合、基本的に3つの方式があります。
SP7K(1)
SP7K(2)
•
•
•
SP7K(3)
Lustreの様なストライプ方式
ファイルを分解せずに分散配置する分配方式
ブリック間でミラーリングするリプリカ方式
また上記の複合型方式、 例えば、リプリカ+ストライプ方
式にすればスケーラビリティとの両立も可能です。 ファイ
ルシステムコントロールの部分にFUSE(Filesystem in
Userspace)を利用しているため、カーネル依存性が低く、
構築も簡単です。
GlusterFSではファイルを配置する際、分割したファイルの
断片を複数のSP7K 上に分散配置ならびにミラー(冗長化)し
て配置することも可能です。これにより、SP7K 1台が停
止しても、ファイルシステムは維持されます。
[ファイルの増設]
GlusterFS は非常に簡単な手順(以下の2手順)にて容量を増設し
ます。
1.GlusterFS のデータ格納単位(ブリック)の作成には以下のパ
ターンがあります。
• SP7000(SP7K) を1台増設して、その増設領域にブリックを
作成します。
• 既存の SP7K にディスクを増設して、その増設領域にブリッ
クを作成します。
SP7K(1)
SP7K(1)
SP7K (2)
SP7K (3)
SP7K (2)
2.作成したブリックをファイルシステムへ追加します。
SP7K(1)
SP7K (2)
注) 追加した領域は、新規作成したディレクトリに配置するファイルから使用されます。
注) 既存のディレクトリ、ファイルを再配置する際には、リバランスコマンドで簡単に
再配置することができます。
[ファイルの再配置]
下図はGlusterFS 分散+レプリカで、1台の SP7K が1つのブリックを保持する場合
で配置済みの仮想ディスクファイルが増設により、再配置される様子を示しています。
[故障時の切り替え]
増設後
増設前
• コントローラおよび監視サーバーの切り替え
File(1)
File(1)
再配置により、File(1) も均等に配置
SP7K(1)
SP7K(2)
SP7K(3)
SP7K(1)
SP7K(2)
SP7K(3)
SP7K(4)
• コントローラおよび監視サーバーに異常が発生した場
合、自動切替
• メールにてアラート送信
• 動作に不具合が生じた場合、手動切り替えも可能
• SP7K 故障時の切り替え
• GlusterFSは、切り替えの必要無し。
• 復旧時に RAID のリビルドにあたる再レプリケーショ
ンを実施
• 復旧後、GlusterFS にブリックとして追加
• 複製されていない分割ファイルの複製を生成
• 仮想サーバ(RHEV)故障時の切り替え
• 仮想サーバーで動作していた仮想マシンはすべてダウ
ン
• 仮想マシンの死活を監視
• ダウンした際には再起動させるなどのスクリプトを組
み可能
• 仮想マシン自体をクラスタ化(オプション)
File(2) <= 新規追加ファイル
GlusterFSとSoftware-Defined Dtorage(SDS)
分散ファイルシステム GlusterFS
は
仮想ストレージコンポーネント、Software-Defined Storage(SDS)に対応します。
GlusterFSは2セット以上のSolidPOWER7000 ストレージノードによるクラスタ構成で仮想ストレージ、Software-Defined Storage(SDS)に対応します。
GlusterFSは複数サーバーで単一の仮想ボリュームを構築し、クライアントにマウントします。 “OpenStack”はクラウド環境構築用のオープンソフトウエアで仮想マシン
とストレージやネットワークといった一番低いレイヤーのリソースを提供するクラウド環境を構築します。また“Zabbix” は統合監視ソフトウエアでSNMPや独自エージェン
トによる監視、通知を可能にします。
• ソフトウェア層でロジックを最適化(低レーテンシーに精錬)
• スケールアウト機能の強化
・・・
• GlusterFS はスケールアウトが容易でデータの冗長化に対応
• 広帯域で短いレーテンシーをもつデータパスが必要
SP7K
SP7K
OpenStack および Zabbix をアドオン
通常の GlusterFS モデル構成
ファイルをバックアップ/アーカイブ
[スケーラブル&分散ファイルシステム]
クラウドシステムに重要なストレージは、”拡張性(スケールアウト、分散度拡張)”が必要です。 GlusterFS は管理・拡張が容易で、データの
冗長化にも対応しています。OpenStackでは、仮想サーバーのみならず、通常の物理サーバーも管理下に入れることも可能です。パフォーマ
ンス要件のため、物理サーバーを使用せざるを得ないアプリケーションやサービスにおいても、共通プラットフォームで管理します。
ユーザ
OmniBUS(*1)
InfiniBand FDR
ネットワークリソース
10GbE/40GbE/56GbE/100GbE
SP7K
GlusterFS
SP7K
GlusterFS
・・・
SP7K
GlusterFS
スケールアウト
ストレージリソース
アクティブ
管理
(設定、操作、監視)
RHEL-OSP5
SDA コントローラ(クラスタ)
V V V
・・・
M M M
V V V
・・・
M M M
RHEV
RHEV
コンピュータリソース(VM)
・・・
サーバー
サーバー
・・・
スケールアウト
スケールアウト
コンピュータリソース(サーバー)
スタンドバイ
RHEL-OSP5
(*1) 2015年初頭には、EpochPOWER Cluster のネットワーク技術である
“OmniBUS Network(128Gbps) に対応
また2015年中にはMellanox 社から 100GbE 環境がリリース予定です。
DB
DB
ミラー
1.ストレージコンポーネントの仮想化
ソフトウェア層でロジックを最適化しリソースプールを統合します。ストレージ容量の動的割り当てをおこなうことで柔軟にデー
タを分散、容量を無駄なく活用し、性能が向上します
2.最速のデータパス
クラウドシステムでは、様々なデータが、大量に飛び交います。大きな帯域、短いレイテンシーをもつパスが必要となります。
ネットワークは一度構築してしまうと改変することは困難です。将来を見据えたシステムを目指すのであれば、現時点で最速の
データパスで構築します。
3.統合監視ソフトウエア “Zabbix”
“Zabbix” は、SNMPや独自エージェントによる監視、通知が可能です。独自エージェントは、Linux, FreeBSD,HP-UX,AIX,
Solaris,Windows用のパッケージを提供します。
GlusterFSとLustreの特長比較
分散ファイルシステム GlusterFS
は
他の分散ファイルシステムを性能で凌駕します。
GlusterFS
他のDPS(Lustre)
分散型
集中型
メタデータを複数のデータサーバーに保存、ファイル数を
無制限に生成,サーバーを増設することで迅速に拡張可能。
大規模クライアント要求に対応 メタデータサーバは不要
メタデータは単一サーバーによって管理されストレージデバイ
スに保存,クライント要求性能は単一サーバーのコンピュータパ
ワーとディスクのレーテンシーに依存
ネーミング
EHA(ハッシュ関数)
インデックス方式
透過性
ハッシュ関数を利用したグローバルなネーム空間設定
アルゴリズム上でファイルを配置
ストレージはシステムに値に基づくファイルを保存
ファイル名に関連づけられた物理的なロケーションを示すイン
デックスを保管,ファイルが他のストレージに移動する場合や生
成や削除する場合に単純に更新。但しデータの所在を探すのは
メタデータサーバーの責任、Lustreはメタデータを大規模スペ
ースのディスク上におくので該当しない、クライアントがデー
タのロケーションを探すのでメタデータサーバーの負荷は軽減
データ同期
メタデータはレプリケーションされ管理は数台のサーバー
に分散して実行(同期レプリケーションを利用)
レプリカがディスクに保存されるまでファイルに対するク
エリーをブロックし一貫性問題を回避している
データは同期中利用することができない。
別途、アドオンソフトウエアのインストールが必要
システムアクセス
外側のクライアントからシステムと相互操作するよう考慮
されていない。
クライアントがファイルを要求する際は最初にメタデータサー
バにコンタクトする。利用不可になった場合、クライアントは
LDAPに問い合わせをしてメタデータサーバにコンタクトする。
API
REST APIとマウントモジュール
(FUSEあるいはマウントコマンド)
FUSE
障害検知
サーバーが利用不能になった場合に検知可能
障害サーバーはシステムから隔離されるか排除
サーバー間のメッセージ交換を頻繁にするので性能に影響
障害検知の機能はない
システム可用性
(負荷分散)
高い
(フェイルオーバー)
高い
(フェイルオーバー)
データは同期中利用することができない。データの2重化
コマンドで手動により負荷分散を実行しなければならない.
ファイルのパス名とバリューにハッシュ関数を利用
各ロジカルストレージは同数のファイルを保持
ファイルは同一サイズではないのでストレージデバイスの
追加や削除が可能
サーバーに新規データを保存するが負荷過剰のサーバーを解放
しない
RAID1
無し
高可用性を提供
メタデータはレプリケーションされ管理は数台のサーバー
に分散して実行
メタデータサーバーによるメタデータの損失とシステムの利用
不可が単一障害点(SPOF) になる。
フェイルオーバーを使ってSPOFを排除する。
数台のメタデータサーバーは定期的にメタデータを保存する。
キャッシュ
クライアント側でキャシュを利用しない
ファイルのロックメカニズムを採用してキャシュのデータ一貫
性を管理する。
配置ポリシー
手動
無し
レプリケーション
同期書き込みにより同一ボリューム内にレプリカを作成(
RAID1)を実行
RAID
アーキテクチャ
データ可用性
アーキテクチャの比較
【本製品のお問合せ先】
〒150-0045 東京都渋谷区神泉町10-10 アシジ神泉ビル
TEL:03-5459-4571
FAX:03-3476-4350
マーケティング部
E-mail: inquiry @ tgi.co.jp
URL: http://www.tgi.co.jp
SolidPOWER®7000(SP7K)はTGI (テクノグラフィー株式会社)の商標登録
(登録番号5289806)です。
EpochPOWER®はTGI (テクノグラフィー株式会社)の商標登録
(登録番号5702781)です。
また本文に記載されている会社名、製品名等は、各社の商標または登録商標
です。