HP StoreOnce重複排除のためのIntegrity Plus;pdf

テクニカルホワイトペーパー
HP StoreOnce重複排除のための
Integrity Plus
目次
概要...................................................................................................................................................................................................... 2
はじめに ............................................................................................................................................................................................. 2
HP StoreOnce - 主な機能とメリット ....................................................................................................................................... 2
テクノロジー概要 ............................................................................................................................................................................ 2
重複排除プロセスにおけるStoreOnceデータ整合性 ...................................................................................................... 3
ハウスキーピング ........................................................................................................................................................................... 6
RAIDサブシステムとStoreOnceファイルシステム ............................................................................................................. 6
StoreOnce複製 ............................................................................................................................................................................... 9
その他のStoreOnceアーキテクチャーの強み .................................................................................................................... 9
まとめ .................................................................................................................................................................................................. 9
用語集 ................................................................................................................................................................................................. 9
テクニカルホワイトペーパー | HP StoreOnce重複排除のためのIntegrity Plus
概要
保管されたデータの整合性を維持し、書き込まれたとおりのデータを回復できるようにすることは、あらゆるストレー
ジシステムにとって必要不可欠です。HP StoreOnceアプライアンスには、この必要不可欠かつ高度なデータ保護を
実現するテクノロジーが組み込まれています。
HPは、HP StoreOnceアプライアンス上に保管されたデータをライフサイクルにわたって保護するための独自のテク
ノロジーを採用しています。このホワイトペーパーでは、この高度なデータ整合性を実現するためにさまざまな段階
で使用される各種の手法について解説します。
StoreOnce重複排除のためのHP Integrity Plusは、データ保護分野をリードするテクノロジーです。
はじめに
あらゆるIT組織にとって、データの保護は非常に重要な課題です。定期的なバックアップと重複排除テクノロジーは、
より多くのデータをディスクベースのストレージ上に保持するとともに、オフサイトにシームレスに移動することを可能
にしました。データを保護するうえで定期的なバックアップと同様に重要なのが、データの整合性です。ストレージ管
理者は、リストアが必要になった時点でバックアップデータの破損がはじめて発見されるという事態を常に恐れてい
ます。HP StoreOnceテクノロジーにはデータ保護機構が組み込まれており、データ処理のさまざまな段階やリカバ
リ時にデータをチェックするだけでなく、保管中のデータを継続的にチェックし、必要に応じてエラーを訂正することも
可能です。このホワイトペーパーでは、HP StoreOnceアーキテクチャーがバックアップサーバーからディスクスピンド
ルへ、またはその逆の操作において、データをどのように処理するかについて解説します。
HP StoreOnce - 主な機能とメリット
HP StoreOnce重複排除 - より多くのデータをディスクに保管
HP StoreOnce重複排除テクノロジーは、バックアップパフォーマンスに影響することなく、バックアップデータセットの
保管に必要なディスク領域を削減します。より多くのデータをより長期にわたってディスク上に保持できるようになる
ことで、消失/破損したファイルの迅速なリストアに必要なデータのアクセス性が向上し、ダウンタイムを短縮できます。
重複排除率は、データの変更率とバックアップデータの保持期間という2つのファクターに大きく影響されます。変更
率が低く、長期間保持されているデータほど、重複排除率は高くなります。
最適化された複製
HP StoreOnce重複排除は、データの再構成 (リハイドレーション) を必要としない完全自動化された複製を可能にす
るHP StoreOnce複製に欠かせないテクノロジーです。最適化された複製では、ディザスタリカバリ (DR) サイトへの
接続に低帯域幅のWANリンクを使用できます。そのためデータセンターやリモート/ブランチオフィス (ROBO) のため
の費用対効果の高いDRソリューションとしても役立ちます。
迅速なデータリストアによる信頼性が高く安心なデータ保護
HP StoreOnceは、迅速なリストアに必要なバックアップデータへの即時アクセスを提供します。HP StoreOnce重複
排除を使用すると、より多くのデータをデータセンターのより近くに、より長期にわたって保管可能になるため、必要
なデータを即座に入手してリストアを迅速に実行できる可能性が高まります。
バックアッププロセスの自動化、簡素化、および向上
HP StoreOnceはバックアッププロセスを自動化することにより、データ保護の管理に要する時間を軽減します。オペ
レーターの介入を必要としない自動的な日次バックアップの導入は、ITリソースの制約が大きいリモート/ブランチオ
フィスなどの環境に、とりわけ大きなメリットをもたらします。
HP StoreOnce Catalyst
HP StoreOnce Catalystテクノロジーは、バックアップアプリケーションがStoreOnceアプライアンスと直接対話するこ
とを可能にします。その結果、バックアップサーバー上で重複排除などの高度な機能を使用して帯域幅最適化され
たバックアップを作成し、データ再構成のステップを経ることなく、1つ以上のStoreOnceアプライアンスにバックアッ
プを複製することも可能になります。StoreOnce Catalystは、HP Data Protector、Symantec NetBackup with OST、
Backup Exec、Oracle RMAN、およびBridgeHead Healthcareソフトウェアでサポートされています。
データセキュリティ
HP StoreOnceシステム上では、組み込みのデータ暗号化およびセキュアな消去機能もオプションで利用可能です。
テクノロジー概要
重複排除処理は、ストレージアプライアンスに到着したデータストリームを小さいデータブロック1単位でチェックして
同一ブロックを見つけ出し、冗長データを排除することによって機能します。重複データが検出された場合は、重複
するブロックを実際に格納する代わりにオリジナルのデータセットへのポインターが作成されて、冗長データは削除
(「重複排除」) されます。ここで重要なのが、データの重複排除がブロックレベル2で行われる点で、重複するファイ
ルのみが削除されるファイルレベルの重複排除に比べて、はるかに多くの冗長データを削除できます。HP StoreOn
1、2
2
「ブロック」は他の重複排除テクノロジーでは、「セグメント」とも呼ばれます。
テクニカルホワイトペーパー | HP StoreOnce重複排除のためのIntegrity Plus
ceではデータの保管に先立ってデータ圧縮が行われます。データ圧縮はバイトレベルで動作し、約2KBまでの反復
データシーケンスが排除されます。
一般的にバックアップデータセットには多くの冗長データが含まれるため、重複排除がとりわけ大きな効果を発揮し
ます。冗長データの量は、バックアップされたデータのタイプ、バックアップ手法、およびデータの保持期間によって
異なります。
HP StoreOnceはデータ保護アプリケーションのために仮想テープ (VT)、NAS、またはStoreOnce Catalystターゲット
デバイスを提供し、インターフェイスにはネットワーク接続またはファイバーチャネル (FC)接続を使用できます。図1
は、StoreOnceアプライアンスの基本コンポーネントを示したものです。実ストレージメディアはハードディスクで、HP
が設計したエンタープライズクラスのRAIDコントローラーとともにRAID 6で構成されています。データはRAID構成内
のすべてのディスクにわたって書き込まれます。RAID 6は、2台のハードディスクで障害が発生した場合にもデータ
の損失を回避できます。現行のStoreOnceアプライアンスに搭載されているRAIDディスクは、2TBまたは4TBのシリ
アル接続SCSI (SAS) ディスクドライブです。
HP StoreOnce重複排除は、帯域幅を効率よく使用してバックアップを別のHP StoreOnceアプライアンスに移動する
目的でも使用されます。この手法によりオペレーターの介入なしに、多くの場合はWAN接続を介して、物理的に異な
る場所にバックアップを転送することが可能になります。サイト全体に及ぶ大規模障害が発生した場合でも、データ
はディザスタリカバリサイトで安全に保護されているため、システムを迅速に復旧できます。
図1. HP StoreOnceアプライアンスの基本コンポーネント
重複排除プロセスにおけるStoreOnceデータ整合性
HP StoreOnceなどのストレージシステム内では、データの整合性を維持するために、データ処理の一環としてデー
タが破損していないことを確認するためのさまざまなステップが実行されます。またディスクサブシステムや重複排
除プロセス内でも、データの維持およびエラー訂正のための独自の戦略が使用されます。StoreOnceアプライアン
ス上での高速なデータ処理を実現するために、これらのプロセスはいずれも高速でなければなりません。さらにスト
レージシステムでは、電源障害が発生した際にシステム内を「移動中」のデータを保護するための機構も求められ
ます。
HP StoreOnceシステムには、データ保護を重視したストレージデバイス設計に欠かせないエンドツーエンドの検証
プロセスが組み込まれています。データは多くの場合StoreOnceアプライアンス上に長期にわたって保管され、デー
タが正しく保管されていることを保証するために、保管時のチェックに加えて、それ以降も定期的なチェックが行われ
ます。さらにデータのリストア時にもエラーチェックが再度実行されます。HP StoreOnceアプライアンスに組み込まれ
たIntegrity Plusテクノロジーは、HPが完全保有する知的財産であり、その大部分がHP研究所で考案されてHP Stor
age R&Dにより開発されたものです。
3
テクニカルホワイトペーパー | HP StoreOnce重複排除のためのIntegrity Plus
エンドツーエンドのエラーチェックプロセスはバックアップサーバーから開始され、ファイバーチャネルまたはネット
ワーク (IP) 接続を介してデータやコマンドが送受信されます。ファイバーチャネルプロトコルおよびTCP/IPは、いず
れもホストとStoreOnceアプライアンス間で転送されるデータの整合性をチェックするための機構を備えています。こ
れらのエラー保護手法は確立された業界標準プロトコルであるため、本ドキュメントでは解説を省略します。図2は、
インターフェイス接続からターゲットデバイスエミュレーション、重複排除「エンジン」、ストレージシステムに至るまで、
データ処理のさまざまな段階で実施されるチェックを示したものです。
それでは、データの取り込みから重複排除、長期保管、廃棄に至るライフサイクルとデータの変化について見ていき
ましょう。
データは選択されたインターフェイスを介して書き込まれ、バックアップサーバーからは仮想テープドライブ、NAS共
有、またはHP StoreOnce Catalystターゲットとして認識されます。データ整合性のチェックにおいて重要なのが、対
応する肯定応答がいったんホストサーバーに送信された後は、電源障害やシステムクラッシュが発生した場合でも
当該データの取り出しが可能かどうかです。
図2. HP StoreOnceによる重複排除と保管プロセス
* エントリーレベルのHP StoreOnce 2700の場合は合計4台のディスクのみが搭載されており、RAID 5構成が使用されます。
4
テクニカルホワイトペーパー | HP StoreOnce重複排除のためのIntegrity Plus
仮想テープデータの場合は、ブロックごとに巡回冗長チェックサム (CRC) が生成されて、データとともにディスクに
保管されます。データの読み戻し時にはCRCが再計算されてオリジナルのCRCと比較され、なんらかの不一致が検
出された場合は、SCSIチェック状態が報告されます。なおNAS/Catalystエミュレーションの場合は、シリアルデバイ
スとのプロトコルの根本的な違いにより、StoreOnceシステム内のこの段階でCRCが適用されることはありません
(たとえばNAS共有データは、ホストサーバーの要求に応じて変更される可能性があります)。しかしながら、NASお
よびStoreOnce Catalystはいずれも厳格なチェック機構を備えており、StoreOnceアプライアンスへの移動途上の別
の段階で適用されます。
注記:
HP StoreOnce 2700システムはRAID 5構成です。
処理中のデータは、StoreOnceシステムのメインメモリ (RAM) 内に保持されています。言うまでもなく、RAM自体も
独自のエラー検知/訂正機構を備えています。重複排除プロセスには、データストリームを「チャンク」(他の重複排
除手法ではセグメントとも呼ばれる) に分割するステップが含まれており、可変長 (平均4KB) のチャンクが生成され
ます。このプロセスでは、HP研究所が特許権を保有するTTTD (Two Thresholds Two Divisors) テクノロジーを使用
して、データストリームをどのように分割するかがインテリジェントに決定されます。各チャンクはSHA-1ハッシュの形
で適用される電子署名を保有しています。このチャンクハッシュコードが以前に受信されたデータと照合されて、完
全に新しいデータであると判断された場合は、コンテナーと呼ばれるStoreOnceの内部構造にチャンクが格納されま
す。この照合プロセスでは、照合対象として最適なコンテナーを迅速に決定するために、(HPが特許を保有する) ス
パースインデックスが使用されます。ハッシュコードおよびコンテナーIDは、「メタデータ」(基本的にはデータを再構
築 (再構成) するための「レシピ」ファイル) として個別に保管されます。またチャンクデータについては保管前に圧縮
処理が行われます。同一チャンクは保管されず、コンテナーインデックス内でインデックスカウントのみが増分されま
す。コンテナーインデックスファイルには、ハッシュコード、コンテナーファイル内の位置を示すポインター、および圧
縮データ長の一覧が記録されています。これらの情報により、チャンクを復元してデータを再構成することが可能に
なります。
このプロセスの動作中にトランザクションログのメンテナンスも行われ、ホスト接続を介して受け取った命令に応じて、
このログおよび重要情報がディスクに「フラッシュ」されます。その好例となるのが、仮想テープデバイスからのファイ
ルマーク書き込み命令の受け取りです。この処理は、後ほど説明する電源障害の発生時に重要な意味を持ちます。
電源復旧時には、コミットされたすべてのデータがシステムにより復元され、コミットされていない変更はアプライアン
スリカバリによってロールバックされます。これは実テープの場合とほぼ同じ動作です。スパースインデックスは、
データリカバリに必須ではありませんが、エントリー数が規定の数を超えた時点でディスクに保管されます。
この段階で、StoreOnce Integrity Plusにより重要なチェックサムのセットが追加されます。システムパフォーマンスを
維持するために、HP StoreOnceでは、コンテナーファイルおよびメタデータファイル内に格納されたデータの保護に、
SHA-1ハッシュおよびMD5ハッシュの両方が使用されます。SHA-1ハッシュは、個々のデータセットに対する一意の
160ビット値であり、MD5は一意の128ビット値です。データ圧縮の効率性とファイルシステムのパフォーマンスに配
慮して、複数チャンクが単一処理により圧縮されて、コンテナーファイルへの書き込み操作によって保管されます。
個々のチャンクセットには圧縮処理後にSHA-1ハッシュ値が追加され、データの読み出し時にチェックされます (図
3)。HP研究所における評価によりSHA-1ハッシュの方がCRCチェックよりも高速であることが判明したため、HP Stor
eOnceテクノロジーではSHA-1ハッシュを採用しています。
ハッシュアルゴリズムの詳細については、「用語集」を参照してください。
図3. チャンクデータにSHA-1チェックサムを追加
5
テクニカルホワイトペーパー | HP StoreOnce重複排除のためのIntegrity Plus
インデックスデータおよびメタデータのファイルはコンテナーファイルよりもはるかに小さいため、MD5ハッシュにより
十分な保護を提供できます。さらにHPでは、データ展開時にエラーを検出するためのセーフティメカニズムを備えた
データ圧縮アルゴリズムを採用しています。
データがいったん「コミット」されたら、すなわちホストバックアップサーバーによって「書き込み」の成功が確認された
ら、StoreOnceはそのデータがRAIDサブシステムに正常に保管されたかどうかの検証を行います。
ホストバックアップサーバーによるデータの読み戻し時には、取り出されたデータからハッシュコードが再計算されて、
保管されているハッシュ値と照合されます。
仮想テープデータの場合には、追加のCRCチェックも行われます。
ここまでの段階でHP StoreOnceによりデータが正常に保管され、潜在的なエラーを検出するための複数のメカニズ
ムが追加されました。これ以降はRAIDコントローラーにより、保管されたデータの整合性が継続的にチェックされ、
個々のディスクドライブで発生する可能性のあるエラーがバックグラウンドプロセスにより訂正されます。この段階で
データはディスク上に正常に保管されており、リストア処理のためのチェックサムが付加されています。
ハウスキーピング
あらゆる重複排除テクノロジーは、断片化を低減して空き領域を再利用するために、「クリーニング」プロセスを必要
とします。HP StoreOnceシステムでは、このプロセスを「ハウスキーピング」と呼んでいます。クリーニングプロセス
はバックグラウンドで実行されますが、HPソリューションの場合は、このプロセスを実行しない「ブラックアウト」期間
(通常はピーク期間) を選択することも可能です。
たとえば、標準的なGrandfather-Father-Son (祖父–父–息子) テープ管理サイクルに従って仮想テープが上書きさ
れる場合を考えてみましょう。仮想テープはHP StoreOnceシステムからは、ハッシュコードとコンテナー位置のリスト
として認識されます。重複排除が有効に機能している場合は、コンテナー内のチャンクの多くが、必要とされている
その他のテープによって参照されています。そのため当該仮想テープが上書きされる場合にも、古い参照は残され、
インデックスカウントを調整する必要があります。たとえばあるテープ内に、他の3つの仮想テープから参照されてい
るチャンク「XYZ」が存在する場合、インデックスカウントは4になっています。テープを上書きした場合は、このカウン
トを3に減らす必要があります。当然ながら、インデックスカウントがゼロより大きいために、StoreOnceはこのチャン
クを削除できません。その後、他のメディアでも上書きが行われた結果インデックスカウントがゼロに達したら、この
チャンクは不要になります。
しかしながら、この時点でこのチャンクはまだコンテナー内の領域を占有しています。このように継続的な使用により
コンテナーの断片化 (多数の冗長チャンクの発生) が進行していきます。ハウスキーピングジョブは、この断片化を
解消するためにコンテナーのコンパクションを行います。HP StoreOnceによるハウスキーピングは通常、アプライア
ンスがビジーな期間 (バックアップ/リストアが進行中など) を避けてスケジュールされます。このハウスキーピングプ
ロセスにも追加の整合性チェックプロセスが組み込まれており、コンテナーのコンパクション時にSHA-1ハッシュが
チェックおよび再計算されます。これはもう1つのデータチェックポイントであり、効率的なSHA-1アルゴリズムは余分
な負荷を低減できます。
RAIDサブシステムとStoreOnceファイルシステム
ストレージ管理者は、データの破損に対する不安を常に抱えています。ここまでに解説してきたとおり、StoreOnce
重複排除プロセスでは、アプライアンス内で処理中のデータのエラーチェックと保護に細心の注意が払われていま
す。さらにHP StoreOnce Integrity Plusによる保護範囲は、データが長期保管されるファイルシステムおよびRAIDサ
ブシステムにまで及びます。この点について、HP StoreOnceはエラーを検出するだけでなく、保管中のデータを訂
正および再構築することも可能です。
HP StoreOnceはユーザーデータの保管に独自仕様のファイルシステムを使用します。このファイルシステムは効率
性に加えて、StoreOnceシステムを実行している2つのノード間でファイルシステムが共有されるマルチノードシステ
ムでの使用に配慮して設計されています。また、継続的な自動負荷分散にも対応しています。予期しないシステム
シャットダウン (電源障害など) が発生した場合は、復旧後にファイルシステムの整合性をチェックすることが欠かせ
ません。そのための通常の手順は、(一般に「fsck」として知られている) ファイルシステム整合性チェックの実行です。
この処理には時間がかかり、標準的なファイルシステムの場合はオフラインで実行しなければなりません。一方HP
のカスタムファイルシステムはオンライン状態でのチェック (オンラインファイルシステム整合性チェック) が可能で、
マルチスレッド化により高速処理されます (注: マルチスレッドプロセスでは、先進的なマルチコアプロセッサーの強
みが生かされます)。
このメリットは、ストレージシステムの使用可能容量が数百テラバイトに達するような環境において、とりわけ大きな
意味を持ちます。これに加えて、HP独自のマルチノードアーキテクチャー内には競合する単一ノードシステムに比べ
て多数のプロセッサーが存在しており、このリカバリプロセスを複数サーバーに分配することも可能です。
6
テクニカルホワイトペーパー | HP StoreOnce重複排除のためのIntegrity Plus
HP StoreOnceシステムは、固有のデータ整合性保護テクノロジーを採用したHP独自仕様のハードウェアRAIDコント
ローラーを使用します。ディスクドライブでは、1,015ビットあたり1回の割合で訂正不能エラーが発生する可能性があ
るため、RAIDの使用が欠かせません。RAIDテクノロジーでは、エラーの訂正に使用可能なパリティディスクが使用さ
れます。RAID 5を使用するエントリーレベルのHP StoreOnce 2700システムを除く、その他のすべてのStoreOnceシ
ステムでは、RAID 6ディスクストレージシステムが採用されています (StoreOnce 2700システム上には4台のディス
クドライブしか搭載されていないため、RAID 6構成は使用できません)。RAID環境では、複数のディスクドライブにわ
たってデータが「ストライプ状に」書き込まれるとともに、データの再構築に利用可能な1つ (RAID 5) または2つ (RAI
D 6) のパリティディスクが保持されて、ディスク全体の障害および個々の訂正不能エラーからデータが保護されま
す。RAID 6は、RAID構成内の任意の2つのディスク (パリティディスクまたはデータディスクの任意の組み合わせ) で
障害が発生した場合にも、データの整合性を保持できるという強みを有します。一方RAID 5は1つのディスク障害に
しか対処できません。図4は、StoreOnce RAIDの例を示したものです。一般的にRAIDについて言及する場合は、
データディスクとパリティディスクの数が示され、たとえば図中の8+2は8つのデータディスクと2つのパリティディスク
を意味しています。
電源障害に対する保護
HPが設計したRAIDコントローラーは、パフォーマンスを向上するために、1GBのライトキャッシュメモリモジュールと
フラッシュ (不揮発性) メモリバックアップを搭載しています。データの保護は電源障害に備えるうえでも重要で、キャッシュ内に存在しファイルシステムの書き込みによって変更
されているがディスクにはまだ反映されていないデータブロック (「ダーティ」データ) への対処が求められます。HP S
toreOnceの場合、こうした状況は通常キャッシュ内のコンテナーに追加された新しいチャンクという形で発生します。
電源が失われた場合は、コントローラーにより、キャッシュの内容がフラッシュ (不揮発性) メモリにコピーされます。
この際、キャッシュからフラッシュメモリにデータを転送するために必要な少量の電力は、スーパーキャパシターから
供給されます。フラッシュメモリはデータを保持するために電力を必要としません。電源障害からの復帰時には、フ
ラッシュメモリ上のデータがキャッシュに戻され、その後「ダーティ」ブロックがディスクに書き込まれます。スーパー
キャパシターは、予備のDC電源を提供する小型バッテリのような装置です。この方式は、キャッシュメモリのバック
アップシステムを維持するために充電式バッテリを使用する従来のテクノロジーよりも優れています。ただしバッテリ
電源は維持可能な時間が限られており、さらに充電式バッテリは時間の経過とともに劣化します。
図4. HP StoreOnce RAID
HP RAIDコントローラーによる継続的な表面検査
RAIDサブシステムに対する通常のデータの読み書きに加えて、HPのRAIDコントローラーは継続的なデータ整合性
チェックとしてバックグラウンドで表面検査を実施します。この手法は「スクラビング」とも呼ばれ、RAIDコントローラー
によるバックグラウンドプロセスとして、通常のI/O動作からは独立して実行されます。
前の段落で説明したとおり、RAID構成ではすべてのデータディスクにわたってデータが書き込まれ、2つのパリティ
ディスク上 (RAID 6構成の場合) にパリティデータが保持されています。表面検査では各ストライプが順番に読み取
られ、パリティ情報が再計算されます。次にパリティ情報が、読み出されたパリティデータと比較されて、データまた
はパリティ情報にエラーがないかどうかが検証され、エラーが検出された場合は「ストライプ」全体が再書き込みされ
ます。この処理は論理ボリュームレベルで実行され、通常の読み書き動作の方が常に優先されます。このチェック
7
テクニカルホワイトペーパー | HP StoreOnce重複排除のためのIntegrity Plus
機構は、各論理ボリューム内のすべてのデータを24時間ごとにスキャンするように設計されています。情報はStore
Onceシステムに渡されて、ソフトウェアによりエラー率が監視され、必要に応じてディスクドライブ交換のためのサー
ビスリクエストがトリガーされます。言うまでもなく、RAID構成内のすべてのディスクはオンラインのまま交換可能で
す。
このように、HP StoreOnceはディスクエラーの定期的な訂正もサポートしています。
個々のドライブにも継続的に動作するエラー訂正機構が組み込まれており、訂正可能なエラーについてもエラー率
の増加が監視されています。この手法は予防メンテナンスと呼ばれ、StoreOnceシステムによりアラートが生成され
るとともに、スケジュールされたメンテナンス時に交換するよう促すフラグがドライブに付加されます。
ホットスペア
大規模HP StoreOnceモデル (HP StoreOnce 4900およびHP StoreOnce 6500) には、「ホットスペア」ディスクドライ
ブが搭載されています。ドライブ障害が発生した場合には、RAIDコントローラーが通常の動作を継続しつつ、RAID
の一部となるようにホットスペアドライブを初期化します。故障したドライブは、システムの耐障害性を損なうことなく
日常のメンテナンス時に交換可能です。
マルチノードシステム内のHP RAIDコントローラー
HP StoreOnce 6500マルチノードシステムは、システム内の両ノードで共有されるファイルシステムを保有していま
す (図5参照)。各RAIDコントローラー上にはデュアルSASポートが存在し、6Gb/秒SASを介して各ディスクストレージ
ユニット (JBOD) へのデュアル接続が構築されます。この構成は高可用性の実現に不可欠です。このケースでは両
方のRAIDコントローラーが、キャッシュ内のどのブロックに「ダーティ」フラグが付加されているかを示すデータを保
持しています (ダーティとは、キャッシュ内で変更されたが物理ディスクにはまだ反映されていない状態を意味しま
す)。電源障害が発生した場合、あるいは一方のノードでハードウェア障害が発生した場合に、データの一貫性を維
持するためには、このライトバックキャッシュの「ミラー」を維持することが欠かせません。これはHP独自の機能で、コ
ントローラーがマスタースレーブモードで動作することにより高可用性を実現し、単一障害点を排除するとともに、万
一電源がすべて失われた場合にもデータの整合性を維持できます。StoreOnce 6500システムは、先進的なデータ
センター向けに、独立した個別の電源に接続可能なデュアル電源システムを搭載しています。
図5. HP StoreOnce 6500システム内のデュアルRAIDコントローラー
8
テクニカルホワイトペーパー | HP StoreOnce重複排除のためのIntegrity Plus
StoreOnce複製
HP StoreOnceシステムは、LANまたはWAN経由で別のStoreOnceシステムにバックアップを複製するように構成で
きます。この場合は、2台または3台 (StoreOnce Catalystの場合) のシステムがネットワークで接続されて、標準的
なTCP/IPプロトコルを使用してデータが送受信されます。StoreOnce複製は、重複排除されたデータストアの場合、
最初の同期以降は新しいデータ「チャンク」のみをWAN/LAN経由で送信すればよいという事実を利用しています。
帯域幅最適化と呼ばれるこの技法は、データの複製に要する帯域幅の低減を可能にします。HP StoreOnceはMD5
チェックサムを使用して、各データフレームのチェックサムを広範囲にわたって計算し、エラーが検出された場合はフ
レームを再送信します。WANリンク経由の場合は、ローカルエリアネットワークの場合ほど徹底したエラーチェックが
行われないため、この機能がとりわけ重要な意味を持ちます。
その他のStoreOnceアーキテクチャーの強み
StoreOnce 6500上で利用可能なHPマルチノードテクノロジーは、追加の障害対策を、より高度な冗長性と「自律的
フェイルオーバー」とともに提供します。
またシステム基盤として広範に使用されているHP ProLiantサーバーには洗練された監視機構が搭載されており、
重大化する前に問題を報告するためにHP StoreOnceテクノロジーによって使用されます。
まとめ
実績あるHPのハードウェアプラットフォームや研究所での徹底したテストなど、各種の手法を組み合わせて活用す
ることにより、HP StoreOnceシステムはデータのライフサイクル全体にわたる確実な保護をお客様に提供します。追
加のチェック手法は、破損したデータがホストサーバーに復元される危険性を大きく軽減します。HP StoreOnceには、
HPが設計したエンタープライズクラスのRAIDコントローラーやHP Smartメモリなど、データを安全かつ確実に保持す
るためのHP独自の機能が多数組み込まれています。
ここまでに見てきたとおり、HP StoreOnceテクノロジーはデータの整合性を維持するために多層的アプローチを採
用しており、データの取り込みからディスクへの保存、リストアに至るまで、データを継続的にチェックしています。こ
のアプローチにより、データエラーの確実な検出と訂正が可能になります。また、システムは電源障害からも適切に
復旧できるように設計されています。最新のサーバーおよびRAIDテクノロジーを洗練されたHP StoreOnce重複排
除とともに使用することで、お客様のデータは極めて安全に保護されます。
用語集
SHA-1ハッシュ関数
ハッシュ関数は、任意のデータ文字列に対して20バイトの一意の出力を生成する暗号関数です。オリジナルのハッ
シュコードからデータを再構築することはできないため、ハッシュ関数は一方向性関数と呼ばれます。ハッシュ関数
はデータセットに対して一意のデジタル署名を生成でき、非常に効率性が高いため、HP StoreOnceアプライアンス
での使用に適しています。ハッシュの「衝突」、すなわち異なるデータから同一のハッシュコードが生成される可能性
は極めて稀です。ハッシュ関数は最大2の64乗-1ビットの入力に対応できるため、「衝突」耐性が非常に優れていま
す。データとともに保管されているオリジナルのハッシュコードを、読み戻し時に計算されたハッシュコードと照合す
ることにより、整合性を確実に検証できます。
MD5ハッシュ関数
この関数はSHA-1ハッシュに似ていますが、128ビットの出力を生成し、衝突耐性はSHA-1に劣ります。しかしながら
MD5は高速で、StoreOnce内での保護対象である少量のデータ (メタデータおよびインデックス) を保護するような場
合は、SHA-1に比べて消費スペースを抑制しつつ必要な保護を提供できます。
ハッシュの「衝突」
衝突とは、2つの異なる入力データから同一のハッシュコードが生成されることを意味します。この状況は数学的に
は発生可能ですが、発生する可能性は極めて稀であり、宝くじに複数回当選するよりもはるかに低い確率です。一
例として、50の数字から6つの数字を予想する方式の一般的な国営宝くじでは、当選確率は1,400万分の1になりま
す。これに対してSHA-1ハッシュ衝突の発生確率は2の63乗分の1 (約9,000,000,000,000,000,000分の1) です。
CRC
CRCは巡回冗長検査 (Cyclical Redundancy Check) の略語で、ハッシュ関数に類似した固定バイト長の値を出力し
ます。ただしCRCには可逆性があり、すなわちCRCを使用してデータを再構築することが可能です。その一方CRC
チェックは、SHA-1/MD5ハッシュコードに比べてパフォーマンスに劣ります。StoreOnce VTを使用する場合は、読み
取られた各データブロックからCRCが再計算されて、データの書き込み前に計算されたオリジナルのCRCと比較さ
れます。
スーパーキャパシター
スーパーキャパシターは高密度の蓄電装置で、バッテリとキャパシター間のギャップを埋める存在です。この装置は
静電容量が大きく (最大2,000F)、従来のバッテリよりも充放電回数の寿命にも優れています。短期的な電力維持に
最適なスーパーキャパシターは、HP RAIDコントローラー内で使用されており、不揮発性フラッシュメモリへのコピー
が完了するまでの間キャッシュメモリRAMを維持できます。
9
テクニカルホワイトペーパー | HP StoreOnce重複排除のためのIntegrity Plus
StoreOnce Catalyst
HP StoreOnce Catalystは、単一の統合されたエンタープライズ規模の重複排除アルゴリズムを実現するというHP Store
Onceのビジョンに大きく貢献するソリューションです。HP StoreOnce Catalystを使用すると、企業全体にわたって、重複
排除されたデータを再構成することなく他のStoreOnce Catalystシステムにシームレスに移動することが可能になります。
HP StoreOnce Catalystは、バックアップサーバーへの接続に標準的なネットワーク接続を使用する一方で、バックアップ
アプリケーションに不可欠な「クライアント」アプリケーションプログラミングインターフェイス (API) を介した対話もサポート
しています。StoreOnce Catalystは、HP Data Protectorは言うまでもなく、Symantec社のBackup Exec/NetBackup用OS
Tプラグインとも連携可能です。Catalystは、バックアップサーバー上で重複排除ワークロードの一部を実行する独自の
機能を備えており、より帯域幅効率に優れた高速通信を実現できます。さらにStoreOnce Catalystは、Oracleユーザーに
よるCatalystストアへの直接的なバックアップもサポートしており、重複排除効率をより一層向上します。またCatalystは
バックアップソフトウェアからのコマンドを理解できるため、重複排除されたデータを再構成することなく他のStoreOnceシ
ステムに移動したり、期限切れのデータを自動的に削除したりすることも可能です。当然ながらデータの整合性も考慮さ
れており、総合的なエラーチェック機能により、Catalystは (国際的なリンクについても) WAN/LAN接続を介して運用可能
で、オペレーターの介入を必要とすることなくオフショアへのデータ移動を実現できます。
TTTD
HPが特許を取得しているこのテクノロジーは、取り込んだデータストリームを平均4KBの「チャンク」に分割するために使
用されます。TTTDは、「Two Thresholds Two Divisors (2つのしきい値と2つの除数)」の省略形で、データ「チャンク」の境
界をインテリジェントに決定します。後続のバックアップとバックアップの間にはバックアップセットの一部分だけが変更さ
れるため、重複排除効率を高めるうえでこのテクノロジーは非常に重要です。TTTDにより生成されるきめ細かいチャン
クは、パフォーマンスの向上に貢献します。
詳細はこちら
hp.com/go/storeonce
メールニュース配信登録
http://hp.com/go/getconnectedjp
同僚と共有
本書を評価してください
© Copyright 2014 Hewlett-Packard Development Company, L.P. 本書の内容は、将来予告なく変更されることがあります。HP製品および
サービスに対する保証については、当該製品およびサービスの保証規定書に記載されています。本書のいかなる内容も、新たな保証を追加す
るものではありません。本書の内容につきましては万全を期しておりますが、本書中の技術的あるいは校正上の誤り、省略に対しては責任を
負いかねますのでご了承ください。
Oracleは、Oracleおよびその関連会社の登録商標です。
4AA5-1935JPN、2014年4月

Download Report