Serviceguard Extension Faster Failover 及び Quorum Server

Serviceguard Extension
Faster Failover
及び
Quorum Server
~クラスタ再構成時間の
短縮テクニック~
日本ヒューレット・パッカード株式会社
Mission Critical Certified Center
2005年4月8日
大西 智成 / 滝谷 誠
© 2004 Hewlett-Packard Development Company, L.P.
The information contained herein is subject to change without notice
1
略称
本資料では、紙面の都合上により、以下の略称を使用させてい
ただきます。
•SG
Serviceguard
•SGeFF
Serviceguard Extension for Faster Faiover
•SGeRAC
Serviceguard Extension for RAC
© 2004 Hewlett-Packard Development Company, L.P.
2
2
Serviceguard Extension for
Faster Failover
© 2004 Hewlett-Packard Development Company, L.P.
3
3
製品概要
•
「Serviceguard Extension for Faster Failover
(SGeFF)」は、 Serviceguardクラスタの「クラスタ再
構成時間」を大幅に短縮する拡張製品。
•
「クラスタ再構成時間」の短縮により、フェイルオーバ
時間も短縮
•
最適化された環境においては、数秒
数秒程度の「クラスタ
数秒
再構成」を実現可能
© 2004 Hewlett-Packard Development Company, L.P.
4
Serviceguard Extension for Faster Failoverは、Serviceguardクラスタ(以後SGクラスタ)の「クラスタ
再構成時間」を大幅に短縮するserviceguardへの拡張製品です。略称は、SGeFFです。
「クラスタ再構成時間」を短縮することで、アプリケーションのフェイルオーバ時間を短縮することが可能
となります。最適化された環境においては、数秒
数秒程度の「クラスタ再構成」も実現可能です。
数秒
4
SGクラスタ再構成時間の変遷
ロックディスク
(FC)使用時
Quorum
Server
使用時
SGeFF
使用時
サービス中断/停止
一部サービス再開
SGクラスタ再構成時間
クラスタ再構成時間
その他
数十秒
数十秒
より高速に!
数秒
数秒
この時点で、サービ
ス完全回復
時間
ノード障害発生
© 2004 Hewlett-Packard Development Company, L.P.
5
SGクラスタで、Oracleデータベースを使用中にノード障害が発生した場合、データベースのサービスが
再開されるまでは、
• SGクラスタ再構成時間
• その他の時間
がかかることになります。SGeFFでは、この前者の「SGクラスタ再構成時間」を短縮します。
「SGクラスタ再構成時間」は、障害発生時、生き残らせるべきノードを判定するためにロック機能を使用
します。このロック機能をFibre Channelのディスク上にクラスタ・ロックディスクとして構築した時の 「SG
クラスタ再構成時間」は約数十秒でした。この時間が、SGeFFを使用し最適化することで、5秒程度まで
に短縮することが可能です。
「SGクラスタ再構成時間」は、HEARTBEAT_INTERVALとNODE_TIMEOUTで調整可能な、固定値です。
スライドに示した「その他の時間」ですが、Oracleを使用する場合、シングル・インスタンスとRACでその
内訳が異なります。シングル・シンスタンスの場合は、
• 共有ディスクの活性化
• Oracleの再起動
• Oracleのクラッシュ・リカバリ
などにかかる時間であり、Real Application Clusters(RAC)の場合であれば、
• リソース再構成
• Oracleのクラッシュ・リカバリ
となります。
5
SGクラスタ再構成時間の短縮方法
通常のFailoverプロセス
プロセス
通常の
Detection
Data integirty
(Acquisition of lock)
Election
Cluster membership
Cluster
Quiescomponent
cence
Recovery
pkg, slvm,..
SGeFF使用時の
使用時のFailoverプロセス
プロセス
使用時の
Data integirty
Cluster
Quies(Acquisition of
component
cence
Deteclock)
Recovery
tion
Cluster membership
pkg, slvm,..
SGクラスタ再構成時間
クラスタ再構成時間
© 2004 Hewlett-Packard Development Company, L.P.
6
スライドは、SGクラスタ再構成時間の短縮方法を簡単に示した図で、上がSG使用時のFailoverプロセ
ス、下がSGeFF使用時のFailoverプロセスです。
まず、Electionと呼ばれるプロセスで、どのノードが生き残っているか判定されるのですが、これは複雑
で何段階ものステップを繰り返す手順です。SGeFFではこの部分を安全な方法で削除しています。
また、Data Integrityと呼ばれるプロセスでは、クラスタがちょうど半分に分断された場合、どちらが生き
残るかを決定するためにロック機能が利用されます。このロック機能がクラスタ・ロックディスクの場合、
ロック獲得前にバスを物理的にリセットしますが、Quorum Serverを使用することでこのリセットをなくし、
時間短縮を実現しています。
これらの実装により、SGクラスタ再構成時間の短縮を実現しています。
6
SGeFFの動作環境
ハードウェア
HP 9000 サーバ
HP Integrity サーバ
HP-UX 11iv1(11.11) or HP-UX 11iv2(11.23)
Serviceguard A.11.16以降
Quorum Server A.02.00以降(無償)
ソフトウェア
(以下オプション)
Serviceguard Extension for RAC A.11.16以降
Serviceguard Manager A.04.00以降(無償)
© 2004 Hewlett-Packard Development Company, L.P.
7
SGeFFを動作させるために必要なハードウェア、ソフトウェアはスライドに示したとおりです。
SGeFFは最新のServiceguard 11.16以降で動作します。Serviceguard や SGeRAC がインストール
されていれば、それらが必要とする以上のメモリーやディスク空き領域は必要としません。
また、Serviceguard が使用するポート以外、SGeFF 独自にはポートを必要としません。ポートについ
ての詳細は、Serviceguard と Serviceguard Managerのリリースノートを参照してください。
7
Oracle使用時に必要となるソフトウェア
•
SGeFFは、SGに追加する製品体系
•
SGeFFは、 SGeRACとの併用も可能
Oracle RAC
Oracle
SGeFF
Serviceguard 11.16+
SGeFF
Quorum
Server
HP-UX 11.11/11.23
SGeRAC
Serviceguard 11.16+
Quorum
Server
HP-UX 11.11/11.23
シングル・インスタンスの場合
RACの場合
の場合
© 2004 Hewlett-Packard Development Company, L.P.
8
SGeFFは、HP-UX 11iv1 (11.11) 及び HP-UX 11iv2 (11.23)上のServiceguard 11.16以降で動作し
ます。
SGeFFは拡張製品ですので、Serviceguardに追加する形態となります。もちろんSGeRACとの併用も
可能です。
スライドでは、Oracleを使用する時に必要なソフトウェアの例を、シングル・インスタンス及びRACの場
合に分け、示しています。
後程説明いたしますが、SGクラスタとは別のサーバ上にQuorum Serverも必要です。
8
SGeFFでの制約
•
最大2ノードまで対応(2004/12現在)
•
Quorum Server使用
− 障害発生時、生き残らせるノードを判定するためクラスタ・ロッ
クディスクの代わりに、第3者ノードとしてQuorum Serverを設
置する必要がある
•
Dual Heartbeat(2系統以上のハートビート)
− 専用のハートビート回線である必要はない
− 専用でハートビート回線を設ける場合でも、スタンバイNICが
必須というわけではない
•
RACの場合は、SLVMを使用
© 2004 Hewlett-Packard Development Company, L.P.
9
制約については以下のとおりです。
SGeFFを用いたSGクラスタは、今のところ2ノードで構成する必要があります。このため、後でSGクラ
スタに第3ノードを追加する必要が生じた場合は、SGクラスタを停止させ、Faster Failover の機能を無
効にする必要があります。
障害発生時に生き残らせるべきノードを判定するためのロック機能としては、クラスタ・ロックディスクの
代わりにQuorum Serverを使用する必要があります。Quorum Serverは、SGクラスタ外のノードにイ
ンストールし、どちらのクラスタノードも、Quorum Serverに到達できるよう、データLAN上などに設置し
ます。できれば、Quorum Serverとクラスタは信頼性の高いネットワークで接続するようにしてください。
SGeFFを用いるには、ハートビートが少なくとも2つ以上構成されている必要があります。ただし、オー
ト・ポート・アグリゲーション(APA)を使って構成された単一のハートビートは、1 つと見なされます。ま
た、SGeFFを用いたSGクラスタでは、シリアル(RS232) リンクをハートビートとして使用することはでき
ません。
この時、専用のハートビート回線である必要はありません。例えば、データLANとRACのインターコネク
トのLANにそれぞれハートビートを流す方法が考えられます。又、専用でハートビート回線を設ける場
合、スタンバイNICが必須というわけでもありません。
最後にOracle RACと組み合わせて使用する場合ですが、、 Cluster Volume Manager(CVM)は、
SGeFFを用いたSGクラスタではサポートされていません。これは、CVMが、ハートビートネットワーク
が複数存在することを許していないためです。このため、SLVM (Shared Logical Volume Manager)を
使用する必要があります。
9
SGeFFでの設定方法
・FAILOVER_OPTIMIZATION(新パラメータ)
FAILOVER_OPTIMIZATION
TWO_NODE
・Dual Heartbeat設定の確認(既存パラメータ)
NODE_NAME
node1
NETWORK_INTERFACE
lan2
HEARTBEAT_IP
192.168.1.51 → ハートビート#1
NETWORK_INTERFACE
lan6
HEARTBEAT_IP
192.168.2.51 → ハートビート#2
・Quorum Server設定の確認(既存パラメータ)
QS_HOST
node3
QS_POLLING_INTERVAL
300000000
QS_TIMEOUT_EXTENSION
0
© 2004 Hewlett-Packard Development Company, L.P.
10
SGeFFの設定は、 Serviceguard 11.16の新パラメータ「FAILOVER_OPTIMIZATION」の設定及び、
従来からあるパラメータの設定確認だけとなります。これらの設定は、cluster_ASCII_fileで設定します。
「FAILOVER_OPTIMIZATION」には、”NONE”と “TWO_NODE”のどちらかの値を設定でき、SGeFF
を使用する場合はTWO_NODEを、使用しない場合はNONEを指定します。
また、前頁のとおり、Dual Heartbeat と Quorum Server がSGeFFの動作要件となっていますので、
その設定/確認をします。これは従来からあるパラメータで行い、その指定方法は従来のものと同じで
す。
Quorum Serverについては後述致します。
10
Quorum Server
© 2004 Hewlett-Packard Development Company, L.P.
11
11
Quorum Server製品概要
•
「HP Serviceguard Quorum Server」は、SGクラスタ
の「クラスタ再構成時間」を短縮する補完製品
•
Ethernet上のSGクラスタ外のマシン上で動作するデー
モンが、ロックディスクと同じ役割を担う
•
ロックディスクより、SGクラスタ再構成時間は短かい
© 2004 Hewlett-Packard Development Company, L.P.
12
HP Serviceguard Quosum ServerもSGクラスタのクラスタ再構成時間を短縮するための補完製品で
す。
Quorum Serverは、SGクラスタとTCP/IPで通信可能なマシン上で動作するデーモンであり、共有ディ
スク上に作成するロックディスクとまったく同じ役割を担います。
12
Quorum Serverはロック機能を提供
•
ロック機能はSGクラスタ障害時、適切なノードを生き
残らせるための判断手段
Quorum Serverを使用した構成
Quorum Server
Ethernet接続
SGクラスタ
クラスタ
役割は同じ
従来の構成(ロックディスク使用)
FibreChannel接続
SGクラスタ
クラスタ
© 2004 Hewlett-Packard Development Company, L.P.
ロックディスク
13
13
ロック・メカニズム概要
ノード1
SGクラスタ
クラスタ
ノード障害発生
(ノード停止)
ノード2
時 間経 過
• ノード1の状態確認が
出来ない。
- ノード停止?
- 通信回線全滅?
• ノード2が生き残る事を
通達
ロックディスク
又は Quorum Server
ノード1 通知無し
ノード2 通知有り
• ノード1からの割り込み
が無い事を確認(生存
の権限取得)
• 権限取得後、ノード2の
みでクラスタ再構成
© 2004 Hewlett-Packard Development Company, L.P.
14
ロック・メカニズムです。
14
Quorum Serverとロックディスクの比較(1)
Quorum Server
ロックディスク
仕組み
SGクラスタ外のサーバ上の
デーモンと、ネットワーク通
信(TCP/IP)
物理的に共有されたディスク
(LVMボリュームグループ)へ
の書き込みによる通信
クラスタ・ロック
取得に要する
時間
数秒
10秒から32秒
対応クラスタ数
最大50クラスタ、もしくは最
大100ノードになるまで対応
最大1クラスタ
ロック機能障害
時のSGクラス 継続稼動
タの動作
継続稼動
© 2004 Hewlett-Packard Development Company, L.P.
15
Quorum Serverとロックディスクの比較表です。
15
Quorum Serverとロックディスクの比較(2)
ロックディスク
Quorum Server
SGクラスタを停止させずに
Quorum Serverを交換可能
ロック機能障害
への対応
ディスクアレイ装置の修復
Quorum ServerをSGクラス
タ化することも可能
メモリ
必要リソース
: 7MB
ディスク : 1MB
※ アプリサーバ等とのサーバの兼
用可能)
無償
ライセンス費用 ※ ソフトウェアはSG付録CDROM
数KB
※ ユーザデータエリア以外使用のた
めユーザデータと兼用可能
HP-UXバンドル
やWebから入手可能)
© 2004 Hewlett-Packard Development Company, L.P.
16
比較表その2です。
Quorum Serverに障害が発生しても、SGクラスタはタイブレーカとしてのロック機能は失いますが、SG
クラスタ自身は停止しません。また、Quorum Serverを再起動すれば、SGクラスタは自動的に
Quorum Serverを認識し、ロック機能が復旧します。
Quorum ServerのSGクラスタ化を行うことも可能です。
Quorum Server は無償の製品であり、Serviceguard Distributed Components CD に入っています。
また、http://www.software.hp.com からも無償でダウンロードできます。詳細については、Distributed
Components CD またはhttp://docs.hp.com/ja の[ ハイアベイラビリティ] にある、Quorum Server の
リリースノートを参照してください
16
Quorum Sever A.02.00システム要件
HP-UX 11.0/11.11/11.23
OS
Red Hat Linuxバージョン 7.1以降 (カーネル
2.4.2以降)
Serviceguard 11.13以降
対応クラスタ
補足事項
※Serviceguardの現在の最新バージョンは11.16です。
※Serviceguard
Extension for RACも対応します。
※Serviceguard
Extension for Faster Failoverでは必須です。
Quorum Server A.02.00から、HP-UX及び
Linuxで稼動するSGクラスタ、どちらにも対応し
ます。
© 2004 Hewlett-Packard Development Company, L.P.
17
Quorum Server A.02.00でのシステム要件です。
OS、対応クラスタはスライドのとおりです。
Quorum Server A.02.00には、HP-UX版/Linux版の2つが存在します。HP-UX版のQuorum Server
は、HP-UX上のSGクラスタはもちろん、Linux上のSGクラスタ用にも使用できます。また、Linux版の
Quorum ServerもHP-UX/Linux用のSGクラスタどちらでも使用可能です。
また、Quorum Serverによる負荷はまったくありませんので、アプリケーションサーバや管理コンソール
などにインストールして使用することも可能です。
17
Quorum Server構成例
SGハートビート#1
(192.168.1.0)
ノード1
アプリケーションサーバ
接続ネットワーク
172.168.5.0
SGハートビート#2
(192.168.2.0)
ノード2
ノード3
SGクラスタ
クラスタ
補足
例では、SGハートビートは2系統に流し
ていますので、各系統のNICの冗長化
は行っていません。
アプリケーションサーバ
兼Quorum Server
© 2004 Hewlett-Packard Development Company, L.P.
SGハートビート以外のネッ
ハートビート以外のネッ
トワークにQuorum
Server
トワークに
を配置(推奨)
18
スライドの構成例では、アプリケーション・サーバに Quorum Serverを配置、SGハートビートを2系統に
流し、その各系統のNICの冗長化は行っていません。
Quorum Serverのロック機能が必要となる場合は、SGクラスタ内のノード障害やSGハートビートが全
滅した場合です。このため、 必要な時に必要な機能を提供できるように、Quorum ServerをSGハート
ビート以外のネットワークに配置することを推奨します。Quorum ServerをSGハートビートが流れるネッ
トワークに流すこともサポートされていますが、この場合は、ノード障害の時のみ、Quorum Serverが
使用されることになります。
18
Quorum Server 構築
HP-UXの場合
の場合
1.Quorum Serverソフトウェアをインストール
2.qs_authfile(SGクラスタノード登録ファイル)の作成
# mkdir –p /etc/cmcluster
# vi /etc/cmcluster/qs_authfile
192.168.5.51 (SGクラスタノード)
192.168.5.52 (SGクラスタノード)
3.Quorum Server自動起動・再起動設定(/etc/inittab編集)
(最終行に以下の1行を追加します。)
qs:3:respawn:/usr/lbin/qs >> /etc/cmcluster/qs.log 2>&1
4.Quorum Server起動
# init q
5.ログファイル“/etc/cmcluster/qs.log”を見て起動を確認
© 2004 Hewlett-Packard Development Company, L.P.
19
19
SGeFF/9iRAC
構築・運用
© 2004 Hewlett-Packard Development Company, L.P.
20
ここでは、SGeFFと 9iRACでの構築、運用方法について説明いたします。
20
1.SGeFF/9iRACでのネットワーク構成
•
アプリケーションサーバと接続するネットワーク以外に、
以下のネットワークが必要
① Oracle9iRAC GCS通信線
・・・ 冗長化必要
② SGハートビート#1
・・・ 冗長化不要
③ SGハートビート#2
・・・ 冗長化不要
※ ①、②のネットワークは兼用可能です。
© 2004 Hewlett-Packard Development Company, L.P.
21
SGeFF及びOracle9i RACでは、環境を構築するために必要なネットワークがそれぞれ存在します。
Oracle9i RACでは、Global Cache Server(すなわちキャッシュ・フュージョン)に使用されるGCS通信
線が必要で、できる限り高速なネットワークが望ましいといえます。ただし、OS側で冗長化の機能を提
供する必要があります。
SGeFFでは、前述のとおり、Dual Heartbeat(2系統のハートビート)の構成が必要となります。ただし、
ネットワーク・トラフィックはそれ程多くはありませんし、2本のハートビートにより冗長化されているため、
それぞれを冗長化する必要はありません。
以上より、アプリケーション・サーバと接続するネットワーク以外に、スライドの記述のとおり最低3つの
ネットワーク(NICは4つ)が必要となります。あるいは、GCS通信線とSGハートビートは兼用可能です
ので、最低2つのネットワーク(NICは3つ)でも構築可能です。
21
2. SGeFF/9iRACでの構成例
SGeFF構成の
構成のSGハートビート
構成の ハートビート#1に
ハートビート に
RAC-GCS通信を併用し、かつ冗長化
通信を併用し、かつ冗長化
①RAC-GCS
②SGハート ビート#1
(192.168.1.0)
ノード1
アプリケーションサーバ
接続ネットワーク
172.168.5.0
③SGハートビート#2
(192.168.2.0)
ノード2
ノード3
SGクラスタ
アプリケーションサーバ
兼Quorum Server
© 2004 Hewlett-Packard Development Company, L.P.
22
このスライドは、先ほどの必要なネットワークを図解したものです。
Quorum Serverは、SGハートビートと異なるネットワークに配置しています。
22
3. SGeFF/9iRACでの構築
• 従来のSG/9iRACの構築とほぼ同じ
1.Quorum Server構築
2./etc/hostsやDNSにQuorum Serverを登録
3.共有ディスク領域作成(SLVM)
4.SGクラスタ作成
5.Oracle9iRACインストール 唯一の違いはこの一部
6.データベース作成
7.データベースインスタンス・SGパッケージ作成
© 2004 Hewlett-Packard Development Company, L.P.
23
SGeFFと9iRACでの構築は、従来のSG/9iRACでの構築とほとんど変わりません。唯一の違いは、
SGクラスタを作成する時に「FAILOVER_OPTIMIZATION = TWO_NODE」と指定するだけです。
23
SGクラスタ構築(従来との違い)
SGクラスタ設定ファイル(/etc/cmcluster/cluster.ascii)
途中省略
# You must halt the cluster to change FAILOVER_OPTIMIZATION
# parameter.
#
# To enable Failover Optimization, set FAILOVER_OPTIMIZATION
# to TWO_NODE.
# The default is NONE.
#
# FAILOVER_OPTIMIZATION <NONE/TWO_NODE>
FAILOVER_OPTIMIZATION TWO_NODE SGeFF新規パラメータ
TWO_NODEに設定
に設定
© 2004 Hewlett-Packard Development Company, L.P.
24
SGクラスタの構築は従来と同じ方法で可能です。
-SGクラスタ設定ファイルの抽出
# cmquerycl –v [–k] –C cluster.ascii –n node1 –n node2 –q node3
-SGクラスタの作成
# cmapplyconf [–k] –C cluster.ascii
24
SGクラスタ構築(その他、注意点)
途中省略
既存パラメータの変更・確認部分
Quorum Serverの設定
の設定
Quorum Serverの追加タイ
の追加タイ
ムアウト無し
QuorumSrerver設定箇所
QS_HOST
node3
QS_POLLING_INTERVAL 300000000
QS_TIMEOUT_EXTENSION 0 Quorum Serverのタイムアウト拡張設定(推奨0)
途中省略
デュアル・ハートビート必須
NODE_NAME
node1
NETWORK_INTERFACE lan2
HEARTBEAT_IP
192.168.1.51 SGハートビート#1兼RAC-GCS(スタンバイ lan4)
NETWORK_INTERFACE lan4
NETWORK_INTERFACE lan6
HEARTBEAT_IP
192.168.2.51 SGハートビート#2(スタンバイ無し)
※node2側も同様に2つのHEARTBEAT_IPを設定します。
© 2004 Hewlett-Packard Development Company, L.P.
25
25
DBインスタンス・SGパッケージの作成
•
従来のSG/9iRAC構成と同じ
DBインスタンス
SGパッケージ
“DB1”
IP
リス
ナー DB UP
ノード1
DBインスタンス
SGパッケージ
“DB2”
IP
リス
ナー DB
UP
ノード2
※DBプロセスの異常終了、アプリケーションサーバ接続ネットワークのSUBENTダ
ウンを検知した場合、このSGパッケージはDBを自動的に停止させます。
© 2004 Hewlett-Packard Development Company, L.P.
26
SGのパッケージの構築方法についても、従来のものと異なる点はありません。
SGパッケージには、Relocaltable IPを割り振り、リスナーやDBの起動を行なわせます。また、監視とし
て、DBのプロセス監視や必要であればSUBNET監視を行なわせます。(このパッケージを、ここでは
「DBインスタンス・SGパッケージ」と呼んでいます。 )
この「DBインスタンス・SGパッケージ」の構築については、別製品Enterprise Cluster Master Toolkit
の購入することで、簡単に作成出来ます(スクリプト、設定ファイルサンプルが付いています)。
26
4. SGeFF/9iRACでの運用
従来のSG/9iRACの構築と同じ
© 2004 Hewlett-Packard Development Company, L.P.
27
運用についても、従来のものと異なる点はありません。
以上のように、SGeFF/9iRACの構築は、従来のSGクラスタを構築することが可能であれば、特に難し
い部分があるわけというわけではなく、簡単に行えることがおわかり頂けるかと思います。
27
検証
© 2004 Hewlett-Packard Development Company, L.P.
28
SGeFF使用時におけるSGクラスタ再構成時間の検証結果です。
28
検証環境
クライアント兼
Quorum Server
SGクラスタ
クラスタ
マシン
: rx2600 × 2
(1.5GHz, 4GB メモリ)
ディスク
: EVA5000
(36GB×28)
OS
: HP-UX 11.23
SG
: A.11.16.00
SGeRAC
: A.11.16.00
RAC Node1rx2600
SGeFF
: A.01.00.00
ボリューム・グループ数
:2
Ethernet Switch
rx2600
ch
Swtttii tiiccchhh
rkssssLLLLooooooooppppSSSwww
geWo
ragggeee
to
pSooo
hhhhpppSSS
WWWooorrrkkk
tttrrraaa
opSSSSwwwwtttii tiicccchhhh
sLoooooooppp
WrrrrkkkksssLLL
to
hhhhppppSSSSooo
WoWoo
tttrrrraaaaggggeeeeWo
FC Switch
クラインアト兼Quorum
Server
クラインアト兼
マシン
Quorum Server
: rp2430
(1.0GHz, 4GB メモリ)
: A.02.00.00
EVA5000
Oracle
Oracle E.E.
SGA
DB容量
: 9.2.0.5 or 10.1.0.2
: 約2GB
: 約30GB
© 2004 Hewlett-Packard Development Company, L.P.
29
検証環境です。
なお、この資料には記述をしていませんが、PA-RISCを搭載したHP9000サーバでも同様の検証を実
施しています。
29
リカバリ開始までの時間
SGeFF +
9i SI
5秒
5秒
3秒
3秒 11
13秒
13秒
→リカバリ
SGeFF +
10g SI
5秒
5秒
3秒
3秒 11
13秒
13秒
→リカバリ
SGクラスタ再構成時間
クラスタ再構成時間
SGeFF +
9i RAC
5秒
5秒
2秒
2秒 11 →リカバリ
ボリューム・アクティベート
/マウント時間
マウント時間
リスナー起動
DB起動時間
起動時間
ノード障害発生
時間
リソース再構成
© 2004 Hewlett-Packard Development Company, L.P.
30
障害発生からリカバリが開始するまでの時間です。
まず、SGeFFとOracle9iシングル・インスタンス(SI)の組み合わせの場合をみてみます。この場合、デフォ
ルトの設定では、
SGクラスタ再構成時間
5秒
ボリューム・アクティベート/
マウントまでの時間
3秒
リスナー再起動時間
1秒
DB再起動時間
13秒
の合計22秒後にリカバリが開始されています。ここで、ボリューム・アクティベート/マウントまでの時
間は、ボリューム・グループの数やディスクの種類に依存して変化しますし、ファイルシステムのかわり
にRAWデバイスを使用した場合は、マウントの時間がなくなります。
(なお、ボリューム・グループのアクティベートは並列に実行可能です。)
また、DB再起動時間ですが、こちらの時間は SGA の大きさに依存します。例えば、db_cache_sizeな
どの値が小さければ、それだけ時間は短くなります。
これは、SGeFF と Oracle Database 10gでのシングル・インスタンスでも同じです。
SGeFF と Oracle9i RACの場合は、シングル・インスタンスの時とは異なり、 SGクラスタ再構成時間、ボ
リューム・アクティベート/マウントまでの時間、DBの再起動の時間がなくなり、その分、時間が短縮さ
れます。また、今回の検証環境ではRAC のリソース再構成は1秒程度となり、より高速な結果となって
います。
なお、9iRACでは、SGクラスタの再構成が終了してから、約2秒後にリソース再構成が開始されていま
す。また、RAC 10gとの組み合わせについては、検証中です。
30
syslog
22:09:16 に rx1でノード障害発生
でノード障害発生
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
Dec
障害発生
2 22:09:18 rx2 cmcld: Timed out node rx1. It may have failed.
2 22:09:18 rx2 cmcld: Attempting to form a new cluster
2 22:09:18 rx2 cmcld: Beginning optimized election
2 22:09:18 rx2 cmcld: Obtaining Cluster Lock, sequence = 1
2 22:09:18 rx2 cmcld: Attempting to get lock /sg/cluster1. Lock applicants: rx2
2 22:09:18 rx2 cmcld: Attempt to get lock /sg/cluster1 successful. Lock applicants: rx2
2 22:09:18 rx2 cmcld: Turning off safety time protection since the cluster
2 22:09:18 rx2 cmcld: may now consist of a single node. If Serviceguard
2 22:09:18 rx2 cmcld: fails, this node will not automatically halt
2 22:09:18 rx2 cmcld: This will not affect the behavior of Package Failfast
2 22:09:18 rx2 cmcld: or Service Failfast. If such a package or service fails,
2 22:09:18 rx2 cmcld: safety timer will be re-enabled and this node will
2 22:09:18 rx2 cmcld: automatically halt.
2 22:09:19 rx2 cmclconfd[2764]: Updated file /var/adm/cmcluster/frdump.cmcld.7 for node rx2 (length = 512096).
2 22:09:21 rx2 cmcld: 1 nodes have formed a new cluster, sequence #2
2 22:09:21 rx2 cmcld: The new active cluster membership is: rx2(id=2)
2 22:09:21 rx2 cmcld: One of the nodes is down.
2 22:09:21 rx2 cmcld: Request from node rx2 to start package tpcb1 on node rx2.
2 22:09:21 rx2 cmcld: Executing '/etc/cmcluster/tpcb1/tpcb1.ctl start' for package tpcb1, as service PKG*37377.
2 22:09:22 rx2 LVM[3396]: vgchange -a e /dev/fs_vg_mccc_0
2 22:09:22 rx2 LVM[3405]: vgchange -a e /dev/fs_vg_mccc_1
2 22:09:23 rx2 CM-tpcb1[3476]: cmmodnet -a -i 192.168.5.59 192.168.5.0
5秒
SGクラスタ再構成終了
クラスタ再構成終了
ボリューム・アクティベー
ト終了
© 2004 Hewlett-Packard Development Company, L.P.
31
ここで起こした擬似障害はノードrx1でのリセットであり、その時のsyslog.logを示します。
31
まとめ
© 2004 Hewlett-Packard Development Company, L.P.
32
まとめです。
32
まとめ
•
「Serviceguard Extension for Faster Failover
(SGeFF)」での「クラスタ再構成時間」は非常に高速
•
設定は非常に簡単。 新パラメータ
FAILOVER_OPTIMIZATION = TWO_NODE
のみ
•
SGeFFには、Quorum Server及びDual Heartbeatが
必要
© 2004 Hewlett-Packard Development Company, L.P.
33
33
34