Serviceguard Extension Faster Failover 及び Quorum Server ~クラスタ再構成時間の 短縮テクニック~ 日本ヒューレット・パッカード株式会社 Mission Critical Certified Center 2005年4月8日 大西 智成 / 滝谷 誠 © 2004 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice 1 略称 本資料では、紙面の都合上により、以下の略称を使用させてい ただきます。 •SG Serviceguard •SGeFF Serviceguard Extension for Faster Faiover •SGeRAC Serviceguard Extension for RAC © 2004 Hewlett-Packard Development Company, L.P. 2 2 Serviceguard Extension for Faster Failover © 2004 Hewlett-Packard Development Company, L.P. 3 3 製品概要 • 「Serviceguard Extension for Faster Failover (SGeFF)」は、 Serviceguardクラスタの「クラスタ再 構成時間」を大幅に短縮する拡張製品。 • 「クラスタ再構成時間」の短縮により、フェイルオーバ 時間も短縮 • 最適化された環境においては、数秒 数秒程度の「クラスタ 数秒 再構成」を実現可能 © 2004 Hewlett-Packard Development Company, L.P. 4 Serviceguard Extension for Faster Failoverは、Serviceguardクラスタ(以後SGクラスタ)の「クラスタ 再構成時間」を大幅に短縮するserviceguardへの拡張製品です。略称は、SGeFFです。 「クラスタ再構成時間」を短縮することで、アプリケーションのフェイルオーバ時間を短縮することが可能 となります。最適化された環境においては、数秒 数秒程度の「クラスタ再構成」も実現可能です。 数秒 4 SGクラスタ再構成時間の変遷 ロックディスク (FC)使用時 Quorum Server 使用時 SGeFF 使用時 サービス中断/停止 一部サービス再開 SGクラスタ再構成時間 クラスタ再構成時間 その他 数十秒 数十秒 より高速に! 数秒 数秒 この時点で、サービ ス完全回復 時間 ノード障害発生 © 2004 Hewlett-Packard Development Company, L.P. 5 SGクラスタで、Oracleデータベースを使用中にノード障害が発生した場合、データベースのサービスが 再開されるまでは、 • SGクラスタ再構成時間 • その他の時間 がかかることになります。SGeFFでは、この前者の「SGクラスタ再構成時間」を短縮します。 「SGクラスタ再構成時間」は、障害発生時、生き残らせるべきノードを判定するためにロック機能を使用 します。このロック機能をFibre Channelのディスク上にクラスタ・ロックディスクとして構築した時の 「SG クラスタ再構成時間」は約数十秒でした。この時間が、SGeFFを使用し最適化することで、5秒程度まで に短縮することが可能です。 「SGクラスタ再構成時間」は、HEARTBEAT_INTERVALとNODE_TIMEOUTで調整可能な、固定値です。 スライドに示した「その他の時間」ですが、Oracleを使用する場合、シングル・インスタンスとRACでその 内訳が異なります。シングル・シンスタンスの場合は、 • 共有ディスクの活性化 • Oracleの再起動 • Oracleのクラッシュ・リカバリ などにかかる時間であり、Real Application Clusters(RAC)の場合であれば、 • リソース再構成 • Oracleのクラッシュ・リカバリ となります。 5 SGクラスタ再構成時間の短縮方法 通常のFailoverプロセス プロセス 通常の Detection Data integirty (Acquisition of lock) Election Cluster membership Cluster Quiescomponent cence Recovery pkg, slvm,.. SGeFF使用時の 使用時のFailoverプロセス プロセス 使用時の Data integirty Cluster Quies(Acquisition of component cence Deteclock) Recovery tion Cluster membership pkg, slvm,.. SGクラスタ再構成時間 クラスタ再構成時間 © 2004 Hewlett-Packard Development Company, L.P. 6 スライドは、SGクラスタ再構成時間の短縮方法を簡単に示した図で、上がSG使用時のFailoverプロセ ス、下がSGeFF使用時のFailoverプロセスです。 まず、Electionと呼ばれるプロセスで、どのノードが生き残っているか判定されるのですが、これは複雑 で何段階ものステップを繰り返す手順です。SGeFFではこの部分を安全な方法で削除しています。 また、Data Integrityと呼ばれるプロセスでは、クラスタがちょうど半分に分断された場合、どちらが生き 残るかを決定するためにロック機能が利用されます。このロック機能がクラスタ・ロックディスクの場合、 ロック獲得前にバスを物理的にリセットしますが、Quorum Serverを使用することでこのリセットをなくし、 時間短縮を実現しています。 これらの実装により、SGクラスタ再構成時間の短縮を実現しています。 6 SGeFFの動作環境 ハードウェア HP 9000 サーバ HP Integrity サーバ HP-UX 11iv1(11.11) or HP-UX 11iv2(11.23) Serviceguard A.11.16以降 Quorum Server A.02.00以降(無償) ソフトウェア (以下オプション) Serviceguard Extension for RAC A.11.16以降 Serviceguard Manager A.04.00以降(無償) © 2004 Hewlett-Packard Development Company, L.P. 7 SGeFFを動作させるために必要なハードウェア、ソフトウェアはスライドに示したとおりです。 SGeFFは最新のServiceguard 11.16以降で動作します。Serviceguard や SGeRAC がインストール されていれば、それらが必要とする以上のメモリーやディスク空き領域は必要としません。 また、Serviceguard が使用するポート以外、SGeFF 独自にはポートを必要としません。ポートについ ての詳細は、Serviceguard と Serviceguard Managerのリリースノートを参照してください。 7 Oracle使用時に必要となるソフトウェア • SGeFFは、SGに追加する製品体系 • SGeFFは、 SGeRACとの併用も可能 Oracle RAC Oracle SGeFF Serviceguard 11.16+ SGeFF Quorum Server HP-UX 11.11/11.23 SGeRAC Serviceguard 11.16+ Quorum Server HP-UX 11.11/11.23 シングル・インスタンスの場合 RACの場合 の場合 © 2004 Hewlett-Packard Development Company, L.P. 8 SGeFFは、HP-UX 11iv1 (11.11) 及び HP-UX 11iv2 (11.23)上のServiceguard 11.16以降で動作し ます。 SGeFFは拡張製品ですので、Serviceguardに追加する形態となります。もちろんSGeRACとの併用も 可能です。 スライドでは、Oracleを使用する時に必要なソフトウェアの例を、シングル・インスタンス及びRACの場 合に分け、示しています。 後程説明いたしますが、SGクラスタとは別のサーバ上にQuorum Serverも必要です。 8 SGeFFでの制約 • 最大2ノードまで対応(2004/12現在) • Quorum Server使用 − 障害発生時、生き残らせるノードを判定するためクラスタ・ロッ クディスクの代わりに、第3者ノードとしてQuorum Serverを設 置する必要がある • Dual Heartbeat(2系統以上のハートビート) − 専用のハートビート回線である必要はない − 専用でハートビート回線を設ける場合でも、スタンバイNICが 必須というわけではない • RACの場合は、SLVMを使用 © 2004 Hewlett-Packard Development Company, L.P. 9 制約については以下のとおりです。 SGeFFを用いたSGクラスタは、今のところ2ノードで構成する必要があります。このため、後でSGクラ スタに第3ノードを追加する必要が生じた場合は、SGクラスタを停止させ、Faster Failover の機能を無 効にする必要があります。 障害発生時に生き残らせるべきノードを判定するためのロック機能としては、クラスタ・ロックディスクの 代わりにQuorum Serverを使用する必要があります。Quorum Serverは、SGクラスタ外のノードにイ ンストールし、どちらのクラスタノードも、Quorum Serverに到達できるよう、データLAN上などに設置し ます。できれば、Quorum Serverとクラスタは信頼性の高いネットワークで接続するようにしてください。 SGeFFを用いるには、ハートビートが少なくとも2つ以上構成されている必要があります。ただし、オー ト・ポート・アグリゲーション(APA)を使って構成された単一のハートビートは、1 つと見なされます。ま た、SGeFFを用いたSGクラスタでは、シリアル(RS232) リンクをハートビートとして使用することはでき ません。 この時、専用のハートビート回線である必要はありません。例えば、データLANとRACのインターコネク トのLANにそれぞれハートビートを流す方法が考えられます。又、専用でハートビート回線を設ける場 合、スタンバイNICが必須というわけでもありません。 最後にOracle RACと組み合わせて使用する場合ですが、、 Cluster Volume Manager(CVM)は、 SGeFFを用いたSGクラスタではサポートされていません。これは、CVMが、ハートビートネットワーク が複数存在することを許していないためです。このため、SLVM (Shared Logical Volume Manager)を 使用する必要があります。 9 SGeFFでの設定方法 ・FAILOVER_OPTIMIZATION(新パラメータ) FAILOVER_OPTIMIZATION TWO_NODE ・Dual Heartbeat設定の確認(既存パラメータ) NODE_NAME node1 NETWORK_INTERFACE lan2 HEARTBEAT_IP 192.168.1.51 → ハートビート#1 NETWORK_INTERFACE lan6 HEARTBEAT_IP 192.168.2.51 → ハートビート#2 ・Quorum Server設定の確認(既存パラメータ) QS_HOST node3 QS_POLLING_INTERVAL 300000000 QS_TIMEOUT_EXTENSION 0 © 2004 Hewlett-Packard Development Company, L.P. 10 SGeFFの設定は、 Serviceguard 11.16の新パラメータ「FAILOVER_OPTIMIZATION」の設定及び、 従来からあるパラメータの設定確認だけとなります。これらの設定は、cluster_ASCII_fileで設定します。 「FAILOVER_OPTIMIZATION」には、”NONE”と “TWO_NODE”のどちらかの値を設定でき、SGeFF を使用する場合はTWO_NODEを、使用しない場合はNONEを指定します。 また、前頁のとおり、Dual Heartbeat と Quorum Server がSGeFFの動作要件となっていますので、 その設定/確認をします。これは従来からあるパラメータで行い、その指定方法は従来のものと同じで す。 Quorum Serverについては後述致します。 10 Quorum Server © 2004 Hewlett-Packard Development Company, L.P. 11 11 Quorum Server製品概要 • 「HP Serviceguard Quorum Server」は、SGクラスタ の「クラスタ再構成時間」を短縮する補完製品 • Ethernet上のSGクラスタ外のマシン上で動作するデー モンが、ロックディスクと同じ役割を担う • ロックディスクより、SGクラスタ再構成時間は短かい © 2004 Hewlett-Packard Development Company, L.P. 12 HP Serviceguard Quosum ServerもSGクラスタのクラスタ再構成時間を短縮するための補完製品で す。 Quorum Serverは、SGクラスタとTCP/IPで通信可能なマシン上で動作するデーモンであり、共有ディ スク上に作成するロックディスクとまったく同じ役割を担います。 12 Quorum Serverはロック機能を提供 • ロック機能はSGクラスタ障害時、適切なノードを生き 残らせるための判断手段 Quorum Serverを使用した構成 Quorum Server Ethernet接続 SGクラスタ クラスタ 役割は同じ 従来の構成(ロックディスク使用) FibreChannel接続 SGクラスタ クラスタ © 2004 Hewlett-Packard Development Company, L.P. ロックディスク 13 13 ロック・メカニズム概要 ノード1 SGクラスタ クラスタ ノード障害発生 (ノード停止) ノード2 時 間経 過 • ノード1の状態確認が 出来ない。 - ノード停止? - 通信回線全滅? • ノード2が生き残る事を 通達 ロックディスク 又は Quorum Server ノード1 通知無し ノード2 通知有り • ノード1からの割り込み が無い事を確認(生存 の権限取得) • 権限取得後、ノード2の みでクラスタ再構成 © 2004 Hewlett-Packard Development Company, L.P. 14 ロック・メカニズムです。 14 Quorum Serverとロックディスクの比較(1) Quorum Server ロックディスク 仕組み SGクラスタ外のサーバ上の デーモンと、ネットワーク通 信(TCP/IP) 物理的に共有されたディスク (LVMボリュームグループ)へ の書き込みによる通信 クラスタ・ロック 取得に要する 時間 数秒 10秒から32秒 対応クラスタ数 最大50クラスタ、もしくは最 大100ノードになるまで対応 最大1クラスタ ロック機能障害 時のSGクラス 継続稼動 タの動作 継続稼動 © 2004 Hewlett-Packard Development Company, L.P. 15 Quorum Serverとロックディスクの比較表です。 15 Quorum Serverとロックディスクの比較(2) ロックディスク Quorum Server SGクラスタを停止させずに Quorum Serverを交換可能 ロック機能障害 への対応 ディスクアレイ装置の修復 Quorum ServerをSGクラス タ化することも可能 メモリ 必要リソース : 7MB ディスク : 1MB ※ アプリサーバ等とのサーバの兼 用可能) 無償 ライセンス費用 ※ ソフトウェアはSG付録CDROM 数KB ※ ユーザデータエリア以外使用のた めユーザデータと兼用可能 HP-UXバンドル やWebから入手可能) © 2004 Hewlett-Packard Development Company, L.P. 16 比較表その2です。 Quorum Serverに障害が発生しても、SGクラスタはタイブレーカとしてのロック機能は失いますが、SG クラスタ自身は停止しません。また、Quorum Serverを再起動すれば、SGクラスタは自動的に Quorum Serverを認識し、ロック機能が復旧します。 Quorum ServerのSGクラスタ化を行うことも可能です。 Quorum Server は無償の製品であり、Serviceguard Distributed Components CD に入っています。 また、http://www.software.hp.com からも無償でダウンロードできます。詳細については、Distributed Components CD またはhttp://docs.hp.com/ja の[ ハイアベイラビリティ] にある、Quorum Server の リリースノートを参照してください 16 Quorum Sever A.02.00システム要件 HP-UX 11.0/11.11/11.23 OS Red Hat Linuxバージョン 7.1以降 (カーネル 2.4.2以降) Serviceguard 11.13以降 対応クラスタ 補足事項 ※Serviceguardの現在の最新バージョンは11.16です。 ※Serviceguard Extension for RACも対応します。 ※Serviceguard Extension for Faster Failoverでは必須です。 Quorum Server A.02.00から、HP-UX及び Linuxで稼動するSGクラスタ、どちらにも対応し ます。 © 2004 Hewlett-Packard Development Company, L.P. 17 Quorum Server A.02.00でのシステム要件です。 OS、対応クラスタはスライドのとおりです。 Quorum Server A.02.00には、HP-UX版/Linux版の2つが存在します。HP-UX版のQuorum Server は、HP-UX上のSGクラスタはもちろん、Linux上のSGクラスタ用にも使用できます。また、Linux版の Quorum ServerもHP-UX/Linux用のSGクラスタどちらでも使用可能です。 また、Quorum Serverによる負荷はまったくありませんので、アプリケーションサーバや管理コンソール などにインストールして使用することも可能です。 17 Quorum Server構成例 SGハートビート#1 (192.168.1.0) ノード1 アプリケーションサーバ 接続ネットワーク 172.168.5.0 SGハートビート#2 (192.168.2.0) ノード2 ノード3 SGクラスタ クラスタ 補足 例では、SGハートビートは2系統に流し ていますので、各系統のNICの冗長化 は行っていません。 アプリケーションサーバ 兼Quorum Server © 2004 Hewlett-Packard Development Company, L.P. SGハートビート以外のネッ ハートビート以外のネッ トワークにQuorum Server トワークに を配置(推奨) 18 スライドの構成例では、アプリケーション・サーバに Quorum Serverを配置、SGハートビートを2系統に 流し、その各系統のNICの冗長化は行っていません。 Quorum Serverのロック機能が必要となる場合は、SGクラスタ内のノード障害やSGハートビートが全 滅した場合です。このため、 必要な時に必要な機能を提供できるように、Quorum ServerをSGハート ビート以外のネットワークに配置することを推奨します。Quorum ServerをSGハートビートが流れるネッ トワークに流すこともサポートされていますが、この場合は、ノード障害の時のみ、Quorum Serverが 使用されることになります。 18 Quorum Server 構築 HP-UXの場合 の場合 1.Quorum Serverソフトウェアをインストール 2.qs_authfile(SGクラスタノード登録ファイル)の作成 # mkdir –p /etc/cmcluster # vi /etc/cmcluster/qs_authfile 192.168.5.51 (SGクラスタノード) 192.168.5.52 (SGクラスタノード) 3.Quorum Server自動起動・再起動設定(/etc/inittab編集) (最終行に以下の1行を追加します。) qs:3:respawn:/usr/lbin/qs >> /etc/cmcluster/qs.log 2>&1 4.Quorum Server起動 # init q 5.ログファイル“/etc/cmcluster/qs.log”を見て起動を確認 © 2004 Hewlett-Packard Development Company, L.P. 19 19 SGeFF/9iRAC 構築・運用 © 2004 Hewlett-Packard Development Company, L.P. 20 ここでは、SGeFFと 9iRACでの構築、運用方法について説明いたします。 20 1.SGeFF/9iRACでのネットワーク構成 • アプリケーションサーバと接続するネットワーク以外に、 以下のネットワークが必要 ① Oracle9iRAC GCS通信線 ・・・ 冗長化必要 ② SGハートビート#1 ・・・ 冗長化不要 ③ SGハートビート#2 ・・・ 冗長化不要 ※ ①、②のネットワークは兼用可能です。 © 2004 Hewlett-Packard Development Company, L.P. 21 SGeFF及びOracle9i RACでは、環境を構築するために必要なネットワークがそれぞれ存在します。 Oracle9i RACでは、Global Cache Server(すなわちキャッシュ・フュージョン)に使用されるGCS通信 線が必要で、できる限り高速なネットワークが望ましいといえます。ただし、OS側で冗長化の機能を提 供する必要があります。 SGeFFでは、前述のとおり、Dual Heartbeat(2系統のハートビート)の構成が必要となります。ただし、 ネットワーク・トラフィックはそれ程多くはありませんし、2本のハートビートにより冗長化されているため、 それぞれを冗長化する必要はありません。 以上より、アプリケーション・サーバと接続するネットワーク以外に、スライドの記述のとおり最低3つの ネットワーク(NICは4つ)が必要となります。あるいは、GCS通信線とSGハートビートは兼用可能です ので、最低2つのネットワーク(NICは3つ)でも構築可能です。 21 2. SGeFF/9iRACでの構成例 SGeFF構成の 構成のSGハートビート 構成の ハートビート#1に ハートビート に RAC-GCS通信を併用し、かつ冗長化 通信を併用し、かつ冗長化 ①RAC-GCS ②SGハート ビート#1 (192.168.1.0) ノード1 アプリケーションサーバ 接続ネットワーク 172.168.5.0 ③SGハートビート#2 (192.168.2.0) ノード2 ノード3 SGクラスタ アプリケーションサーバ 兼Quorum Server © 2004 Hewlett-Packard Development Company, L.P. 22 このスライドは、先ほどの必要なネットワークを図解したものです。 Quorum Serverは、SGハートビートと異なるネットワークに配置しています。 22 3. SGeFF/9iRACでの構築 • 従来のSG/9iRACの構築とほぼ同じ 1.Quorum Server構築 2./etc/hostsやDNSにQuorum Serverを登録 3.共有ディスク領域作成(SLVM) 4.SGクラスタ作成 5.Oracle9iRACインストール 唯一の違いはこの一部 6.データベース作成 7.データベースインスタンス・SGパッケージ作成 © 2004 Hewlett-Packard Development Company, L.P. 23 SGeFFと9iRACでの構築は、従来のSG/9iRACでの構築とほとんど変わりません。唯一の違いは、 SGクラスタを作成する時に「FAILOVER_OPTIMIZATION = TWO_NODE」と指定するだけです。 23 SGクラスタ構築(従来との違い) SGクラスタ設定ファイル(/etc/cmcluster/cluster.ascii) 途中省略 # You must halt the cluster to change FAILOVER_OPTIMIZATION # parameter. # # To enable Failover Optimization, set FAILOVER_OPTIMIZATION # to TWO_NODE. # The default is NONE. # # FAILOVER_OPTIMIZATION <NONE/TWO_NODE> FAILOVER_OPTIMIZATION TWO_NODE SGeFF新規パラメータ TWO_NODEに設定 に設定 © 2004 Hewlett-Packard Development Company, L.P. 24 SGクラスタの構築は従来と同じ方法で可能です。 -SGクラスタ設定ファイルの抽出 # cmquerycl –v [–k] –C cluster.ascii –n node1 –n node2 –q node3 -SGクラスタの作成 # cmapplyconf [–k] –C cluster.ascii 24 SGクラスタ構築(その他、注意点) 途中省略 既存パラメータの変更・確認部分 Quorum Serverの設定 の設定 Quorum Serverの追加タイ の追加タイ ムアウト無し QuorumSrerver設定箇所 QS_HOST node3 QS_POLLING_INTERVAL 300000000 QS_TIMEOUT_EXTENSION 0 Quorum Serverのタイムアウト拡張設定(推奨0) 途中省略 デュアル・ハートビート必須 NODE_NAME node1 NETWORK_INTERFACE lan2 HEARTBEAT_IP 192.168.1.51 SGハートビート#1兼RAC-GCS(スタンバイ lan4) NETWORK_INTERFACE lan4 NETWORK_INTERFACE lan6 HEARTBEAT_IP 192.168.2.51 SGハートビート#2(スタンバイ無し) ※node2側も同様に2つのHEARTBEAT_IPを設定します。 © 2004 Hewlett-Packard Development Company, L.P. 25 25 DBインスタンス・SGパッケージの作成 • 従来のSG/9iRAC構成と同じ DBインスタンス SGパッケージ “DB1” IP リス ナー DB UP ノード1 DBインスタンス SGパッケージ “DB2” IP リス ナー DB UP ノード2 ※DBプロセスの異常終了、アプリケーションサーバ接続ネットワークのSUBENTダ ウンを検知した場合、このSGパッケージはDBを自動的に停止させます。 © 2004 Hewlett-Packard Development Company, L.P. 26 SGのパッケージの構築方法についても、従来のものと異なる点はありません。 SGパッケージには、Relocaltable IPを割り振り、リスナーやDBの起動を行なわせます。また、監視とし て、DBのプロセス監視や必要であればSUBNET監視を行なわせます。(このパッケージを、ここでは 「DBインスタンス・SGパッケージ」と呼んでいます。 ) この「DBインスタンス・SGパッケージ」の構築については、別製品Enterprise Cluster Master Toolkit の購入することで、簡単に作成出来ます(スクリプト、設定ファイルサンプルが付いています)。 26 4. SGeFF/9iRACでの運用 従来のSG/9iRACの構築と同じ © 2004 Hewlett-Packard Development Company, L.P. 27 運用についても、従来のものと異なる点はありません。 以上のように、SGeFF/9iRACの構築は、従来のSGクラスタを構築することが可能であれば、特に難し い部分があるわけというわけではなく、簡単に行えることがおわかり頂けるかと思います。 27 検証 © 2004 Hewlett-Packard Development Company, L.P. 28 SGeFF使用時におけるSGクラスタ再構成時間の検証結果です。 28 検証環境 クライアント兼 Quorum Server SGクラスタ クラスタ マシン : rx2600 × 2 (1.5GHz, 4GB メモリ) ディスク : EVA5000 (36GB×28) OS : HP-UX 11.23 SG : A.11.16.00 SGeRAC : A.11.16.00 RAC Node1rx2600 SGeFF : A.01.00.00 ボリューム・グループ数 :2 Ethernet Switch rx2600 ch Swtttii tiiccchhh rkssssLLLLooooooooppppSSSwww geWo ragggeee to pSooo hhhhpppSSS WWWooorrrkkk tttrrraaa opSSSSwwwwtttii tiicccchhhh sLoooooooppp WrrrrkkkksssLLL to hhhhppppSSSSooo WoWoo tttrrrraaaaggggeeeeWo FC Switch クラインアト兼Quorum Server クラインアト兼 マシン Quorum Server : rp2430 (1.0GHz, 4GB メモリ) : A.02.00.00 EVA5000 Oracle Oracle E.E. SGA DB容量 : 9.2.0.5 or 10.1.0.2 : 約2GB : 約30GB © 2004 Hewlett-Packard Development Company, L.P. 29 検証環境です。 なお、この資料には記述をしていませんが、PA-RISCを搭載したHP9000サーバでも同様の検証を実 施しています。 29 リカバリ開始までの時間 SGeFF + 9i SI 5秒 5秒 3秒 3秒 11 13秒 13秒 →リカバリ SGeFF + 10g SI 5秒 5秒 3秒 3秒 11 13秒 13秒 →リカバリ SGクラスタ再構成時間 クラスタ再構成時間 SGeFF + 9i RAC 5秒 5秒 2秒 2秒 11 →リカバリ ボリューム・アクティベート /マウント時間 マウント時間 リスナー起動 DB起動時間 起動時間 ノード障害発生 時間 リソース再構成 © 2004 Hewlett-Packard Development Company, L.P. 30 障害発生からリカバリが開始するまでの時間です。 まず、SGeFFとOracle9iシングル・インスタンス(SI)の組み合わせの場合をみてみます。この場合、デフォ ルトの設定では、 SGクラスタ再構成時間 5秒 ボリューム・アクティベート/ マウントまでの時間 3秒 リスナー再起動時間 1秒 DB再起動時間 13秒 の合計22秒後にリカバリが開始されています。ここで、ボリューム・アクティベート/マウントまでの時 間は、ボリューム・グループの数やディスクの種類に依存して変化しますし、ファイルシステムのかわり にRAWデバイスを使用した場合は、マウントの時間がなくなります。 (なお、ボリューム・グループのアクティベートは並列に実行可能です。) また、DB再起動時間ですが、こちらの時間は SGA の大きさに依存します。例えば、db_cache_sizeな どの値が小さければ、それだけ時間は短くなります。 これは、SGeFF と Oracle Database 10gでのシングル・インスタンスでも同じです。 SGeFF と Oracle9i RACの場合は、シングル・インスタンスの時とは異なり、 SGクラスタ再構成時間、ボ リューム・アクティベート/マウントまでの時間、DBの再起動の時間がなくなり、その分、時間が短縮さ れます。また、今回の検証環境ではRAC のリソース再構成は1秒程度となり、より高速な結果となって います。 なお、9iRACでは、SGクラスタの再構成が終了してから、約2秒後にリソース再構成が開始されていま す。また、RAC 10gとの組み合わせについては、検証中です。 30 syslog 22:09:16 に rx1でノード障害発生 でノード障害発生 Dec Dec Dec Dec Dec Dec Dec Dec Dec Dec Dec Dec Dec Dec Dec Dec Dec Dec Dec Dec Dec Dec 障害発生 2 22:09:18 rx2 cmcld: Timed out node rx1. It may have failed. 2 22:09:18 rx2 cmcld: Attempting to form a new cluster 2 22:09:18 rx2 cmcld: Beginning optimized election 2 22:09:18 rx2 cmcld: Obtaining Cluster Lock, sequence = 1 2 22:09:18 rx2 cmcld: Attempting to get lock /sg/cluster1. Lock applicants: rx2 2 22:09:18 rx2 cmcld: Attempt to get lock /sg/cluster1 successful. Lock applicants: rx2 2 22:09:18 rx2 cmcld: Turning off safety time protection since the cluster 2 22:09:18 rx2 cmcld: may now consist of a single node. If Serviceguard 2 22:09:18 rx2 cmcld: fails, this node will not automatically halt 2 22:09:18 rx2 cmcld: This will not affect the behavior of Package Failfast 2 22:09:18 rx2 cmcld: or Service Failfast. If such a package or service fails, 2 22:09:18 rx2 cmcld: safety timer will be re-enabled and this node will 2 22:09:18 rx2 cmcld: automatically halt. 2 22:09:19 rx2 cmclconfd[2764]: Updated file /var/adm/cmcluster/frdump.cmcld.7 for node rx2 (length = 512096). 2 22:09:21 rx2 cmcld: 1 nodes have formed a new cluster, sequence #2 2 22:09:21 rx2 cmcld: The new active cluster membership is: rx2(id=2) 2 22:09:21 rx2 cmcld: One of the nodes is down. 2 22:09:21 rx2 cmcld: Request from node rx2 to start package tpcb1 on node rx2. 2 22:09:21 rx2 cmcld: Executing '/etc/cmcluster/tpcb1/tpcb1.ctl start' for package tpcb1, as service PKG*37377. 2 22:09:22 rx2 LVM[3396]: vgchange -a e /dev/fs_vg_mccc_0 2 22:09:22 rx2 LVM[3405]: vgchange -a e /dev/fs_vg_mccc_1 2 22:09:23 rx2 CM-tpcb1[3476]: cmmodnet -a -i 192.168.5.59 192.168.5.0 5秒 SGクラスタ再構成終了 クラスタ再構成終了 ボリューム・アクティベー ト終了 © 2004 Hewlett-Packard Development Company, L.P. 31 ここで起こした擬似障害はノードrx1でのリセットであり、その時のsyslog.logを示します。 31 まとめ © 2004 Hewlett-Packard Development Company, L.P. 32 まとめです。 32 まとめ • 「Serviceguard Extension for Faster Failover (SGeFF)」での「クラスタ再構成時間」は非常に高速 • 設定は非常に簡単。 新パラメータ FAILOVER_OPTIMIZATION = TWO_NODE のみ • SGeFFには、Quorum Server及びDual Heartbeatが 必要 © 2004 Hewlett-Packard Development Company, L.P. 33 33 34
© Copyright 2024 ExpyDoc