BOMでできる監視の実践例集(PDF)

BOM Ver3.0で出来る監視の実践例集
セイ・テクノロジーズ㈱
ソリューション例
カテゴリー
こんなことありませんか?
解説とチェックポイント
●システムルートとなっているハードディスクの空き容量が少な
くなるとOSの動作が不安定になり、さらにそこで動作している
サーバアプリケーションの動作も不安定になります。
《ハードディスクの容量を知らずに消費していくファイルたち》
ダイナミックに設定してあるスワップファイル
◆プリンタスプールファイル
◆ファイルサイズを固定にしてないNTイベントログ
◆アプリケーションエラーで生成されたDr.ワトソンのダンプファ
イル
◆NTクラッシュ時(ショッキングブルー画面表示時)に生成され
るダンプファイル
◆ブラウザが生成するTEMPファイル
●仮想メモリーや物理メモリーの残容量が少なくなるとOSの動
作が不安定になり、さらにそこで動作しているサーバアプリケー
ションの動作も不安定になります。
また、最悪の場合、OSの処理に対するメモリー割り当てが行わ
れなくなり、サーバ自体がフリーズする場合があります。
《メモリを圧迫する種々の原因たち》
★メモリリークしているサービスが動作している
★非常に多くのプログラムが起動している
★負荷が非常に高い
★スワップファイルが不足している
●常時稼動していなけれればならない基本的なサービスや
★いつも動いているはずのデータベースやメール、Web
サービスが突然停止(異常終了)しているのをユーザから サーバアプリケーションの稼動監視は、サーバ監視の基本で
す。
のクレームで始めて知った。
★サーバの調子が悪いと思っていたら、長い間何度もイベ ●イベントログには、いろいろな情報が書き込まれます.
ントログにサーバアプリケーションの警告ログが出力され ●時には非常に重要な情報が...
★基本サービスに障害が発生している
ていた
★イベントログに異常がないか定期的に確認しているのだ ★ IPアドレスが重複している
●でも、毎日イベントログを見るのは大変なので、ついつい見
が、その作業に手間がかかっている
逃してしまいがちです
★サーバの利用が知らない間に増大し、レスポンスが低 ●サーバが正常に稼動していても、処理能力が限界に達する
とレスポンスが低下し、場合によってはアプリケーションの障害
下している
が発生しやすくなったりします。
★サーバが反応しなくなった
●あるアプリケーションが暴走し、CPUを消費し続けている場合
★サーバの処理能力が低下している感じがする。
もあります。
●サーバの利用が増大したため物理メモリーが十分でない場
合があります。
●サーバが正常に稼動していても、I/O処理能力が限界に達し
たり、ディスクが不調になるとレスポンスが低下し、場合によっ
てはアプリケーションの障害やデータファイルの破損が発生し
やすくなったりします。
WindowsNT/ ★画面の動きがスローモーション状態になり、オペレー
Windows2000 ションに時間がかかったり、処理実行のレスポンスが遅く
なる。
基本部分
★アプリケーションのレスポンスが遅くなり、処理が前に進
まない。
★サーバがよくダウン(ブルー画面)する。
監視内容
【論理ドライブ空き容量監視】
C:\ドライブ空き容量(%)監視
D:\ドライブ空き容量(%)監視
E:\ドライブ空き容量(%)監視
・
・
・
【仮想メモリー監視】
仮想メモリー使用量(%)監視
仮想メモリー残り量(Bytes)監視
ページファイル(Total)使用量(%)監視
【メモリ関連イベントログ監視】
メモリー関連イベントログ監視
【物理メモリー監視】
利用可能な物理メモリの残容量監視
・Memoryオブジェクト>Available Bytes
【サービスの稼動監視】
**カテゴリー**DBサービスの監視
**カテゴリー**メールサービスの監視
【システムログ監視】
システムログ: エラーイベント監視
システムログ: 警告イベント監視
【アプリケーションログ監視】
アプリケーションログ: エラーイベント監視
アプリケーションログ: 警告イベント監視
【プロセッサ負荷状況監視】
プロセッサ(0)処理時間(%)監視
プロセッサ処理待ち行列長監視
【メモリー負荷監視】
ページング発生回数(秒)監視
【ハードディスク負荷状況監視】
ハードディスク(0)処理時間(%)監視
ハードディスク(0)処理待ち行列長監視
ハードディスク(1)処理時間(%)監視
ハードディスク(1)処理待ち行列長監視
★データベースやメール、Webサービスが長期間稼動して ●サーバアプリケーションで、メモリリークなどが発生している 【プロセスのメモリリークの監視】
いると不調になるため、毎週(毎日)深夜(早朝に)に管理 と、.
***DBサービスプロセスの監視
★仮想メモリや物理メモリの空き容量が消費されていきます
者でリブートしている。
***メールサービスプロセスの監視
★最終的には、サーバのレスポンスが低下し、ほとんど停止状
態になります。
●メモリリークしているサービスは、判っているのだが、...
★根本的な解決方法は、そのサービスの開発元にそのバグを
直してもらう必要があります (が、現実的にはなかなか対応して
もらえません)
●サーバを毎週(毎日)リブートして対応しているのだが、...
★サーバ利用時間中にリブートできないので、早番当番を決め
て、早朝リブートしている
注:T3/製品(BOM Version3.0)添付テンプレート、TH/HPにUPされているテンプレート、W/ウィザード画面にて設定、M/監視項目のプロパティ画面での設定 ☆:別途オプション製品が必要
設定
方法
T3
T3
T3
アクション例
注意のしきい値を越えれば、管理者に警告を出します。
危険のしきい値を越えれば、管理者に警告を出すと同時に
TEMPファイル等を強制的に削除します。
【管理者への警告方法】
・携帯電話やPCへ電子メールを送る
・管理者のPC上にポップアップメッセージを表示する
・BOMの集中監視コンソールに通知する
・ポケベルで通知する
T3
T3
T3
注意のしきい値を越えれば、管理者に警告を出します。
危険のしきい値を越えれば、管理者に警告を出すと同時に主
に稼動しているサービスを停止・再起動します。
M
M
M
W
W
T3
T3
T3
T3
T3
T3
指定のサービスが停止しているのを発見したら、管理者に警
告を出し、直ちに該当サービスを起動します。
指定したイベントログを発見した場合には、管理者に警告を出
します。
イベントログの内容を電子メールの添付ファイルとして送信す
ることも出来ます。
発見されたイベントログをBOM独自のDBに保管することも出
来、あとから管理者がその内容を確認することが出来ます。
注意のしきい値を越えれば、管理者に警告を出します。
危険のしきい値を越えれば、管理者に警告を出すと同時に場
合によっては、特定のサービスを一旦停止して、再起動しま
す。
T3
注意、危険のしきい値を越えれば、管理者に警告を出します。
T3
T3
T3
T3
M
M
メモリリリークしているサービスのプロセスのメモリ使用量を夜
間(サーバ運用時間外)のみ監視します。
メモリ使用量がしきい値を越えた場合、そのサービスを停止
し、再起動します。(場合によっては、リブートします)
*本資料の無断転載を禁じます。
BOM Ver3.0で出来る監視の実践例集
セイ・テクノロジーズ㈱
ソリューション例
カテゴリー
ネットワーク
関連
こんなことありませんか?
★いつも使っているサーバに突然アクセスできなくなった
解説とチェックポイント
●WINSサーバに問題が発生したため、サーバ名の名前解決が
出来なくなり、サーバへ接続できない状態が発生した。
★WINSサービスが、なぜか停止していた。
★複数のWINSサーバ間のデータベースの複製に失敗してい
た。
監視内容
【サービスの稼動監視】
WINSサービスの監視
【システムログ監視】
システムログ: WINSエラーイベント監視
【システムログ監視】
●何らかの原因でNTドメイン間の信頼関係が崩れており、リ
モートサイトのサーバを使用しようとするとアクセスが拒否され システムログ: DCエラーイベント監視
る
ハードウェア
関連
セキュリティ
関連
★サーバのCPUやメモリ、Diskはそれほど消費していない ●こういった場合、ツイストペアケーブルが外れかけていたり、 【パフォーマンスカウンター監視】
のにサーバのレスポンスが悪くなった
断線しかけていたりして、ネットワークのレスポンスが悪化して IPオブジェクト>Datagrams Received Header
Errors
いることがあります。
Network Interfaceオブジェクト>Packets Outband
★サーバのRAID5のハードディスクの1台が故障していた ●PCサーバには、専用のハードウェア監視ツールが提供され 【NEC ESMPRO Server Agnet監視】
・NEC ESM Mylex Service監視
のに気がつかず、そのうちさらにもう1台のハードーディス ています。
・NEC ESM AMI Service監視
・NEC ESMPRO Server Agent
クが故障してデータが完全に壊れてしまった。
【Compaq Insight Agents監視】
・Compaq Insight Manager
・Compaq Insight Agentsサービス監視
★冷却ファンが故障し、PCサーバ内の温度が異常に上昇 ・HP Top Tool
・Insight Agentsエラーイベントログ監視
しているのに気がつかず、サーバが動作不能になって初 ・etc
・Compaq Power Managementサービス監視
●非常に重要な情報がイベントログに書き込まれます
めて気がついた。
★RAID Diskに障害が発生している
・Compaq Power Managementエラーイベントログ監視
★ PCサーバ内部の温度が上昇している
・Compaq System Shutdownサービス監視
★ CPUボードやカードにエラーが発生している
・SysDownエラーイベントログ監視
・・・・・・・・
●ハードウェア監視ツールとBOMと連携した時のメリット
・Cmpaq関連ドライバーイベントログ監視
・ ハードウェア監視ツールは、SNMPを使用したポーリング方 【HP NetRAID監視】
式が一般的です。ポーリング方式のツールでは、監視コンソー ・NetRAIDサービス監視
ルと監視エージェント間でポーリングパケットが発生します。
・NetRAID.Logエラーイベントログ監視
BOMが、監視エージェントが吐き出したイベントログを監視すれ ・HP Tools/ハードウエア監視エージェント監視
ば、監視コンソールを使用しなくてすみ、ポーリングパケットが 【富士通 DAC Monitor監視】
なくなります。
・DACMONサービス監視
・ BOMにて、監視ステータスを一元管理できます。
・DACMONサービス監視エラーイベントログ監視
【Dell OpenManage ServerAgent4.3監視】
・Dell OpenManage ServerAgent監視
・ServerAgent DMI監視
・ServerAgentEventMonitor監視
・AMI PERCエラーイベントログ監視
・Adaptec PERCエラーイベントログ監視
・・・・・・・
★イベントログをふと見るとRASのログオン失敗のログが ●不正アカウントによる進入履歴の追跡は、内部ネットワーク 【セキュリティー監視】
からのセキュリティ管理の基本ですが、毎日イベントログを見る ログオン失敗回数監視
大量に発生しており、不法侵入の跡があった。
【セキュリティーイベントログ監視】
★去年で業務が終了した臨時社員のアカウントでログオ のは大変なので、ついつい見逃してしまいがちです
セキュリティーログ: エラーイベント監視
ンしようとした形跡があった。
【セキュリティー監査イベントログ監視】
セキュリティーログ: 監査失敗イベント監視
★誰が何時、どのマシンからログオン/ログオフしたか履 ●セキュリティーの監査を有効にし、セキュリティーログを監視 【ログオン失敗の監査イベント監視】
することでログオン/ログオフやファイルアクセス等のイベントを 【ファイル/フォルダアクセス監査イベント監視】
歴を残したい。
・ファイルアクセス成功
★悪意を持ったユーザからシステムへのアタックを受けて 監視します。
・ファイルアクセス失敗
いないか、不正なログオン要求が無いか心配である。
・フォルダアクセス成功
★重要なファイルへのアクセス履歴を残したい。
・フォルダアクセス失敗
★重要なファイルが不正なアクセス(アタック)を受けてい
【セキュリティー監査イベント監視】
ないか心配である。
【ログ/ログオフ監査イベント監視】
注:T3/製品(BOM Version3.0)添付テンプレート、TH/HPにUPされているテンプレート、W/ウィザード画面にて設定、M/監視項目のプロパティ画面での設定 ☆:別途オプション製品が必要
設定
方法
W
M
M
アクション例
WINSサービスが停止しているのを発見したら、管理者に警告
を出し、直ちに該当サービスを起動します。
WINSのエラーイベントログを発見した場合には、管理者に警
告を出します。
イベントログの内容を電子メールの添付ファイルとして送信す
ることも出来ます。
発見されたイベントログをBOM独自のDBに保管することも出
来、あとから管理者がその内容を確認することが出来ます。
DCのエラーイベントログを発見した場合には、管理者に警告
を出します。
イベントログの内容を電子メールの添付ファイルとして送信す
ることも出来ます。
発見されたイベントログをBOM独自のDBに保管することも出
来、あとから管理者がその内容を確認することが出来ます。
注意、危険のしきい値を越えれば、管理者に警告を出します。
M
T3
T3
T3
T3
T3
T3
T3
T3
T3
T3
H/W監視用のサービスが停止しているのを発見したら、管理
者に警告を出し、直ちに該当サービスを起動します。
指定したイベントログを発見した場合には、管理者に警告を出
します。
イベントログの内容を電子メールの添付ファイルとして送信す
ることも出来ます。
発見されたイベントログをBOM独自のDBに保管することも出
来、あとから管理者がその内容を確認することが出来ます。
T3
T3
T3
T3
T3
TH
TH
TH
TH
TH
TH
T3
T3
T3
T3
T3
指定したイベントログを発見した場合には、管理者に警告を出
します。
イベントログの内容を電子メールの添付ファイルとして送信す
ることも出来ます。
発見されたイベントログをBOM独自のDBに保管することも出
来、あとから管理者がその内容を確認することが出来ます。
指定したイベントログを発見した場合には、管理者に警告を出
します。
イベントログの内容を電子メールの添付ファイルとして送信す
ることも出来ます。
発見されたイベントログをBOM独自のDBに保管することも出
来、あとから管理者がその内容を確認することが出来ます。
T3
T3
*本資料の無断転載を禁じます。
BOM Ver3.0で出来る監視の実践例集
セイ・テクノロジーズ㈱
ソリューション例
カテゴリー
こんなことありませんか?
解説とチェックポイント
監視内容
★知らない間にサーバが再起動していることがあり、予定 ●セキュリティーのシステムイベントの監査を有効にし、セキュ 【セキュリティーログ監視】
外にサーバがシャットダウンされたり、再起動が行われた リティーログを監視することでシャットダウンイベントを監視しま シャットダウン監査イベント監視
【システム稼動時間監視】
す。
ことを気が付かない場合がある。
●システムの稼動時間を監視することでサーバが再起動した パフォーマンスカウンター監視
・Systemオブジェクト>System Up Time
か監視します。
★バックアップが失敗していたのに気がつかず何ヶ月分か ●多くのバックアップ製品はバックアップジョブの成功や失敗を
イベントログに書き込む機能をサポートしています。そのイベン
のバックアップデータが抜けている。
★複数のバックアップシステムを導入しているためサーバ トログを監視することでどのサーバのどのバックアップジョブが
成功したか失敗したかを監視することができます。
台数が多くなると統合集中的に監視が行えない。
★サーバの台数が多く、バックアップが成功したかどうか ●中にはバックアップジョブの詳細までイベントログに書き込む
のでジョブ単位でバックアップの監視が行えます。
確認するのに手間がかかる。
★バックアップがどこまで成功したか、また、なぜ失敗した ●バックアップが失敗する場合、バックアップソフト自体、バック
アップジョブの処理中に不具合が生じたり、メディア障害やデバ
かシューティングの時間を短縮したい。
イス不良などがあります。
●バックアップジョブに関するイベントログを監視することでトラ
ブル発生個所や原因のシューティングを短期間で行えます。
Exchange5.5/ ★複数のExchangeサーバを導入しているが、メッセージの ●複数のExchangeサーバがある場合、Exchangeサーバ間でア
2000サーバ関 配信やパブリックフォルダー及びディレクトリー情報のレプ ドレス情報、パブリックフォルダーなどのデータの更新(複製処
理)やメッセージの配信をMTAを介して行いますが、ネットワー
リケーションが正常に行われているか不安である。
連
★複数のMTAが存在する中でネットワーク障害などでど ク等の障害やMTAが高負荷状態にある場合、複製待ちデータ
のMTA間の通信が影響を受けているかすぐに知りたい。 や配信待ちメッセージがMTAのキューに溜まります。
●MTAのキューを監視することでどのサーバ間のデータ複製
やメッセージ配信に問題があるか特定することができます。
★Exchangeのインフォメーションストアのファイルサイズが ●Exchangeのパブリックフォルダーやメッセージ(メールボック
大きくなりすぎてディスク容量不足となり、Exchange自体が ス)はInformation Store(IS)と呼ばれるデータベースファイルに
保管されています。Exchange管理ツールでISの最大サイズを設
動かなくなる。
★Exhangeのインフォーメーションストアのメンテナンスを 定することができますが、何らかの理由でディスク容量が不足
何時行えば良いか、毎日、チェックするのに労力がかか しISの最大サイズ制限値に到達する前にデータ領域が無くなる
場合があります。
る。
●ディスク容量の監視と合わせてISのデータベースファイル
(PRIV.edb、PUB.edb、DIR.edb)のサイズ監視を行い、ディスク
領域不足になる前にデータベースファイルのメンテナンス
(EDBUTILの実行)を必要に応じて実施します。
★Exchangeのログファイルのファイルサイズが大きくなり ●Exchangeのログデータは\MTADATAと\DSADATAのフォル
すぎてディスク容量不足となる前にメンテナンスを行いた ダーに作成されます。ログファイルが多く作成されるとディスク
容量不足の原因となるため、これらのフォルダーサイズを監視
い。
する必要があります。
バックアップ
関連
★Exchangeの接続ユーザ数、CPU使用率、メモリー使用
量の負荷状況を知りたい。
●Exchangeサーバの負荷を把握し適切な運用やシステム構成
を変更・拡張する場合の目安としてCPU使用率、メモリー使用
量、Exchange接続ユーザ数などの統計情報を分析します。例
えば、Exchangeを構成する各コンポーネント(MAD.EXE、
STORE.EXE、EMSMTA.EXE、DSAMAIN.EXE)のCPU使用率
データとマシン全体のCPU使用率を比較・分析し、どのコンポー
ネントが高負荷状態にあり、CPU時間を占有しているか判断し
ます。
★Exchangeの動作状況について詳細なイベントを出力す ●Exchangeは、イベントログに警告やエラーイベントを出力しま
るように設定しているが、イベント数が多くて知りたい情報 す。また、日々のアクティビティーについてもExchange管理ツー
をイベントビューアで探したり、重要なイベントを見逃した ルの設定により詳細なレベルまでイベントを出力することができ
ます。
り、イベントログをチェックするのに手間がかかる。
●Exchangeが出力するイベントに対してフィルターをかけること
で重要なイベント(エラー、警告)を自動的に検知しイベント
ビューアを確認する手間や重要なイベントを見逃したりすること
を防ぎます。
設定
方法
M
M
【Seagate Backup Exec V7.2監視】
【VERITAS Backup Exec V8.5監視】
【CA ARCServe V6.5監視】
【CA ARCServeIT V6.61監視】
【CA ARCServe2000監視】
T3
T3
T3
T3
T3
【Exchange5.5 Messege Transfer Agent監視】
【Exchange2000 MTA負荷監視】
【Exchange2000 SRS負荷監視】
【パフォーマンスカウンター監視】
MSExchangeMTA:Work Queue Length
MSExchangeMTA Connections:Queue Length
T3
T3
T3
【Exchange2000 EDBファイルサイズ監視】
【ファイル/ディレクトリーサイズ監視】
・対象ファイル: PRIV.edb、PUB.edb、DIR.edb
T3
【Exchange2000 EDBファイルサイズ監視】
【Exchange5.5/2000リソース負荷監視】
LogicalDisk->% Free Space
【ファイル/ディレクトリーサイズ監視】
・対象フォルダー: \Exchsrvr\MTADATA、
\Exchsrvr\\DSADATA
T3
【Exchange5.5/2000リソース負荷監視】
【パフォーマンスカウンター監視】
Processオブジェクト>% Processor Time
Processオブジェクト>Page Fault/sec
Processオブジェクト>Virtual Bytes
インスタンス: MAD、STORE、EMSMTA、DSAMAIN
T3
【Exchange2000主要コンポーネントイベントログ監視】
【Exchange5.5Directory監視】
【Exchange5.5Directory Synchtonization監視】
【Exchange5.5Event Service監視】
【Exchange5.5Information Store監視】
【Exchange5.5Message Transfer Agent監視】
【Exchange5.5System Attendant監視】
【Exchange5.5Event Service監視】
・・・・・・
T3
T3
T3
T3
T3
T3
T3
注:T3/製品(BOM Version3.0)添付テンプレート、TH/HPにUPされているテンプレート、W/ウィザード画面にて設定、M/監視項目のプロパティ画面での設定 ☆:別途オプション製品が必要
アクション例
指定したイベントログを発見した場合には、管理者に警告を出
します。
イベントログの内容を電子メールの添付ファイルとして送信す
ることも出来ます。
発見されたイベントログをBOM独自のDBに保管することも出
来、あとから管理者がその内容を確認することが出来ます。
指定したイベントログを発見した場合には、管理者に警告を出
します。
イベントログの内容を電子メールの添付ファイルとして送信す
ることも出来ます。
発見されたイベントログをBOM独自のDBに保管することも出
来、あとから管理者がその内容を確認することが出来ます。
注意のしきい値を越えれば、管理者に警告を出します。
危険のしきい値を越えれば、管理者に警告を出すと同時に
Messege Transfer Agentサービスを停止・再起動します。
M
M
M
注意、危険のしきい値を越えれば、管理者に警告を出します。
必要に応じてEDBUTILを実行し、データベースの圧縮(デフラ
グ)やデータのメンテナンスを実施します。
注意、危険のしきい値を越えれば、管理者に警告を出します。
必要に応じてログファイルのメンテナンスを実施します。
T3
M
M
M
M
注意、危険のしきい値を越えれば、管理者に警告を出します。
監視データをBOM独自のDBに蓄積し、Excelなどのアプリケー
ションに取り込み分析用のグラフやレポートを作成します。
ボトルネックがある場合には、ハードウェアの拡張や負荷分散
を行います。
指定したイベントログを発見した場合には、管理者に警告を出
します。
イベントログの内容を電子メールの添付ファイルとして送信す
ることも出来ます。
発見されたイベントログをBOM独自のDBに保管することも出
来、あとから管理者がその内容を確認することが出来ます。
*本資料の無断転載を禁じます。
BOM Ver3.0で出来る監視の実践例集
セイ・テクノロジーズ㈱
ソリューション例
カテゴリー
こんなことありませんか?
解説とチェックポイント
★Exchangeを運用していると仮想メモリーが不足する場 ●NTやWindows 2000で動作するプロセスは最大2GBまでの仮
合があるが、定期的にExchangeをリブートしたり、リブート 想メモリーを使用することができます。Exchangeを構成する各コ
ンポーネント毎に仮想メモリー使用量を監視することで仮想メモ
が必要かチェックするのに手間がかかる。
リー使用量の上限に達し、コンポーネントが異常終了したり、動
作不安定になる前に適切な対処を施します。
●256MB以下の物理メモリーでExchangeのレスポンスを最低
限確保するには、最低4MBの使用可能な物理メモリー領域が
必要です。使用可能な物理メモリー量を監視することでメモリー
不足の状態を検知し、適切な対処を実施するトリガーになりま
す。
★SQL Serverのログ領域が足りなくなったことを気が付か ●SQL Serverのログデータ領域が無くなるとトランザクションの
SQL
履歴が残せなくなり、データベースが停止します。ログデータ領
Server6.5/7.0/ ない。
域が少なくなった場合、ログのバックアップを取り、ログ領域を
2000
開放するメンテナンス作業を行います。
関連
★SQL Serverのクエリー処理のレスポンスが悪くなる場合 ●SQL Serverのトランザクションで必要なデータは、ディスク若
があるが、メモリーなどリソースが足りているか知りたい。 しくはメモリー上に確保されたデータキャッシュ内から取り出さ
れます。トランザクションにおけるレスポンスは、データキャッ
シュのヒット率にも影響されます。ヒット率が高くするには、デー
タキャッシュへのメモリー割り当てを増やします。
★SQL Serverに何人のユーザが使用(ログイン)している ●各ユーザー接続はメモリを消費するので、ユーザー接続数
かを継続的に調べたい
が設定より多くなりすぎるとスループットに影響を与えます。
★SQL Server動作状況について詳細なイベントを出力す
るように設定しているが、イベント数が多くて知りたい情報
をイベントビューアで探したり、重要なイベントを見逃した
り、イベントログをチェックするのに手間がかかる。
★SQLServerのサービスが停止する。
TSE(TS)
MetaFrame
サーバ関連
●SQL Serverは、イベントログに警告やエラーイベントを出力し
ます。
●SQL Serveが出力するイベントに対してフィルターをかけるこ
とで重要なイベント(エラー、警告)を自動的に検知しイベント
ビューアを確認する手間や重要なイベントを見逃したりすること
を防ぎます。
●サービス監視を行いSQL Serverのサービスが停止している
場合には、自動的に再起動を行う。
★接続ユーザ数や起動アプリケーション数が突然多くなり ●接続ユーザのピークタイムを把握しその負荷に見合ったマシ
急激にサーバのレスポンスが悪くなる。
ンスペックでサーバを構成することがTerminal Service及び
Meta Framesサーバの安定運用の基本となります。
●Terminal Service/MetaFrameクライアントからのセッション数
と起動しているアプリケーション数の監視を行うことでピークタイ
ムを把握する一つの目安となります。
★メモリーリソースが足らなくなり、サーバがフリーズす
る。
監視内容
【パフォーマンスカウンター監視】
Processオブジェクト>Virtual Bytes
設定
アクション例
方法
M
注意、危険のしきい値を越えれば、管理者に警告を出します。
ボトルネックがある場合には、ハードウェアの拡張や負荷分散
を行います。
【パフォーマンスカウンター監視】
Memoryオブジェクト>Available Bytes
M
【SQL Server2000/7.0Databese監視】
SQL:DB-Percent Log Used:DB名
【SQL Server6.5関連カウンタ監視】
SQLServer-Log->Log Space Used(%)
T3
【SQL Server2000/メモリー監視】
SQL:Buffer Mgr->Buffer Cache Hit Ratio
【パフォーマンスカウンター監視】
SQLServerオブジェクト>Cache Hit Ratio
T3
【SQL Server2000/7.0リソース監視】
SQL:General Static->User Connections
【SQL Server6.5関連カウンタ監視】
SQLServer->User Connections
【SQL Server6.5イベントログ監視】
【SQL Server7.0イベントログ監視】
【SQL Server2000イベントログ監視】
・MSSQLServerエラーイベント
・SQLServerAgentエラーイベント
・・・・・・
【SQL Server6.5サービス監視】
【SQL Server7.0サービス監視】
【SQL Server2000サービス監視】
・MSSQLServer
・SQLServerAgent
【WTSセッション監視】☆
・接続中、切断中のセッション数の監視。
【パフォーマンス・カウンター監視】
Terminal Services: Total Sessions
【WTSプロセス監視】☆
・WTS/MetaFrameサーバで開放しているアプリ
ケーション数を監視。
【仮想メモリー監視】
仮想メモリー使用量(%)監視
仮想メモリー残り量(Bytes)監視
ページファイル(Total)使用量(%)監視
【WTSセッション監視】☆
・切断中のセッション監視。
T3
●WTS/MetaFrameサーバの日々の運用で一番重要な要件が
システムリソースのAvailabilityです。特に仮想メモリーが重要と
なり、Out Of Memoryの状態でサーバ自体がフリーズやハング
しないように注意が必要です。
★ユーザがログオフしないで切断状態のまま放置する場 ●WTS/MetaFrameのクライアントは、セッションの切断かログ
合がよくあり、使用していたシステムリソースを開放しない オフを選択することができます。ログオフの場合は、セッション
ため他のユーザセッションに対するレスポンスが低下す が使用していたシステムリソースを開放しますが、切断の場合
は、セッションは切断しますが、使用していたシステムリソース
る。
は確保されたまま、仮想メモリー上に残ります。
●日々の運用で、アクティビティーの無い切断セッションの掃除
がシステムのレスポンスタイムを確保する上で重要です。
●Terminal Service/Meta Frameは、イベントログに警告やエ
★Terminal Service/MetaFrameが正常に動作している
【イベントログ監視】
か、トラブルは無いか、定期的にチェックしたいが、イベン ラーイベントを出力します。
ソース: TermServices、
●Terminal Service/Meta Frameが出力するイベントに対して TermServDevices,TermServLicensing
トビューアで確認するために時間と手間がかかる。
フィルターをかけることで重要なイベント(エラー、警告)を自動
的に検知しイベントビューアを確認する手間や重要なイベントを
見逃したりすることを防ぎます。
注:T3/製品(BOM Version3.0)添付テンプレート、TH/HPにUPされているテンプレート、W/ウィザード画面にて設定、M/監視項目のプロパティ画面での設定 ☆:別途オプション製品が必要
注意、危険のしきい値を越えれば、管理者に警告を出します。
必要に応じてログのDUMPを実行しログ領域を開放します。
T3
M
注意、危険のしきい値を越えれば、管理者に警告を出します。
必要に応じてデータキャッシュのメモリー割り当てを調整しま
す。
ボトルネックがある場合には、ハードウェアの拡張や負荷分散
を行います。
注意、危険のしきい値を越えれば、管理者に警告を出します。
T3
T3
T3
T3
T3
T3
T3
M
M
指定したイベントログを発見した場合には、管理者に警告を出
します。
イベントログの内容を電子メールの添付ファイルとして送信す
ることも出来ます。
発見されたイベントログをBOM独自のDBに保管することも出
来、あとから管理者がその内容を確認することが出来ます。
注意、危険のしきい値を越えれば、管理者に警告を出します。
SQLServerサービスを再起動します。
注意、危険のしきい値を越えれば、管理者に警告を出します。
監視データをBOM独自のDBに蓄積し、Excelなどのアプリケー
ションに取り込み分析用のグラフやレポートを作成します。
ボトルネックがある場合には、ハードウェアの拡張や負荷分散
を行います。
M
T3
M
M
注意のしきい値を越えれば、管理者に警告を出します。
危険のしきい値を越えれば、管理者に警告を出すと同時に主
に切断状態のセッションを強制終了し仮想メモリーリソースを
開放します。
注意のしきい値を越えれば、管理者に警告を出します。
危険のしきい値を越えれば、管理者に警告を出すと同時に主
に切断状態のセッションを強制終了し仮想メモリーリソースを
開放します。
指定したイベントログを発見した場合には、管理者に警告を出
します。
イベントログの内容を電子メールの添付ファイルとして送信す
ることも出来ます。
発見されたイベントログをBOM独自のDBに保管することも出
来、あとから管理者がその内容を確認することが出来ます。
*本資料の無断転載を禁じます。
BOM Ver3.0で出来る監視の実践例集
セイ・テクノロジーズ㈱
ソリューション例
カテゴリー
こんなことありませんか?
★システムリソースを過剰使用するユーザが接続すると
他のユーザに対するレスポンスに悪影響を及ぼす。
解説とチェックポイント
監視内容
●CPU、メモリーなどシステムリソースを過剰使用しているユー 【WTSパフォーマンス・カウンター監視】☆
ザを特定します。
Terminal Services Sessionsオブジェクト>Virtual
Bytes
Terminal Services Sessionsオブジェクト> %
Processor Time
★同じユーザが複数のセッションを張るため、余計なシス ●同じユーザが複数のセッションでサーバに接続しシステムリ 【セッション監視】☆
テムリソースを使ってしまう。
ソースを余計に使用する場合があります。限られたシステムリ ・2つ以上のセッションを張っているユーザを監
ソースを有効に、また、平等にユーザに割振る運用を考えるの 視。
であれば、一人のユーザが複数のセッションを張ることを防ぐ
必要があります。
●セッション監視を行い、複数のセッションを張っているユーザ
を検知し、必要に応じて警告を発したりや無駄なセッションは強
制終了します。
Oracleサーバ ★Oracleにアクセスできなくなったり、インスタンスが稼動 ●Oracleのデータベースエンジン自体が稼動しているかを監視 【サービス監視】
関連
していないため、アプリケーションからデータベーストラン するには、Oracleのサービスを監視します。
【インスタンス起動状態監視】☆
●Oracleのサービスは稼動していてもアプリケーションがアクセ
ザクションを実行できなくなる。
スするインスタンスが稼動していなければ、データベースのトラ
ンザクションをアプリケーションから実行することができないた
め、そのアプリケーションがアクセスするOracleのインスタンス
が稼動しているか監視します。
★Oracleが正常に動作しているか、トラブルは無いか、定 ●Oracleは、イベントログに警告やエラーイベントを出力しま
【イベントログ監視】
期的にチェックしたいが、イベントビューアで確認するため す。
●Oracleが出力するイベントに対してフィルターをかけることで
に時間と手間がかかる。
重要なイベント(エラー、警告)を自動的に検知しイベントビュー
アを確認する手間や重要なイベントを見逃したりすることを防ぎ
ます。
★Oracleの表領域が足りなくなり新しいレコードが登録で ●表領域の空きサイズや使用率等を監視することで表領域の 【表領域の使用サイズ、使用率監視】☆
きなくなる。
容量が無くなる前に領域の拡張やデータレコードのメンテナン
スを行います。
★Oracleのトランザクション処理のレスポンスが悪くなる場 ●複数のトランザクションが同じロールバックセグメントを使用 【ロールバックセグメント競合状態監視】☆
合がある。
する場合があります。但し、ロールバックセグメントは一つのトラ
ンザクションが完了するまで他のトランザクションに開放されな
いため、複数のトランザクションが同時に処理されているケース
ではロールバックセグメントの競合が発生しトランザクションの
レスポンスに大きな影響を与える場合があります。
●ロールバックセグメントの競合状態を監視すことで処理遅延
が発生している状態などを検知し、必要に応じて複数のロール
バックセグメントを作成したり、競合しているトランザクションに
別々のロールバックセグメントを使用するように設定を変更しま
★Oracleで使用しているデータファイルサイズが知らない ●データファイルのサイズが大きくなり、ディスク容量不足のた 【データファイルの使用サイズ、使用率監視】
間に大きくなりすぎてOracleサーバが動作不安定になる。 めOracleやOSが動作不安定になる場合があります。Oracleの
データファイルのサイズ監視を行い、ディスク容量不足になる前
に適切な処置を施す必要があります。
★Oracleの同時セッション数を目安にOracleの負荷や性 ●Oracleサーバに接続している同時セッション数を監視するこ 【同時セッション数監視】☆
能状況を把握したい。
とでOracleサーバの使用状況を時系列に収集しピークタイムや
利用動向を把握することができます。
Notes/Domino ★Notes/Dominoサーバがよく落ちるので、定期的にチェッ ●Notesサービス(プロセス)が正常に動作しているかを監視し 【サービス監視/プロセス監視】
サーバ関連
クしたい。
ます。
Notes/Dominoサービスプロセスの監視
注:T3/製品(BOM Version3.0)添付テンプレート、TH/HPにUPされているテンプレート、W/ウィザード画面にて設定、M/監視項目のプロパティ画面での設定 ☆:別途オプション製品が必要
設定
アクション例
方法
M
注意のしきい値を越えれば、管理者に警告を出します。また、
必要に応じてセッションを張っているユーザにも警告メッセー
ジを送信します。
M
注意のしきい値を越えれば、管理者に警告を出します。
また、必要に応じてセッションを張っているユーザに警告メッ
セージを送信したり、無駄なセッションは強制ログオフする。
M
T3
注意、危険のしきい値を越えれば、管理者に警告を出します。
Oracleサービスを再起動します。
Oracleのインスタンスを起動コマンドを実行します。
M
指定したイベントログを発見した場合には、管理者に警告を出
します。
イベントログの内容を電子メールの添付ファイルとして送信す
ることも出来ます。
発見されたイベントログをBOM独自のDBに保管することも出
来、あとから管理者がその内容を確認することが出来ます。
注意、危険のしきい値を越えれば、管理者に警告を出します。
T3
T3
注意、危険のしきい値を越えれば、管理者に警告を出します。
必要に応じてロールバックセグメントを追加作成しトランザク
ションが使用するロールバックセグメントを別々に割り振りま
す。
M
注意、危険のしきい値を越えれば、管理者に警告を出します。
T3
注意、危険のしきい値を越えれば、管理者に警告を出します。
監視データをBOM独自のDBに蓄積し、Excelなどのアプリケー
ションに取り込み分析用のグラフやレポートを作成します。
ボトルネックがある場合には、ハードウェアの拡張や負荷分散
を行います。
Notesサービスが停止しているのを発見したら、管理者に警告
を出し、直ちに該当サービスを起動します。
M
M
*本資料の無断転載を禁じます。
BOM Ver3.0で出来る監視の実践例集
セイ・テクノロジーズ㈱
ソリューション例
カテゴリー
こんなことありませんか?
解説とチェックポイント
★長期間稼動していると不調になるため、毎週(毎日)深
夜(早朝に)に管理者でリブートしている。
●サーバアプリケーションで、メモリリークなどが発生している
と、.
★仮想メモリや物理メモリの空き容量が消費されていきます
★最終的には、サーバのレスポンスが低下し、ほとんど停止状
態になります。
●メモリリークしているサービスは、判っているのだが、...
★根本的な解決方法は、そのサービスの開発元にそのバグを
直してもらう必要があります (が、現実的にはなかなか対応して
もらえません)
●サーバを毎週(毎日)リブートして対応しているのだが、...
★サーバ利用時間中にリブートできないので、早番当番を決め
て、早朝リブートしている
★Notesが正常に動作しているか、トラブルは無いか、定 ●Notesrは、イベントログに警告やエラーイベントを出力しま
期的にチェックしたいが、イベントビューアで確認するため す。
●Notesが出力するイベントに対してフィルターをかけることで
に時間と手間がかかる。
★Notesが停止したことをユーザからの報告を受ける前に 重要なイベント(エラー、警告)を自動的に検知しイベントビュー
アを確認する手間や重要なイベントを見逃したりすることを防ぎ
稼動状況を把握したい。
ます。
Notes/Domino ★Notesのパフォーマンスや負荷状況を知りたい。
●Notesを構成するプロセス(サービス)がどれだけシステムの
サーバ関連
リソースを使用しているかを監視することでNotesのパフォーマ
ンス及び負荷状況を把握することができます。例えば、Notesプ
ロセスのCPU使用率、仮想メモリー使用量、ページフォルト発生
回数、I/O処理数などの項目についてデータを比較分析するこ
とでNotesがシステムに与える負荷を把握することができます。
その他
★Notesのメール配信(受信、送信)の状況(正常に配信さ ●Notesの統計情報にccMail、SMTP、X.400のキューに溜まっ
れているか、止まっているか、処理に遅延が発生している た送信待ちメッセージ数があり、ネットワークやメッセージ送信
先のシステム、Notes自体のトラブルにより、メッセージが配信
か)を定期的に行うのに手間と時間がかかる。
できない状況を検知することができます。
★Notesの統計情報の中で定期的にチェックしたい項目が ●Notesの統計情報には、Notesのアクティビティーやパフォー
幾つかあるが、サーバ台数が多く、チェックする作業自体 マンスに関する情報を管理しています。これらの情報からNotes
の負荷、リソース使用状況、パフォーマンス状況を把握すること
に労力がかかる。
ができます。
★Notesの特定のタスクが良く停止するが、タスクのチェッ ●Notesのタスクが稼動しているか監視します。
クと必要に応じて再起動を自動化したい。
★ファイルサーバやWebサーバで、ユーザに割り当ててい ●該当ディレクトリのファイルサイズを監視します。
るが、ディレクトリサイズが直ぐに大きくなるので、定期的
にサイズをチェックしているが、大変な労力である。
★大量出力用プリンタが、キチンと動作しているか時々画 ●プリンタスプールの稼動状態を監視します
面で確認している。
●プリンタスプールに溜まっているJOB数を監視します
監視内容
設定
方法
【プロセスのメモリリークの監視】
Notes/Dominoサービスプロセスの監視
M
【イベントログ監視】
M
【パフォーマンスカウンター監視】
Processオブジェクト> % Processor Time
Processオブジェクト> Page Fault/sec
Processオブジェクト> Virtual Bytes
M
M
M
アクション例
指定のサービス(プロセス)が停止しているのを発見したら、
管理者に警告を出し、直ちに該当サービス(プロセス)起動し
ます。
指定したイベントログを発見した場合には、管理者に警告を出
します。
イベントログの内容を電子メールの添付ファイルとして送信す
ることも出来ます。
発見されたイベントログをBOM独自のDBに保管することも出
来、あとから管理者がその内容を確認することが出来ます。
【Notes数値統計監視】☆
統計情報: MTA.Smtp.Waiting、
MTA.X400.Waiting、MTA.Smtp.Dead、
MTA.X400.Deadなど
【Notes数値統計監視】☆
T3
注意、危険のしきい値を越えれば、管理者に警告を出します。
T3
注意、危険のしきい値を越えれば、管理者に警告を出します。
【タスク監視】☆
T3
タスクが停止しているのを発見したら、管理者に警告を出し、
直ちに該当タスクを起動します。
注意、危険のしきい値を越えれば、管理者に警告を出します。
【ディレクトリ・ファイルサイズ監視】
M
【プリンタスプール監視】
注:T3/製品(BOM Version3.0)添付テンプレート、TH/HPにUPされているテンプレート、W/ウィザード画面にて設定、M/監視項目のプロパティ画面での設定 ☆:別途オプション製品が必要
注意、危険のしきい値を越えれば、管理者に警告を出します。
M
*本資料の無断転載を禁じます。