ITサービスマネージャ試験 ~練習論文メモ~
こんにちは。
前回、前々回とITサービスマネージャ試験の練習用に作成した論文をご紹介しました。
なんとも稚拙なできなので恥ずかしい気持ちです…。
ほかにも論文があるのですが、お見せするのが躊躇われるレベルなので、試験直前に用意したテーマ別の対策メモのご紹介をしようと思います。
H22−3:インシデント発生時に想定される問題への対策について
・記載するキーワード・観点
・重大インシデント … ERP,PMSシステムの障害(本番系システムの障害)
・想定される問題 … 待機系システムの切替/稼働がうまくいかない
・問題への対策 … 待機系システムへの切替訓練・待機系システムの定期的な利用
・SLAへの影響 … 停電対応時に訓練を実施・利用部門の繁忙期を考慮
・費用対効果 …
1.ITサービスの概要とインシデント発生時に想定される問題の概要
1.1 ITサービスの概要
・プラント企業T社の業務基幹システムの運用保守チームのリーダ
・会計、営業、人事給与システム
プロジェクト管理システム(進捗管理、設計、発注、調達)
・インシデント/障害対応、ジョブ監視、機能改善といった保守
・各サーバは2台構成で冗長化、本番系に障害があった場合は待機系に切替える
1.2 インシデント発生時に想定される問題の概要
サービスが停止することが一番の問題である
→・本番系から待機系への切替がうまくいかない
2.問題への対策内容と対策を検討するにあたって留意した点
2.1 本番系から待機系への切替実施
・停電対応時に本番系から待機系への切替を実施
手順の確実な実施訓練と、課題の発見、手順書のブラッシュアップ
★サービスの計画停止時を利用することで業務への影響を最小限に
・待機系システムを利用する
★各利用部門の繁忙期を考慮し、トラブルが発生しても影響が少ない時期を選択
★金曜夜間に待機系へ切替を行い、事前に検討していた動作確認処理を一通り実施
課題が発生した場合には土曜日に切り戻しを実施できるように
2.2 利用部門への連絡をSNSを利用して実施
★社内システム全体に障害が発生した場合を想定(メール・社内ポータルが利用できない)インターネットを利用して情報共有ができるように
★コストを考慮し、SaaSサービスを利用
3.インシデント発生時に判明した不備と対策の改善
・手順に従い切替を作業を実施。切替作業自体は問題なく行えたが、待機系システムが正常に稼働しなかった。緊急時に対応した本番系への変更作業を、待機系に行っていなかった
→手順の見直しを行い、最後に待機系から本番系に戻しを行ったあとから現在までの変更作業を確認し、待機系に反映されているか確認を行うようにした
H26−2:ITサービスの障害による業務への影響拡大の再発防止について
・記載するキーワード・観点
・システム環境 … 本番系と待機系の冗長化、待機系への自動切替
・業務への影響拡大 … 待機系システムが正常に稼働しない
・原因分析の観点 … システム環境に即した障害対策が行えていたか
・再発防止策 … パラメータ確認の徹底、様々なケースの復旧手順作成
・再発防止策の徹底 … 定期的な訓練実施、待機系の定期的な利用
1.ITサービスの概要とITサービスの障害による業務への影響が拡大した事例
1.1 ITサービスの概要
・プラント企業T社の運用保守チームのリーダ
・会計、営業、人事給与システム、プロジェクト管理システム、社内ポータル
・インシデント/障害対応、ジョブ監視、機能改善などの保守活動
・サーバは2台構成により冗長化、障害時は待機系へ自動に切り替わる
1.2 ITサービスの障害による業務への影響が拡大した事例
・本番系の物理サーバ障害により、待機系への自動切替が行われた。自動切替は正常に完了したが、待機系が正常に稼働せず、サービス停止となった。待機系の復旧がうまくいかず、本番系の復旧を待つこととなった
2.業務への影響が拡大した原因分析と判明した原因、及び再発防止策
2.1 業務への影響が拡大した原因
・本番系から待機系への自動切替は正常に完了した:システム環境に即していたか?
→本番系への緊急で行った変更作業が待機系に反映されていなかった
・待機系のパラメータを修正しようとしたが、本番系と待機系で独自の設定もあるため、すぐに直せなかった
・根本原因:待機系の重要性が見失われ、待機系システムを適切な状態に維持できていなかった
2.2 再発防止策
・パラメータの確認を日常の運用業務に組み込み、徹底する
・本番系と待機系の設定パラメータに差分がないことを確認する
・サーバ構成を自動チェックするスクリプトを作成し、日次ジョブに組み込む
・様々な障害ケースを想定した復旧手順書を作成する
今回の場合では、待機系への切替が完全にはできていなかった
→・手動での切替を想定
・一部サービスのみ正常稼働しなかった場合を想定 など
3.再発防止を確実にするために行った活動
3.1 定期的な切替訓練を実施する
・定期的な停電を利用し、切替訓練を実施する
★毎回同じ訓練では課題が見つかりにくい
想定していた障害ケースよりシナリオを想定し、訓練を実施
★手順書のブラッシュアップを確実に行う
3.2 待機系を定期的に使用する
・訓練の延期などを考慮し、待機系を定期的に使用する
★利用部門への影響がでないよう、繁忙期を把握し、切替時期を検討する
★金曜日の夜間に切替を実施し、問題があった場合も休日に復旧できるようにする