blog2009 > 2009年12月24日 > H21年度秋季ITサービスマネージャ試験 復元論文


※上記の広告は60日以上更新のないWIKIに表示されています。更新することで広告が下部へ移動します。

#blognavi
「問3 事前予防的な問題管理について」を選択

1 私が携わったITサービスとインシデント発生傾向  の概要
1.1 ITサービスの概要
 A社は東京に本社と、全国に10箇所の営業拠点と6  00の代理店を持つ保険会社であり、東京の通信センタ
にある2台のホストと3台のWebサーバによる24時  間365日稼動のオンラインサービスを稼動している。
 私は通信センタ内のネットワークシステムを開発し、  保守・運用を委託されている情報システム会社B社に所
属し、運用チームとして通信センタに常駐してITサー  ビスマネージャ業務を行っている。
 このネットワークシステムは、全国の約1000台の  端末と、3台のWebサーバからの電文を中継するゲー
トウェイサーバ(GW)を配置して、負荷分散、優先度  制御を行いホストに中継する。また、各機器の稼動状況
の監視、ログの採取、アラートの通知機能を持ち、We  bサーバ用のGWはセッション毎に動的に端末IDを割
り当てる機能を有している。
 A社と締結したSLAの中には、24時間365日の  インシデント受付と、応答時間5分以内の遵守率95%
という項目が含まれている。
1.2 インシデント発生傾向の概要
 SLA遵守のため、測定している項目の中に、GW内  の電文処理時間がある。これは電文がGWに到達してか
らホストに送信する時間と、ホストからの応答を受けて  から端末やWebサーバに返信する時間の和である。
 電文処理時間の閾値を2.5秒に設定したところ、閾  値をこえる現象が月に6日程度発生した。これらの発生
は月末月始に集中していた。さらに時系列分析を行った  ところ、午後1時から午後3時に集中していた。

2 発生傾向に対する問題の発見と対策
 インシデント発生傾向に対しては、仮説検証などによ  る考察を深める事が重要と考え、以下の通り行動した。
2.1 発生傾向に対する仮説と検証
 判明した発生傾向は明らかに業務のピーク時に集中し  ていることから、私は以下3つの仮説を立てた。
・ネットワーク帯域のボトルネック
・GWのハードウェア性能不足
・GW内の制御プログラムのミス
 ネットワーク帯域に関しては、回線速度が1Gb/秒  に対し、電文1件当たり20kBでピーク時電文件数2
000件/秒であることから否定した。
 GWのハードウェア性能に関しては、ピーク時電文件  数が緩やかに上昇していることから否定した。
 GW内の制御プログラムのミスに関して、B社開発部  の協力を得て調査したところ、端末IDを動的に割り当
てる処理を行う際、内部テーブル全体をロックして処理  を行っており、単位時間当たりの電文件数が一定量を超
えると応答時間が加速度的に悪化することが判明した。
 さらに、このプログラムが適用されてしまった理由と  して以下の仮説を立てた。
・現在のピーク時電文件数が開発部に伝わっておらず、  テストケースの想定値が甘い
 実際に、開発時のテストケースを確認したところ、ピ  ーク時電文件数の想定値が現在と比べ500件程下回っ
ていることが判明した。
2.2 発見した問題の対策
 まず、応答時間が閾値を超えている問題については、  テーブル全体をロックするのではなく、レコード単位で
ロックするようプログラム改修を行う必要がある事をA  社に報告した。電文件数は今後も増加傾向にあることか
らA社より変更要求が出されることになった。
 次にテストケースの想定値が実際と異なっている問題  については、臨時にB社開発部と会議を行い、SLA遵
守のためにテストケースで用いる想定値が現実からかい  離しないよう、現在の想定値を伝えた。

3 事前予防定着のための取り組みと今後の改善
3.1 定着のための取り組み
 事前予防定着のためには、担当者一人一人がSLAを  理解し、事前予防を意識して作業を行う事が重要である
と考えた。
 そこで、運用チームとB社開発部を対象にSLAの理  解度に関するアンケートを実施したところ、運用チーム
ではほぼ100%理解していたのに対し、開発部では5  0%程度の理解であることが判明した。特に末端の開発
者にその傾向が強かった。
 私は、SLAとインシデントの事例を含め、SLA遵  守のために一人一人が意識して取り組むための資料を作
成し、配布した。これは約20ページあり、例えばテス  トケースの想定値が現実と異なっていないか意識する、
といった内容である。
3.2 今後の改善
 上記取り組みは万全ではないため、改善が必要である。 具体的には、資料の具体的な数値が現実とかい離してい
ないか常にチェックしたり、開発開始時やテストケース  レビュに参加し、SLA遵守の観点で開発が行われるよ
うチェックすることが必要である。
 また、インシデントを予防した者に対し、表彰を行う  ことも予防活動の定着には効果的であると考えられるた
め、B社上層部に進言するなどし、予防活動が定着する  ようにしていきたい。
                       以上

●試験本番の流れ
  • ITILのプロセス中心、かつ変更管理と構成管理を捨てて準備していたので必然的に問3を選択
  • プロアクティブな問題管理についてはネタを準備していなかったので試験時間中に構想
  • 内部テーブルのロック方式に起因する問題が使えると思い、月末月始の業務ピーク時に閾値超えというオーソドックスな展開を逆算
  • その他の仮説としてネットワーク帯域とハードウェアがあるところまで考え、多分いけると思って記述を開始
  • 設問イの仮説検証を書く段階になり、回線速度を適当に1Gbpsとし、電文長、電文量を逆算して問題ない数値に決定
  • 設問イの最後で、問題への直接的な対策だけでは題意に沿えないと気付き、問題のあるプログラムがリリースされた事に対する対策も追加
  • 構想段階であまり考えられていなかった設問ウは、試験対策本にあった障害対応マニュアルの作成を参考にページ数などを随時考えて記述
  • 最終的に字数が足りず、時間も迫っていたので問題文にあった表彰について記述し、時間ギリギリで終了
●突っ込みどころ
  • Style:略語を除いて英数字は半角で書くべきだった(減点:無)
  • Style:箇条書きは○で囲った(1)、(2)、……とすべきだった(減点:無)
  • 1章:タイトルは「インシデント」だが、内容は前段階の「閾値超え」について記述している。題材としては問題文の例に「ヒヤリハット」もあり問題ないが、タイトルとしては不適切(減点:極小)
  • 1章:ホスト2台にWebサーバ3台と微妙なシステム構成だった。これは仮想の構成だが、事実かもしれないシステム構成部分で減点はないはず(減点:無)
  • 1章:「ITサービス」ではなく「システム」の概要がメインになっている(減点:小)
  • 1章:閾値の設定根拠が書かれていない。ただし本問のメインは潜在問題の発見プロセスのため、設定根拠はそれほど重要ではないはず(減点:小)
  • 2章:仮説「ネットワーク帯域」を挙げたがGW内部の処理時間にネットワークは全然関係ない。論述は仮説3が軸のため致命的ではなかったか(減点:中)
  • 2章:仮説「ネットワーク帯域」を否定した理由として最低限の数値は挙げているが、最終的な数値を記載せず若干論理の飛躍がある(減点:極小)
  • 2章:仮説「GWのハードウェア性能不足」でどう緩やかに上昇しているのか説明が不足している。仮説3が軸のため減点は少なめか(減点:極小)
  • 2章:1.1で「Webサーバ用のGW」と書いた通り、元々端末用とWebサーバ用でGWは別に存在する想定で書いている。また、動的な端末ID割り当てはWeb用の処理であり、実端末は固定端末IDを持つと想定している。従って、業務(実端末)では端末IDの割り当て処理は行われず、ピーク時に応答が遅くなるという論理は破綻している。これは致命的なミスだが、GW台数と端末IDについては抽象的な表現であること、実端末からの処理でも内部テーブルロックが発生する作りなのかも知れないこと、から論理破綻には気付かれなかった可能性がある(減点:無?)
  • 2章:問題への対策について論述ボリュームが少ない。これも潜在問題の発見プロセスがメインのため大きくは減点されないはず(減点:小)
  • 2章:漢字の「乖」が書けていない(減点:極小)
  • 3章:運用チームとして事前予防のために取り組んだ「活動」を軸に書くべきだった。ただ開発者側へのアクションも活動の1つのため減点は少なめか(減点:小)
  • 3章:開発者のサガで「開発」と連呼しているが、ITIL的には変更管理での変更時という視点も加えて書くべきだった(減点:極小)
  • 3章:内容が思いつかず問題文にあった表彰について書いてみたが、3章の内容からは繋がり辛い内容であった(減点:小)
●まとめ
受験直後は論理破綻に気付いて絶対に落ちていると思ったが、上述した通り、抽象的な表現が採点者に論理破綻を気付かせなかった幸運があったと思う。
それ以外では、仮説→検証→仮説→検証とある程度題意に沿って記述できているため、こんな内容でも合格に繋がったのだと思う。減点を極小 1、小 5、中 10 とすると、合計 40 の減点。60点でギリギリA評価だったのかな、という感じ。
とにかく内容のほとんどが想像の産物なので、また苦労して論文の準備をしなくて良くなり安堵している。


カテゴリ: [資格・免許] - &trackback- 2009年12月24日 07:19:53
名前: コメント:
#blognavi
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。