2013年7月17日水曜日

CEOが気にすること


もはや現代のビジネスにITが不要だという人は居ないでしょう。

IT政策を推進した森首相がITのことをイットと読んだことはさておき、ITすなわち、
「Information」と「Technology」が組合わさった「IT」という言葉において、米Sun Microsystemsの創業者であったスコット・マクニーリは、「ITベンダーは「Technology」に造詣が深く、エンドユーザーは「Information」に造詣が深ければ良い」と言いました。

しかし、実際には多くのエンドユーザー、あるいは企業のITシステムを統括するCIOは
「Technology」に造詣が深く、「Information」に造詣が深くないようです。

CIOはChief Information Officerなので情報についてよく知っている必要があるにも関わらずです。

本来であれば、CEOやCOOから
(1) 我が社がクラウドを使う際のリスクとメリットをそれぞれ3つの要因を教えて
(2) オープンソースソフトウェアで最適なソリューションを3つ教えて
(3) テクノロジーが社会に貢献できる理由を3つ挙げて
(4) 今月の売上が先月より少ないことが推測される情報を3つ示唆して
(5) 客単価が低下している理由と思われる3つの情報を教えて
(6) うちのシステムが1時間停止するといくら損するの? 
という質問をされたらすぐに答えられる必要があります。

しかし、多くのCIOは、(1)〜(3)については即答できるでしょうが、(4)〜(6)については、後で調べてお知らせしますと言うか、あるいは全くわからないでしょう。

ITシステムがビジネスを支えている以上、ITシステムがどのくらいのインパクトをビジネスに与えているかを知る必要があります。

2007年のGartner Data Questの「Typical Revenue Loss per Hour of Downtime」によると、1時間ダウンした時の業務別の平均損害額は以下のようになっています。
  • オンライン証券   6.5億円
  • クレジットカード認証   2.6億円
  • ペイパービュー・テレビ   1500万円
  • テレビショッピング   1130万円
  • オンラインショッピング   900万円
  • エアラインの予約   895万円
  • オンラインチケッティング 690万円
  • 宅急便集配   280万円

ビジネスを支えるITシステムがたった1時間ダウンしただけで、大きな損害額だということがわかります。

自分のビジネスだったらどうでしょう?

経営者であるCEO/COOは、ITシステムの品質や堅牢性についてアレコレいうつもりはないのです。

堅牢性について気にすることはたった一つ。

「絶対にダウンさせないシステムにしてくれ」

なのです。

ですので、障害が発生してからの対応が万全のシステムインテグレータに運用保守を頼むよりも、障害を発生させない、予兆を検知してサイレント障害をいち早く発見して対処するシステムインテグレータに切り替えた方がよいのです。

そんな予兆検知を重要視しているシステムインテグレータはサイトライン製品を選んでいます。

2013年7月10日水曜日

いつもと違う


前回投稿の「地震とITシステム」の中で、「これまでの運用監視ツールではできなかった「システムダウンしないための予兆検知」を、サイトラインシステムズの製品は、設定したメトリクス(測定指標)のトレンドを感知して予兆を捉えることができます」と書きました。

今回はその基本的な仕組みについてについて書いてみます。

ポイントは「いつもと違う」です。

それでは、「いつも」というのはどのように判断すれば良いのでしょうか?
システム的に言えば平常時なわけですが、平常時には平常時のデータの動きがあり、過去の平常時のデータからモデル化することができます。

モデル化されたデータの範囲(平常時のデータ範囲)は図1にある青色の部分です。
このデータの範囲に対して、リアルタイムデータがどのような動きを見せるかを常にモニターして、データの範囲を逸脱することがあれば、それは「いつもとの違うことが発生した」ことが瞬時にわかるのです。

図1


■絶対値と相対値のお話
システム監視でよく使われる「しきい値」は絶対値です。
ディスクの温度、ネットワークスループット、CPU使用率など、一定の値を具体的に指し示すことで、その「しきい値」を越える時に障害発生の検知をします。

しかし「いつもと違う動き」を察するのに使われる分析手法は「相対値」を使います。
つまり、いつものデータモデルに対して、30%上方に逸脱した場合、あるいは15%下方に逸脱した場合という変化量がモニターの対象となるのです。

図2ではデータモデルに対して逸脱したリアルタイムを表示しています。


図2

いつも通りの値(モデル値、正常値)とは違う変化量が想定を越えた時に、障害発生のアラートを出すことができるのです。

日本においては、このような障害には達しなかった障害を「サイレント障害」と呼びますが、サイトラインの製品ではこのサイレント障害を簡単に把握することができるのです。

■絶対値と相対値の組み合わせ
サイトライン製品では、「通常の絶対指標のしきい値」と「変化量を示す相対値」を組み合わせることもできます。

変化量の大小もさることながら、通常のデータモデルが越えてはならない値(しきい値)を越えてしまうことがないようにしなければなりません。

従って、モニターすべきデータのトップラインとボトムラインに2つの「絶対値としてのしきい値」を設定し、それに加えて、上方変化と下方変化の「相対値としてのしきい値」を設定することで、あらゆるシステム障害を予兆して、備えることができます。

サイトライン社は、長年このモニタリング方式を採用し、世界の金融機関、公共機関、流通サービスなど様々なシステムをモニターしています。

サイトラインは「予兆検知」のリーダーだと言っても過言ではないでしょう。


ちなみに、女性が男性の不穏な動きを発見するのに、男性の挙動や雰囲気から「いつもと違う」ことを敏感に感じ取ることができるそうです。
女性の目と脳には、サイトライン製品が入っているのかもしれませんね・・・。