前回投稿の「地震とITシステム」の中で、「これまでの運用監視ツールではできなかった「システムダウンしないための予兆検知」を、サイトラインシステムズの製品は、設定したメトリクス(測定指標)のトレンドを感知して予兆を捉えることができます」と書きました。
今回はその基本的な仕組みについてについて書いてみます。
ポイントは「いつもと違う」です。
それでは、「いつも」というのはどのように判断すれば良いのでしょうか?
システム的に言えば平常時なわけですが、平常時には平常時のデータの動きがあり、過去の平常時のデータからモデル化することができます。
モデル化されたデータの範囲(平常時のデータ範囲)は図1にある青色の部分です。
このデータの範囲に対して、リアルタイムデータがどのような動きを見せるかを常にモニターして、データの範囲を逸脱することがあれば、それは「いつもとの違うことが発生した」ことが瞬時にわかるのです。
図1
■絶対値と相対値のお話
システム監視でよく使われる「しきい値」は絶対値です。
ディスクの温度、ネットワークスループット、CPU使用率など、一定の値を具体的に指し示すことで、その「しきい値」を越える時に障害発生の検知をします。
しかし「いつもと違う動き」を察するのに使われる分析手法は「相対値」を使います。
つまり、いつものデータモデルに対して、30%上方に逸脱した場合、あるいは15%下方に逸脱した場合という変化量がモニターの対象となるのです。
図2ではデータモデルに対して逸脱したリアルタイムを表示しています。
いつも通りの値(モデル値、正常値)とは違う変化量が想定を越えた時に、障害発生のアラートを出すことができるのです。
日本においては、このような障害には達しなかった障害を「サイレント障害」と呼びますが、サイトラインの製品ではこのサイレント障害を簡単に把握することができるのです。
■絶対値と相対値の組み合わせ
サイトライン製品では、「通常の絶対指標のしきい値」と「変化量を示す相対値」を組み合わせることもできます。
変化量の大小もさることながら、通常のデータモデルが越えてはならない値(しきい値)を越えてしまうことがないようにしなければなりません。
従って、モニターすべきデータのトップラインとボトムラインに2つの「絶対値としてのしきい値」を設定し、それに加えて、上方変化と下方変化の「相対値としてのしきい値」を設定することで、あらゆるシステム障害を予兆して、備えることができます。
サイトライン社は、長年このモニタリング方式を採用し、世界の金融機関、公共機関、流通サービスなど様々なシステムをモニターしています。
サイトラインは「予兆検知」のリーダーだと言っても過言ではないでしょう。
ちなみに、女性が男性の不穏な動きを発見するのに、男性の挙動や雰囲気から「いつもと違う」ことを敏感に感じ取ることができるそうです。
女性の目と脳には、サイトライン製品が入っているのかもしれませんね・・・。