Docs » Splunk Observability Cloudのアラートとディテクターの概要 » 内蔵アラート条件 » リソースの枯渇

リソースの枯渇 🔗

「リソースの枯渇」は、シグナルが枯渇する(指定した最小値に達する)、または満杯になる(指定した容量に達する)までに一定の時間があるときにアラートを発します。メモリの使用率が80%になったときや、ディスクの空き容量が10%未満になったときにアラートを発するというような空きまたは容量を示す多くのタイプのシグナルには 静的閾値 を使用するのが一般的ですが、「リソースの枯渇」条件は、シグナルの上昇傾向または下降傾向(安定して上昇または下降している)を考慮に入れるため、これらのタイプのシグナルについてより強力なアラートを受け取る方法を提供します。

🔗

メモリ使用率が80%を超過したときにアラートを発するディテクターがあれば、アプリに深刻な影響が出る前に問題を調べる時間ができます。実際、80%に達することが問題になるのは、その値が上昇傾向にあり、100%に達しようとしている場合だけかもしれません。このシグナルを監視するより良い方法は、シグナルの上昇傾向/下降傾向に応じてアラートを発する「リソースの枯渇」アラート条件を使用することです。

In this case, say you want to receive a notification when the signal is expected to hit 80% in 15 minutes (trigger threshold of .25 hours) and has been in this state for 3 minutes (trigger duration of 3m). This alerts you in advance of the error condition, giving you more time to respond, but won’t send a false alert if the signal spikes to 80% and then quickly drops to a safer level.

基本的な設定 🔗

パラメータ

注意事項

次に接近したときにアラートを発する

EmptyCapacity

減少すると想定されるシグナルの場合は「Empty」、増加すると想定されるシグナルの場合は「Capacity」を選択します。

最小値/容量

>= 0の数値

最小値はシグナルが「Empty」の場合を表し(「Emptyに接近したときにアラートを発する」の場合)、デフォルト値は0です。「容量」はシグナルが「full」の場合を表し(「Capacityに接近したときにアラートを発する」の場合)、デフォルト値はありません。シグナルがパーセントの場合は、例えば「100」と入力します。*

トリガー感度

LowMediumHighCustom

アラートのトリガー頻度の目安。「Low」を選択するとアラートのトリガー頻度は低くなり、アラートが解除されるまでの時間が長くなります(最も flappy でなくなる)。トリガーと解除の感度を決定する設定を変更するには、Custom を選択します(以下にリスト)。

*シグナルのプロット設定パネルでメトリクスの単位を指定した場合、「Capacity」に入力する値は、指定した単位と一致していなければなりません。例えば、「バイト」を指定した場合、100ギガバイトを指定するには100000000000(1000億)を指定する必要があります。詳細は、メトリクスの単位を指定する および プロット設定パネルでオプションを設定する を参照してください。

詳細な設定 🔗

パラメータ

注意事項

トリガーの閾値

> 0の数値

リソースが指定した容量に達するまでの推定残り時間数。この値が小さいほど感度が低くなり、アラート数は潜在的に少なくなります。

トリガーの継続期間

パーセンテージ:1~100の整数。時間の指標:>= 1の整数の後に時間を表す指標(s、m、h、d、w)を付す。例:30s、10m、2h、5d、1w

予想されるデータポイントの数との比較において、到着したシグナル(残り時間数)がトリガーの閾値を満たさなければならない回数。パーセンテージが高い、または期間が長いと、感度が低くなり、アラートの数が潜在的に少なくなります。このオプションの詳細については、継続期間のオプションの使用 を参照してください。

解除の閾値

> 0の数値。トリガーの閾値より高く設定する必要があります。

リソースが指定した容量に達するまでの推定残り時間数。この値が小さいほど、アラートの解除までにかかる時間が長くなります。

例えば、「トリガーの閾値」が24で「解除の閾値」が36の場合、リソースが24時間以内に容量に達すると予測されたときにアラートがトリガーされ、容量に達するまでの予測時間が36時間まで増えると解除されます。

解除の継続期間

パーセンテージ:1~100の整数。時間の指標:>= 1の整数の後に時間を表す指標(s、m、h、d、w)を付す。例:30s、10m、2h、5d、1w

予想されるデータポイントの数との比較において、到着したシグナル(残り時間数)が解除の閾値を満たさなければならない回数。パーセンテージが高い、または期間が長いほど、アラートの解除までにかかる時間が長くなり、アラート条件が実際に発生しなくなったことをしっかりと確信できるようになります。このオプションの詳細については、継続期間のオプションの使用 を参照してください。

Double EWMAの使用

YesNo

Yes に設定すると、二重指数加重移動平均を使用して予測を実行します。No に設定すると、線形外挿法を使用します。一般的に、 Yes を使用して、ネイティブ解像度よりやや粗い解像度に存在する傾向を扱うのが良い方法です。

継続期間のオプションの使用 🔗

トリガーの継続期間および解除の継続期間のオプションは、指定された時間窓の間に条件が満たされる頻度に基づいてアラートをトリガーまたは解除するために使用されます。このアラートの場合、評価される条件は予測される残り時間数に関するものであり、データが欠落している場合には予測が外挿されます。したがって、(たとえば)「Emptyに接近したときにアラートを発する」のケースでは、短時間の下降に続いて長時間のデータ欠落が発生すると、アラートがトリガーされる可能性があります。

参考 🔗

パラメータ

注釈

トリガーの継続期間と解除の継続期間

このパラメータは、ネイティブ解像度より大幅に大きく設定します。

トリガーの閾値とトリガーの継続期間

これらのパラメータは必然的にペアです。例えば、「残り時間が<72の場合にアラート、継続期間は4時間の100%」、「残り時間が<48の場合にアラート、継続期間は2時間の100%」、「残り時間が<24の場合にアラート、継続期間は1時間の100%」(トリガー感度が次第に上がっている)のように、3つのルールを持つトリガー戦略を検討してみましょう。

シグナル

シグナルがあまり変化しない場合、変化は検出されない可能性があります(トリガーの継続期間に必要な「パーセント」による)。

シグナル

アラート条件は変化率の変換に適用するため、これは他の分析(特にローリング最小値、平均値、最大値の変換)との相互作用が悪くなる可能性があります。

シグナル

変換されたシグナルは「残り時間」です。この量は、シグナルが指定された最小値を下回るか(「Empty」の場合)、指定された容量を上回ると(「Capacity」の場合)マイナスになります。つまり、ディテクターのチャートに「残り時間」が負の値で表示されることがあります。

This page was last updated on 2024年10月17日.